• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Математики помогли распознать домашнее насилие

Математическая наука может помочь в деле сортировки и раскрытия правонарушений. К примеру, эффективному выявлению преступлений, связанных с домашним насилием, серьезно мешало отсутствие надежной системы автоматической классификации полицейских отчетов в Амстердаме. Проблему решила международная группа ученых*, в которую входил доцент кафедры анализа данных и искусственного интеллекта НИУ ВШЭ Дмитрий Игнатов. Они предложили особый метод автоматической классификации объектов, что позволило быстрее определять тип преступлений и, следовательно, эффективнее их пресекать

Ошибки полицейских

По данным Министерства юстиции Нидерландов, 45% населения страны, так или иначе, сталкивалось с домашним насилием, причем 27% людей сталкивались с такими случаями еженедельно и даже ежедневно. Под домашним насилием в данном случае понимаются все формы физического насилия, совершенные кем-либо из домашнего окружения жертвы, которое включает всех партнеров (в том числе бывших), членов семьи, родственников и друзей семьи жертвы.

В первой половине 2000-х годов полиция Амстердама-Амстелланда сделала проблему домашнего насилия одним из приоритетных направлений своей работы. Крайне важной задачей стало оперативное выявление случаев этого вида преступлений и классификация отчетов о них.

Согласно регламенту, как только потерпевший сообщил о преступлении, офицер полиции должен определить, является ли этот случай домашним насилием или нет. Проблема в том, что не все случаи домашнего насилия распознаются полицейскими – массовые проверки полицейских баз данных, содержащих текстовые отчеты, показали, что многие из них классифицированы неверно, отметил Дмитрий Игнатов в докладе «Анализ текстов полицейских отчетов с помощью эмерджентных самоорганизующихся карт и многомерного шкалирования». Доклад был представлен на VI Международной научно-технической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте».

Чтобы существенно сократить количество невыявленных случаев домашнего насилия, была создана система автоматической сортировки полицейских отчетов, которая отбирала подозрительные случаи для детального ручного анализа. Но и эта система допускала слишком много ошибок: так в 2007 году после ручной проверки, при которой сотрудник тратил примерно пять минут на каждый отчет, только около 20% из 1091 отобранных системой случаев были отнесены к категории домашнее насилие.

Анализ текстов или «обнаружение с помощью компьютера новой, ранее неизвестной информации» является многообещающим подходом для обработки большого количества текстовых данных, подчеркнули авторы исследования. Однако проекты предшественников по анализу текстов для выявления случаев домашнего насилия провалились. В качестве причин неудачи были названы:

  • отсутствие хороших тезаурусов, то есть списков терминов используемых для индексирования полицейских отчетов;
  • недостаточного четкое определение термина «домашнее насилие»;
  • ошибки классификации и недостаток инструментов для более глубокого исследования данных.

Пересчет отчетов

Для создания более точной методики автоматического выявления случаев бытового насилия в полицейских отчетах разработчики использовали метод многомерного шкалирования (MDS) и эмерджентные самоорганизующиеся карты (ESOM).

MDS – это метод, использующий сходство и различие среди пар объектов в исходном пространстве для представления их в пространстве меньшей размерности с целью визуализации. В данном случае используется классический метрический алгоритм MDS для визуализации в двумерном пространстве полицейских отчетов, в том смысле, что два отчета близки друг другу, если их числовое сходство высоко.

Самоорганизующиеся карты (SOM) – это проецирование многомерного пространства в пространство с более низкой размерностью, чаще всего, в двумерное.

Эмерджентные самоорганизующиеся карты (ESOM) имеют большее, по сравнению с обычными, количество нейронов. Эмерджентность – это способность системы воспроизводить явление на новом, более высоком уровне, благодаря особому взаимодействию ее частей. Для достижения эмерджентности необходимо сосуществование и взаимодействие большого числа элементарных процессов. Таким образом, большое число нейронов может представлять кластеры данных индивидуально, что упрощает их обнаружение.

В качестве исходного набора данных использовалась выборка из 4814 полицейских отчетов, описывающих случаи насилия в 2007 году. Каждый из этих отчетов содержит официальные показания жертвы, данные полиции. Из этих отчетов лишь 1657 были отнесены к случаям, связанным с домашним насилием.

Контрольная выборка состояла из 4378 отчетов за 2006 год (1734 из них были помечены полицией как случаи домашнего насилия). В 2006 году система сортировки отобрала 1157 отчетов для повторного изучения офицерами полиции, в результате 318 отчетов были помечены как случаи домашнего насилия и 839 как «не домашнее» насилие.

Подробно изучив вручную полицейские отчеты, ученые и эксперты обнаружили, что только небольшая их часть была некорректно классифицирована. Многие из этих отчетов содержали большое количество признаков и понятий, которые отсутствовали в исходном представлении, например, гомосексуальные отношения, до- и внебрачные отношения, сексуальное насилие и т.п.

После нескольких последовательных итераций и уточнения терминов, обучения новой карты и анализа результирующей ESOM, был создан новый тезаурус, который содержал более 800 терминов предметной области, их комбинации и кластеры. Перед тем как подать данные на вход классификатору, была применена эвристическая процедура отбора признаков, известная как минимально-избыточная-максимальная-релевантность (mRMR). В результате удалось сформировать ранжированный список лучших признаков, после их добавления в тезаурус, точность классификаторов значительно улучшилась.

Классификатор насилия

На финальном этапе проекта учеными был разработан метод автоматической классификации объектов, основанный на ESOM и MDS картах для предсказания класса новых случаев, которые выявляет система предварительной сортировки.

Офицеры полиции, которые тестировали оба подхода, удовлетворены интерфейсом ESOM средств и считают его более удобным для анализа большого количества полицейских отчетов, чем MDS. Более того, ESOM распознал два важных дополнительных кластера данных, которые не были найдены MDS. Количественное сравнение показало некоторое превосходство MDS. Помимо извлечения важных данных с помощью ESOM и MDS, было проведено сравнительное исследование этих двух инструментов и показано, что авторы разработали эффективную и высокоточную модель автоматической классификации, точность которой достигала 89%.

В отличие от ранее разработанных методов анализа данных по домашнему насилию, часто работающих как черный ящик без вмешательства пользователя, новая методология вовлекает эксперта предметной области в процесс поиска и позволяет понимать данные глубже, отметил Игнатов. Тема дальнейших исследований – применение ESOM к другим типам криминальных случаев и построение системы для их классификации.

*В работе принимали участие:
Poelmans J., Ph.D., Former PostDoc researcher at Katholieke University Leuvene;
Marc M. Van Hulle, Ph.D., Professor Katholieke at University Leuven;
StijnViaene, Ph.D., Vlerick Mangement School;
Guido Dedene, Ph.D., Professor at Katholieke University Leuven Universiteit van Amsterdam;
Paul Elzinga, PhD., Officer of Amsterdam-Amstelland Police

См. также:

«Большие данные» помогут врачам выбрать способ лечения
Открытые данные Рунета малопригодны для пользователя
Данные госорганов мало пригодны для общественного использования

Полный текст презентации «Анализ текстов полицейских отчетов с помощью эмерджентных самоорганизующихся карт и многомерного шкалирования»

 

Автор текста: Гринкевич Владислав Владимирович, 29 июля, 2014 г.