We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
  • HSE University
  • IQ media
  • News
  • Нейронную сеть научили распознавать лица на видео по одной фотографии-образцу

Нейронную сеть научили распознавать лица на видео по одной фотографии-образцу

Исследователи ВШЭ предложили новый метод распознавания людей  на видео с помощью глубокой нейронной сети. Подход не требует большого числа фотографий, он позволяет значительно повысить точность распознавания по сравнению с ранее известными аналогами, даже если доступна всего одна фронтальная фотография человека. Результаты работы опубликованы в статьях «Fuzzy Analysis and Deep Convolution Neural Networks in Still-to-video Recognition» и «Unconstrained Face Identification Using Maximum Likelihood of Distances Between Deep Off-the-shelf Features».

Системы распознавания лиц в последние несколько лет переживают бурное развитие. Подобные технологии верификации и идентификации используется сегодня в самых разных сферах – от борьбы с терроризмом до соцсетей и мобильных приложений.

Распознавание может проходить разными способами, но в последнее время наилучшие результаты демонстрируют сверхточные нейронные сети. При этом, чем больше нейронной сети показать образцов изображений, тем лучше она будет работать. В процессе обучения система вычленяет ключевые признаки и строит связи между ними, а затем использует полученные знания при распознавании неизвестных образов.

В свободном доступе появляется все больше наборов фотографий, на которых обучаются нейронные сети. Для контролируемых данных (при одинаковом положении в кадре, освещении и пр.) точность алгоритмов уже давно достигла результатов, сопоставимых с человеческими. А вот добиться высокой точности при распознавании видеоданных, которые собираются в неконтролируемых условиях с варьируемым освещением, ракурсом и размером все еще непросто.

«Сеть может со 100% точностью распознать, например, известного актера (число изображений которого в сети исчисляются миллионами). Но это совсем не значит, что при переносе знаний, накопленных в нейронной сети, она адаптируется и распознает человека, для которого в качестве образца доступна только одна фотография», — поясняет профессор кафедры информационных систем и технологий НИУ ВШЭ в Нижнем Новгороде Андрей Савченко.

Для того, чтобы решить эту задачу, исследователи ВШЭ использовали теорию нечетких множеств и теорию вероятности. Они разработали алгоритм, который позволяет существенно повысить точность (на 2-6% по сравнению с ранее проведенными экспериментами) идентификации лиц по видео в режиме реального времени при наличии ограниченного числа изображений. Это решение работает с нейросетевыми архитектурами VGGFace, VGGFace2, ResFace и LightCNN.

В качестве тестовой базы исследователи использовали несколько традиционных наборов данных для оценки методов распознавания лиц на видео – IJB-A (IARPA Janus Benchmark A) и YTF (YouTube Faces). Эти наборы включали находящиеся в свободном доступе изображения известных людей (актеры, политики, общественные деятели), которые собирались из открытых источников в неконтролируемых условиях в разное время. Алгоритм должен был распознать лица на видео с YouTube, используя в качестве образцов несколько фотографий тех же людей из другого набора данных – LFW (Labeled Faces in the Wild). В LFW использовалось более высокое разрешение, а сами фотографии были сделаны в разное время, начиная с 1970-х до 2010-х годов.

Суть работы этого подхода состоит в использовании информации о том, как эталонные фотографии связаны между собой, а именно насколько они близки или далеки друг от друга. Связь (расстояние в математической модели) между похожими людьми меньше, между непохожими — больше. Знание того, насколько люди друг от друга отличаются, позволяет системе скорректировать ошибки в процессе распознавания видео кадров.

«Алгоритм оценивает насколько один кадр ближе к одному человеку, другой — к другому. Затем сравнивает, насколько похожи эти два человека между собой. После чего добавляет третьего человека и оценивает, с кем он ближе — с первым или вторым. Исходя из этой близости, еще раз корректирует ошибки распознавания», — говорит профессор Савченко.

Сейчас этот алгоритм уже реализован для стационарных компьютеров на Python, что позволяет в фотоальбомах находить и группировать лица разных людей, оценивать год рождения, пол и другие параметры. Разработан прототип приложения для Android, которое определяет возраст и пол людей на фотографиях и видео.  Анализ фото-галереи дает возможность автоматически оценить степень социальной активности пользователя, выделить его близких друзей и родственников. Для современных смартфонов прототип приложения обрабатывает 15 кадров в секунду. Исследователи утверждают, что благодаря разработанному алгоритму распознание лиц может происходить точнее.

 

July 03, 2018