Нейросеть научили распознавать похожие объекты на видео без потери точности

Профессор ВШЭ Андрей Савченко разработал метод, который позволяет усовершенствовать технологию идентификации образов на видео. Нейросеть, обученная по новому алгоритму, в 10 раз быстрее принимает решения по распознаванию и классификации изображений. Работа представлена в статье Sequential three-way decisions in multi-category image recognition with deep features based on distance factor.

Нейросети давно научились различать на видео людей и животных. Искусственные нейроны способны обучаться, запоминая, как выглядит тот или иной объект на изображении. Обычно исследователи берут открытую базу фотографий (ImageNet, Places и т.п.) и обучают нейросеть на ней. Для ускорения процесса алгоритм настраивают таким образом, чтобы он перебирал только часть эталонных изображений, либо использовал лишь малое число характерных признаков. Сложности возникают в тех случаях, когда на фото изображены предметы разных классов, и для каждого класса есть только несколько образцов для обучения.

Новая разработка исследователя из ВШЭ позволяет распознавать образы без потерь в точности за счет метода последовательных тернарных решений (sequential three-way decisions). При таком подходе нейросеть по-разному анализирует простые изображения — на которых объекты легко различимы, и сложные — на которых объекты различаются плохо и требуют более детального рассмотрения.

«Каждое фото описывается тысячами характерных признаков. Сравнивать все признаки входного изображения со всеми признаками каждого обучающего примера не имеет смысла, так как большая часть образцов будет не похожа на анализируемую картинку. Поэтому сначала сравниваем несколько самых важных признаков, и отбрасываем те обучающие примеры, которые очевидно не являются решениями. В результате выборка сужается и остается малое число примеров. На следующем этапе мы увеличиваем количество признаков для оставшихся изображений, и процесс повторяется снова», — поясняет профессор Савченко.

Предлагаемый подход уменьшает время распознавания в 1,5-10 раз по сравнению с обычными классификаторами и известными многоклассовыми последовательными тернарными решениями. За счет снижения стоимости процедуры, разработка открывает возможности для применения технологии на мобильных устройствах и других маломощных гаджетах.

June 21, 2019