Сегодня нейросети легко идентифицируют эмоции в текстах, на фотографиях и видео. Следующий шаг — их моделирование, без которого вряд ли возможен полноценный интеллект ни у человека, ни у машины.
У человека интеллект тесно связан с эмоциями, поэтому нарушения эмоциональной сферы, — будь то социопатия или аутизм, — явно выбиваются из нормы. Более того, психологи уже давно говорят о таких феноменах как эмоциональный и социальный интеллекты. Чтобы искусственный интеллект (ИИ) не превратился в социопата или аутиста, мог эффективно и с комфортом действовать в социальном мире людей, ему необходимо понимать наши переживания. Область, связанная с распознаванием, интерпретацией и моделированием человеческих эмоций называется «эмоциональным программированием» (affective computing).
Этот термин появился ещё в середине 1990-х, после выхода одноименной статьи профессора Массачусетского технологического института (MIT) Розалин Пикар (Rosalind Picard). Уже тогда, задолго до появления современных технологий глубокого обучения, она писала: «Эмоции играют важную роль не только в человеческом разуме и творчестве, но и в рациональном мышлении и в принятии решений. Для естественного и интеллектуального взаимодействия с людьми компьютерам понадобится способность как минимум распознавать и выражать их».
Эти соображения прекрасно осознаются разработчиками, поэтому сегодня технологии «эмоционального программирования» активно применяются на практике. Так, компания Cogito поставляет системы для колл-центров с возможностью определения эмоций у клиентов и их имитации у чатботов. Другой стартап Affectiva использует похожий подход для анализа эффективности рекламных кампаний. А в инновационный автомобиль Toyota Concept-i интегрирована система мониторинга состояния водителя и пассажиров, в том числе и эмоционального. Идентификацию эмоций на фотографии предлагает и инструмент распознавания лиц в одном из ведущих поставщиков облачных сервисов MS Azure. Существует и мобильное приложение CompanionMx, анализирующее звучание голоса. По нему оно отслеживает признаки тревоги и стресса. Параллельно идут эксперименты с «эмоциональными системами», помогающими пациентам с расстройствами аутистического спектра: машины уже учат людей правильно переживать.
Впрочем, как правило, люди — большие мастера передачи своих и распознавания чужих эмоций. Наши переживания отражаются в положении и движениях всего тела, но главное — в звучании речи и мимике. Больше 40 мышц способны придать лицу порядка 10 000 различных выражений. Однако весь этот тонкий спектр можно свести к нескольким основным эмоциональным переживаниям, например, к шести: страх, злость, отвращение, грусть, удивление, радость. В некоторых вариантах их число доходит до 11-ти и даже 50-ти.
Итак, классифицировать эмоции возможно, а значит это позволяет собирать обширные базы портретов и проводить их разметку, подготавливая данные для обучения нейросетей. Такие системы определяют — где на снимке лицо, затем его ключевые детали (глаза, брови, кончики носа и подбородка, уголки губ и т.п.), чтобы учесть положение и поворот головы. Наконец, выделяется и анализируется информация о мимике.
При этом нейросеть может опираться на уже разработанные психологами системы кодирования лицевых движений — вроде FACS от знаменитого (в том числе и по сериалу «Обмани меня»/«Теория лжи») исследователя Пола Экмана. Такие системы сопоставляют каждую эмоцию с характерными движениями мимики. Скажем, радость может выглядеть как «6+12» — то есть, одновременный подъём щеки (цифровой код 6) и уголков губ (код 12). Распознав подобные изменения в положениях щёк и губ, нейросеть может интерпретировать их по кодам FACS.
Похожим путём обрабатываются и голосовые записи. Технологии, опирающиеся на интерпретацию набора использованных слов, работают не слишком хорошо: пока что компьютеры не способны распознать ни иронию, ни даже очень прозрачные намеки. Поэтому в большей степени используются «невербальные» характеристики, такие как тембр голоса, громкость и темп речи, длительность пауз, изменения высоты и т.д. Именно такие решения применяют в некоторых чатботах и голосовых помощниках.
Не находит применения пока лишь распознавание эмоций по позе и движениям тела. Такую информацию сложнее не только анализировать, но и просто получить: для начала компьютеру требуется реконструировать из изображения трёхмерную модель тела. Поэтому попытки создать такие программы остаются исключительно экспериментальными и, как правило, сводятся к анализу жестов рук. Однако хуже всего дело обстоит с воспроизведением эмоций в машине.
Некоторые чатботы вполне способны имитировать недовольство или удивлённо поднять бровь на аватарке. Но в большинстве случаев они опираются для этого не столько на глубокое обучение, сколько на алгоритмическое воспроизведение выражений, характерных для того или иного переживания. Одно из примечательных исключений — недавний проект, где нейросеть тренировали на записях профессиональных актёров. Как итог, она научилась весьма реалистично говорить на повышенных тонах.
Нет сомнений, что вскоре ИИ смогут довольно реалистично имитировать человеческие переживания. Но простым подражанием дело не ограничится. Как отмечает профессор Университета Южной Калифорнии Антонио Дамасио, эмоции — лишь «театр», демонстрация, интерфейс для наших истинных или ложных переживаний вовне. Самое главное связано с внутренними чувствами, благодаря которым человек переживает череду состояний собственного тела.
В своем выступлении в 2021 году перед слушателями Высшей школы экономики в Москве профессор Дамасио отметил: «Мы не всегда задумываемся над тем, насколько потрясающее событие произошло в ходе эволюции: как только живое существо стало переживать чувства, у него “запустилось” сознание, и чувства стали влиять на происходящее с этим существом... До их появления организм регулировался полностью автоматически, тело управлялось бессознательными импульсами вегетативной нервной системы».
«Чувства создают знания: если вы чувствуете, вы знаете и сознаёте», — подчеркнул учёный. Его размышления особенно актуальны в эпоху, когда большим языковым моделям вроде LaMDA или ChatGPT начинают приписывать человеческие способности, а иногда и сознание.
Такие представления вырастают ещё из идей одного из основоположников искусственного интеллекта Марвина Мински, говорившего об «эмоциональной машине». Неудивительно, что и нейрофизиолог Дамасио, и многие программисты уверены: путь к сильному ИИ (Artificial General Intelligence, AGI) лежит именно через область моделирования эмоций. Это может быть машина, чувствительная к состояниям собственной структуры, способная различать среди них более или менее «благоприятные»; машина, действующая и обучающаяся с учётом подобных состояний. Возможно, именно такие системы, которые не только распознают чужие эмоции, но и переживают собственные, — станут нашими первыми полноценными электронными собеседниками.
IQ
Авторы текста: Роман Фишман, Даниил Кузнецов