Ледоколы зимы искусственного интеллекта

Видеокарты появились, чтобы облегчить формирование картинки на экране. Они стали популярны благодаря видеоиграм, но со временем из «помощников» центрального процессора превратились в основной элемент систем, не связанных с графикой. Так, в 2020 году международная группа с участием Дениса Деркача из НИУ ВШЭ представила The Allen Project — «ферму» из 500 видеокарт для анализа результатов столкновения протонов на Большом адронном коллайдере (Large Hadron Collider, LHC). Но, пожалуй, самое показательное использование видеокарт «не по прямому назначению» — обучение множества различных нейросетевых моделей.

Также читайте

Глубокие нейронные сети сделают экспериментальную физику элементарных частиц дешевле. Решение предложила коллаборация MODE, куда входят и специалисты из НИУ ВШЭ

Первая зима

В 1950 году Алан Тьюринг опубликовал знаменитую статью «Вычислительные машины и разум», которая спровоцировала первые практические попытки воспроизвести процесс мышления человека с помощью компьютера. Первый нейрокомпьютер Mark I Perceptron, который умел распознавать буквы, появился уже в 1957-м. Система использовала простейшую нейросеть с тремя типами нейронов: сенсорными, ассоциативными и реагирующими. Сенсорные нейроны активировались фотодатчиками, затем они передавали сигналы к ассоциативным элементам, где они преобразовывались в зависимости от соответствующих весов (коэффициентов) и отправлялись на реагирующий, выходной уровень. При отклонении от требуемого результата значения весов ассоциативного слоя корректировали, добиваясь требуемого ответа.

Элементы перцептрона представляли собой переменные резисторы. Чтобы изменить значения весов, сопротивления менялись пропорционально расхождению ожидаемого и полученного на выходном слое значений. Машина была электромеханической, но её также можно назвать и первой нейроморфной: устройство системы имитировало работу нейронов, которые в процессе обучения корректируют связи друг с другом. После предварительного обучения она могла распознавать геометрические фигуры и буквы, показав принципиальную реализуемость искусственного интеллекта. Это достижение стимулировало инвестиции в новые разработки.

Средства под такие программы стало выделять и Управление перспективных исследовательских проектов американского Министерства обороны (Defense Advanced Research Projects Agency, DARPA). Ведь в распознавании нуждались не только буквы, но и вооружение противника. А распознавание речи пригодилось бы для голосового управления техникой. Однако дальнейшие работы показали, что одного-двух настраиваемых слоёв, как в перцептроне, для этого мало. Между тем, на нейросети с большим числом слоёв не хватало ни данных, ни вычислительных мощностей, необходимых для подбора правильных весов и обучения. Поток инвестиций быстро иссяк, и в 1970-е разработки ИИ вошли в свою первую застойную «зиму».

Между экспертами и шахматистами

Пока нейросети переживали упадок, на сцену вышли экспертные системы, способные использовать для выработки решений базы известных фактов. Например, сравнить симптомы с собственными данными и поставить диагноз. Простым перебором такая задача не решается, требуя сложных и долгих вычислений, поэтому аппаратной основой экспертных систем часто выступали мощные компьютеры и даже суперкомпьютеры того времени.

Так, компания DEC реализовала экспертную систему для своего конфигуратора заказов XSEL (базовое название XCON). Он помогал с выбором конфигурации компьютеров, снизив количество ошибок и претензий от покупателей с 30% до 1%, а также сэкономив компании $70 млн. Хотя этот вид искусственного интеллекта охватывал небольшое количество пользователей, он показал возможность прикладного применения ИИ и на какое-то время возродил интерес к этой области. Однако с конца 1980-х для ИИ началась вторая «зима». Многие производители таких систем ушли с рынка — например, персональные компьютеры похоронили бизнес DEC и её XSEL.

Тем не менее в начале 1990-х начали вновь появляться средства распознавания, которым хватало мощности персональных компьютеров. В те годы российская компания ABBYY выпустила программу распознавания текстов FineReader, быстро ставшую популярной. А в 1997-м в США появилась Dragon NaturallySpeaking, хоть и на достаточно слабом уровне, но распознающая речь. Тогда же пал и первый бастион, прежде казавшийся неподвластным машинам: лучший шахматист мира Гарри Каспаров проиграл матч суперкомпьютеру Deep Blue. Возможно, в первое время чемпион ещё имел шансы взять реванш, но дальнейший рост вычислительных мощностей и развитие софта сделали компьютерных шахматистов безоговорочно сильнее любого человека.

Время многослойных нейросетей

Компания Intel не только выпустила первые центральные процессоры, но и смогла десятилетиями поддерживать высокие темпы роста их вычислительных мощностей. В соответствии с «законом Мура», плотность размещения транзисторов на её микрочипах удваивалась каждые 24 месяца; соответственно росла и производительность. В результате к началу XXI века цены на компьютерные мощности рухнули. Если в 1985 году лишь суперкомпьютер стоимостью в полтора десятка миллионов долларов мог похвастаться мощностью в 1 гигафлопс (миллиард операций с плавающей точкой в секунду), то в 2000-м для этого было достаточно кластера процессоров Intel x86 и всего 3 тыс. долларов.

Падение стоимости вычислений, а также накопившиеся к этому времени объёмы данных обеспечили совершенно новые возможности для глубокого обучения ИИ на многослойных нейросетях. Одними из первых эти методы начали применять в ЦЕРНе (CERN) — европейской организации по ядерным исследованиям, где Большим адронным коллайдером тогда и не пахло.

«Для нейросетей важны две вещи: правильное хранение данных (а CERN стал аккуратно относиться к ним сильно раньше остального мира) и ресурсы для использования ИИ, — объясняет Денис Деркач. — Как результат, уже в 1994 году с помощью нейросетей были открыты верхние кварки. А сейчас уже, наверное, 95% статей используют различные виды машинного обучения».

Казалось, относительно недорогие вычислительные мощности кластеров, построенных на процессорах x86 Intel и AMD, решили проблему обучения многослойных сетей. Но тут на сцену вышли видеокарты. Изначально они выполняли роль графических ускорителей, облегчая отрисовку трёхмерных моделей на экране. Такая задача не требует универсальности центрального процессора, здесь важнее скорость выполнения множества довольно простых операций. Но именно способность видеокарт к массивным параллельным вычислениям сделала их отличным инструментом для обучения ИИ.

Учёба вместо игр

Видеокарты производительностью в 1 гигафлопс появились в 2001 году (в один компьютер уже тогда можно было установить несколько таких плат). Постепенно начался выпуск и специализированных моделей, оптимизированных для обучения нейросетей и поддерживавших работу в составе больших вычислительных кластеров. Появились удобные платформы для их программирования — nVidia CUDA и OpenCL. Это позволило быстро считать «физику» как в играх, так и в реальной жизни — например, траектории столкнувшихся в коллайдере частиц, а также проводить глубокое обучение нейросетевых моделей.

«Активно использовать графические процессоры начали примерно с 2007-го, когда nVidia представила архитектуру CUDA, — объясняет топ-менеджер компании ABBYY. — Одним из первых заметных проектов в этой области можно назвать свёрточную нейросеть AlexNet, которая в 2012 году победила в конкурсе на распознавание изображений ImageNet, показав самый низкий процент ошибок». Обойдя конкурентов, которые не использовали ИИ, AlexNet доказала, что благодаря видеокартам можно обучать действительно эффективные нейросети.

Программное обеспечение для видеокарт позволяет выполнять на них довольно широкий круг задач, оперируя не только цифрами. И это направление быстро развивается. Например, в 2020 году команда Сбера с помощью суперкомпьютера «Кристофари» на базе графических процессоров nVidia провела обучение языковой модели ruGPT-3 на гигабайтах художественной, деловой и научной литературы. Готовая нейросеть отвечала на непростые даже для человека логические вопросы и могла написать сочинение на уровне среднего старшеклассника.

Специалисты широкого профиля

Может показаться, что сегодня задачи ИИ выполняются исключительно видеоплатами. Но это лишь один из видов устройств для такой работы. «Создание ИИ-системы проходит в несколько этапов, на каждом из которых могут быть использованы разные вычислители, — объясняет технический директор Intel в России в 2017-2022 годах Михаил Цветков. — Для сбора и подготовки данных подходят привычные центральные процессоры. Тогда как для обучения многослойных нейросетей на больших массивах данных популярны ускорители на основе графических процессоров или специализированных микросхем. А при исполнении обученных нейронных сетей могут использоваться и центральные, и графические процессоры, или даже специализированные микросхемы для инференса».

Центральные процессоры универсальны, графические быстры, но как те, так и другие далеко не оптимальны для работы нейросетей. В конце концов, разрабатывались они под совершенно иные задачи. Всё это привело к появлению специализированных микросхем для глубокого обучения и работы ИИ. Первым заметным игроком в этой области стала Google: в 2016 году компания не только приобрела команду DeepMind (разработчиков AlphaGo — программы-чемпиона по игре го, впервые обыгравшей людей), но и представила первый тензорный процессор. Такой чип адаптирован для быстрого перемножения матриц — изменения сигналов в соответствии с весами соответствующих элементов слоя нейросети — и делает это быстрее и эффективнее даже видеокарт.

Продавать свои тензорные процессоры в Google не стали: был выбран другой путь. Множество таких чипов программисты объединили в вычислительный кластер, подключили к облаку и обеспечили доступ к нему через библиотеку TensorFlow. Это позволило быстро включиться в конкуренцию за потребителей, которые нуждались во всё больших вычислительных мощностях для глубокого обучения.

Запрос на эффективность

Каким бы ни был специализированный процессор, реализовать его можно в рамках одного из двух альтернативных подходов. ASIC-микросхемы имеют жёстко прописанную структуру. Она оптимизирована для решения нужной задачи или даже под конкретный тип нейросети, но не может «перестроиться» под что-либо новое. Программируемые логические микросхемы FPGA не столь эффективны для выполнения конкретной функции. Зато их можно адаптировать, «перенастроить» под нужные цели.

Вместе с тем, нельзя сказать, что центральные процессоры и видеоплаты сдались под натиском специализированных микросхем — у них сравнимые доли рынка. Производство графических и центральных процессоров давно налажено, они выпускаются миллионными тиражами, поэтому их себестоимость ниже. Кроме того, всегда остаётся возможность найти незадействованные мощности. Специализированные процессоры выпускаются в меньших количествах, обычно их заказывают крупные компании для своих облачных систем, пользоваться которыми потом будут тысячи и миллионы пользователей.

При этом и ASIC-чипы не стали идеальным решением: часть работы нейросети по-прежнему эмулируется программным обеспечением. По замечанию Григория Сапунова, сооснователя компании Inten.to и выпускника МИЭМ НИУ ВШЭ, фокус в обучении ИИ смещался по цепочке: центральные процессоры – видеокарты – FPGA – ASIC. Хотя пока ни одна из этих архитектур не даёт энергоэффективности, сравнимой с мозгом, который требует для работы всего 20 Вт.

Нейроморфные, квантовые и другие

Нейроморфные процессоры построены по образцу человеческого мозга: они обеспечивают большое количество связей («синапсов») между узлами («нейронами»), каждый из которых оснащен собственной памятью. Например, в 2019 году вышла система Intel Pohoiki Springs, содержащая 768 нейроморфных чипов. Она позволяла эмулировать сеть из 100 млн нейронов при потреблении 500 Вт. До мозга с его 86 млрд нейронов ей ещё далеко, однако производители совершенствуют свои решения и даже у Pohoiki Springs расходы энергии системы в 20 раз меньше, чем при использовании обычных процессоров.

Другое перспективное направление — нейросети на квантовых компьютерах. «Квантовые вычисления могут значительно ускорить некоторые алгоритмы машинного обучения. Сегодня машинное обучение рассматривается как одно из первых полезных применений квантовых компьютеров», — рассказывает Алексей Фёдоров, руководитель научной группы Российского квантового центра и Директор Института физики и квантовой инженерии Университета МИСИС Кроме того, возможны и более экзотические варианты реализации нейросетей — фотонные, химические и даже биологические.
IQ

Авторы статьи: Александр Баулин, Даниил Кузнецов

Автор текста:Кузнецов Даниил Александрович,2 ноября, 2023 г.