Лолита в нейросетях

Кандинский, Дали, Магритт, Врубель, Филонов, Уорхол — какие только творческие манеры и образы не проглядывают в картинах, которыми искусственный интеллект (ИИ) иллюстрирует метафорический язык Владимира Набокова. Тут и особая цветовая азбука, изобретённая автором «Дара», и его излюбленные мотивы — бабочки, шахматы и потерянный рай. У нейросети явно есть остроумие и фантазия — в той мере, в какой они в принципе могут быть у алгоритмов. Выставка этих работ, Nabokov Clip Art, открылась недавно в музее писателя в Санкт-Петербурге. К дню рождения Набокова, 22 апреля, соавтор проекта, лингвист Борис Орехов, провёл для IQ.HSE экскурсию по нейрогалерее.

Борис Орехов,
кандидат филологических наук, доцент
Школы лингвистики факультета гуманитарных
наук НИУ ВШЭ

Визуализация незримого

— Компьютерная «материализация» образности Набокова получилась в стиле игры «Имаджинариум»: сюр, фантазия, тьма ассоциаций. С другой стороны, вспоминается фильм «Онегин» (1999) британского режиссера Марты Файнс — с Рэйфом Файнсом в главной роли. Чрезвычайно красивая картина, но точно не Пушкин: от романа в стихах, от лирических отступлений ничего не осталось. Как нейронная сеть набралась смелости, чтобы отрисовать Набокова — автора очень эстетской лиризованной прозы и, кстати, переводчика «Евгения Онегина» на английский?

— Это прежде всего любопытный проект. Людей всё ещё интересует то, что делает искусственный интеллект (ИИ). В январе прошлого года появилась нейросеть CLIP (Contrastive Language-Image Pre-training), разработанная компанией OpenAI (один из её основателей — американский предприниматель-миллиардер Илон Маск), а чуть позже, летом, — её российский аналог ruCLIP, от Сбера. Но я пользовался CLIP ещё до появления сберовской модели. OpenAI делает много разработок, которые можно считать прорывными и за счет идей, и в силу объёма данных, которые кладутся «внутрь».

В чём здесь сложность? Чтобы обучить современную нейросеть, нужно очень много машинного времени на дорогих компьютерах. Те, кто играет в компьютерные игры, знают, как дорого стоят видеокарты. Такие, но, возможно, ещё более дорогостоящие видеокарты используются при обучении нейронных сетей. У OpenAI находятся средства, чтобы обучать большие модели. GPT — нашумевшая модель, которая порождает текст, неотличимый от человеческого, тоже сделана этой организацией. И в январе 2021 года OpenAI создала нейросеть, которая умеет брать текст на английском и рисовать по нему картинку. Позже Сбер представил свою модель на русских данных, но у оригинальной модели — англоязычной — получалось более интересно. Хотелось попробовать на ней что-нибудь своё.

— А есть у этой модели практический смысл?

— У этой разработки есть совершенно жизненные приложения. Например, нужно написать пост в блог, а к нему приложить картинку. Откуда её брать? Часть — лицензионная, надо платить. Часть — банальная, неинтересная, что-нибудь из фотостоков. Либо ты просто не найдёшь на бесплатном развале нужную тебе картинку. А вот с помощью нейросети ты породишь оригинальную, лицензионно чистую картинку.

— Дороговато получается?

— Если ты OpenAI, то для тебя это дороговато. Но когда компания сделала эту модель, она выложила её в открытый доступ. То есть, если ты конечный пользователь, ты ничего не платишь. И Сбер поступил так же — сделал открытой свою модель, прикрутил к ней бесплатный интерфейс. Так что у этой разработки есть практические приложения, но гуманитариям хочется порой сделать что-нибудь совершенно непрактичное. Возникла идея Набокова.

— Почему именно он?

— Хочется же что-то свое, русскоязычное, а модель только на английском. Значит, надо искать переводы русских писателей на английский язык. Но ведь есть Владимир Набоков, который, во-первых, писал на обоих языках, а во-вторых, сам переводил или курировал переводы своих текстов. Это небанальное сочетание, мало у кого есть. Иосиф Бродский тоже сам переводил на английский свои стихи, но его переводы звучали экстравагантно. А Набоков действительно оттачивал все эти переводы, находил эквиваленты для своих каламбуров.

Кроме того, Набоков интересен тем, что он многое строит на языковой игре, его эстетика ориентирована на слово. Это игра на сходстве слов, фонетическая игра («пряная прелесть», «виноватые виньетки», «мускулы музы») и пр. Тут много чего есть, и оно не визуальное по своей природе. Но мы, люди, зависимы от того, чтобы делать в голове картинку из художественного образа. Да и образ сам по-английски называется image — «картинка». Неудачная метафора — это когда картинка не складывается. Но у Набокова многие образы как раз кажутся удачными. Среди них есть визуальные и не визуальные. Это интересная задача — визуализировать невизуальное.

Художник как аберрация

— Определимся с глоссарием. Картины всё же рисует человек, в них есть отчетливое авторское начало. А как мы назовём работы нейросети? И как именуем процесс и результат — иллюстрация, репрезентация образов?

— Работы нейросети назовём изображениями. В этом проекте речь идёт об иллюстрации, тут нет причин для сомнений. У нас есть некий текст, и мы его иллюстрируем. Обычно это делает художник, творческая личность. А мы берём бездушную машину и смотрим, что она нам породит.

— И она понимает замысел автора?

— В словесном смысле нейросеть всё понимает довольно правильно. Там для этого встроены разные технологии, которые позволяют воспроизводить в изображении то, что сказано словами. В том, что в ней нет авторского начала, можно увидеть свои плюсы.

Например, Тарковский снимает «Сталкера». Правда ли, что этот фильм — киноиллюстрация к «Пикнику на обочине» братьев Стругацких? Абсолютно нет. «Сталкер» — авторское высказывание Тарковского, которое почти заслонило первоисточник. Может быть, нам это как раз не требуется? Возможно, мы хотим породить такую иллюстрацию, в которой не было бы творческого начала художника, а мы бы прозревали через картинку самого Набокова.

— То есть мы убираем некую аберрацию, искажающую линзу?

— Да. Если её устранить, у нас получается Набоков в визуальном представлении. Если мы убираем субъективизм художника, его взгляд, то возвращаемся к самому Набокову.

— И можно почти воочию увидеть его метафоры — как бы они ни воплотились.

— Да, интерес ещё и в том, что это музей Набокова, и в нём эти картины, распечатанные на пенокартоне, просто висят на стенах. Сделать такую галерею где-то в интернете за пять минут — не сложно. Но здесь мы переходим в совершенно иной контекст физического мира. Онлайн вливается в офлайн, и это заставляет иначе воспринимать всё. Картины останутся в фондах музея.

Гумберт в огне

— Метафорическое мышление — всё же высшая нервная деятельность, вероятно, одно из ключевых отличий человека от других существ. Не обидно отдавать эту привилегию ИИ?

— Метафора — это сопоставление двух объектов и представление одного через другой. Как это переносится на процесс иллюстрации — сложный вопрос. Но метафора — это, наверное, действительно высшая когнитивная деятельность, и мы вправе предположить, что она работает только там, где есть вторая сигнальная система, то есть язык. Если языка нет — и метафоры не будет. То, что мы здесь перепоручаем ИИ что-то, что можем только сами, — это правда. Но надо учесть, что в случае с привилегией на метафоры у человека идет в нагрузку такое «отягчающее обстоятельство», как индивидуализация, авторское начало. У нейросети индивидуальности нет, и можно попробовать на этом сыграть.

— Если мы воспринимаем работы нейросети как интертекст, то в нём проглядывает масса очень разных творческих манер. Сальвадор Дали, Рене Магритт, Джексон Поллок, Василий Кандинский, Павел Филонов и даже мускулистый «Демон» Михаила Врубеля — как иллюстрация к «Дару». А иногда просто приятные фотообои.

— Давайте уточним. На той платформе, на которой это размещено, кажется, что это иллюстрация ко всему тексту романа сразу. Но на самом деле мы извлекали конкретные фразы с языковой игрой. И, по сути, подписями к работам должны были быть эти самые фразы, а не названия романов. Но так уж устроена платформа, и это несколько сбивает восприятие. То, что это «Дар», — это вообще не важно. Надо войти внутрь иллюстрации и посмотреть, что за фраза там визуализирована.

— О «механике» картинок мы ещё поговорим. А вот откуда берутся разные творческие манеры в иллюстрациях?

— OpenAI взяли миллиарды картинок из интернета. Сбер тоже так сделал, но только там, где к картинкам в интернете есть русские подписи.

— OpenAI брала полотна классиков, поп-арт, компьютерную графику?

— Там всё, в том числе рендеры (компьютерная графика — born digital, «рожденные в цифре»). Но ясно видно, что они чистили выборку, например, удалили порно. А вот эротика может быть. В иллюстрации к «Лолите», например. Но работает там всё по-другому. Главное — мотив огня из самой первой фразы романа — «Лолита, свет моей жизни, огонь моих чресел». Изображения на картине напоминают переплетённые человеческие тела, что, конечно, производит некоторое впечатление. В этом смысле не очень понятна позиция коллеги Татьяны Черниговской, которая в комментарии к выставке сказала, что у нейросети нет вкуса. Но понятие вкуса просто неприменимо к нейросети. А картинки кажутся визуально очень выигрышными.

Механика нейротворчества

— Поговорим про устройство нейросети.

— У нейросетей, во-первых, есть архитектура — форма, которая выстраивает логику обучения модели. Во-вторых, есть обучающая выборка для тренировки. Компания OpenAI придумала архитектуру, собрала обучающую выборку. Эта выборка состояла из двух компонентов: картинки и соответствующие им подписи. Это и даёт возможность обучать ИИ. Иначе было бы непонятно, как нам объяснить нейросети, что текст относится к картинке. На сильных вычислительных устройствах нейросеть «просмотрела» материал, попыталась генерализовать закономерности между картинками и текстами. А после того, как она чему-то научилась, появляется модель. Работать можно именно с моделью. Работают так: что-то подают на вход и смотрят, что получится на выходе. Иногда такие модели можно немного «подпиливать», но тут этого не требовалось. Я скачал модель, стал подавать на вход фразы из Набокова. Их мы отбирали вместе с коллегой, Любовью Каракуц-Бородиной, специалистом по творчеству Набокова и его языку, и смотрели, что получится.

— И к каждой фразе генерировались сразу несколько изображений?

— Да. Какие-то варианты казались нам более интересными, какие-то — менее. В случае с «Лолитой» было трудно остановиться на каком-то одном варианте, поэтому мы взяли три иллюстрации к одной фразе про «огонь чресел». (Потом мы пытались повторить этот опыт уже со сберовской моделью, но получилось менее визуально выигрышно.) Важно, что те картинки, которые получались у OpenAI, были интерпретируемы. Этими интерпретациями мы дополнили онлайн-версию выставки.

— Расскажите про навигацию по экспозиции.

— На платформе «Артефакт», где представлена выставка, можно зайти на страничку конкретной картинки. На изображении есть три точки, на которые можно щелкнуть и увидеть информацию. Эти три точки — это сама цитата из Набокова (на английском и русском языке) и наши комментарии к тому, что получилось. Представлена и аудиоверсия интерпретации. В интерпретации мы смотрим на разный контекст — Магритт, Дали, а иногда — и что-то из массовой культуры.

Приглашение к масскульту

— В картинках и Джексон Поллок, и Энди Уорхол проглядывают.

— И Уорхол бывает, и блокбастеры типа «Чужой», «Оно» и пр. Набокову, о котором мы обычно думаем как об элитарном писателе, это совершенно не чуждо. Он был первым, кто написал стихотворение про Супермена (The Man of To-Morrow’s Lament). Набоков испытывал к массовой культуре некоторый интерес и так или иначе воспроизводил её в своих текстах.

— Набоков американского периода — уж точно. Но всегда ли получившиеся нейроработы можно интерпретировать как интертекст, как игру реминисценций и аллюзий?

— Не всегда. Это только один из возможных подходов. Бывают картинки, для которых возможно прочтение не интертекстуальное, а соотносящееся с самим пониманием языка у Набокова. У него была такая синестетическая особенность: за каждым звуком был ассоциативно закреплен какой-то цвет. Через эту визуальную азбуку прочитывается иллюстрация к «фанфарам ферзя».

— И всё же интертекстуальная трактовка очень соблазнительна.

— Это неизбежно, потому что нейросеть дает некое «среднее арифметическое» от всех тех визуальных образов, которые есть в интернете. Естественно, что в усредненном ты всегда видишь что-то знакомое. Но возможен и другой подход. Можно смотреть, насколько нейросеть уловила семантику метафоры.

Одна из лучших иллюстраций в этом смысле — к фразе из «Дара» про «расплыв синеватой собаки». В тексте упоминается объявление про собаку, и на картине перед нами — смятая бумажка, на ней когда-то была нарисована собака, и она действительно расплывается. Это очень фактурно выглядит — как будто это не бумага, а пергамент.

— Есть картинка к «Другим берегам» в стиле рендера или фотообоев. Там некое подобие журнального столика и бумага — символы творчества. И фон суперэкологичный — лес и горы. Но к этому же произведению есть довольно пугающее изображение — как из питерского двора-колодца.

— Это иллюстрация к выражению «корма времени», когда как будто оказываешься на корме корабля. Мы его интерпретировали так: «Изображение двоится, представляя попеременно то небо, видимое с палубы гигантского лайнера, то буруны за его кормой». Обрезанная композиция «кадра» подчёркивает ограниченность нашего видения прошлого.

Трактовка иллюстрации к фразе «гносеологическая гнусность» из романа «Приглашение на казнь» — тоже не интертекстуальная. «Реакцией нейросети на одну из самых загадочных набоковских метафор стал зловещий индустриальный пейзаж: краны, вышки, прожектора — вполне ожидаемый набор орудий борьбы с непрозрачностью. Они нависают над наблюдателем, опрокинутым навзничь, поверженным, беспомощным».

А в иллюстрации к метафоре «продленный призрак бытия» (финальные строки «Дара») есть некоторая интертекстуальность. К тому же здесь видно, как работает нейросеть, — она действительно рисовала призрака.

— Тут клонированный мультяшный Каспер летает.

— Именно. Но это не просто призрак, а вокруг него как бы формируется бытие: квартира, вещи. «Нейросеть весьма прямолинейно воспринимает необходимость изобразить “призрака”, находящегося в мастерской писателя <...>, — гласит комментарий. — Реализация метафоры — вполне законный художественный приём, но особенно ожидаемый от не обладающего чувством юмора искусственного интеллекта. Текучие линии и общее трагикомическое настроение картины приводят на память “Сон” Сальвадора Дали».

А вот история, связанная с «Приглашением на казнь» — мы даже думали назвать так выставку — «коллекция разных неток». У Набокова есть большой пассаж, который очень хорошо переведён: «<...>Целая коллекция разных неток, то есть абсолютно нелепых предметов: всякие такие бесформенные, пёстрые, в дырках, в пятнах, рябые, шишковатые штуки, вроде каких-то ископаемых, — но зеркало, которое обыкновенные предметы абсолютно искажало, теперь, значит, получало настоящую пищу». Сгенерированная картинка отсылает одновременно и к пиксельной графике, и к палеозойской эре: перед нами окаменелые трилобиты, иглокожие и пр.

Из абзаца про «нетки» мы взяли несколько фраз и попытались визуализировать, как, например, из «бесформенной пестряди» получались «чудные стройные образы».

Есть ещё пример, как бесформенность становится формой.

— Это уже стиль Павла Филонова.

— Вы правы. Мы написали так: «Эта иллюстрация напоминает картины Джексона Поллока, абстракции Пита Мондриана, Хуана Миро и особенно работы, следующие принципам аналитического искусства, обозначенным Павлом Филоновым: картина словно бы развивается, вырастая из одной точки».

— Нейросеть вроде бы «переиграла» и селфи.

— Есть картинка, на которой изображен человек, который снимает себя в зеркале. Это некое обобщение на основе сотен тысяч похожих фотографий типа «Я в зеркале».

«Поволока славы» (haze of glory) из «Защиты Лужина» показана так, что слава здесь — небесная. Изображен сияющий крест на небе.

— Сеть разбирается в теологии?

— В том виде, в котором она себе её представляет. Haze — вообще-то «вспышка», и это иллюстрация к английскому тексту. Русский текст, скорее, даёт не такие ассоциации.

— А как нейросеть выбирает цветовую гамму? Она сильно различается в работах: где-то — яркость поп-арта, где-то — благородство иконописи. Можно задать параметры на входе?

— Нет, нельзя. Это решение, которое нейросеть принимает сама, исходя из тех соответствий, которые у неё есть, между текстом и картинками. Пример такого соответствия, например, — «невесомый остров завороженного времени, где Лолита играет с ей подобными». Картинка изображает красочную идиллию, рай. Я бы здесь даже думал о картинке в стиле примитивизма, Анри Руссо.

Призрак Набокова

— У Виктора Ерофеева в свое время вышла статья «В поисках потерянного рая», в которой он выделил мотивы метаромана Набокова, начиная от шахмат и бабочек и заканчивая образом потерянного рая, тоски по дому. Вы как-то учитывали эту «матрицу» мотивов?

— Нет, матрицы не было. Мы ориентировались именно на фразы, на то, как Набоков реализует себя в языке, а не на мотивы «высокого» уровня. Но вообще-то Ерофеев ничего нового не сказал. Всем понятно, из чего состоит мотивный тезаурус Набокова. Ну и Любовь Каракуц-Бородина может составить такой тезаурус не хуже Ерофеева.

— Только он это сделал в 1988 году. Вообще набоковедение — отечественное и зарубежное — было очень богатым уже 1990-е годы, не говоря уже про наше время. Не страшно было тягаться с набоковедами-классиками? Задача нетривиальная.

— Да, это правда. Тем не менее, со всем уважением к традициям набоковедения, можно попытаться двигаться вперёд в нашей новой технологической реальности. И у нас есть как раз уже не то что план, а реализованная история. Нейросети же умеют не только картинки создавать из текста, они умеют ещё и генерировать текст. И мы с соавтором прошлым летом сделали следующее: взяли русскую языковую модель на основе архитектуры GPT-3 . Эта модель дает возможность проводить её тюнинг. То есть, когда модель уже выучила язык и знает, какие слова за какими идут, чтобы это имело смысл, можно попробовать доучить её на каком-то сжатом количестве текстов. Если её доучить на текстах Набокова, то она будет писать в стиле Набокова. Мы как раз и сделали такой эксперимент.

Правда, совсем без редактуры такой текст читается с трудом. Мы его немного подредактировали: взяли какие-то отдельные фразы, соединили их вместе, в ряде случаев заменили имена так, чтобы это представляло собой более или менее связный текст, — и у нас получился рассказ. Он называется «Призрак». Вполне по-набоковски.

— Модели теперь умеют рассказывать истории?

— Они могут выдать связный абзац, но рассказать историю — пока нет. При всех их впечатляющих достижениях, это остаётся за гранью возможностей. Это немного напоминает шахматную тактику и стратегию. Сделать правильный ход в конкретной ситуации машина может, а вот рассчитать стратегию, как в будущем поставить мат через 50 ходов, она пока не способна. Стратегия — примерно как сюжет. Рассказать что-то, подразумевая, что это выстрелит через три главы, современные генеративные модели пока не могут. Поэтому тут есть проблема, когда мы генерируем прозу. Однако с Набоковым такой проблемы нет. У него все довольно бессюжетно.

— У него лиризованная проза, главное — внутренний сюжет, а не внешний.

— Я думаю, можно её назвать лирической. У неё редуцированная нарративность. Там случаются события, но это не главное. Набоков нам редко очень рассказывает истории. В «Лолите», кстати, рассказывает. Но если мы возьмём его творчество целокупно, то выяснится, что таких нарративных произведений, которые ты читаешь потому, что тебе интересно, чем дело кончится, — у него мало. Читаешь ты его не из-за этого. Если проводить спортивные аналогии, то Набоков — это матч, который смотришь не потому, что интересно, какой будет счёт в конце, а потому, что тебе важна красота игры прямо сейчас. В общем, нейросеть написала рассказ в стиле Набокова.

— Имитация Набокова.

— Нейросети этим и занимаются. Нейросеть пишет текст — это имитация человеческого текста, она рисует картинку — это имитация работы иллюстратора.

— Исходя из неспособности сети рассказывать истории, мы пока не можем ожидать, что она снимет фильм по тому же Набокову? Только клип — в лучшем случае?

— Смотря что мы подразумеваем под фильмом. Если для нас нарратив, сюжет, история является необходимым пунктом, то тогда да, пока нейросеть не справляется. А если нас интересует что-то другое — причудливость образов, то есть примеры того, как нейросеть генерирует разные картинки, и между ними происходит морфинг — одна картинка перетекает в другую. Истории там нет, но есть завораживающий калейдоскоп. Клиповая эстетика здесь вполне подходит для описания. Если мы готовы смотреть такой фильм, то нейросеть может снять нечто подобное.

— Не могу не спросить в заключение: как вы считаете, что сам Набоков сказал бы про рассказ? Как критик он был совершенно непримирим.

— Он не просто всех писателей подвергал ожесточенной критике, — он критиковал любую попытку касания его собственных текстов, крыл на чём свет стоит любые переводы на французский, итальянский, другие языки. Набоков очень нетерпимо относился к иной трактовке текстов, чем его собственная. И с этой точки зрения, безусловно, он был бы недоволен. Просто потому, что собственнически относился к своим текстам. А наш проект — всё-таки некоторая попытка, хотя и осторожная и, как мне кажется, дипломатичная и комплиментарная, как-то к этому наследию приобщиться.
IQ

Авторы проекта Nabokov Clip Art:

Борис Орехов, кандидат филологических наук, доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ

Любовь Каракуц-Бородина, кандидат филологических наук, лингвист, Санкт-Петербургский государственный университет

Автор текста:Соболевская Ольга Вадимовна,21 апреля, 2022 г.