В нейросетях закона

У нейронных сетей — настоящий звёздный час! Они участвуют в лечении и обучении людей, двигают вперёд науку, развлекают публику, пишут стихи и прозу, делают переводы и иллюстрации. А ещё теперь они умеют генерировать осмысленные тексты по юриспруденции. В авторитетном юридическом журнале «Закон» впервые вышла статья, один из авторов которой — искусственный интеллект (ИИ) — чатбот ChatGPT, функционирующий на базе новейшей большой генеративной языковой модели GPT-4. Эксперимент инициировал и провёл заведующий Центром трансформации юридического образования НИУ ВШЭ Роман Янковский, а IQ.HSE побеседовал с ним о том, в чём проявила мастерство и где ошиблась модель, каковы опции использования ИИ в сфере права и почему «умная машина» чтит Уголовный кодекс.

Роман Янковский,
заместитель декана факультета права,
заведующий Центром трансформации юридического
образования факультета права НИУ ВШЭ

Оцифровка Фемиды

— Искусственный интеллект уже используется в образовании, медицине, психологии, молекулярной биологии и других областях. В образовании, например, он берёт на себя часть рутины, позволяя педагогу больше общаться с учениками. А что ИИ дает в сфере права?

— Наша профессия — на грани глобальных изменений. Право вслед за другими специальностями (например, финансами) будет переосмысляться — не только в связи с внедрением искусственного интеллекта, но и из-за общей цифровизации, увеличения объёма доступных данных. Главная тема для разговоров среди юристов в последние пять лет –-- насколько успешно нас смогут заменить роботами, как компьютерные программы изменят нашу профессию.

Скептики полагают, что «бездушная машина» не сможет заменить правоведов. Однако я всегда был на позиции технооптимистов, которые считают, что это ей вполне удастся. Ведь в нашей профессии много ручной работы, и эту часть способен выполнить искусственный интеллект и другие цифровые инструменты. Я решил продемонстрировать это наглядно. Юристы читают статьи в профессиональных и научных журналах, поэтому я подумал, что публикация в журнале, которую сгенерирует ИИ, зримо покажет, что будущее уже подступило, и игнорировать его нельзя.

— Созданная статья — скорее, просветительского характера. Каких юридических текстов мы в дальнейшем ждём от ИИ?

— Понимая, что стопроцентно юридический текст нейросеть не напишет, я взял тему о том, как ИИ повлияет на юридическую науку. С одной стороны, она подходит для юридического научного журнала, с другой — не требует большой детализации в юридической части.

В разговорах о себе искусственный интеллект действительно хорош. В GPT-4 разработчики, по-видимому, специально загрузили дополнительную информацию о самой модели и её возможностях. Я пробовал генерировать тексты в предыдущей версии — GPT-3.5, и было видно, что в ней информация об ИИ устаревшая и местами неточная. В текущей же версии информация обновлена, поэтому я знал, что ИИ с такой темой хорошо справится.

Если же говорить о создании нейросетью чисто юридических текстов, то с этим пока много проблем. Впрочем, у меня есть знакомые, которые уже пробуют составлять чисто юридические тексты с помощью ИИ. Один из них живёт за рубежом, ему нужно периодически заключать договоры с подрядчиками, а услуги юристов там стоят дорого. Он правит условия договоров с помощью ИИ.

Например, вы скачали шаблон документа, но хотите сделать его жёстче для исполнителей или внести нюансы по платежам. По-хорошему вам нужен специалист, который умеет это делать. Вы не можете составить такой договор сами, особенно по английскому праву. А вот ИИ может, потому что он видел множество таких документов — и бесплатно поправит условия под ваш заказ.

Также читайте

Нейролирика. Как и зачем компьютеры пишут стихи

Лолита в нейросетях. Лингвист Борис Орехов — о том, как искусственный интеллект иллюстрирует прозу и подражает рассказам Владимира Набокова

Это, конечно, не стопроцентная замена юриста, но серьёзная помощь. И нейросеть неплохо справляется с такими задачами. По американским и английским документам есть достаточно большие открытые данные. Так, открытая база EDGAR (The Electronic Data Gathering, Analysis, and Retrieval) Комиссии по ценным бумагам и биржам США (The U.S. Securities and Exchange Commission, SEC) включает документы публичных компаний. Полагаю, разработчики использовали подобные открытые базы для обучения ИИ. В России таких баз нет, документов мало в открытом доступе, поэтому ИИ с российским правом работает хуже.

При этом у ИИ сложности с применением права, с юрисдикциями. Важно понимать, на какой территории действует закон и на кого распространяется. ИИ этого не понимает, может использовать неактуальные нормы, одну страну поменять на другую, — тут есть проблемы. Но мы хотя бы уже говорим об этом, и это некий прорыв.

— Получается, что в сфере права мы рассчитываем, скорее, на ассистирование со стороны ИИ, на выполнение рутинной работы?

— Да. А с учётом того, что у юристов 90% времени занимает рутинная работа, помощь искусственного интеллекта может сильно ускорить трудовой процесс. Но это только первый этап. В принципе смысл работы юриста — снижать транзакционные издержки, а ведь это можно делать и другими способами. Так, в ситуации договора есть два экономических агента, которые могут что-то не учесть или неточно сформулировать, и юрист нужен, чтобы им помочь. Но если бы у них была возможность договориться без юриста, они бы охотно это сделали.

Есть много ситуаций, в которых кажется, что можно обойтись без юриста, — например, если бы у нас был ИИ, который напрямую бы разрешал все конфликты между двумя сторонами. Представьте себе абсолютно непредвзятого судью с постоянным и единообразным пониманием права, да ещё к которому всегда можно обратиться, и он бесплатно скажет, как поступать в данной ситуации, и все стороны ему доверяют. Зачем нам тогда юрист? Это ждёт нас в будущем.

А судьи — кто?

— Как скоро правосудие будет вершить некий беспристрастный ИИ?

— Уже есть тестовые версии. У нас на факультете права действует рабочая группа, которая занимается расчётами того, что нужно будет ради этого поменять в законодательстве. В Китае, например, уже есть робот-судья по спорам с участием потребителей. Его близкий аналог — на маркетплейсе AliExpress. Когда вы открываете спор, ведь отнюдь не дорогостоящий юрист, а алгоритм решает, нужно ли вам вернуть 80 рублей за какой-нибудь сломанный штопор. Тут то же самое.

ИИ можно перенести и на более крупные споры. Например, банк не получил вовремя выплату по кредиту, и ему нужно пойти в суд, чтобы взыскать принудительно с заёмщика деньги. Таких споров у нас масса. Тут тоже может помочь ИИ — зафиксировать, что все доказательства есть, что документы подлинные и пр. Или взять, к примеру, камеры, которые начисляют автомобилисту штраф за ненадетый ремень. Тут тоже работают алгоритмы, а человек почти не участвует.

Также читайте

Автомобильное безремение. Почему до середины 1970-х водители и пассажиры в СССР оставались «не пристёгнутыми»

— ИИ тем самым может превратиться в источник норм, в том числе моральных. Не опасная ли это практика?

— Это очень сложный вопрос. Можно ли ограничить искусственный интеллект, например, применением права, а не правотворчеством? Но ведь любое толкование — это создание новых интерпретаций. Можем ли мы поручить ИИ систематизацию нашего права? Может ли искусственный интеллект создавать новые нормы по аналогии со старыми — и как это связано с традиционным представлением, что право производно от устройства общества? Вопросов много. Но если мы поставим задачу технически это сделать, то ИИ будет писать законы и исполнять их.

— И куда денем легион юристов?

— Хороший вопрос. Но у нас есть профессии, которые, как мне кажется, вымрут быстрее. Переводчикам, редакторам, тем же водителям осталось меньше. Посмотрим, куда они пойдут переучиваться, и пойдём туда же.

Качество письма

— Текст опубликованной вами статьи очень удачный, связный и гладкий. И всё же — довольно общего характера. Разве мы не ждём от юридических текстов конкретики, связанной с правовыми нормами и кейсами? Нужна и человеческая верификация, и интерпретация.

— Пока есть много проблем с прикладным применением ИИ. Мы много говорим про общий искусственный интеллект (Artificial General Intelligence), который теоретически должен решать широкий круг интеллектуальных задач, но пока он плохо справляется с ограниченным количеством узких задач. То, что он проходит какие-то тесты на знание медицины, права, ещё чего-то, ни о чём не говорит, — у него всё равно вероятность ошибки больше, чем у профессионала. Но, я думаю, в будущем разработчики ИИ включат туда механизм проверки источников. Уже сейчас анонсировали плагины для GPT, и один из них, насколько я помню, позволяет подгружать туда релевантную информацию.

Что касается моего текста, там просто тема была сформулирована достаточно широко. Если бы стояла задача написать подробный текст, где были бы ссылки на статьи о возможностях ИИ, то это было бы сложно. Во-первых, потому что загруженная в нейросеть информация — начала осени 2021 года. Она немного отстаёт от актуальной повестки. И, во-вторых, статья получилась бы очень большой. Но для получившегося объёма текста, как мне кажется, получилось неплохо.

— Вы сильно редактировали сгенерированный текст?

— Почти не редактировал. Я лишь поправил несколько мелочей, например, убрал слово «может», потому что искусственный интеллект его везде вставляет. Он любит писать «ИИ может выполнять такие-то задачи», «ИИ может применяться в...» вместо «ИИ решает задачи», «ИИ применяется в...», то есть избегает точных формулировок.

При этом тексты с помощью искусственного интеллекта уже давно пишут, но раньше, чтобы получилось прилично, за ИИ приходилось всё полностью переписывать. В моём случае четвёртая версия GPT сгенерировала текст, который почти не нуждался в правке.

— Текст немного напоминает базы типа «КонсультантПлюс» или систему «Гарант». Мы что-то уточняем в них, как в справочниках, но всё равно ждём человеческой интерпретации, потому что бывает сложно понять юридические формулировки и применить их к конкретным кейсам. Предполагает ли ИИ в будущем какое-то встроенное комментирование?

— Я не специалист в создании ИИ, чтобы сказать, как конкретно архитектура моделей-трансформеров может приспособиться под работу с конкретными документами. Возможно, там будет некий компонент, который тренируется для каждого пользователя отдельно. Также нужно какое-то пространство для исследования большего объёма информации. Сейчас, если кидаешь ИИ много текстов, он перестаёт запоминать первые тексты, а помнит только последнее, что ты ему отправлял. Но кажется, что это решаемо.

И, конечно, нейросеть способна подготовить выжимку из существующей информации. Как вы правильно сказали, в нормативных актах и судебной практике бывает сложно разобраться, в них происходят изменения. Есть ощущение, что ИИ может тут помочь. Он умеет упрощать сложные тексты, разворачивать информацию к пользователю, давать аналитику по большому количеству информации — например, в каких судебных делах было принято такое-то решение, а в каких — другое.

— Как определяется авторство сгенерированного текста?

— Это большая проблема, над которой юристы бьются уже много лет. С точки зрения классического авторского права, автором может быть только человек. Но и плагиатом может быть только копирование чужого материала в близком к оригиналу виде. Если вы возьмете 20 текстов и в их стиле напишете 21-й текст, это не может считаться плагиатом. С точки зрения авторского права, это не нарушение.

Но остаётся много вопросов. Например, можно ли считать текст, написанный ИИ, авторским текстом человека, который это опубликовал? Какую связь имеет текст с материалами, на которых ИИ тренировался? Может ли в таком тексте быть новизна, если он по определению не генерирует нового знания?

В целом с точки зрения юридической доктрины по авторству таких текстов нет однозначного ответа. Есть позиция закона, что если вы через ИИ что-то пропустили, то автор первоначального текста никаких требований не может вам предъявить. Если же говорить про перспективное регулирование — пока никто не знает, как это будет.

Идеи и галлюцинации

— Вернёмся к новому знанию, которое обычно ожидается от публикаций в научных журналах. В случае с ИИ мы, наверное, скорее рассчитываем на обработку информации, а не на новизну?

— В гуманитарных, в общественных науках это распространенная вещь. В области права часто вопрос не в том, какую ещё новую теорию сформулировать, а как правильно обобщить, интерпретировать существующие. Накопился огромный корпус нормативных актов, судебной практики, и кто-то должен заниматься их систематизацией и интерпретацией. И не только у нас так. Возьмём литературу. Есть литературоведы, которые предлагают новые идеи. Но очень многие занимаются поиском связей, смыслов. ИИ делает абсолютно то же самое.

— Кстати, о смыслах. Текст очень логичный, и всё равно ловишь себя на мысли: можно ли верить таким работам? И что там с проверкой фактов?

— ИИ пытается присылать источники данных — GPT-4 с этим лучше работает, чем предыдущие версии. Раньше алгоритм нередко выдумывал источники. Ты просишь подтвердить данные — он тебе присылает пять исследований, думаешь: «Ничего себе! Какой мощный инструмент!». Но начинаешь изучать и понимаешь, что не было таких исследований. Название работы собрано из других названий, университеты, в которых эти исследования якобы проходили, выдуманы. Это так называемая «галлюцинация ИИ». В четвёртой версии этого меньше, и он часто даёт настоящие источники.

— Как у ИИ с тонкой аргументацией — тем, что так интересно в юридических текстах, в речах адвокатов?

— Пока он в этом не очень хорош. ИИ отлично справляется с текстами общего характера, но когда ты просишь более детально подсветить какую-то цепочку рассуждений, велика вероятность, что будут проблемы, ошибки, в том числе в логике. ИИ ведь не производит логические операции, как человек. Он предугадывает то, что пользователь хочет увидеть. Именно поэтому так тяжело найти ошибку в тексте — ИИ хорошо предвидит наши желания, и нам кажется, что полученный текст — как раз то, чего мы хотим.

Обучающий разум

— Поговорим подробнее о пользе ИИ для юриста?

— Он может предлагать необычные идеи и источники, за руку проводит по новым для тебя сферам. Я не умею программировать на Python, но последнюю неделю с помощью ИИ я это делаю. Я не умел писать скрипты в Excel, и часть задач была для меня недоступна. Теперь такого ограничения нет. Я могу попросить ИИ написать мне скрипт. Он напишет, и это будет работать.

Зачем это нужно? Например, ИИ плохо работает с точными значениями. Возьмем, к примеру, коэффициент Жаккара [мера сходства] двух текстов. Оба текста разделяют на биграммы [последовательность из двух смежных элементов], по каждому тексту считают количество биграмм и потом по ним определяют их близость. Я сначала дал ИИ задание: вот два текста, определи их сходство. Но он каждый раз давал разные результаты. Тогда я попросил написать программу, которая это считает. И искусственный интеллект написал работающий скрипт на Python, который считает точные значения коэффициента! Скрипт-то уже не ошибётся, в отличие от ИИ.

Также читайте

Роман с вычислениями. Дельта Бёрроуза определила автора «Тихого Дона»

Получается, ты можешь спросить у нейросети: как мне решить такую-то задачу? Она подскажет несколько алгоритмов и напишет программу. И это порой гораздо полезнее, чем, например, фактчекинг, который мы можем сами делать вручную.

ИИ чтит Уголовный кодекс

— На каких текстах тренировали ИИ? Вы упомянули 2021 год, но часть законов могли измениться с того времени.

— Огромные модели-трансформеры типа GPT тренируются разработчиками на разных источниках. Я никак не влиял на то, что именно из обучающей выборки будет использовано. Разработчики в релизе сообщили, что использовали тексты, вышедшие до сентября 2021 года. Я предполагаю, что использовалась и информация из юридической литературы (это заметно по тому тексту, который ИИ сгенерировал в разделе про авторские права), и из технической литературы, научных статей по компьютерным наукам. Искусственный интеллект явно знаком с материалами об архитектуре нейросетей. Часть, посвящённая «механике» работы ИИ, написана со ссылками на литературу. В обучающей выборке, очевидно, были и новостные материалы.

Разработчики заявляют, что использовались не только англоязычные, но и русскоязычные источники. Так, ИИ явно знает Уголовный кодекс и наследие классических поэтов. Я просил его написать пользовательское соглашение в стиле древнегреческой поэзии — получалось очень смешно.

Оригинал пользовательского соглашения:

«Администрация Сайта вправе самостоятельно по своему усмотрению формировать и размещать список рекомендуемых Сообществ, исходя из их информационной ценности для пользователей и иных критериев. Администрация Сайта вправе исключить Сообщество из списка рекомендуемых в любое время и без объяснения причин».

Ответ ИИ:

Властитель Сайта, заботой земных судеб упорядочен,

Список Сообществ предлагает, мудрость в них излагая.

Критерии разнообразны, как звезды на небесном своде,

Исключить может Сообщество, без причины, как светлый день.

Русских писателей нейросеть тоже знает хорошо.

Запрос:

«Опиши содержание 105 статьи Уголовного кодекса [убийство] в стиле рассказов Исаака Бабеля».

Ответ:

«Ветер над степью кудрявился, и в его пенистых волнах разносилась история о статье сто пяти. Вспоминая сутолоку жизни, предаваясь воспоминаниям о встречах с людьми, жаждущими крови, с ужасом думал я о той статье. Статья говорила о смерти, о том зле, которое некоторые совершали, забирая жизнь у других. Убийство, вот что она олицетворяла, и не просто так, а с предумышленной жестокостью. Разнообразными были виды убийства, и статья их описывала: обычное, с низкими страстями, и с изощрением, как будто в каждом случае садист разыгрывал свою мрачную симфонию.

О судьбах людей, в лапах закона попавших, горькая правда в статье сто пяти была отражена. И когда-то говорили они, что их дела были обыденны, но теперь их имена прокляты, а судьбы — скованы кандалами закона. Статья сто пять оставалась в памяти, как грозный страж над нашими жизнями, несущий справедливость и страх в сердцах тех, кто во мраке своих душ забыл о любви к ближнему».

А вот с музыкальными группами — всё плохо. Текстов российских групп ChatGPT не знает и подражать им не умеет. С другой стороны, с новостями, кажется, всё довольно неплохо, он многие мои запросы пытался актуализировать.

Например, я попросил ИИ сгенерировать «Уголовный кодекс Волшебной страны» (для студентов), и он хорошо справился. Он придумал в том числе статью о «разжигании межвидовой розни» — в смысле, между эльфами, гномами, волшебниками и пр. Я попросил придумать судебную практику по этой статье. ИИ придумал дело, когда какого-то писателя из Волшебной страны обвинили в том, что он разжигал межвидовую рознь своими произведениями. И в ходе процесса обвиняемый умер в результате волшебного отравления, а его произведения все равно запретили. Так что делаю вывод — ИИ неплохо ориентируется и в новостной повестке.

— И всё же — то, что не самые новые редакции законов используются в обучающей выборке, не приводит ИИ к ошибкам?

— Приводит, да, но это меньшая ошибка, чем галлюцинации, о которых я говорил. Нейросеть часто просто выдумывает законы, и это большая проблема. Спрашиваешь по поводу нормы, а она изобретает и норму, и названия целых законов, а если ты не юрист, ты можешь принять это за чистую монету. Бывает непросто увидеть, где заканчивается реальность и начинаются галлюцинации.

— Значит, всё равно нужен эксперт, который точно укажет на фейки.

— Да, я бы как юрист не рекомендовал использовать ИИ для решения задач, у которых есть последствия. Можно готовить учебные кейсы, но если мы даём реальные задачи и из-за ошибки могут пострадать люди, то я не советую пользоваться только ИИ, надо обязательно проверять информацию.

Цифровые правоведы

— Поговорим об образовательной программе «Цифровой юрист» под вашим руководством. Как институционализируется в ней ИИ?

— Тонкий вопрос. Сергей Рощин ещё год назад сказал мне, что стоит попробовать использовать ИИ на программе (например, в качестве учебного ассистента). Я тогда решил, что Сергей Юрьевич просто визионерствует, потому что не знал, как это применить на практике. Но оказалось, что он был прав.

ИИ подходит для того, чтобы обобщать материалы для студентов, для разработки учебных задач. Ты можешь сделать вместо одного — сто вариантов. Можно попросить программу, которая будет проверять работы, соотносить их по какому-то признаку между собой. Можно сократить или расширить текст, который тебе нужен.

Но есть проблема: разработчики заблокировали этот сервис в России. Лицензия не позволяет его использовать в странах под санкциями. И в то же время настолько продвинутых российских аналогов пока нет. Мы ждём, когда появится какой-то аналог, который мы сможем использовать в учебном процессе — подключить его, например, к проверке студенческих работ, встроить его в информационную образовательную среду LMS. Но пока этого нет.

Нейросети и ИИ сейчас, пожалуй, самое актуальное в технологической повестке. У нас есть специальный предмет на «Цифровом юристе» — «Введение в ключевые технологии», и там уже половина курса — про нейросети. Будем надеяться, что наши компании, в том числе наш партнёр, «Сбер», предложат новые версии ИИ, оптимизированные под русский язык, российское законодательство и пр.

Сиквел проекта

— В заключение поговорим о реакции на эксперимент и о его перспективах?

— Я вижу, что интерес к теме есть, многие просят прислать статью. 3 апреля 2022 наш Центр трансформации юридического образования НИУ ВШЭ проводит встречу «ChatGPT для юриста и преподавателя права», на ней я в том числе буду рассказывать, как использовать эту модель в учебном процессе.

— Статья выйдет на английском?

— Мы вот-вот переведём статью — с помощью всё той же ChatGPT. Тексты по компьютерным наукам ИИ очень хорошо переводит. Мы опубликуем перевод в ResearchGate, социальных медиа и пр.

Всё это только начало. У нас будет много более глобальных экспериментов, в том числе, возможно, создадим что-нибудь специально для зарубежной аудитории.

— Каково будет продолжение эксперимента?

— Я написал уже несколько заметок, как используется GPT в науке и образовании. Сейчас я хочу сделать для этого отдельный Telegram-канал. Мы увяжем его контент с магистерской программой ЛигалТех / Legal Tech, в которой мы учим юристов информационным технологиям. Нескольким студентам я уже предложил попробовать поработать над созданием текста с помощью ИИ в качестве курсовых и дипломных работ.

Что касается научной повестки дня, у меня есть несколько задач по исследованию естественных языков программными методами (речь об NLP — Natural Language Processing). В частности, по анализу юридических текстов компьютерными методами. Я преподаю юридическое письмо, и это вечный вопрос — в чём специфика юридического текста, как обучить студента его составлять и т.д. В России этим почти никто не занимается, у нас мало эмпирических данных. Я думал заняться этим с учётом того, что GPT позволяет быстро программировать. Попробую написать что-нибудь на Python . Посмотрим, насколько далеко удастся продвинуться.
IQ

Литература по теме:

GPT-3, Osmanovic-Thunström Almira, Steingrimsson Steinn. Can GPT-3 write an academic paper on itself, with minimal human input?
Gao Catherine A., Howard Frederick M., Markov Nikolay S., Dyer Emma C., Ramesh Siddhi, Luo Yuan, Pearson Alexander T. Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers.
Подборка материалов в журнале Nature, где в соавторах указан искусственный интеллект.

Автор текста: Соболевская Ольга Вадимовна, 3 апреля, 2023 г.

Все материалы автора