• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Роман с вычислениями

Дельта Бёрроуза определила автора «Тихого Дона»

К 115-летию со дня рождения Михаила Шолохова (1905-1984) лингвисты Борис Орехов из НИУ ВШЭ и Наталья Великанова из МГУ подтвердили — именно он является истинным автором знаменитого романа-эпопеи о донских казаках. Ученые атрибутировали произведение с помощью меры межтекстового расстояния, предложенной Джоном Бёрроузом. Это простой и эффективный метод для установления или уточнения авторства текстов. Статистический анализ показал, что между «Тихим Доном» и другими произведениями Шолохова дельта Бёрроуза минимальна. То есть их писал один и тот же человек. От романов других писателей «Тихий Дон» отделяет «дистанция огромного размера».

Дело о неизвестном авторе

«А написал эту записку немец. Вы заметили характерное построение фразы: «Такой отзыв о вас мы отовсюду получили»? Француз или русский так не напишет. Только немцы так бесцеремонно обращаются со своими глаголами», — так начинается один из первых рассказов о приключениях доктора Ватсона и Шерлока Холмса. Намётанный глаз частного сыщика тут же определил национальность автора записки — короля Богемии, а сама она стала спусковым крючком нового расследования.

Атрибуция произведения — установление авторства или получение каких-либо сведений об авторе и условиях создания текстового документа.

Впрочем, проблема определения авторства всё-таки чаще встаёт не перед детективами, а перед филологами и историками. Так, например, до сих доподлинно неизвестно, сколько авторов у памятника китайской литературы «Сон в красном тереме» — один Цао Сюэцинь или ещё и его редакторы Гао Э и Чэн Вэйюань. В США не утихают споры об авторстве «Записок Федералиста» — знаменитого толкования Конституции США — был ли это Александр Гамильтон или Джеймс Мэдисон? А самый знаменитый кейс — существовал ли на самом деле Уильям Шекспир, а также кто именно написал пьесы под этим именем и сколько всего было у них авторов? 

Помимо произведений минувших эпох есть и современные случаи. Долгое время литературная общественность мучилась вопросом — является ли знаменитая писательница Джоан Роулинг и малоизвестный автор Роберт Гэлбрейт одним и тем же лицом? Лингвисты доказали принадлежность криминального романа «Зов кукушки» перу Роулинг задолго до официального раскрытия инкогнито создательницы Гарри Поттера. 

Ну а в СССР и России уже больше 80 лет продолжается дискуссия об истинном авторе знаменитого романа «Тихий Дон», за который, как часть большого эпоса о донском казачестве, в 1965 году Михаил Шолохов получил Нобелевскую премию по литературе. Действительно ли его создал великий советский писатель или же он просто похитил черновики казака Фёдора Крюкова?

Борьба с привидениями

Первый том эпопеи «Тихий Дон», опубликованной в 1928-1940 годах, Шолохов написал очень рано — в двадцать с небольшим лет. Гениальность и совершенно не юношеская зрелость произведения вызвали зависть у многих советских литераторов той эпохи. Сразу же пошли слухи о возможном плагиате, якобы молодой писатель просто присвоил рукопись неизвестного белого офицера, расстрелянного большевиками. Другие шептались, что не обошлось без ghostwriter, мол, это сам Александр Серафимович, автор «Железного потока» и главный редактор журнала «Октябрь», написал роман, а Шолохов выступил как прикрытие, чтобы не портить реноме маститого писателя.

К слову, подобные опасения были оправданы. Травля Шолохова быстро обрела идеологический характер. На молодого писателя, который старался показать события на Дону без прикрас, во второй половине 1920-х обрушились ревнители «классовой чистоты литературы». Они не могли простить ему сочувствия казачеству, которое во многом не приняло революцию. В итоге третий том романа задержали в печати, что ещё больше подогрело слухи о плагиате. Но Шолохова поддержал Максим Горький — и к 1932 году новая часть эпопеи всё же вышла. А писатель продолжил работу над четвертым томом. По сути, в обстановке, когда первые книги у него уже попытались «отобрать».

В претенденты на авторство выдвигались даже совершенно несопоставимые по своему дарованию писатели. Однако к началу XXI века определилась тройка главных «подозреваемых»: Фёдор Крюков, Александр Серафимович и Виктор Севский (Вениамин Краснушкин). За Шолоховым обычно оставляли авторство только последних частей романа.

Кандидатура донского писателя, участника Белого движения, казака Фёдора Крюкова возникла еще в 1937 году, когда его самого уже давно не было в живых, а Шолохова чуть не арестовали по сфальсифицированному обвинению в контрреволюционном заговоре на Дону. В 1970-е годы «крюковская» версия всплыла вновь в вышедшей в Париже книге «Стремя «Тихого Дона» (Загадки романа)» филолога Ирины Медведевой-Томашевской (ее версию также поддержал Александр Солженицын). Проанализировав сюжет романа, литературовед нашла в нём признаки двойного авторства. Другим исследователям на роль Шолохова больше приглянулся журналист, свидетель Гражданской войны на Дону Виктор Севский. Третьи настаивали на авторстве Серафимовича. 

Споры продолжались до конца XX века, когда были обнаружены рукописи первых двух томов «Тихого Дона», считавшиеся потерянными. С того момента сомнений в авторстве Шолохова осталось мало. Тем не менее, часть исследователей упорствовала и продолжала утверждать, что Шолохов списал черновики у подлинного творца эпопеи. Рассудить сторонников противостоящих лагерей могли лишь убедительные и доказавшие свою эффективность на других текстах математические доказательства.

Выход математиков

Математическую статистику исследователи-гуманитарии поначалу воспринимали как панацею от так называемого confirmation bias — предвзятости в подборе доказательств. Достаточно быстро выяснилось, что и с её помощью можно подгонять данные под уже готовый ответ. Однако численные методы позволили превратить неосязаемые филологические категории в нечто измеримое, привнести в «науки о духе» научность в том же смысле, как и в корпусе естественных дисциплин. 

Первенство в применении матметодов принадлежит российским филологам. Ещё в начале ХХ века они старались сделать свою науку точной, формализуемой. Исследователь Борис Ярхо ещё в докомпьютерную эру с помощью карандаша и бумаги статистически анализировал тексты. Довольно быстро новые методы пришли и в обсуждение шолоховского вопроса.

Многие, например, пытались «измерить» стиль Шолохова. Ведь, помимо биографических свидетельств и «сопутствующих» роману текстов (дневниковых записей, писем, выступлений и пр.), в текстологии можно и нужно опираться на стилометрию — количественный анализ особенностей авторского стиля — используемую лексику, построение предложений, пунктуацию и пр.

Стиль — математически измеримая вещь. Лингвист Борис Орехов показал это с помощью нейролирики. Он натренировал нейросеть на стихах классиков — от Гомера до Мандельштама, а затем дал ей сочинять собственные стихи — в стиле того или иного автора. В них отсутствовал привычный для человеческих стихов смысл, но оказался узнаваемым стиль. Например, люди легко определяли стихи «под Высоцкого» по резким и отрывочным фразам с экспрессивными словами, присущими напористой поэтике барда.

Помимо литературоведов «поверить алгеброй гармонию» пробовали историки (известно исследование Андрея Венкова) и математики. Так, кандидат физико-математических наук из Екатеринбурга Андрей Зенков разработал собственный довольно спорный метод стилометрии и заявил, что «Тихий Дон» написал не Шолохов.

Отметились на этом поприще и родители тополога Анатолия Фоменко, печально знаменитого своей лженаучной «Новой хронологией». Валентина и Тимофей Фоменко высчитали, что «Донские рассказы», «Поднятая целина», поздние произведения Шолохова, а также две последних части нобелевского романа написаны самим Михаилом Александровичем. А вот первая и вторая книги и даже начало третьей — это уже не он.

Свой подход к анализу «Тихого Дона» предложили и скандинавские ученые. В своём исследовании они сопоставили длину предложений в текстах Шолохова, Крюкова и в «Тихом Доне». Выяснилось, что у Фёдора Крюкова в среднем предложение состоит из 13,9 слов, у Шолохова — 12,9, а в донской эпопее — 12,4 слов. На основании этих данных авторы сделали вывод, что произведения Михаила Шолохова «обнаруживают в этом смысле больше сходства с «Тихим Доном», чем произведения Крюкова».

Лингвист Борис Орехов отмечает, что «отсутствуют какие-либо практические гарантии, что средняя длина предложений вообще является релевантным для атрибуции авторства параметром текста».

Авторы работы произвели и другие подсчеты. Например, сравнили распределение длины предложений по количеству слов. Оказалось, что во всех текстах больше всего предложений из 6–10 слов. Но «это, прежде всего, относится к произведениям Шолохова и к «Тихому Дону», где количество таких предложений достигает соответственно 33,2% и 32,8%», — поясняют исследователи. А вот для текстов Крюкова этот показатель — 26,1%. В целом кривые, относящиеся к Шолохову и к «Тихому Дону», «имеют тенденцию к совпадению, тогда как кривая текстов Крюкова отклоняется от двух других».

Общая проблема всех этих исследований в одном: ни один из их авторов доподлинно не  доказал, что используемые ими метрики действительно решают проблему атрибуции текста. Ученые предлагают верить их выводам только потому, что они вообще использовали инструменты математической статистики.

«Все попытки количественного ответа на вопрос об авторстве "Тихого Дона" состояли в том, что исследователи каждый раз изобретали свой метод атрибуции до или в процессе доказательства», — поясняет Борис Орехов. —  «А решать две задачи одновременно — разработки метода и определения авторства — сложно. Это как "война на два фронта"».

Триумф математической лингвистики

Дабы не изобретать велосипед, стоит обратиться к давно наработанному арсеналу математической лингвистики. Одним из самых известных, простых и уже отлично себя зарекомендовавших методов является дельта Бёрроуза. Его предложил в 2002 году в своей статье «Дельта: мера стилистической разницы и проводник к определению авторства» специалист по компьютерной лингвистике Джон Бёрроуз.

Суть метода довольно проста. На первом этапе формируется выборка из наиболее часто употребимых в тексте слов. Она может включать от 100 до 5000 лексических единиц. Обычно это самые распространенные местоимения, глаголы, существительные, предлоги, союзы («я», «было», «все», «на», «сказал» и пр.).

Для каждого из них рассчитывается частота по анализируемому тексту — условно говоря, уникальный «отпечаток пальца» автора, а затем средняя частота слова в выборке и её стандартное отклонение. После этого из первого показателя вычитается второй, а разность делится на третий. В итоге исследователь получает стандартизированную оценку (z-score) каждого слова, или, простыми словами — ему приписывается определенный вес.

Имея на руках z-оценки одного и того же набора слов для двух текстов, учёный получает возможность сравнить их между собой. Для этого необходимо посчитать манхэттенское расстояние между ними или, собственно, дельту Бёрроуза. Математическое описание её довольно нетривиальное, а формулу вы можете увидеть на картинке ниже.

Тем не менее понять суть этой метрики нетрудно. Представьте себе шахматную доску со стоящей на одном из полей ладьёй. Манхэттенское расстояние между двумя полями шахматной доски равно минимальному количеству ходов, которое необходимо ладье, чтобы перейти из одного поля в другое (если допустить, что за один ход ладья может двигаться только на одно соседнее поле).

На этой же доске мы можем расположить и отдельные слова из двух текстов. Если расстояние между ними будет равно 1 или даже 3, то скорее всего их писал один человек. А вот если 4-8, то, вероятно, они принадлежат перу совсем разных людей. Последовательно сравнив два массива слов, можно вычислить многомерное расстояние между двумя текстами. Чем оно меньше, тем более они похожи. А значит с большой долей уверенности оба текста можно приписать одному автору.

Таким образом, дельта Бёрроуза позволяет измерить стилистическую разницу текстов. Она чётко различает не только разных авторов, но и разные произведения одного и того же писателя. Это один из лучших способов атрибуции текстов.

Именно дельту Бёрроуза использовали, чтобы доказать принадлежность романа «Зов кукушки» Джоан Роулинг. В целом за последние годы вышли десятки исследований, в которых этот метод успешно использовался в стилометрии. И прежде всего — в атрибуции текстов.

Юбилейная дельта

Для атрибуции «Тихого дона» Борис Орехов и Наталья Великанова также решили воспользоваться проверенным методом дельты Бёрроуза. Они задали набор из 200 наиболее частотных слов, получили стандартизированные оценки, а затем подсчитали расстояния между текстами как самого Михаила Шолохова («Донских рассказов», новеллы «Судьба человека», романов «Они сражались за Родину» и «Поднятая целина»), так и писателей-современников Шолохова (Михаила Булгакова, Леонида Леонова, Андрея Платонова, Всеволода Иванова, Николая Островского, Александра Фадеева), а также претендентов на авторство «Тихого Дона» — Федора Крюкова, Виктора Севского и Александра Серафимовича. После чего произвели сравнение расстояний для каждой пары текстов.

Метрика для произведений одного автора всегда меньше, чем для работ разных писателей. Расстояние от «Мастера и Маргариты» до «Белой гвардии» Булгакова оказалось очень небольшим — всего 0,7. Но от «Донских рассказов» Шолохова до первого тома «Тихого Дона» оно еще меньше — лишь 0,57. Это значит, что оба текста писал один и тот же человек.

Сопоставление с «Донскими рассказами» особенно важно потому, что они создавались почти одновременно с первым томом нобелевского романа и тематически близки. Ранее именно начальную часть эпопеи «антишолоховеды» как раз и «отбирали» у писателя. А вот расстояние между произведениями Фёдора Крюкова и «Тихим Доном» очень велико (от 0,89 до 1,27). У них совершенно разный стиль. Есть ощутимая дистанция с Серафимовичем (от 0,9 до 1,17) и Севским (от 1,09 до 1,29).

Древо писателей

«Дистанцию» между текстами и авторами хорошо визуализирует дендрограмма. Самые близкие по стилю произведения объединяются в одну ветку. Похожие произведения разных авторов — тоже недалеко друг от друга (причем рассматриваются не только романы, но и рассказы, пороговый объем  — 10 тысяч слов; ниже его дельта Бёрроуза дает ненадёжные результаты).

На дендрограмме видно, например, что очень разные романы Булгакова оказались рядом, то есть их писал один и тот же человек. Так же обстоит дело с Леоновым и Всеволодом Ивановым. Тексты Крюкова образуют свою собственную отдельную ветвь, и от «Тихого Дона» она очень далека. Серафимович и Севский обосновались визуально недалеко от «Тихого Дона», однако на разных ветках.

Зато «Донские рассказы» Шолохова и роман «Тихий Дон» оказались в одном кластере. У них максимальное сходство. И это самое существенное доказательство авторства. Впрочем, не обошлось и без сюрпризов. «Некоторая странность наблюдается в том, что «Донские рассказы» и поздние тексты Шолохова («Судьба человека», «Они сражались за Родину») оказались в разных частях дерева», — замечает Борис Орехов.

Главные же выводы исследования: «Тихий Дон» и «Донские рассказы» бесспорно принадлежат перу одного человека. У всех томов «Тихого Дона» один автор. И это точно не Севский или Крюков. Наиболее вероятный кандидат — Шолохов. У других писателей просто нет шансов. По крайней мере, математика их точно не даёт. А это лучший подарок на юбилей знаменитого певца донского казачества!
IQ

 

Авторы исследования:
Борис Орехов, кандидат филологических наук, доцент Школы лингвистики НИУ ВШЭ
Наталья Великанова, кандидат филологических наук, МГУ им. М.В.Ломоносова
Authors: Daniil Kuznetsov, Olga Sobolevskaya, May 26, 2020