Анализ текстов поможет увидеть будущее

Карта будущего

Текст-майнинг или интеллектуальный анализ текстов (ИАТ) – это направление в сфере Big Data, занимающееся получением информации из коллекций неструктурированных полнотекстовых документов с помощью методов обработки естественного языка и машинного обучения.

Программные продукты ИАТ используются в самых разных областях – от маркетинга и мониторинга настроений в соцсетях до бизнес-разведки и прогнозирования развития науки, технологий и техники, отметил Илья Кузьминов в докладе «Текст-майнинг: анализ полнотекстовых источников и построение онтологий для целей форсайта».

«К примеру, вам нужно понять, как оценивают перспективу того или иного рынка высокотехнологичной продукции к 2020 году, – рассказал Кузьминов о возможном применении текст-майнинга для нужд форсайта. – Программа анализирует большой объем экспертных отчетов, где встречаются нужные синтаксические конструкции, слова-маркеры и близкие к ним по смыслу слова». Алгоритмически выявляются все контексты, где сказано, что, например, по данным исследования, к такому-то году некий показатель достигнет определенного количественного значения. Даже можно вывести на одну страницу все прогнозы разных авторитетных агентств, например, по цене на нефть, и увидеть, сложную картину противоречий в прогнозах. Это уже предмет для научного анализа».

На сегодняшний день в НИУ ВШЭ уже разработано и протестировано собственное программное обеспечение для определения прогнозных оценок, а также для поиска «майлстоунов» (ключевых технологических событий из прошлого) по 31 тематическому направлению и собрана база данных, измеряемая несколькими десятками тысяч документов. При этом делается акцент на качество анализируемых полнотекстовых источников, а не на их количество. «Можно было бы собрать несколько миллионов или даже десятков миллионов документов из открытых источников с помощью сканирования веба, но там будет очень много "мусора", поэтому пока мы концентрируемся на подборке качественных источников, их экспертной валидации», – пояснил Кузьминов.

Сейчас, по словам ученого, формируются словари высокоспецифичных (маркерных) слов, фраз и их синонимических рядов для создания модуля машинной тематической классификации полнотекстовых источников. Также проводится работа над автоматическим формированием принципиально нового продукта Форсайт-центра – структурных таймлайнов научно-технологического развития. «Это некая карта будущего, где прописаны события, которые нас ожидают в ближайшие тридцать лет», – пояснил спикер. Это прикладной продукт, которым заинтересовались два министерства и ряд корпоративных заказчиков.

Еще одна функция текст-майнинга в форсайте – поиск в научных текстах так называемых «слабых сигналов» – сообщений о событиях, которые сейчас воспринимаются, как незначимые и неопределенные, но в перспективе способны радикально изменить будущее.

Одним из способов поиска слабых сигналов является выявление неологизмов. Для поиска таких сообщений необходим полный перечень слов какого-либо языка. Словарь, включающий имена собственные, географические названия, названия химических веществ и биологических видов, типичные опечатки и орфографические ошибки. Сопоставляя слова и словосочетания из научного журнала или из материалов конференции с этим огромным словарем, а также создав несколько дополнительных специфических фильтров, можно вычислять кандидаты в неологизмы, то есть слова, только зарождающиеся в данном языке. Проанализировав значения новых слов, можно спрогнозировать появление отраслей, которые полностью изменят будущее. Ведь, как напомнил эксперт, слова «летчик» или «робот» появились в литературе едва ли не раньше, чем явления, которые они означали.

Технологии важно не только создать, но и внедрить. Текст-майнинг позволяет определить, какие научные понятия перетекают из науки в практику управления, а какие – нет. Для этого, в упрощенном варианте, берутся две коллекции источников: с одной стороны, научные статьи, с другой – прогнозно-аналитические и программные документы международных организаций и национальных отраслевых ведомств.

Так можно увидеть, что какой-то кластер взаимосвязанных понятий начал активно обсуждаться в научной литературе уже десять лет назад, но до сих пор очень редко задействован в современных документах, связанных с принятием стратегических решений в сфере международного регулирования или госуправления. Это может свидетельствовать о недостаточно интенсивном диалоге науки и практики в данной сфере. Если система понятий, появившаяся буквально в прошлом году, уже активно засвечивается в документах, связанных с госуправлением, то область науки, в которой это понятие возникло, находится под пристальным вниманием лиц, принимающих решения.

О чем молчит эксперт

Методы текст-майнинга вполне применимы не только для прогнозирования будущего, но и для решения проблем в настоящем. Одно из перспективных направлений, над которым работают ученые НИУ ВШЭ – это определение профессиональных профилей экспертов с помощью ИАТ. Для этого, в самом примитивном варианте, берется «эталонный» набор текстов по определенному направлению, скажем, по сельскому хозяйству, и машинным образом формируется перечень из, например, ста самых употребляемых и при этом высокоспецифичных для данной тематической области слов, словосочетаний и фраз (или, по-научному, н-грамм). Экспертам также предлагается составить ранжированный перечень наиболее важных словосочетаний, которые, по их мнению, характеризуют данную отрасль.

Два списка сравниваются. Если совпадения существенны, и эксперт привел наиболее употребительные слова, то перед нами эксперт широкого профиля, который в целом разбирается в отрасли, не углубляясь в детали. Если словосочетания, выбранные экспертом, относятся к какой-то специализированной области, имеет место «смещенность» выборки, значит это «узкий специалист», который видит отраслевую тематику через призму своей ниши. Наконец, если человек предлагает перечни словосочетаний и слов, которые никак не соотносятся с тем, что отобрала машина по эталонному, верифицированному и, что немаловажно, большому перечню тематических документов, можно предположить, что он может быть в недостаточной мере компетентен в рассматриваемой области.

Специалистами НИУ ВШЭ уже разработано действующее программное обеспечение для решения подобных задач и отработаны необходимые алгоритмы, отметил автор доклада. Обработаны и «полностью разбиты на предложения и словосочетания» с созданием соответствующих баз данных несколько десятков тысяч документов. «Число может показаться не очень большим – в некоторых системах говорят о десятках миллионов документов, – комментирует эксперт НИУ ВШЭ. – Но мы очень тщательно подходим к подбору. Не запускаем робот, который соберет из интернета все, что есть в свободном доступе, а пользуемся малодоступными источниками, в том числе закрытыми источниками Высшей школы экономики». На данный момент, идет разработка удобного интерфейса, который позволил бы каждому пользователю самостоятельно загружать документы в любом удобном ему файловом формате и получать кастомизированные результаты.

Схожим образом, текст-майнинг позволяет отбирать резюме кандидатов на ту или иную вакансию. Ведь в каждом виде деятельности есть набор характерных слов и фраз. Значит, резюме, публикации и прочую информацию соискателей можно тестировать на наличие и частоту употребления специфических слов-маркеров. Можно составлять некие «словарные паспорта» должностей.

С помощью ИАТ удобно проводить базовый анализ и ранжировать резюме по наличию в них грамматических ошибок, жаргонизмов или оборотов, не приемлемых в деловой переписке. «Есть вакансии, на которые приходит до нескольких тысяч резюме, – пояснил Кузьминов. – Текст-майнинг позволяет за несколько секунд отобрать самые безупречные, над которыми люди тщательно работали, выверяя каждое слово».

См. также:

Форсайт должен стать гидом по будущему
Инновации в России часто остаются на бумаге
Форсайт и дорожная карта будущего

Автор текста: Гринкевич Владислав Владимирович, 11 декабря, 2015 г.

Все материалы автора