• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сдвиг на данных

Елизавета Сивак — о том, уничтожат ли большие данные теорию в социальных науках

ISTOCK

Недавно в журнале Nature вышла большая редакционная статья о цифровизации и влиянии больших данных на социальные науки. Обширные комментарии для неё дала социолог, директор Центра исследований современного детства Института образования НИУ ВШЭ Елизавета Сивак. Она одной из первых в России примкнула к цифровой революции в социальных науках и, по сути, кардинально изменила свой подход к научной работе. IQ побеседовал с Елизаветой Сивак о том, как социологу освоить программирование, а также какие перспективы и риски несёт для науки тотальная цифровизация.

— Какие чувства Вы испытали, увидев свое имя в начале статьи в Nature?

— Смешанные. Во-первых, я обрадовалась, что статья в принципе вышла. Журнал брал интервью у меня в марте, когда история с коронавирусом ещё не была настолько громкой. А потом все стали писать только об этом. Казалось, что статья вообще уже не выйдет.

Во-вторых, она меня несколько удивила — мы как раз обсуждали с автором статьи те темы, которые обсуждаем с Вами сейчас, и я считала, что это будет какой-то другой формат, но в результате я была упомянута в статье лишь как исследовательница, примкнувшая к цифровой революции. Но в целом здорово, что статья появилась!

— Чем Ваш опыт привлек Nature? Что стало поводом обращения редакции именно к Вам?

— Наверное, в какой-то степени это элемент везения, возможно, стремления редакции обеспечить гендерный баланс в публикации. В области STEM (Science, Technology, Engineering, and Mathematics) есть проблема представленности женщин, традиционно считается, что это больше мужская область. Плюс географический охват, возможно, имел значение — чтобы фигурировали не только эксперты из Америки и Западной Европы. Но это всё мои предположения.

Кроме того, меня знали как участника Летней школы по социальным вычислительным наукам (Summer Institute in Computational Social Science), которую организуют по всему миру её выпускники. Я была на такой летней школе в Принстоне в прошлом году. 

Вычислительная социальная наука (computational social science) — исследовательское поле, в рамках которого поведение человека анализируется при помощи новых способов производства, обработки и методов анализа данных.

Потом мы с коллегами Софией Докука и Иваном Смирновым выиграли грант на организацию такого же события в НИУ ВШЭ. Готовились долго, пригласили интересных экспертов из США и Европы, но пока, к сожалению, пришлось отложить её проведение из-за пандемии. Думаю, что информация о нашей летней школе также могла способствовать тому, что журнал вышел на меня.

— В статье говорится, что Вы несколько лет назад разочаровались в традиционных методах исследования, работая над одним из своих проектов, в результате чего начали осваивать программирование и стали последовательницей цифровой революции в социальных науках. Расскажите подробнее, как это произошло?

— На самом деле к более глубокому изучению всего, что связано с вычислительными социальными науками, меня подтолкнул комплекс разных причин. Но эта история, коротко упомянутая в Nature, конечно, показательна. В 2015 году мы изучали с коллегами повседневные перемещения детей, чем они занимаются вне школы и в каком возрасте получают от взрослых «лицензии» на независимую мобильность.

Термин «лицензия» изначально появился в социологии профессий, где обозначал разрешение для определенной категории профессионалов на ряд действий, непозволительных в обычной общественной жизни для других людей. Например, врач-маммолог может ощупывать грудь женщин, патологоанатом вскрывать трупы — в обоих случаях их действия оправдываются контекстом профессии.

Опросы были не очень эффективны, люди в целом не обращают внимания на какие-то локации, которые посещают, это что-то в порядке вещей — например, детская площадка — она просто может не восприниматься как некое отдельное место. Мы давали детям бумажные карты, чтобы они отмечали места, но и это оказалось малоэффективно. Затем была работа с цифровыми картами с помощью специальной программы в компьютерном классе школы.

Но подростки имеют особенность шутить и вводить в заблуждение. Они могли писать, что отправились куда-то на ковре-самолёте или указывать, что были на кладбище. То есть и такой метод не очень срабатывал, хотя был лучше. Но в любом случае, какие-то места всё равно из памяти испытуемых выпадали.

Тогда мне Иван Смирнов указал на новаторский проект «Копенгагенская сеть», который фиксировал контакты в социальных сетях, демографические данные и местоположение около 1000 студентов каждые пять минут в течение пяти месяцев. После этого для меня стало очевидным, что социологам нужно изучать новые методы исследований.

— Вы освоили программирование. Насколько это сложно для социолога? 

— Тут нужно понимать, что подготовка в области современных социальных и даже гуманитарных наук (в НИУ ВШЭ, например, есть программа по Digital Humanities) уже давно включает в себя большой блок по количественным методам и информационным технологиям. Однако основ, которые мы осваиваем ещё в ходе базового образования, сейчас недостаточно. Всем известный SPSS (программа для обработки статистических данных), например, для многих задач не подходит. Так, для того, чтобы данные извлекать из ВКонтакте, чтобы их предобрабатывать и потом удобно анализировать, а главное, показывать другим исследователям, как и что конкретно было подсчитано, необходимо знать языки программирования типа Python или R.

Я осваивала программирование постепенно. Благо, сегодня для этого очень много ресурсов. Но тут важно понимать, что нет задачи из каждого социолога сделать программиста, да это и невозможно. Программирование всё-таки — непростая вещь. Я могу найти ошибки в своем коде, отладить его, могу сделать, чтобы он работал быстрее. Моих навыков программирования достаточно, чтобы решить те или иные задачи, которые есть в вычислительных социальных науках. До такого уровня, уверена, может дойти любой человек. Мы знаем, что люди не делятся в чистом виде на гуманитариев и технарей. Просто кому-то проще, а кому-то сложнее будет этому обучиться.

— Что важно учитывать в подготовке социологов с учетом цифровизации науки? 

— Студентов социологических факультетов нужно учить понимать, как в целом работает компьютер, удалённый сервер, с помощью каких команд с ними общаться. Важны навыки кооперации со специалистами технических направлений, работы в командах. Будущий социолог должен уметь ставить задачи программистам на понятном им языке.

Что такое вычислительная социальная наука

Ещё один момент — обучение визуализации (например, в виде различных графиков и карт) не только для представления результатов, но и для собственно анализа данных. Важно понимать, с какими данными мы имеем дело, и здесь простые описательные статистики не помогут. Часто понимания этого не хватает в процессе обучения.

— Как цифровые технологии влияют на развитие социальных наук, и что в конечном счёте это дает обществу?

— Во-первых, у социологов сегодня намного больше данных, и речь идет не только о социальных сетях. Большой массив данных — фотографии, тексты, которые раньше были в бумажном виде, сейчас оцифрованы. Также есть данные мобильных операторов, банков и т.д.

Во-вторых, появилась возможность обрабатывать эти огромные массивы данных, комбинировать источники и получать более точные и быстрые результаты. В-третьих, есть возможность проведения онлайн-экспериментов. Появляются новые способы сбора информации через, например, приложения, чат-боты. 

Что касается общества, то в той же статье в Nature рассказывается о том, как удалось выявить бедные районы в Руанде с помощью данных мобильных операторов. Это гораздо дешевле, чем проводить перепись населения. В богатых странах есть другие источники получения информации о бедности и богатстве, например, налоговые отчисления. В бедных государствах развит теневой сектор, на данные налоговых служб невозможно полагаться, а потому политические и экономические решения могут приниматься на основе переписи 40-летней давности.

Другой пример могу привести из нашей с коллегами статьи. Есть такая проблема — предпочтение мальчиков в семьях, как индикатор гендерного неравенства. У нас в России ситуация в области обеспечения гендерного равенства относительно неплохая по сравнению с другими странами. Но исследований в этом направлении мало. Известно, что на Северном Кавказе распространены селективные аборты, а что в остальной части России — не очень понятно. Мы решили посмотреть на примере социальных сетей — о ком родители чаще пишут в своих постах. Оказалось, что о сыновьях! Также посты о мальчиках собирают больше лайков. Вот картина того, как воспроизводится гендерное неравенство.

— В статье Nature обсуждается идея о том, что эра больших данных может положить конец теории во всех науках. Что Вы думаете об этом? 

— Я тут не вижу большой угрозы, на мой взгляд, она надуманная. Гораздо интереснее те исследования, которые опираются на знания и теории в области социальных наук, либо в которых есть комбинация разных данных.

Но судя по конференциям, на которых я бываю, видно, что появляется много работ, в которых просто демонстрируется описание полученного набора интересных фактов. Это, конечно, тоже важно, потому что результаты могут быть полезными в разработке теорий. Однако чаще всего мы нуждаемся в более глобальных знаниях — чтобы то, что мы получили, можно было вписать в какую-то общую картину и интерпретировать. 

Вторая вещь, которую я бы хотела сказать — наоборот, разные новые подходы усиливают науку. Например, такой подход как агентное моделирование позволяет с опорой на новые вычислительные возможности тестировать разные предпосылки, моделировать ситуации и в итоге развивать теорию. 

Что такое агентное моделирование

То есть сейчас появилось больше возможностей для уточнения разных теорий в области социальных наук. И я не вижу падения спроса на теории, потому что всегда нужна интерпретация и понимание механизмов. И здесь могут помочь только люди, которые владеют знаниями социальных теорий и способны ими оперировать.

— Какое у Вас мнение о борьбе за власть между условно традиционным лагерем учёных и учёными с математическим бэкграундом? На эту тему также сделан большой акцент в статье Nature.

— Теоретически такая борьба может быть, и она может выражаться в том, кто и какими данными владеет. Есть такая тенденция, что новые массивы данных всё чаще становятся закрытыми для университетов и научных центров. Ими владеют корпорации, внутри которых образуются свои исследовательские отделы. 

Есть риск, что наука может всё больше и больше перекочевывать в эти исследовательские отделы, потому что они владеют датасетами. Тогда этические вопросы могут острее встать, потому что мы не обо всём знаем, что происходит в частных корпорациях, хотя они и обязаны соблюдать этические принципы.

Также может быть борьба за гранты. Все это требует больших усилий по кооперации научных организаций и частного корпоративного сектора. 

— Что Вы думаете о проблеме защиты личных данных пользователей при проведении научных исследований? 

— Эта тема активно обсуждается в научных кругах. Но я хочу сказать, что здесь есть обратная сторона. Некоторые исследования могут не проводиться из-за опасений учёных нарушить этические принципы. И вот здесь важно понимание границ — что допустимо, а что нет, чтобы потенциально значимые для науки и общества исследования могли быть осуществимы.
IQ

Автор текста: Селина Марина Владимировна, 6 июля, 2020 г.