На состоявшейся в Высшей школе экономики конференцииData Science Summit Russia 2012 директор Некоммерческого партнерства «Информационная культура», автор многочисленных проектов и исследований в области Открытого государства Иван Бегтин представил доклад «Открытые государственные данные. На пути к большим данным и открытым стандартам», в котором рассказал о проблемах использования публичных государственных данных в Рунете гражданским обществом и указал пути их решения.
Открытые данные – это публичная государственная информация, предоставляемая публике в цифровом виде, посредством Интернета, в форме, допускающей последующий анализ и повторное использование. «Это своего рода «демократизация данных», когда данные проходят через жизненный круг сбора, структуризации, синдицируются для временного распространения, и предоставляются публике для ознакомления», – поясняет Бегтин.
Примерами подобных данных в России можно считать машиночитаемое раскрытие информации о государственных закупках, справочники адресной информации КЛАДР, раскрытие бюджета города Москвы в форматах, пригодных для использования сторонними структурами.
Крупнейшие массивы информации сконцентрированы на трех отечественных порталах: федеральной адресной информационной системы fias.nalog.ru (20ГБ), государственных закупок zakupki.gov.ru (180ГБ) и государственных заданий bus.gov.ru (50ГБ). Существуют и сотни других массивов данных, но гораздо меньшего масштаба.
В одном из наиболее ключевых документов по раскрытию данных США, Циркуляре A-130 есть следующее определение понятия государственная информация: «Государственная информация – это национальный ресурс. Она предоставляет обществу знания о государстве, обществе и экономике в прошлом, настоящем и будущем. Это обеспечивает подотчетность государства в выполнении государственных операций, в поддержании здорового развития экономики и само по себе является продуктом на рынке».
В большинстве развитых стран мира открытые данные и, в частности, открытые государственные данные – это часть государственной политики национальных правительств. Правительства публикуют данные онлайн на специальных порталах, таких как порталы data.gov.uk в Великобритании или data.gov.au Австралии и data.govt.nz в Новой Зеландии. Такие порталы есть более чем в 60 странах и общее их число более 150.
Наличие данных позволяет:
- общественным организациям – осуществлять контроль за деятельностью органов власти,
- бизнесу – создавать новые и развивать существующие информационные продукты,
- программистам – получать «топливо для идей» в создании новых программ,
- гражданам – использовать созданные программы для повышения личного комфорта,
- государственным и муниципальным органам власти – привлекать граждан и бизнес к созданию новых продуктов позволяющих экономить государственные средства.
Фактически, открытые данные – это возможность для разработчиков менять и улучшать государство, рассматривать его как платформу для создания собственных сервисов.
Организации эффективно пользуются менее чем 5% имеющихся в их распоряжении данных
Существует тысячи примеров того, как благодаря использованию информации, которую органы власти и мировые организации публиковали в открытом доступе, появлялась возможность анализировать социальное и экономическое состояние стран и регионов, оперативно реагировать на происходящие изменения в обществе, отвечать на политические и экономические вызовы, стоящие перед государством.
В США программисты используют данные лечебных учреждений по вспышкам заболеваний, по количеству больных, перерабатывают их и продают крупным фармацевтическим фирмам. Те очень заинтересованы в такой информации, поскольку она позволяет им выстраивать логистику и тактику спроса-предложения. В Австралии появился проект «Городские тенденции», где в наглядной визуальной форме представляется информация о том, в каком социальном и экономическом состоянии находится какой-либо регион страны.
Несмотря на то, что к 2012 году российское государство де-факто стало электронным государством, где 99% документов готовится в электронном виде, это не привело к желаемым результатам: прозрачным процедурам госуслуг и госзакупок, снижению затрат на обслуживание физлиц и бизнеса в госорганах, повышению открытости государства, констатировал Бегтин. Имеющиеся в интернете данные зачастую плохо структурированы и работе с ними мешает большое число технологических ограничений.
По оценкам аналитиков, госорганизации эффективно пользуются менее чем 5% имеющихся в их распоряжении данных. Это вызвано тем, что остальными данными пользоваться слишком дорого или, зачастую, вообще непонятно как, прежде всего с технической, «машинной» точки зрения. Проблема непонятности государственной информации для простых людей также является одной из существенных проблем общения представителей государства и граждан.
Неструктурированность онлайн-данных является серьезным препятствием и для модернизации системы госзакупок, поскольку не позволяет проводить эмпирический анализ данных и выявлять узкие места в законе, и для анализа эффективности реализации федеральных целевых и госпрограмм.
Комментируетдиректор Института анализа предприятий и рынков ВШЭ Андрей Яковлев:
Для того чтобы досконально понять, как работает система госзакупок в нашей стране и в чем ее узкие места, как повысить эффективность управления госзакупками, необходимо провести эмпирический анализ информации. Потому что система госзакупок – это, прежде всего, очень четкий, аккуратный, корректный и глубокий анализ данных, проводимый с целью понимания текущей ситуации.
В России для подобного анализа логично было бы использовать данные, размещаемые на портале zakupki.gov.ru. Но наши попытки в течение 2009-2010 гг. получить доступ к этим данным, включая официальные сообщения в Минэкономразвития, к сожалению, не дали успеха. Дизайн портала позволял найти информацию о конкретном поставщике или заказчике, а также о конкретной закупке, но не давал возможности для простых аналитических операций (включая расчет средних цен по однородным товарам), а также для выгрузки данных об условиях закупок для групп товаров. С начала 2011 года на обновленной версии портала, наконец, появились работающие функции поиска, однако сайт пока по-прежнему не представляет возможностей для систематического анализа данных.
При этом, если будет нормально поставлен анализ даже той информации, которая сейчас собирается в рамках ресурса zakupki.gov.ru, можно будет понять, что из себя представляют заказчики, что они заказывают, каковы стартовые и итоговые цены лотов, то есть контролировать не все на свете, а отдельные вещи. Например, сопоставив стартовые и итоговые цены, и увидев большую разницу, обнаружить демпинг или же другие нарушения. И в итоге отследить и понять, зачем выделяются деньги, и на что они на самом деле тратятся.
По мнению Бегтина, ключевая проблема кроется в отсутствии диалога между органами власти и потребителями информации. Нет вовлечения разработчиков в использование данных, нет государственной политики в области открытых стандартов, научное сообщество не вовлечено в использование в исследованиях и публикациях открытых данных по результатам исследований.
Как следствие, одна из основных причин непригодности большого массива онлайн данных для чтения и анализа – отсутствие или недостаточное количество удобных для работы форматов документов. Так, самыми популярными форматами на сегодняшний день являются форматы Excel, XML, CSV, DOC, PDF и HTML. Изредка встречаются веб-сервисы (например, реестр такси Москвы) и почти полностью не используются такие форматы как RDF и Linked Data. Именно последние форматы – связанные данные, формирующие контекст – наиболее пригодны для машинного анализа.
Описание одной вещи или понятия не должно быть изолированным и самодостаточным, поясняет Бегтин, оно должно содержать ссылки на связанные понятия, по данным можно «бродить» точно так же, как по страницам сети. Такую возможность предоставляют интернет-порталы в формате Linked Data, где пользователь имеет возможность не только получить все связанные ссылки на одной странице, но ссылки, ведущие на данные, представленные в едином стандартном формате. Наглядным примером Linked Data может служить сайт DBPedia, дающий возможность получить доступ к полной базе данных Википедии в едином конвертированном формате.
Большинство же информационно-статистических сайтов Рунета позволяют рядовому пользователю загружать статистические данные в двух форматах: XLS и пригодном для последующей обработки XML, однако, загрузка доступна для каждого из тысяч или десятков тысяч статистических индикаторов лишь по отдельности. Возможности скачать группу индикаторов единым массивом у рядового пользователя нет. Подобная проблема, в частности, у Росстата. По словам Бегтина, главная проблема с порталом Росстата состоит в том, что при его разработке не учитывалось, как эти данные могут использоваться внешними пользователями. На сайте отсутствуют механизмы автоматизированной выгрузки данных, фактически нет API, не говоря уже об интеграции статистических данных в среду Linked Data и перевод данных на технологии Semantic Web.
Чтобы получить открытое государство с открытыми данными необходимо два условия: диалог власти с обществом и принятие нормативно-правовых документов, требующих раскрытия информации в открытых стандартах.
«Раскрытие информации должно практически сразу сопровождаться конкурсами для разработчиков. Не обязательно при этом ставить на эти конкурсы огромные призы. Будьте уверены, что и при максимальном призе в 100 тысяч рублей желающих будет немало», – предлагает Бегтин. При этом, напоминает он, открытые данные – не единственная тема открытого государства, есть ещё и публичные дискуссии. Чиновникам следует выносить на гражданское обсуждение свои нормативные документы и их проекты. Благо платформ для обсуждений уже очень много.
«Необходимо помнить, что открытые данные можно разделить на две условные категории: данные для гражданского контроля и данные для общественной пользы. К первой можно отнести данные о госзакупках, контрактах, доходах чиновников и так далее. Ко второй – списки больниц, аптек, адреса строек, городскую статистику, данные о школах и так далее. Если в первом случае раскрытие информации может натолкнутся на противодействие руководства, то в случае данных для общественной пользы таких ограничений быть не должно. Поэтому начать можно хотя бы с данных для общественной пользы», – резюмирует эксперт.
См. также:
1.Открытые данные: новый рынок информационных услуг
2. Бегтин И. В. ZAKUPKI.GOV.RU. «Открытые данные как общественное достояние»
3. Бегтин И. В. ZAKUPKI.GOV.RU. «Открытое государство»