• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Данные госорганов мало пригодны для общественного использования

Имеющаяся в Рунете публичная государственная информация плохо отформатирована, структурирована и не пригодна для анализа. Это серьезная преграда на пути модернизации госуправления, борьбы с коррупцией, создания новых рынков информационных услуг. Доклад Ивана Бегтина «На пути к большим данным и открытым стандартам»

На состоявшейся в Высшей школе экономики конференцииData Science Summit Russia 2012 директор Некоммерческого партнерства «Информационная культура», автор многочисленных проектов и исследований в области Открытого государства Иван Бегтин представил доклад «Открытые государственные данные. На пути к большим данным и открытым стандартам», в котором рассказал о проблемах использования публичных государственных данных в Рунете гражданским обществом и указал пути их решения.

 

Что такое открытые данные

Открытые данные – это публичная государственная информация, предоставляемая публике в цифровом виде, посредством Интернета, в форме, допускающей последующий анализ и повторное использование. «Это своего рода «демократизация данных», когда данные проходят через жизненный круг сбора, структуризации, синдицируются для временного распространения, и предоставляются публике для ознакомления», – поясняет Бегтин.

 

Примерами подобных данных в России можно считать машиночитаемое раскрытие информации о государственных закупках, справочники адресной информации КЛАДР, раскрытие бюджета города Москвы в форматах, пригодных для использования сторонними структурами.

 

Крупнейшие массивы информации сконцентрированы на трех отечественных порталах: федеральной адресной информационной системы fias.nalog.ru (20ГБ), государственных закупок zakupki.gov.ru (180ГБ) и государственных заданий bus.gov.ru (50ГБ). Существуют и сотни других массивов данных, но гораздо меньшего масштаба.

 

Потенциал открытых данных

В одном из наиболее ключевых документов по раскрытию данных США, Циркуляре A-­130 есть следующее определение понятия государственная информация: «Государственная информация – это национальный ресурс. Она предоставляет обществу знания о государстве, обществе и экономике в прошлом, настоящем и будущем. Это обеспечивает подотчетность государства в выполнении государственных операций, в поддержании здорового развития экономики и само по себе является продуктом на рынке».

В большинстве развитых стран мира открытые данные и, в частности, открытые государственные данные – это часть государственной политики национальных правительств. Правительства публикуют данные онлайн на специальных порталах, таких как порталы data.gov.uk в Великобритании или data.gov.au Австралии и data.govt.nz в Новой Зеландии. Такие порталы есть более чем в 60 странах и общее их число более 150.

Наличие данных позволяет:
- общественным организациям – осуществлять контроль за деятельностью органов власти,
- бизнесу – создавать новые и развивать существующие информационные продукты,
- программистам – получать «топливо для идей» в создании новых программ,
- гражданам – использовать созданные программы для повышения личного комфорта,
- государственным и муниципальным органам власти – привлекать граждан и бизнес к созданию новых продуктов позволяющих экономить государственные средства.

Фактически, открытые данные – это возможность для разработчиков менять и улучшать государство, рассматривать его как платформу для создания собственных сервисов.

Организации эффективно пользуются менее чем 5% имеющихся в их распоряжении данных

Существует тысячи примеров того, как благодаря использованию информации, которую органы власти и мировые организации публиковали в открытом доступе, появлялась возможность анализировать социальное и экономическое состояние стран и регионов, оперативно реагировать на происходящие изменения в обществе, отвечать на политические и экономические вызовы, стоящие перед государством.

 

В США программисты используют данные лечебных учреждений по вспышкам заболеваний, по количеству больных, перерабатывают их и продают крупным фармацевтическим фирмам. Те очень заинтересованы в такой информации, поскольку она позволяет им выстраивать логистику и тактику спроса-предложения. В Австралии появился проект «Городские тенденции», где в наглядной визуальной форме представляется информация о том, в каком социальном и экономическом состоянии находится какой-либо регион страны.

 

Электронные документы Рунета не пригодны для пользователя

Несмотря на то, что к 2012 году российское государство де-факто стало электронным государством, где 99% документов готовится в электронном виде, это не привело к желаемым результатам: прозрачным процедурам госуслуг и госзакупок, снижению затрат на обслуживание физлиц и бизнеса в госорганах, повышению открытости государства, констатировал Бегтин. Имеющиеся в интернете данные зачастую плохо структурированы и работе с ними мешает большое число технологических ограничений.

По оценкам аналитиков, госорганизации эффективно пользуются менее чем 5% имеющихся в их распоряжении данных. Это вызвано тем, что остальными данными пользоваться слишком дорого или, зачастую, вообще непонятно как, прежде всего с технической, «машинной» точки зрения. Проблема непонятности государственной информации для простых людей также является одной из существенных проблем общения представителей государства и граждан.

Неструктурированность онлайн-данных является серьезным препятствием и для модернизации системы госзакупок, поскольку не позволяет проводить эмпирический анализ данных и выявлять узкие места в законе, и для анализа эффективности реализации федеральных целевых и госпрограмм.

Комментируетдиректор Института анализа предприятий и рынков ВШЭ Андрей Яковлев:

Для того чтобы досконально понять, как работает система госзакупок в нашей стране и в чем ее узкие места, как повысить эффективность управления госзакупками, необходимо провести эмпирический анализ информации. Потому что система госзакупок – это, прежде всего, очень четкий, аккуратный, корректный и глубокий анализ данных, проводимый с целью понимания текущей ситуации.

 

В России для подобного анализа логично было бы использовать данные, размещаемые на портале zakupki.gov.ru. Но наши попытки в течение 2009-2010 гг. получить доступ к этим данным, включая официальные сообщения в Минэкономразвития, к сожалению, не дали успеха. Дизайн портала позволял найти информацию о конкретном поставщике или заказчике, а также о конкретной закупке, но не давал возможности для простых аналитических операций (включая расчет средних цен по однородным товарам), а также для выгрузки данных об условиях закупок для групп товаров. С начала 2011 года на обновленной версии портала, наконец, появились работающие функции поиска, однако сайт пока по-прежнему не представляет возможностей для систематического анализа данных.

 

При этом, если будет нормально поставлен анализ даже той информации, которая сейчас собирается в рамках ресурса zakupki.gov.ru, можно будет понять, что из себя представляют заказчики, что они заказывают, каковы стартовые и итоговые цены лотов, то есть контролировать не все на свете, а отдельные вещи. Например, сопоставив стартовые и итоговые цены, и увидев большую разницу, обнаружить демпинг или же другие нарушения. И в итоге отследить и понять, зачем выделяются деньги, и на что они на самом деле тратятся.

 

Власть не ведет диалог с потребителями информации

По мнению Бегтина, ключевая проблема кроется в отсутствии диалога между органами власти и потребителями информации. Нет вовлечения разработчиков в использование данных, нет государственной политики в области открытых стандартов, научное сообщество не вовлечено в использование в исследованиях и публикациях открытых данных по результатам исследований.

Как следствие, одна из основных причин непригодности большого массива онлайн данных для чтения и анализа – отсутствие или недостаточное количество удобных для работы форматов документов. Так, самыми популярными форматами на сегодняшний день являются форматы Excel, XML, CSV, DOC, PDF и HTML. Изредка встречаются веб-сервисы (например, реестр такси Москвы) и почти полностью не используются такие форматы как RDF и Linked Data. Именно последние форматы – связанные данные, формирующие контекст – наиболее пригодны для машинного анализа.

Описание одной вещи или понятия не должно быть изолированным и самодостаточным, поясняет Бегтин, оно должно содержать ссылки на связанные понятия, по данным можно «бродить» точно так же, как по страницам сети. Такую возможность предоставляют интернет-порталы в формате Linked Data, где пользователь имеет возможность не только получить все связанные ссылки на одной странице, но ссылки, ведущие на данные, представленные в едином стандартном формате. Наглядным примером Linked Data может служить сайт DBPedia, дающий возможность получить доступ к полной базе данных Википедии в едином конвертированном формате.

Большинство же информационно-статистических сайтов Рунета позволяют рядовому пользователю загружать статистические данные в двух форматах: XLS и пригодном для последующей обработки XML, однако, загрузка доступна для каждого из тысяч или десятков тысяч статистических индикаторов лишь по отдельности. Возможности скачать группу индикаторов единым массивом у рядового пользователя нет. Подобная проблема, в частности, у Росстата. По словам Бегтина, главная проблема с порталом Росстата состоит в том, что при его разработке не учитывалось, как эти данные могут использоваться внешними пользователями. На сайте отсутствуют механизмы автоматизированной выгрузки данных, фактически нет API, не говоря уже об интеграции статистических данных в среду Linked Data и перевод данных на технологии Semantic Web.

 

Как помочь развитию темы открытых данных в России

Чтобы получить открытое государство с открытыми данными необходимо два условия: диалог власти с обществом и принятие нормативно-правовых документов, требующих раскрытия информации в открытых стандартах.

«Раскрытие информации должно практически сразу сопровождаться конкурсами для разработчиков. Не обязательно при этом ставить на эти конкурсы огромные призы. Будьте уверены, что и при максимальном призе в 100 тысяч рублей желающих будет немало», – предлагает Бегтин. При этом, напоминает он, открытые данные – не единственная тема открытого государства, есть ещё и публичные дискуссии. Чиновникам следует выносить на гражданское обсуждение свои нормативные документы и их проекты. Благо платформ для обсуждений уже очень много.

«Необходимо помнить, что открытые данные можно разделить на две условные категории: данные для гражданского контроля и данные для общественной пользы. К первой можно отнести данные о госзакупках, контрактах, доходах чиновников и так далее. Ко второй – списки больниц, аптек, адреса строек, городскую статистику, данные о школах и так далее. Если в первом случае раскрытие информации может натолкнутся на противодействие руководства, то в случае данных для общественной пользы таких ограничений быть не должно. Поэтому начать можно хотя бы с данных для общественной пользы», – резюмирует эксперт.

См. также:

 

1.Открытые данные: новый рынок информационных услуг 

2. Бегтин И. В. ZAKUPKI.GOV.RU. «Открытые данные как общественное достояние»

3. Бегтин И. В. ZAKUPKI.GOV.RU. «Открытое государство»

4. Бегтин И. В. ZAKUPKI.GOV.RU. Проблемы качества

5. Бегтин И. В., Потемкин М. И. «Текущее состояние информационного обеспечения государственных и муниципальных закупок»

6. Яковлев А. А., Демидова О. А., Балаева О.Н. WP1 "Институциональные проблемы российской экономики", М.: НИУ ВШЭ, 2012.

14 ноября, 2012 г.