Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура»


НазваниеЛекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура»
страница1/4
ТипЛекция
  1   2   3   4
05.09.2013  Лекция №1

Открытые данные: введение

Часть 1

Иван Бегтин

Я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура», при поддержке Открытого Правительства и, отчасти по его инициативе, мы открываем «Школу открытых данных» в России. Это просветительский и образовательный проект, в котором мы будем рассказывать о том, что такое открытые данные и как с ними работать. У нас на занятиях будет как базовый теоретический материал, так и материал очень практический, т. е. мы будем показывать, как именно собирать данные, как их визуализировать, как с ними работать далее. У нас будет множество лекций, а также какое-то количество мастер-классов. Часть наших лекций мы хотим сделать публичными. У нас заявок на участие было, честно говоря, сильно больше, чем мы смогли позвать сюда людей, потому что зал здесь у нас не очень большой. Надеюсь, для последующих лекций нам удастся найти зал побольше. А некоторые лекции мы хотим вообще сделать публичными, чтобы на них могли прийти вообще все желающие.

Итак, сегодня будет вступительная лекция, состоящая из двух частей. Первую прочитает Ирина Радченко, доцент и сотрудник Высшей школы экономики. Ирина - специалист по открытой науке, открытому доступу и открытым данным применительно к технологиям связанных данных. Это очень интересная тема, которую мы будем в перспективе обсуждать более углубленно. В первой части будет вводный обзор того, что такое вообще открытые данные.

Во второй части я буду рассказывать об открытых данных в международной практике том, как люди во всем мире работают с открытыми данными, о том, где почерпнуть информацию, где узнать больше, в каких сообществах имеет смысл поучаствовать, откуда получать самую последнюю актуальную информацию и где находятся обучающие материалы, которые все мы используем. В конце своей лекции я проведу небольшой мастер-класс касательно Хаба открытых данных. На примере одного конкретного портала открытых данных, развернутого нами, я покажу, как с ним работать на практике. После этого вам будет дана часть задания, о котором я уже подробнее расскажу во время своей лекции.

Теперь передаю слово Ирине.

Ирина Радченко

Иван меня уже представил, так что я не буду повторяться и перейду сразу к интересному, а самое интересное, о чем я хочу вам рассказать, это открытые данные.

Это то, что входит в сферу моих профессиональных интересов, и то, чем я занималась на протяжении последнего года очень интенсивно. Прежде всего, хотела бы акцентировать внимание на том, что лекция у меня вводная и обзорная, соответственно о многих вещах я буду говорить по верхам. Но, тем не менее, в моей презентации будут ссылки на тематические информационные источники и на образовательные ресурсы. Ссылки на дополнительную литературу я уже выложила в блоге «Школы открытых данных». http://opendataschool.ru/2013/09/introduction-to-open-data/

Итак, я хотела бы начать с краткого обзора мирового движения открытых данных. Надо понимать, что открытые данные зародились не в России, т. е. это мировое движение. Открытые данные — это фактически новая информационная реальность. В 2009 году ИТ-директор

администрации президента США Вивек Кундра запустил федеральный портал открытых данных. Вслед за этим был запущен федеральный портал открытых данных в Великобритании. По всему миру стали запускаться порталы открытых данных, и там стали публиковаться наборы данных. На данный момент времени некоторое количество порталов открытых данных представлены, как в Европе, так и в Австралии, и в Африке, и в Южной Америке. Есть и в России, но пока что не федерального значения.

Что такое открытые данные?

Итак, что же такое открытые данные? Это данные, представленные в машиночитаемом виде и доступные для повторного использования без ограничений со стороны публикатора. Эти данные выложены в Интернете под открытыми лицензиями, которые позволяют их повторно использовать. Есть несколько видов открытых лицензий, в том числе лицензии, разработанные различными международными организациями: Creative Commons (http://creativecommons.org/choose/),  Open Data  Commons (http://opendatacommons.org/licenses/), но есть также открытые лицензии, разработанные государственными органами, как например Open Government Licence (http://www.nationalarchives.gov.uk/doc/open-government- licence/version/1/open-government-licence.htm), разработанная правительством Великобритании.

Открытые данные обязательно должны быть представлены в машиночитаемых форматах. Это может быть формат XLS или CSV, KML, XML, JSON, RDF или другой машиночитаемый формат. Надо понимать, что все эти форматы разные и они предназначены для разных целей.
Пятизвездочная модель Тима Бернерса-Ли

В 2010 году Тим Бернерс-Ли разработал пятизвездочную модель открытых данных (http://www.w3.org/DesignIssues/LinkedData.html). Он условно разделил данные на 5 категорий открытости (http://5stardata.info/). Первой ступени открытости данных он присвоил 1 звездочку. Это просто данные, предоставляемые в интернете под открытыми лицензиями (например, в формате PDF). Две звездочки - это уже когда данные представлены в машиночитаемых форматах и пригодны для повторного использования, что очень важно, и к этому мы обязательно вернемся. Следующий этап (три звезды) - это когда данные представлены в непроприетарных, то есть в открытых форматах. Если на предыдущей ступени вполне годилось использование формата Excel для таблиц, то на этом этапе мы уже переходим к формату CSV. На четвертой ступени (4 звезды) формат данных подразумевает, что данные выкладываются в RDF, стандартизацией которого занимается консорциум W3C. И 5 уровень - это когда предыдущие данные, выложенные в формате по модели представления данных RDF, объединяются в так называемые пространства связанных открытых данных (Linked Open Data). То есть, по сути, мы перед собой видим огромнейшую распределенную базу данных из разнородных информационных источников.

И с этого ракурса мы можем проследить эволюционирование веба. Сначала были представлены документы в вебе, затем - представление веба в виде гипертекста и гипертекстовых ссылок. И следующий этап - веб данных (Web of Data) - это когда открываются данные и затем эти данные объединяются в единое международное виртуальное пространство связанных данных (Linked Data).

Надо сказать, что тенденция к увеличению этого пространства нарастает весьма большими темпами. На данный момент связанные открытые данные  охватили самые различные области знаний.
Публикаторы и пользователи

Теперь, если мы вернемся к открытым данным и посмотрим на них с точки зрения того, а что же это такое, что же за информационная среда, в которой они находятся, что они позволяют делать, какие новые возможности они предоставляют людям, - то мы можем рассмотреть всю эту среду с точки зрения двух сторон. С одной стороны находятся публикаторы данных. Это могут быть органы исполнительной власти, различные научные организации, граждане и так далее. С другой стороны, это пользователи, которые применяют открытые данные в своей работе и тем самым создают обратную связь по использованию открытых данных. При грамотном применении этой обратной связи можно существенно повысить ценность этих данных. То есть разработчики программного обеспечения, обрабатывая сырые данные, могут отследить ошибки, возникающие при их использовании, сообщить об этом публикатору, а публикатор, в свою очередь, сможет скорректировать неточности этих данных.
Экосистема открытых данных

Это все является экосистемой открытых данных. Очень важно понимать, что открытые данные это не явление, находящееся где-то в вакууме, и искусственным образом созданное. Это все является единой информационной средой, в которой есть разработчики и пользователи открытых данных, есть люди, которые занимаются обучением, обязательно присутствуют представители бизнеса, которые тоже используют эти данные в своих целях. Вся эта экосистема должна работать таким образом, чтобы совершенствоваться и предоставлять все больше возможностей по использованию открытых данных.

Таким образом, у нас получается следующая цепочка: обучение рядовых пользователей (хотя бы даже и “с нуля”) или, может быть, более продвинутых пользователей (например, программистов), но именно с акцентом на использование и предоставление данных; затем - использование данных в различных целях; и, наконец, это все объединяется в единую экосистему.
Источники открытых данных

Где же искать открытые данные в интернете? Да, открытые данные уже сейчас представлены в Сети. Я условно поделила представленные в интернете открытые данные на 3 типа. Прежде всего, это порталы международных организаций, собирающие у себя данные, поступающие, в том числе, и от официальных государственных органов; далее, это государственные порталы федерального уровня; а также порталы, созданные усилиями гражданских активистов. Надо понимать, что эта классификация весьма условная, но в общих чертах она описывает ситуацию в применении к любой стране, где есть движение открытых данных.
Примеры порталов

Я приведу несколько примеров, для того чтобы вы могли дома проработать материал, посмотреть порталы, в том числе, и международных организаций. Итак, это крупная международная Организация Экономического Сотрудничества и Развития (http://www.oecd.org/statistics/), это также ООН — Организация Объединенных Наций (http://data.un.org/Default.aspx), это Всемирный Банк (http://data.worldbank.org/) и другие организации.

Есть замечательный ресурс http://datos.fundacionctic.org/sandbox/catalog/faceted/, содержащий в себе список каталогов порталов открытых данных. Здесь можно посмотреть порталы открытых данных со всего мира. Кстати, обратите внимание, что здесь применяется классификация открытости “по звездам”, т. е. можно посмотреть, как данные представлены в формате Linked Open Data (связанных открытых данных), так и более низкие уровни публикации;  и вообще посмотреть, как устроены эти порталы, в каком виде выложены дата-сеты (наборы данных), поизучать конкретные каталоги открытых данных. Например, каталог открытых данных Евросоюза (http://open-data.europa.eu/); или федеральные государственные порталы - например, каталог открытых данных США (https://explore.data.gov/catalog/raw), каталог государственных открытых данных Великобритании (http://www.data.gov.uk/data), каталог открытых данных Чехии (http://www.opendata.cz/) и другие каталоги.

И, наконец, мы пришли к порталам открытых данных, которые выкладывают гражданские активисты. У нас в России такой портал открытых данных присутствует, это Хаб открытых данных http://hubofdata.ru/, о котором Иван расскажет в подробностях чуть позже.
Представление данных

Надо сказать, что все эти порталы открытых данных стремятся работать в соответствии с некоторыми... ну, пока это еще сложно назвать стандартами, но, тем не менее, экосистема открытых данных постоянно совершенствуется в направлении некой унифицированности. В частности, это происходит на уровне разработки все более усовершенствованного программного обеспечения. Большинство государственных порталов федерального уровня представлены в настоящий момент системой управления данными CKAN (http://ckan.org/), разработанной в организации Open Knowledge Foundation (http://okfn.org/). На эту систему перешли, в числе прочих, и порталы открытых данных США и Великобритании, два флагмана в  движении открытых данных. Существуют также очень известные мультимодельные гибридные системы вроде Virtuoso (http://virtuoso.openlinksw.com/). Эта система специально предназначена для работы именно со связанными открытыми данными. Если система CKAN ориентирована просто на представление данных, то Virtuoso — это уже следующий шаг по представлению  связанных данных.

Процесс работы с данными

Весь процесс работы с открытыми данными я условно поделила на 4 части. Это, прежде всего, получение данных - то, о чем я уже рассказала. Следующие ступени — это обработка и анализ данных. Это то, что нам предстоит изучить глубже в последующих лекциях. И это уже как раз та часть, за которую ответственны сами пользователи открытых данных, то есть все мы, граждане. И, наконец, представление результатов работы с данными. Это самое интересное: что же мы можем получить из открытых данных? Какую историю можем рассказать на основе открытых данных? Как ее представить? Будет ли это текстовый формат? Или это будет история в визуальном формате? В любом случае это будет аналитический продукт.
Сферы применения открытых данных

Я хочу подчеркнуть, что существует множество вариантов использования открытых данных. Прежде всего, это применение в бизнес-анализе. Самый яркий пример, который тут же приходит на ум, это когда у вас, например, есть предприятие и у вас есть некие внутренние данные деятельности этого предприятия, но вам, конечно же, важно знать и то, что происходит в мире. Открытые данные вам в этом должны помочь. То есть, вы анализируете данные из открытых источников и как эти данные соотносятся с внутренними данными предприятия. Вы не обязаны открывать данные своего предприятия (это коммерческие данные), но при этом у вас всегда есть возможность получить информацию извне и сравнить ее с внутренний информацией, и на основе этого сравнения принять важное решение по работе предприятия.

Следующий вариант использования открытых данных очень важный, и мы специально заострили на нем внимание в Школе открытых данных. Это журналистика данных. Кстати, следующее занятие в Школе как раз будет посвящено именно ей. Это отдельная междисциплинарная область знаний. В нее входят как поиск и предоставление цифровых историй, так и журналистское расследование на основе открытых данных, и другие не менее интересные вещи.
Еще одна область применения открытых данных - это научно-образовательная среда. Открытые данные предоставляют очень широкие возможности для научно-образовательных сообществ. Какие? Прежде всего, это предоставление открытых научных данных. Представьте, что у вас всегда под рукой находятся некие массивы научных открытых данных, с которыми вы можете проводить научные исследования прямо не выходя из дома. То есть для этого даже необязательно состоять в научных лабораториях. Ведь если у вас есть аналитический инструментарий по использованию открытых данных в научных исследованиях, вы можете уже на основе представленных источников вести научные исследования. Да, я понимаю, что это звучит, возможно, излишне оптимистично, но тем не менее я надеюсь, что к этому все придет, и это все будет. Тем более, что мировые тенденции в этой области существуют. И я думаю, что в других лекциях как раз уделю внимание именно открытым научным данным. Это глубокая и интересная тема, которая сейчас активно развивается на Западе, в том числе и в США.

Следующий момент — это взаимодействие граждан и органов исполнительной власти. Точнее, это то, как в идеале осуществляется это взаимодействие в гражданском обществе, когда власть прислушивается к гражданам, получает от них какой-то ответ и реагирует на него. На самом деле, это очень важный аспект взаимодействия, это часть той самой экосистемы открытых данных, одна из её важнейших составляющих - предоставление открытых  государственных данных.
Перспективы

Я подготовила вопросы для дальнейших размышлений http://opendataschool.ru/2013/09/introduction-to-open-data/, которые разместила в интернете и даже получила уже некоторый отклик. Я могу сразу сказать, что эти вопросы очень глобальные. Я сейчас зачитывать их не буду, потому что думаю, что вы их прочтете сами. Это, возможно,  несколько визионерские вопросы, но, тем не менее, я считаю, что открытые данные - это следующий шаг не только по работе в интернете, но это следующий шаг по работе в различных сферах, т. е. фактически многие профессии могут вполне поменять вектор своего развития. Яркий пример - это профессия библиотекаря. Казалось бы профессия, ранее не пользующаяся большой популярностью, но теперь, с появлением цифровых библиотек, цифровой библиотекарь становится очень важной и значимой профессией.
Заключение

В блоге “Школы открытых данных” я разместила http://opendataschool.ru/2013/09/introduction-to-open-data/ полезные ссылки, касающиеся тем, затронутых в моей сегодняшней небольшой вступительной лекции. Там же выложены вопросы для дальнейших размышлений. Я бы с удовольствием вступила с вами в диалог по этим вопросам, потому что здесь важно понимать следующий аспект. Нельзя быть всезнайкой во всех областях знаний, тем более что перед нами открываются новые направления развития информационных технологий. Нужно постоянно учиться, нужно постоянно иметь в себе некий стимул не только познавать новое, но и никогда не бояться спрашивать, как именно оперировать данными, как их анализировать, какой использовать новый аналитический инструментарий. Это очень важно. Я могу сказать по своему опыту, что аналитического инструментария очень много. В основном, он представлен, конечно же, на английском языке и часто не переведен на русский язык, то есть придется так или иначе знакомиться с инструментами для работы с открытыми данными на английском языке. Это тоже надо иметь ввиду.

И основная моя мысль - в добрый путь! Я очень рада, что вы пришли, что у вас есть интерес к открытым данным, к работе с открытыми данными. Я думаю, что как раз на примере открытых данных, на примере новых областей знаний мы с вами совместно узнаем много нового. И я очень надеюсь на обратную связь от вас.


Сейчас я вам обрисовала некую направляющую стратегию освоения темы открытых данных. И в ней можно выделить 2 уровня. Один уровень, условно говоря, визионерский, это тема открытости и открытого доступа к данным, это отдельная тема для дискуссий, но тем не менее надо эту тему держать в голове; у нас есть открытая наука, которая тоже подразумевает обязательный открытый доступ к массивам научных данных; то есть то, что дает некий потенциал для проведения научных исследований вне лабораторий. А второй уровень - это тема взаимодействия с государством при помощи открытых государственных данных.

Обсуждение
Вопрос из зала: В чем смысл разграничения проприетарных и непроприетарных форматов данных? Почему в пятизвездочной модели они разведены на разные ступени?

Ирина Радченко: Существует такое понятие, как открытость — openness. Когда мы говорим про открытость, настоящую открытость, здесь надо понимать следующие вещи. Я приведу пример из журналистики данных, хотя то же касается и любой науки. Как многие из вас знают, для ученых в экспериментах всегда важна повторяемость, т. е. всегда должна быть возможность повторить эксперимент. Для того чтобы повторить эксперимент и получить достоверный результат, необходимо, чтобы у нас был доступ к исходным данным, т. е. в случае с журналистикой данных - к открытым данным. Чтобы доверять журналистской истории, нам нужно посмотреть, на чем основана была эта история, откуда был получен этот источник. Для этого необходимо, чтобы данные были выложены открыто, в формате открытых данных, чтобы каждый мог проверить и убедиться, что да, действительно здесь нету вранья, эти данные вполне достоверны и правдоподобные, им можно доверять, история изложена грамотно, и выводы сделаны верные.

Комментарий из зала: Если вопрос касался именно отличия CSV от Excel, то оно состоит в том, что в Excel может быть добавлено форматирование, т. е. это формат жесткий и из него нельзя выкинуть форматирование. Любой экселевский файл гарантированно дает возможность, например, шрифт изменить, еще что-то, - то есть вставить туда дополнительную информацию. А CSV, это просто текст через запятую, он всегда одинаково гарантированно читаемый и он не содержит ничего лишнего - шрифтов, колонок и т. д.

Комментарий из зала: Еще эта разграничение открытых и проприетарных форматов важно в применении к разработке программного обеспечения для работы с данными.

Ирина Радченко: Да, если мы говорим про открытость, у нас всегда должна быть предусмотрена возможность модифицировать программное обеспечение, и обязательно должна быть открытая лицензия, в том числе те лицензии по открытому программному коду, о которых я не упоминала в лекции, потому что я говорила именно о лицензиях, ориентированных прежде всего на базы данных. При этом обратите внимание, я даже не говорила про лицензию Creative Commons Zero - это лицензия, ориентированная именно на научные массивы данных (http://pantonprinciples.org/). В моей лекции были упомянуты лицензии, ориентированные именно на данные. Если мы говорим про лицензии, ориентированные на программное обеспечение, то это так называемые GNU-лицензии (http://ru.wikipedia.org/wiki/GNU_General_Public_License) и прочие. То есть для пользователя, который занимается той же журналистикой данных разница  между проприетарным форматом и открытым форматом данных, пожалуй, не столь существенна. Она скорее существенна с точки зрения разработки программного обеспечения.

Сейчас, кстати, еще идут споры в западных научных кругах, ориентированных на работу с данными (это Open Knowledge Foundation и прочие организации) о форматах, какой формат представления данных использовать: простой или более сложный. У любого формата есть свои плюсы и минусы. Более сложные форматы RDF и OWL, работающие уже с семантикой, подразумевают более высокий порог вхождения программистов и разработчиков, но при этом дают больше возможностей. Более простые форматы типа JSON или того же XML, с одной стороны, проще в использовании, но при этом они не предоставляют семантической компоненты, т. е. они выполняют другие задачи. Но с точки зрения доктрины открытости, конечно же, непроприетарный формат важен прежде всего потому, что у этих форматов есть больше возможностей и соответственно, если говорить глобально, более высокий потенциал достоверности. Всегда, когда есть возможность покопаться в исходном коде, есть возможность посмотреть, как работает система. Все программисты прекрасно знают, что всегда выше доверие к такому программному обеспечению. Но эта дискуссия уже на другую тему, потому что, как о проприетарного, так и о непроприетарного ПО есть тоже свои плюсы и минусы, с точки зрения формирования бизнес-моделей и т.д. Но это уже выходит за рамки нашей темы.

Вопрос из зала: А кто в России сейчас является драйверами открытых данных, т.е. кто двигает это направление?

Ирина Радченко (указывая на Ивана Бегтина): Ну вот вы сейчас видите драйвера. Еще есть, конечно же, Открытое Правительство.

Иван Бегтин: Давайте скажем честно, что все наши усилия они были бы бессмысленны, если правительство не пошло нам в какой-то момент навстречу. Как бы я ни ценил и ни любил себя самого, я скажу честно, что без Михаила Абызова (а открытые данные - это задача Открытого Правительства) у нас бы ничего не получилось и в том числе не появилось бы большого количества порталов, которые мы теперь можем использовать.

Ирина Радченко: Я думаю еще, что это все-таки комплексная вещь. Отчасти я надеюсь на такой подход “говори-говори, и когда-нибудь во рту станет слаще даже от слова халва”. Есть ведь множество замечательных инициатив, в том числе и у Минэкономразвития, которые дали толчок именно для того, чтобы министерства и различные российские органы государственного управления выкладывали наборы данных. Мы все видим, как это происходит, мы можем за этим наблюдать, и использовать эти данные. Мы даже проводили Экспедицию данных в рамках нашей импровизированной школы дата-журналистики, и мы убедились, что, действительно, по крайней мере некоторые наборы данных, выложенные Министерствами, вполне пригодны для обработки и на их основе можно делать визуализацию, и предоставлять различный материал для аналитиков. Это действительно так. И я предлагаю вам присоединиться к нашей компании, потому что у нас очень дружеская атмосфера, если какие-то вопросы есть, они разъясняются. И мы всегда рады всем участникам.

Вопрос из зала: Ирина, а как соотносятся открытые данные и авторские права?

Ирина Радченко: Это очень концептуальный и очень важный вопрос. Тут есть о чем подумать, и есть о чем подискутировать. Об авторском праве и четвертой части Гражданского Кодекса Российской Федерации. Это давнишняя и трепетная история. Вы понимаете прекрасно, что у нас нету готовых открытых лицензий в России. Это действительно важный момент, то есть организации могут выкладывать данные с открытыми лицензиями, и в основном они выкладывают данные с лицензиями Creative Commons.

Но еще раз: вопрос про авторское право - очень глубинный, важный и профессиональный. Он важен для всего этого движения открытости. Так что ответить на него сейчас в двух словах я не смогу.

Вопрос из зала: Вы сказали, что открытые данные в основном инициировались через Открытое правительство, которое было создано Медведевым, а если Медведева сменят, то что будет с открытыми данными?

Ирина Радченко: Можно я поступлю, как зануда? Смотрите, во-первых, это сказала не я. Во-вторых, я в своей лекции как раз и пыталась донести ту мысль, что это движение - это лавина, которую не остановить. Я уже даже не про Российскую Федерацию, я про именно перспективу и про работу с данными. Здесь основная мысль в следующем: если умеешь работать с данными — ты на коне. Если не умеешь работать с данными, то тут уже труднее. Умение работать с данными предоставляет большие и широкие возможности, и собственно те страны, которые будут до последнего сопротивляться этому движению, окажутся не у дел. Соответственно, с моей точки зрения, очевидно, что рано или поздно все равно все придет в одно русло, а русло в том, что работа с данными необходима как на уровне бизнеса, так и на уровне государственных органов. Здесь возможны варианты: либо жить в пещере с топором, либо все-таки сидеть за компьютером и уметь обрабатывать наборы данных.

Иван Бегтин: Я думал рассказать об этом в своей лекции, но раз возникает этот вопрос, давайте  все-таки отвечу с самого начала. Открытые данные появились до того, как заинтересовалось наше правительство, и во всех странах мира они появлялись до того, как ими интересовались местные правительства. В Великобритании, прежде чем появился местный портал, несколько лет активисты трансформировали госсайты в данные. Поэтому занимается этим государство или не занимается, мы этим будем заниматься в любом случае. Кстати, у нас на правительственном уровне все началось с того, что в 2012 году Владимир Путин подписал майские указы, в этом году Путин подписал собственно хартию по открытым данным. Я не думаю, что здесь есть хоть какие-то расхождения между какими-то ведомствами, которые сейчас собственно с данными работают. В этом смысле все действия находятся в общем ключе или в общем защитном ключе, т. е. какие-то там данные надо раскрывать, какие-то пока опасаются.

Вопрос из зала: Скажите, пожалуйста, насколько сейчас активны гражданские активисты и научные сообщества в плане предоставления данных?

Ирина Радченко: Зарубежные - очень активны. Постоянно проходят конференции, вебинары. Это очень ценная штука. Когда, даже не имея прямой возможности посетить какую-то конференцию, можно включить компьютер и поучаствовать во всем этом движении. Опять же, здесь важно понимать, что все конференции проходят на английском языке, везде важен именно английский язык, т. е. у тех людей, кто не знает английского, есть априори некий барьер. С этим я столкнулась, когда многие люди мне говорили: «Ирина, извини, раз оно на английском мы уже никак не можем поучаствовать». И в частности, это создает барьер между нашим научным сообществом и зарубежным. Хотя мы и стремимся к интеграции на уровне образовательных систем и на уровне научных систем, но пока, к сожалению, эта активность у нас в зачаточном состоянии. Я разговаривала с людьми из различных организаций, в том числе из Российской академии наук. Интерес большой есть, но пока нет четкого видения. И тут важно понимать, что все это очень ново (не только для России, но и для зарубежных коллег тоже это достаточно ново). Большинство основополагающих книг, в том числе те, которые я отразила в своем списке http://opendataschool.ru/2013/09/introduction-to-open-data/, вышли совсем недавно.

Например, замечательная книга, грозящая стать своего рода "технологической библией", - это книга Питера Субера “Open Access” http://mitpress.mit.edu/books/open-access. Она вышла совсем недавно в MIT-Press. Обязательно ее скачайте. Она выложена под свободной лицензией в открытом доступе. Автора зовут Питер Субер, с ним можно пообщаться, у него есть Twitter. Эта тема действительно весьма актуальна, в том числе и для Запада, но это все тема для отдельной дискуссии. В частности, по вопросу о публикации в открытом доступе научных работ, потому что это отдельная болезненная тема. Как мы все знаем, сейчас у нас для того чтобы получить доступ к научной статье нужно заплатить 30-60 долларов. Это очень много. Особенно учитывая постоянную потребность ученых в новейших научных статьях. Мало, кто может себе это позволить. И что важно, сами ученые при публикации из этих денег не получают фактически ничего. Эту тему сейчас уже потихоньку раскручивают, и есть уже варианты, как это все дело обойти.

Вопрос из зала: На каком этапе мы находимся, если говорить именно о связанных открытых данных?

Ирина Радченко: В мире действительно идет большое движение по связанным открытым данным, особенно в рамках образовательных центров и европейской программы рамочных проектов. Это все лежит в открытом доступе, можно посмотреть бюджеты, огромнейшие бюджеты, выделяющиеся на разработки по семантическим технологиям, по связанным открытым данным. У нас сейчас, насколько я знаю, присутствует интерес в различных организациях, у венчурных фондов.

Вопрос из зала: А насколько правительство заинтересовано именно в этом?

Ирина Радченко: Я думаю, что Правительство очень заинтересовано. На заседании Открытого Правительства в июле этого года были приглашены эксперты из сообществ, занимающихся именно семантическими технологиями. Это Зорен Ауэр из Лейпцигского университета и его коллеги из других стран, которые как раз занимаются проектами в области связанных открытых данных, в том числе, в рамках европейских программ с большим объемом финансирования.

Вопрос из зала: А Яндекс например?

Ирина Радченко: Я думаю, что у нас в Школе выступит специалист из Яндекса, так что, пожалуй, лучше узнать у первоисточника при возможности.

Из зала: Если первоисточник приходит сюда, значит и Яндексу это интересно. Можно последний вопрос, такой, резюмирующий, наверное. Я правильно понял, что в идеальном мире источниками открытых данных являются государственные структуры, общественные организации, научные организации, и все данные, которые порождаются в рамках этого процесса, должны быть общедоступными.  А как насчет коммерческих источников?

Ирина Радченко: Коммерческие организации тоже могут выступать источниками открытых данных, если они хотят заработать на этом деньги. Это тоже возможный вариант. Есть соответствующие бизнес-модели. Есть бизнес-модель предоставления данных в качестве сервиса (Data-as-a-Service). Есть различные бизнес-модели зарабатывания на данных, но это отдельная тема для дискуссии, и достаточно интересная. У меня есть ссылки на отчеты различных аналитических агентств (Deloitte, Gartner). Они на моем сайте выложены в разделе Data Science:  http://iradche.ru/refs/data-science/. Можно посмотреть аналитику именно по использованию данных в бизнесе и способах зарабатывания на данных.

...

А с предоставлением ведомственных данных все очень просто. Основной принцип такой: вы платите налоги, и вы имеете право знать, куда эти налоги идут. Вы имеете право знать, какие научные исследования вы финансируете. Собственно, с этой целью в этом году Обама и подписал меморандум об открытии государственных научных данных (http://www.whitehouse.gov/blog/2013/02/22/expanding-public-access-results-federally-funded-research). Я об этом в ознакомительной части не сказала, но в общем-то, правду не скроешь, и она всегда выходит наружу. И конечно же, этот меморандум Обамы был ориентирован, прежде всего, на предоставление научных данных американским гражданам, но как вы понимаете, интернет - явление международное, и соответственно доступ к этим данным может быть у любого человека, который умеет пользоваться интернетом. И основная мысль у меня следующая: Обама уже такой меморандум подписал, т.е. движение в этом направлении уже пошло.

Есть также замечательные примеры того, как в лабораториях и в домашних условиях использовались научные данные и получились отличнейшие исследования. Было несколько известных нашумевших историй, когда студенты сделали научные открытия и стали затем вестниками, сподвижниками идеи открытого доступа (Open Access): http://novanews19.wordpress.com/2013/07/07/scientific-discoveries-open-access-and-jack-andraka-the-world-is-your-oyster-jack/, http://figshare.com/blog/Open%20Access%20Is%20Not%20Just%20For%20Scientists.%20It's%20For%20Everyone./72.

Но не надо воспринимать это так, будто такие вещи происходят только благодаря решению какого-то политического лидера, вроде того же Обамы. Это комплексное решение. Обычно подобного уровня решения, особенно на государственном уровне, принимаются в комплексе и инициируются сразу с нескольких сторон.

И этим обусловлен международный государственный интерес к этой теме. Здесь ситуация такая: если мы не научимся этому, научатся зарубежные наши контрагенты, так называемый “потенциальный враг”.

Вопрос из зала:  А как у нас сейчас в России законодательство решает вопрос об открытых данных и персональных данных?

Ирина Радченко: Открытые данные должны быть представлены в деперсонализированном виде, обязательно, это отдельно прописано, да. Это требование, потому что все нормативно-правовые акты должны учитывать предыдущие.

...

Да, наверное, самое интересное заключается в диалоге. Кстати, это один из ярких моментов. Обратите внимание, что когда говоришь один, можно говорить о чем угодно, о своем, идти к своей цели, но когда находишься в диалоге, всегда выясняется, что, в общем-то, цель может быть и не та, которую ты ставил изначально. И раз цели у нас общие, то мы потихонечку их корректируем, и какие-то новые знания получаем совместно. Здесь важен именно позитивный аспект - стремление к получению новых знаний.

Это я все к тому, что сейчас пока эта доктрина (доктрина открытости знаний) еще не выкристаллизовалась, но она уже просматривается даже в названии фонда Open Knowledge Foundation («Открытые знания»). В идеале, это открытые знания и доступ людей в интернете именно к знаниям. Сюда же подходит и открытое обучение, в том числе и наша дата-экспедиция. Сейчас мы тоже занимаемся открытым обучением и проведением дата-экспедиций. Правда, у нас пока маленькая аудитория.

  1   2   3   4

Похожие:

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconЛекция №17 77 Синдром воспаления 77 Лекция №18 80 Синдром воспаления...
Хирургический метод лечения имеет большое значение в клинической медицине. Одну четверть заболеваний составляют хирургические болезни....

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconЛекция религии современных неписьменных народов: человек и его мир...
Редактор Т. Липкина Художник Л. Чинёное Корректор Г. Казакова Компьютерная верстка М. Егоровой

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» icon2. Лекция: "Общие критерии", часть Основные идеи 8
Лекция: Обзор наиболее важных стандартов и спецификаций в области информационной безопасности 3

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconЛекция №5 Налогообложение общественных организаций инвалидов (часть...
Жением. В связи с этим, пятая лекция будет посвящена также вопросам налогового законодательства: налог на прибыль, налог на имущество,...

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconЛекция 10. Международное сотрудничество в ОРД лекция 11. Проблемы...
Спецкурс «Актуальные вопросы оперативно-розыскной деятельности» как открытая учебная дисциплина представляет устоявшуюся систему...

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconDate: 16. 01. 2016 Subject
Что вы видите? Да, правильно. Это письмо. А вы знаете как будет на английском слово письмо?

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconЕсть множество книг, которые учат тому, что нужно делать специалисту...
Как это делать. Эта книга как раз о том, как соединить маркетинговую теорию с реальной жизнью коммерческого предприятия и добиться...

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconВ саморегулируемой организации некоммерческое партнёрство «тюменское...
Некоммерческое партнёрство «Тюменское партнёрство кадастровых инженеров» (далее–Партнёрство), устанавливает требования к членам Партнёрства,...

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconСтатья 13. Пункт 2
Это небольшая инструкция для тех, у кого подобное случается. Заранее скажу, что не стоит хамить и кричать на сотрудников полиции,...

Лекция №1 Открытые данные: введение Часть 1 Иван Бегтин я вначале скажу краткое вступительное слово о том, кто мы, что мы, как это началось, и о чем будет сегодняшняя лекция. Мы, то есть некоммерческое партнерство «Информационная культура» iconНекоммерческое Партнерство «Гильдия строителей Республики Марий Эл»
Целью контроля является выявление и предупреждение нарушений требований, установленных в отношении юридических лиц и индивидуальных...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на blankidoc.ru




При копировании материала укажите ссылку © 2024
контакты
blankidoc.ru