Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы»


НазваниеДиссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы»
страница2/15
ТипДиссертация
1   2   3   4   5   6   7   8   9   ...   15

Глава 1. Визуализация данных в медийном контексте

1. Понятие BigData


Объемы информации растут изо дня в день, и только в последние полтора-два года на информационно-технологическом рынке стала широко обсуждаться концепция BigData (большие данные), появление которой связано с пониманием необходимости некоторых качественных изменений в подходах к хранению и использованию растущих объемов информации, когда традиционный вариант прямолинейного увеличения ресурсов и мощностей уже не работает.

Понятие BigData часто употребляется применительно к информационным технологиям (далее – ИТ). Однако, как это часто бывает с новыми понятиями, при краткости термина его смысл весьма расплывчат. В общем можно сказать, что BigData – это наборы огромных объемов информации, которые традиционные инструменты и методы обработки не способны охватывать, управлятьи анализировать ее. В этом заключается принципиальное отличие BigData от традиционных хранилищ данных, так как последние предполагают хранение информации в четко структурированном виде и гарантируют время выполнения операций.Согласноотчету института McKinseyGlobalInstitute, «BigData: это новый рубеж для инноваций, конкуренции и производительности»15.

Ведущий технический эксперт Sybase CIS Андрей Хромов в целом согласен с такой трактовкой: «Под большими данными подразумеваются растущие объемы структурированных и неструктурированных данных, поступающих из разных источников. При этом работа с этими данными, сложными по структуре и многообразными по типам, не может выполняться традиционными системами». Но Хромов добавляет, что BigData, это не такое уж новое явление16.

Проблема «больших данных» существовала на протяжении всей истории развития информационных технологий. Еще в 50-х годах прошлого века объем данных в организациях уже становился проблемой - рост данных опережал развитие технологий хранения информации. В это же время корпорация IBM представила первый жесткий магнитный диск для хранения и переноса информации - вне компьютера. Желание сократить время обработки больших данных было всегда, но, к сожалению, не хватало прогресса в существующей инфраструктуре. В этой главе, мы попробуем разобраться и объяснить, почему же термин BigData стал актуален именно сейчас.

Выделяется три основных характеристики BigData:

  1. Объем данных – широчайшие объемы данных, которые стремительно растут с каждым днем;

  2. Разнородность, многообразие данных – используются разные источники данных (внешние и внутренние, структурированные и неструктурированные), это могут быть таблицы, видео, текст, электронная почта, социальные сети, биржевые торги и пр.

  3. Скорость – оперативное реагирование, быстрый анализ данных в случае необходимости17.

Под термином BigData в разном контексте могут подразумеваться данные большого объема, технология их обработки, проекты, рынок и даже компании, активно использующие эту технологию. Но все же BigDataпредполагает нечто большее, чем просто анализ огромных объемов информации. Дело даже не в том, что создаются компаниями большие объемы, а в том, что большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату «больших данных»,- это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные.

На данный момент стало экономически выгодно не только хранить подобную информацию, но также обрабатывать и анализировать ее. Мы постараемся рассмотреть все перечисленные аспекты, чтобы прояснить смысловое наполнение термина.

Тот факт, что термин BigData связан с проблемой накопления сверхбольших данных, - очевидно. Рынок больших данныхна данный момент - один из самых быстрорастущих в мире. Проведенная статистика показывает, что за последние три года человечество создало информации больше, чем за всю историю своего существования до 2008 года, и ее рост продолжается.

Аналитическая компания DigitalUniverseStudy (IDC) - «Исследование цифровой вселенной» - в своем отчете за 2011 год представила, что общий мировой объем созданных и реплицированных данных в 2011-м году может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м18.

рисунок

Рис. 1. Объем создаваемой информации в мире (в эксабайтах)
и доступные ресурсы хранения данных (источник:IDC)19

На графике (см. Рис. 1) мы видим, что в 2006 году объём создаваемой информации был соизмерим с объемом ресурсов, доступных для ее хранения, однако уже в 2007 году информации было произведено больше, чем способов для ее хранения, и данная тенденция стала усиливаться.

На следующей схеме (см. Рис. 2) мы видим историческую ретроспективу, которая показывает зависимость динамики роста данных от роста приложений, пользователей и вычислительных систем.

рисунок

Рис. 2. Схема роста компьютерных приложений и их пользователей20

Таким образом, мы видим, что термин BigDataведет свое начало из ИТ-индустрии. Но даже в этой области это понятие не имеет одной четкой трактовки. Это могут быть данные большого объема, технология их обработки, проекты, рынок и даже компании, активно использующие эту технологию. Главное, что BigDataхарактеризуется объемом данных, их многообразием, а также скоростью обработки и анализа.

Термин BigDataупотребляется в различных отраслях – банки, медицина, энергетика, ритейл, городская жизнь, телекоммуникации и пр. (см. Рис. 3). Инфографика показывает эффективность использования BigDataв различных отраслях США. При этом надо понимать, что в данном случае под BigDataв большей степени подразумевается технология. Из инфографики видно, что больше всего использование BigDataможет помочь энергетической отрасли в целях экономии – использование BigData на 99% может увеличить точность распределения мощностей генераторов21.



Рис. 3 Использование BigDataв различных отраслях

Далее мы хотим обратиться к понятию BigDataв гуманитарной среде, и в частности – в медийном контексте.







В 1990 - 2000 гг. социологи, подвергая анализу разные области,начали использовать новые технологии и стали полагатьсявсе больше на оцифрованные методы в эмпирических исследованиях. Стало понятно, что опросы могут быть введенычерез интернет сайты, вместо того, чтобы писать на бумаге или обзванивать людей по телефону. Цифровые записи интервью или экспериментальные заходы (установки) делают анализ содержимого материала или наблюдаемого поведения более удобным. А также кодирование материала поддерживается более и более изощренным программным обеспечением.

Но в дополнении к использованию научно-исследовательских инструментов, которые собирают или обрабатывают данные в цифровом формате, ученые также начали использовать цифровой материал, который не был специально создан для исследовательских целей.

Внедрение цифровых технологий, а также распространение в Интернете привело к тому, что появилось огромное количество цифровых данных неизвестного размера и структуры. В итоге ученыесконцентрировались на огромныхколичествахобщедоступных данных обинтернет-пользователях, часто дающие представление о ранее недоступных тем опросов. Впоследствии в литературе начали обсуждать возможности и недостатки онлайн исследований.

Выделяется два аспекта методологических вопросов, связанные с интернет-исследованиями, которые заслуживают более глубокого обсуждения: дискуссия вокруг концепции больших данных (BigData) и вопрос о нахождения «смысла» в цифровых медиа-данных22.

Многочисленные данные создаются посредством цифрового использования средств массовой информации. Большой объем данных получается за счет процесса цифровизации медиа. Но в настоящее время невозможнособратьполный массив этих данных. Отчасти это связано с просторами интернета, а также вопрос осложняется тем, что онлайн-контента часто меняетв течение долгого времени.

На сайтах социальных медиа содержание не стабильное и не четко очерчено, какв большинстве традиционных СМИ, где возможно сделать выборку и определить единицы анализа.

Существуют разные позицию на тему того, какими принципами нужно руководствоваться для анализа цифровых медиа. Одна позиция – это придерживаться традиционных методов, проверенных и хорошо зарекомендовавших себя (Янковский, Зельм. Лалли, Мак Миллиан). Другая позиция – это начать вырабатывать новые методы, поскольку старые не применимы для изучения больших данных, поэтому необходимо адаптировать методологические инструмента применительно к цифровым носителям и включить методы из других дисциплин для адекватного изучения сайтов, блогов, социальных сетей (Джонс, Херринг).

Как мы уже отмечали выше, термин BigDataимеет относительныйсмысл и, как правило, используется, чтобы обозначить большие наборы данных, растущие с течением времени.В информатике это относится к наборам данных, которые являются слишком большими, чтобы обрабатываться инструментами регулярного хранения и обработкиинфраструктур.Очевидно, чтобольшие наборы данныхдолжныобрабатываться по-другому, нежели, меньшие данные.

В социальныхи гуманитарных науках, а также прикладных областях, в бизнесе,размер больших данных, как правило, является вызовом для исследователей. Это может быть особенной проблемой длядисциплин илиприкладныхобластей, которые в меньшей степени знакомы сколичественным анализом23.

Говоря о масштабах BigData, отметим, чтопо статистике, количество сообщений, отправленных каждую секунду в мире, составляет порядка 2,9 млн. Объем видео, которое выложили на канал «Youtube.com» за каждую минуту получается 20 часов. Объем данных обрабатываемых в поисковике «Google» в день, - 24 петабайт. Количество сообщений на «Твиттере» только за один день получается 50 млн. А также, по подсчетам проведенного времени пользователями в социальной сети «Facebook» показала, что в месяц выходит примерно 700млрд. Объем данных, переданных или полученных на мобильные устройства, составило 1,3 эксабайт. Количество продуктов, заказываемых в интернет-магазине «Amazon» , в секунду получается 72,924.
BigData, безусловно, используется в сфере коммуникаций и приобретает все большую значимость как в мировой практике, так и в российской. Для обозначения этой тенденции в США в 2006 году впервые был введен термин «дата-журналистика» (datajournalism), который после 2010 года получил распространение и в российской медиа среде. При этом коммуникационные модели, где главную роль занимают данные и статистика, начали зарождаться еще с 19 века. С развитием коммуникации и технологий, а в первую очередь с появлением интернета преобразовали эту коммуникацию в онлайновую модель25. Так, первый пример инфографики с использованием анализа данных зафиксирован в 1854 году, когда Джон Сноу пометил на карте Лондона районы, где было зафиксировано больше всего больных холерой. В итоге было выяснено, что больше всего заболеваний приходится на стыке водопровода и канализации. В 2010 году было сделано примерно то же – журналисты газеты LasVegasSun изучили почти три миллиона историй болезни и выявили наиболее частые врачебные ошибки. После этого исследования власти штата ввели новые законы в области здравоохранения26.

Российский исследователь Шилина М. Г. в своей работе «BigData, OpenData, LinkedData, метаданные в PR: актуальные модели трансформации теории и практики27» вводит понятие журналистика метаданных, чтобы не было путаницы из-за наличия различных значений слов «дата» и «данные». Совместно с Левченко В. Ю. Они выводят следующее определение журналистики метаданных – «этонаборспецифическихнавыковдляпоиска, анализа, визуализацииинформациицифровыхисточниковметаданныхдляформированияинтерактивныхформатовуникальнойподачиавторскогоаналитическогожурналистскогоконтента и эффективноговзаимодействия СМИ, журналиста с аудиторией; этоформатактуальногожурнализма; форматпрофессиональногожурналистскогомедиатекста, медиаконтента; методегосоздания, трансляции, потребления»28.

Далееприведемнесколькопримеровработыдата-журналистикинапрактике.Обратимся к конкретнымпроектам, которыебылиреализованы с помощьюиспользованиябольшихданных.

Проект «Пульс» был реализован журналом «Большой город». Для создания проекта было проанализировано 126 тысяч «чекинов» жителей Москвы о 72 тысячахразличных мест общественного досуга среди 62 тысяч профайлов в социальной сети «Вконтакте». В итоге была создана интерактивная карта, показывающая, чем занимаются различные категории москвичей по полу, возрасту, образованию в свободной время.

РИА Рейтинг создало проект «Молоко за вредность», где проследила соотношение между экологией и экономикой в регионах России. Для этого были обработаны данные о 2,5 тысячах муниципалитетов в Росстате. Проект показывает, получают ли жители областей, где есть экологические проблемы. Компенсацию от местных властей.

«Аргументы и Факты» создали проект, который позволяет пользователям найти наиболее благоприятное для себя место проживание («Где в России жить хорошо?»). Для этого была использована информация Росстата, а также рейтинг российских регионов института территориального планирования «Урбаника»29.

Интересен также проект «Аварии с пешеходами в Новосибирске в 2011 году30», где были проанализированы данные ГИБДД, и в тоге представлены наиболее опасные места города с обозначением аварий, числом погибших, травмированных и пр. Проект получил премию конкурса журналистики данных DataJournalism Awards-201231.

Дата журналистика отличается тем, что это в первую очередь исследование. Теперь важно не только писать, но и анализировать, находить связи между данными, извлечь важное из всей базы данных, суметь это визуализировать и донести идею до читателя. Кроме того дата журналистика – это всегда работа с объективными данными, здесь нет чьего-то мнения, необходимости искать правду, в журналистике данных существует только объективная информация. Дата журналистика существует для пользователей, поэтому немаловажный фактор приобретает построение взаимодействия с аудиторией32.

Существует две основных причины, почему журналистика данных так активно развивается в последнее время. Во-первых, эти данные, а также инструменты для их анализа, техническая база стали доступны. Во-вторых, наблюдается запрос со стороны потребителей, которым больше нравится визуальная коммуникация33.
1   2   3   4   5   6   7   8   9   ...   15

Похожие:

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconПроблемы, опыт, перспективы
П18 Профессиональная подготовка будущих учителей: проблемы, опыт, перспективы: Сб науч ст. Саратов: иц «Наука», 2012. 224 с

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconПроблемы и перспективы
Демографическое развитие России: проблемы и перспективы: Материалы межрегиональной школы-семинара молодых ученых (Уфа, 27 июня 2008...

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconДиссертация на тему «Мониторинг реализации Стратегических планов...
Факультет государственного и муниципального управления Кафедра экономики города и муниципального управления

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconПроблемы и перспективы
Петрунин В. В. Проблемы экономической оценки месторождений полезных ископаемых и установления размеров платежей за пользование недрами...

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconДиссертация на тему: Западноевропейская политика управления культурным...
Охватывает как иммигрантов, так и беженцев, и гастарбайтеров, а также интегрированные этнические общины. По его мнению, исходя из...

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconИспользование информационных технологий в налоговой системе республики беларусь
Перспективы внедрения автоматизированных информационных систем в налоговоую систему в контексте их использования налоговыми органами...

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconНачало эссе (фактически сочинения на заданную тему) постановка проблемы....

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconИнформационных агентств по теме
Медведев ввел в состав президиума совета по противодействию коррупции еще двух петербуржцев

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconВторая международная молодежная научная конференция (форум) молодых...
Ссионального образования «Башкирский государственный аграрный университет» (Башкирский гау) проводит Вторую международную молодежную...

Диссертация На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы» iconКурсовая работа по дисциплине: Банковские операции на тему: «Организация...
Проблемы и направления совершенствования безналичных расчетов

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на blankidoc.ru




При копировании материала укажите ссылку © 2024
контакты
blankidoc.ru