В век диджитализации объём цифровых данных растёт такими темпами, что Big Data стала отдельной сферой внутри IT, и для работы с ней возникло несколько новых профессий.
Сегодня мы поговорим про дата-журналистов, которые создают истории на основе больших данных. Разберёмся, чем именно занимаются, какими навыками обладают и сколько зарабатывают такие специалисты.
Благодарим Бориса Ги, дата-журналиста и выпускника Нетологии, за помощь в подготовке материала.
Анализирует, визуализирует, рассказывает: чем занимается дата-журналист
Дата-журналистика, или журналистика данных, в России начала развиваться в конце 2000-х. Она возникла на стыке трёх областей: журналистики, аналитики данных и области создания визуального контента.
Дата-журналист — специалист, который ищет, обрабатывает и визуализирует данные, чтобы представить их в виде интересной и понятной читателю истории. Выглядит это так:
Дата-журналист выбирает общественно важную тему, ищет по ней количественные данные, чтобы выявить закономерности, оценить масштабы явления и на основе этого прийти к выводам, которые могут помочь читателям разобраться в проблеме. Или, наоборот, автор идёт от данных — работает с каким-то массивом и находит что-то интересное, из чего можно сделать материал. В обоих случаях получается дата-история — с интересными фактами и инфографикой для наглядности.
Дата-материалы создают различные зарубежные и российские СМИ: The New York Times, The Guardian, The Washington Post, Reuters, а также РИА Новости, РБК, ТАСС, Т—Ж.
С лучшими работами дата-журналистов со всего мира можно ознакомиться на сайтах известных журналистских премий: Data Journalism Awards и Sigma Awards.
Как создаётся дата-история: от сырых данных к графикам
Поиск данных: о чём могут рассказать фото в соцсетях
Как и в классической журналистике, в дата-журналистике появляется идея или тема для создания материала. Но главным источником информации здесь выступают не интервью, очерки с мест событий или пресс-релизы, а данные. Именно они помогают проверить выдвинутые гипотезы, с их поиска и начинается работа над материалом.
Для начала нужно определиться, где и какие данные брать для анализа. Информация должна быть актуальной и полной, поэтому лучше проверить сразу несколько источников.
Как правило, журналисты используют открытые данные — официальные, со свободным и бесплатным доступом, опубликованные в интернете различными организациями или людьми. Одни данные уже структурированы по какому-то признаку и представлены в готовом машиночитаемом виде — то есть их можно скачать файлом и открыть в Excel или Word. Другие нужно собирать с общедоступных сайтов автоматически с помощью специальных сервисов.
Дата-журналисты обращаются к статистике с официальных сайтов государственных органов, справочной информации, опубликованным отчётам государственных и частных компаний о работе за определённый период и даже к информации из профилей пользователей соцсетей.
Борис Ги
Дата-журналист в РИА Новости
Если автор идёт от проблемы, поиск данных ведётся от общего к частному. Обычно алгоритм такой:
1. Сначала ищем данные Росстата и Единой межведомственной информационно-статистической системы (ЕМИСС). Как правило, хотя бы общие данные по большинству тем здесь есть.
2. Смотрим на законы, стратегии развития и государственные программы. Узнаём, какие ведомства занимаются проблемой, если это не очевидно.
Кроме того, в приложениях к стратегиям всегда есть целевые показатели и их текущие значения. Иногда это единственный открытый источник.
3. Изучаем сайты нужных нам федеральных ведомств — Минздрава, Минкульта — и региональных. Далеко не все данные попадают в ЕМИСС, некоторые датасеты публикуются на ведомственных сайтах.
Ещё нужные данные содержатся в отчётах и публикациях ведомств.
4. Проверяем сайты отраслевых институтов, НКО, фондов, различных исследовательских проектов.
5. Если данные указаны в перечне постановлений об открытых данных и должны собираться в рамках какой-то госпрограммы, но их нигде нет, делаем запрос в соответствующее ведомство, закон это позволяет.
Запрос можно направить, даже если у ведомства нет обязанности публиковать данные, но в таких случаях шансов получить ответ значительно меньше.
Запросы можно делать и в НКО, и в коммерческие организации. Как правило, они коммуникабельные и хотя бы самыми общими данными делятся.
6. Для определённых задач можно анализировать бюджеты и госзакупки. Некоторые ведомства дают доступ исследователям по API. Хотя сейчас таких всё меньше.
Бывают специфические задачи, которые требуют работы с текстами судебных решений, анализа соцсетей, парсинга данных из общедоступных источников. Но это, скорее, относится к варианту, когда журналист сначала исследует данные и понимает, что на их основе можно собрать материал.
Например, чтобы выяснить, кто и зачем приходит на Красную площадь, дата-журналисты Strelka Mag проанализировали 200 тысяч фотографий, опубликованных во ВКонтакте с соответствующий геометкой.
А для подготовки материала о важности самоизоляции в пандемию дата-журналист Андрей Дорожный использовал:
- данные о возрасте населения и количестве мест в больницах с сайта Росстата;
- исследование смертности от Covid-19 с сайта Национальной комиссии здравоохранения Китая;
- статью о формах коронавируса из журнала National Science Review;
- математическую модель прогнозирования развития пандемии с сайта Венского технического университета.
Борис Ги
Дата-журналист в РИА Новости
Данных вокруг нас очень много. Правда, большая часть из них не структурирована, и для сбора и предварительной обработки нужны определённые навыки.
Кроме сайтов госорганов, данные можно искать и в других источниках ↓
1. Негосударственные хабы данных: Хаб открытых данных «Информационной культуры» и каталог данных «Инфраструктуры научно-исследовательских данных» (ИНИД).
Первый плохо структурирован, большая часть данных — это те же госданные, но в машиночитаемом формате.
В каталоге ИНИД данные качественные, но самих датасетов очень немного.
2. НКО и фонды, которые собирают данные по социальным проблемам. Например, «Если быть точным» и «Такие дела» ведут свою статистику. Фонд «Вера» ведёт учёт учреждений паллиативной помощи — правда, их данные не машиночитаемы.
К сожалению, у большинства НКО не хватает опыта и ресурсов для качественной публикации данных.
3. Коммерческие компании: Циан, Domofond, 2ГИС, Яндекс Карты, где данные можно собрать, нарушая правила сервиса, легально купить или получить по запросу.
Одни компании дают бесплатный доступ исследователям, у других — свободное API, но с рядом ограничений.
4. Компании-реселлеры данных, такие как Dadata. У Dadata есть бесплатный тариф, который позволяет взять по API достаточно много данных. Но эти данные больше ориентированы на коммерческую аналитику, а не на журналистику.
5. Соцсети и сервисы: ВКонтакте, YouTube, Spotify. У многих есть официальные API. ВКонтакте позволяет собирать огромное количество информации с минимальными ограничениями.
6. Энтузиасты, которые собирают и выкладывают датасеты. Например: Московские Instagram-хештеги* или датасет объявлений о недвижимости.
7. Сообщества, которые собирают негосударственные и некоммерческие открытые данные: Wikidata, OpenStreetMap и другие.
Однако важно помнить, что коммерческие, некоммерческие и любительские датасеты имеют ряд недостатков:
1. Мы не всегда можем верифицировать такие данные, проверить качество и добросовестность сбора.
2. Альтернативные данные часто недолговечны и неожиданно исчезают. А иногда они собраны с нарушением лицензий и законов, и поэтому ссылаться на них не всегда удобно.
3. Такие данные дополняют, но не всегда могут заменить государственные.
Например, данным о разводах или статистике смертности и рождаемости вряд ли можно найти замену.
Можно взять данные о семейном статусе из ВКонтакте, данные запросов из Wordstat или Google Трендов, объявления о поиске адвоката по разводам и тому подобное. Но это лишь дополнит картину.
Готовя материал о недвижимости, мы можем посчитать динамику цен, но данных из Росреестра это не заменит.
*Суд признал экстремистской и запретил в России деятельность компании Meta, а также её платформ Facebook и Instagram.
Обработка данных: исключаем дубли и ищем закономерности
Будь то сырые данные, собранные автоматически, или официальный отчёт с сайта Росреестра — информацию важно проверить на несоответствия и ошибки. Пропуски, дубли, неправдоподобные цифры и опечатки могут повлиять на правильность выводов, ради которых журналист искал эти данные.
Борис Ги
Дата-журналист в РИА Новости
Ошибки в отчётах — это частое явление. Поэтому любой датасет нужно проверять: смотреть на типы данных, корректность выгрузки разделителей, дробей и так далее.
Иногда это не ошибка выгрузки, а опечатка — тогда стоит поискать второй источник или восстановить данные логически.
Если данные собраны в разное время или берутся из сборников Росстата, они могут немного отличаться. Это не ошибки, а поправки и уточнения — в этом случае я всегда беру более поздний вариант.
После очистки данные нужно упорядочить и структурировать — в сервисах электронных таблиц это можно сделать с помощью специальных формул и функций.
Теперь информацию будет проще анализировать:
- сравнивать,
- выявлять закономерности,
- вычислять,
- формулировать выводы.
На основе данных дата-журналист делает выводы, которые подтверждают или опровергают его гипотезу, показывают тренды, контрасты и скрытые взаимосвязи, которые самому читателю было бы сложно заметить.
Создание дата-истории: понятные выводы и яркие графики
Теперь найденные инсайты нужно представить в виде истории — рассказать о них понятным языком и визуализировать данные с помощью схем, графиков и диаграмм.
Иногда дата-журналист работает в команде с дизайнером и может поручить создание картинок для статьи ему — нужен будет набросок и ТЗ. Но в любом случае визуальную часть дата-историй стараются делать понятной, качественной и красочной, чтобы легче воспринималась и запоминалась.
Борис Ги
Дата-журналист в РИА Новости
Сейчас есть тренд на максимально простые и понятные визуализации: обычные линейные графики, столбики или линейчатые диаграммы, даже карты, в основном плиточные. Они рассчитаны на быстрое, почти моментальное считывание.
Несколько лет назад были популярны скролителлинг, всплывающие подсказки, интерактив. Сейчас этого почти нет.
Скролителлинг — это сочетание скроллинга и сторителлинга, когда пользователь читает текст по мере прокрутки анимированной страницы
Кропотливый и сложный процесс создания дата-материала требует многих навыков и умений на стыке нескольких профессий. Но итоговый результат может стать уникальным и выделит публикацию на фоне других журналистских работ.
Ещё примеры дата-историй:
- «Где в России нет Ленина? Исследование об улицах и памятниках в честь вождя», Strelka Mag;
- «Сколько россиян пользуется интернетом», Т—Ж;
- «История московского жилья на интерактивной карте», Strelka Mag;
- The age of the “megafire”, Reuters;
- How the Tonga Volcano Unleashed a Once-in-a-Century Shockwave, The New York Times.
- Научитесь искать истории, скрытые в массивах данных
- Поймёте, как использовать инфографику, лонгриды или интерактивные тесты, чтобы представить читателям полученные инсайты
- Начнёте работать по специальности уже через 5 месяцев обучения
Что должен уметь дата-журналист: изучаем вакансии
Дата-журналисты востребованы там, где создают контент на базе точных, проверенных фактов с количественным обоснованием. Кроме СМИ, дата-журналистикой занимаются даже Сбербанк, Тинькофф и «Точка» — проводят исследования на основе своих данных, рассчитанные не только на внутреннюю аудиторию.
Вот перечень обязанностей дата-журналиста из вакансии РБК:
Из вакансии РИА Новостей:
А это обязанности дата-журналиста из вакансии Тинькофф Даты:
Получается, чтобы получить работу, дата-журналист должен уметь:
1. Искать актуальные данные:
- знать, какие базы данных существуют и как получить к ним доступ;
- уметь формулировать запросы и собирать необходимую для анализа информацию (парсинг).
2. Идентифицировать, фильтровать и структурировать информацию в программах обработки данных, таких как MS Excel или Google Таблицы.
3. Анализировать данные:
- понимать процедуру агрегации данных;
- знать основы статистики и уметь рассчитывать показатели, необходимые для анализа.
4. Визуализировать данные:
- подбирать и создавать диаграммы, графики, схемы, инфографику и другие иллюстрации;
- владеть программами для создания такого контента, например, уметь работать в Tableau.
5. Понятно и интересно писать — увлечь и удержать внимание аудитории, донося историю простыми и доступными средствами.
6. Программировать — иногда работодатели указывают в вакансиях и этот навык в качестве дополнительного. Вот что, например, ждёт от соискателя исследовательский проект «Если быть точным»:
Часто для анализа данных используют Python — это популярный язык, который позволяет быстро решать многие задачи.
Борис Ги
Дата-журналист в РИА Новости
В работе дата-журналиста бывают моменты, когда одного Excel недостаточно: спарсить данные с сайта, обработать XML-файл, выгрузить данные по API, просто открыть файл, в котором больше миллиона строк.
Python универсален и позволяет решить эти задачи, а ещё автоматизировать рутину и сократить ручной труд. Например, с его помощью можно скачать сотню файлов или почистить кучу однообразных таблиц и привести их к одному виду.
В редких случаях могут понадобиться инструменты для работы с большими данными, методы машинного обучения или обработки естественного языка. Для журналистских задач Python вполне хватит.
Однако дата-журналист — это не классический аналитик и тем более не Data Scientist. Поэтому, если Python или другой язык программирования освоить сложно, можно обойтись и no-code инструментами.
Какая зарплата у дата-журналиста
Средняя зарплата журналиста-универсала по Москве — 70 тысяч рублей в месяц, по России — 53 тысячи. Дата-журналист — более узкий специалист с дополнительными навыками, которые ценятся несколько выше.
Борис Ги
Дата-журналист в РИА Новости
Пока большой разницы между зарплатой журналиста и дата-журналиста нет, 80–100 тысяч рублей — стандартный месячный оклад.
Внештатные статьи и проекты тоже редко стоят дороже обычной журналистики. Например, в Т—Ж ставка за материал — 5 или 10 тысяч.
Конкретную зарплату в вакансиях на должность дата-журналиста указывают редко, обычно пишут, что условия обсуждаются индивидуально. Зарплата будет зависеть от объёма и количества выполняемых задач, а также от набора навыков и умений кандидата.
Фонд «Нужна помощь», например, предлагает соискателю от 80 тысяч рублей в месяц, а ещё ДМС со стоматологией:
Не только программист и дизайнер: кто может стать дата-журналистом
Основная задача дата-журналиста — искать интересные инсайты в данных и объяснять их читателям в понятных историях и инфографиках. Поэтому специалист должен, с одной стороны, уметь разбираться в данных, а с другой — хорошо писать, но и тот и другой навык можно развить. Умения программировать и рисовать, которые развить сложнее, здесь второстепенны.
Дата-журналистами обычно становятся журналисты, аналитики, контент-маркетологи, product- и project-менеджерам, PR-специалисты и медиаменеджеры. Но попробовать может любой, кто чувствует к этому склонность.
Как стать дата-журналистом
Обучиться профессии дата-журналиста можно в НИУ ВШЭ по двухгодичной магистерской программе «Журналистика данных», она первой появилась в России в 2016 году.
Многие выпускники этой программы работают сейчас в известных российских редакциях. В 2019 году бывшая студентка НИУ ВШЭ Дада Линделл стала первой в России обладательницей премии Data Journalism Awards за несколько расследований, в том числе об увеличении в России смертности от ВИЧ.
Быстрее, но не хуже по качеству, можно пройти обучение на онлайн-курсах, где преподают практикующие специалисты. Например, институт «Стрелка» проводит курс «Как стать дата-журналистом».
У Нетологии есть два курса, посвящённых дата-журналистике: «Дата-журналист: истории, основанные на данных» и «Дата-сторителлинг: о чём говорят цифры». Первый позволяет более глубоко изучить профессию — с Python, Tableau и английским, а второй учит писать дата-истории.
Что почитать по дата-журналистике
Ресурсы:
- DataJournalism.com — англоязычный ресурс с курсами по дата-журналистике;
- Global Investigative Journalism Network — международный ресурс с советами, трендами и инструментами;
- Сайт премии Sigma Awards.
Telegram-каналы:
- «Открытые данные RU»;
- «Дата-сторителлинг» — канал журналиста Андрея Дорожного;
- «Чартомойка» — о хороших и плохих графиках.
Книги:
- «Статистика и котики», Владимир Савельев — увлекательный учебник по статистике;
- «Графики, которые убеждают всех», Александр Богачев — об эффективном представлении данных;
- The Data Journalism Handbook, European Journalism Centre — можно скачать бесплатно, подробно рассказывает о дата-журналистике.
Резюмируем
Объёмы данных постоянно растут, и работа с ними — современный тренд. Зарубежные и российские издания хотят публиковать материалы, основанные на анализе больших данных, в понятном для читателя формате, и нуждаются в специалистах, способных выполнять такую работу.
Поэтому наряду с классической журналистикой появилась и быстро развивается дата-журналистика. Чтобы стать дата-журналистом, нужно уметь искать и читать данные, хорошо писать и работать в программах визуализации.
Учиться дата-журналистике в России можно в магистратуре или на онлайн-курсах, в обоих случаях программу преподают практикующие специалисты.
Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.