Почему большие данные — это непросто

Алёна Игнатьева, редактор-фрилансер, специально для блога Нетологии написала колонку о том, почему большие данные — все еще загадка для бизнеса.

У начинающих аналитиков и ученых, работающих с большими данными, часто возникает вопрос: «У меня есть набор данных. Как его расшифровать?». Если нужно решить конкретную и хорошо поставленную задачу, то, как правило, это не вызывает трудностей. Но что если конкретной задачи не стоит, и ваша цель — изучить данные и найти что-то интересное?

Офлайн-курс: «Data Scientist»

Что такое большие данные

Большие данные — термин, который описывает большие объемы информации, структурированной и неструктурированной.

Большие данные в бизнесе могут использоваться для анализа, разработки стратегий и принятия правильных решений.

Объем данных, которые созданы и хранятся на мировом уровне, продолжает расти с каждым днем. Ежедневно создается 2,5 эксабайта (1 эксабайт = миллиард гигабайт): таким образом, 90% всех данных создано в последние 2 года. Используя их, компании смогут значительно ускорить развитие. Проблема в том, что лишь малая часть этих данных подвергается анализу.

Не так важно количество данных, как то, как вы их используете.

Можно получать данные из любого источника и анализировать их, чтобы найти ответы, которые позволят сократить затраты или разработать новые продукты и приложения, понять своих покупателей.

О чем могут рассказать большие данные

Так как же найти в данных именно то, что поможет принять верное решение? Это сложный вопрос, и на него, к сожалению, нет однозначного ответа. Ученые решают эту проблему с помощью такого метода:

создать прогноз работы системы на основании уже имеющихся знаний (теории);
изучить данные и проверить, соответствуют ли они прогнозу;
если нет, то глубже изучить предмет и найти новую теорию;
сделать новый прогноз на основе этой теории;
повторить цикл.

Аналитики и специалисты по работе с большими данными могут действовать иначе.

До того как изучать данные, составьте список того, что ты ожидаете обнаружить: распределение переменных, отношения между ними и т. д.
Затем проанализируйте данные. Нарисуйте графики, схемы — всё, что необходимо, чтобы проверить, насколько данные соответствуют ожиданиям.
Проверьте, есть ли что-то, что кажется странным или бессмысленным.
Сфокусируйтесь на этом моменте и попробуйте понять, что именно вызывает такое расхождение с прогнозом. Этот шаг является ключевым. Благодаря ему вы получите действительно ценные находки.

Например, у вас есть данные о покупках в магазине. Известно, сколько людей совершило покупки, и сколько денег каждый из них потратил. Мы предполагаем какую-то среднюю величину чека, около которой колеблется большинство значений. Также будут значения, которые сильно отклоняются в большую или меньшую степень. В таком случае график этого распределения выглядит примерно так:

Но когда мы проанализировали данные, то увидели следующую картину:

Откуда же взялся этот непонятный пик справа?

Предположим, что это крупный магазин детских игрушек в Москве, где типичные покупатели — мамы с детьми, и данные о покупках были предоставлены за один месяц — ноябрь. Таким образом наш подозрительный пик может иллюстрировать, что именно перед новым годом в этот магазин приехали владельцы магазинов поменьше из регионов, чтобы потом перепродать эти игрушки в своих магазинах. Это означает, что данные покупатели не имеют отношения к постоянным клиентам магазина, и в другие месяцы такого скачка может не наблюдаться.

Можно анализировать эти данные и увидеть, какие конкретно игрушки пользовались наибольшим спросом, какие акции можно провести, чтобы привлечь больше таких клиентов. Это всё можно выяснить, основываясь на простом графике.

С какими проблемами сталкивается бизнес при работе с большими данными

В интернете можно найти множество историй успеха, когда компании с помощью больших данных увеличили прибыль или решили различные проблемы. Вдохновленные этими историями, компании выделяют огромные бюджеты и нанимают специалистов по работе с большими данными. Однако, использование больших данных не всегда может привести к успеху. Рассмотрим, какие проблемы могут встретиться при начале работы с большими данными.

1. Отсутствие бизнес-кейса

Согласно статье, опубликованной на IBM Big Data & Analytics Hub, понимание больших данных сильно затрудняется при отсутствии четко сформулированного бизнес-кейса. Правильно построенный бизнес-кейс показывает, какие проблемы необходимо решить и какие инструменты и параметры должны быть задействованы.

2. Неподготовленные данные

Компании, проигнорировавшие шаг подготовки данных перед началом работы, могут получить искаженные результаты, которые приведут к неправильным решениям.

3. Применение больших данных не по назначению

Например, попытка собрать как можно больше данных для своих исследований не всегда оправдана, так как большие объемы данных могут служить источником возникновения ложных связей.

4. Недостаточные аналитические и технические навыки

Согласно исследованию, примерно половина опрошенных говорят о недостатке аналитических или технических знаний для работы с большими данными. И хотя на рынке сейчас довольно много специалистов по большим данным, всё равно спрос превышает предложение. И в данном случае лучше сфокусироваться на обучении уже существующего персонала, чем открывать новые вакансии.

5. Надежда только на большие данные

Некоторые руководители, увидев первые результаты работы больших данных, начинают обдумывать, как сократить штат и заменить сотрудников на роботов. Но здесь не все так прозрачно.

С помощью больших данных можно обнаружить проблему и найти пути её решения, но именно люди будут решать эту проблему и настраивать работу компании. Важно правильно разделять задачи: машина анализирует, а человек прогнозирует.

Показательный пример Google

Умение задавать правильные вопросы — неотъемлемый навык при работы с большими данными. В 2008 году Google запустил проект Google Flu Trends (GFT), целью которого было предсказание вспышки эпидемии гриппа до того, как об этом объявит Центр по контролю и профилактике заболеваний США (CDC).

Специалисты Google обратили внимание на то, что примерно за две недели до вспышки эпидемии гриппа происходит всплеск поисковых запросов, связанных со здоровьем. Именно это предположение и было положено в основы анализа. Однако позже, при сравнении данных с CDC было обнаружено, что GFT пропустил эпидемию «свиного гриппа» в 2009 году и почти на 50% преувеличил размах эпидемий в 2012 и 2013 годах.

В 2013 году проект Google Flu Trends был приостановлен, так как он не справлялся со своей основной задачей. Некоторые считают, что выборка данных была некорректна, кто-то говорит, что заданный вопрос: «Когда произойдет следующая эпидемия гриппа?» — был некорректен с учетом сбора нетрадиционных данных.

Большие данные не являются заменой традиционных методов, скорее их нужно использовать как вспомогательный инструмент.

В отличие от традиционных данных, большие данные не могут дать точный ответ на традиционно поставленный вопрос. Вместо этого они определяют те сферы, которые требуют более детального изучения для обнаружения проблемы.

Если бы Google Flu Trends отвечал на вопрос: «О чем говорят нам частота и количество поисковых вопросов?» — поле для анализа возможной проблемы было значительно шире.

Заключение

Перед тем как начать работать с большими данными, нужно определиться с целями, которые нужно достичь и в зависимости от этого определиться, какую именно информацию и в каком количестве нужно собрать. Чем глубже вы знаете область, из которой получены данные, тем точнее будет ваш прогноз и тем интереснее будут факты, которые вы найдете.

Читать ещё: «Шесть мифов о Big Data»

Недостаточно просто уметь работать с данными, нужно понимать, откуда эти данные происходят. Чем больше вы понимаете в работе бизнеса, тем весомее будет ваш вклад, и тем сильнее вы сможете повлиять на качество работы всей компании.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.