Константин Докучаев, автор блога All-In-One Person и одноименного Telegram-канала, написал для «Нетологии» колонку о том, что такое Big Data и как она влияет на нашу жизнь.
Мы часто слышим об очередных модных приложениях, которые используют какие-то магические штуки вроде нейросетей, больших данных или основаны на зачатках искусственного интеллекта. Для многих это магия, потому что далеко не все понимают или осознают, что же на самом деле скрывается за этими словами.
Самое интересное, что Big Data (большие данные) уже много лет формирует наш ежедневный образ жизни и влияет на наши поступки и решения.
Давайте вместе разберемся, что же такое биг дата?
Как говорит Wikipedia, которая всё знает лучше всех:
«Большие данные в информационных технологиях — совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence»
Большие данные — это способ обработки огромных и разнообразных массивов информации, которые поступают ежесекундно.
Такие данные важно быстро обработать и структурировать для того, чтобы в будущем получить что-то полезное из них.
Как мы сталкиваемся с Big Data каждый день?
Человек — главный генератор и потребитель больших данных. Ежедневно мы создаем столько новой информации, сколько раньше создавали десятилетиями. Не важно, что большая часть этого — наши селфи. Сейчас 90% имеющейся информации было создано за последние два года.
Мы генерируем информацию не только при помощи фоточек и социальных постов. Это каждый наш поисковый запрос, шаг, посчитанный фитнес-трекером, видео, просмотренное на YouTube.
Почти каждое наше действие кем-то записывается и становится частью Big Data.
Только в Google совершается около 40 000 поисковых запросов ежесекундно, что дает около 1,2 триллиона поисковых запросов для больших данных ежегодно.
И с каждым днем количество данных увеличивается все быстрее. Если сегодня мы генерируем 4,4 зетабайта данных, то к 2020 мы будем создавать уже 44.
К 2020 году почти треть всех данных будет проходить через облачные сервисы, а значит будет подвергнута анализу.
Интересно, что для анализа больших данных не всегда используются компьютеры корпораций. Часто пользователи сами предоставляют свои компьютеры для решения различных научных задач. В это же время 73% организаций проинвестировали или собираются проинвестировать в развитие больших данных.
Крупные компании типа Google, Facebook и даже государства обрабатывают и используют эту информацию для улучшения нашего образа жизни. Ну, или для показа более релевантной рекламы.
Если упростить, то большие данные собираются из нескольких источников:
- Открытые данные: социальная, экономическая и прочая публичная информация о городах, странах. Данные о законодательствах, статистика спортивных мероприятий. По сути, любая открытая справочная информация.
- Социальные сети: всё то, что мы с вами добровольно рассказываем Facebook и ВКонтакте. Даже если пост не публичный, он становится частью Big Data. В среднем пользователи Facebook пишут около 31,25 миллионов сообщений и просматривают 2,77 миллионов видео каждую минуту.
- Интернет вещей — это ещё один интересный термин. Если ваш холодильник имеет доступ в интернет, значит ваши продукты — тоже большие данные. Любые сенсоры в телефоне, смарт-часах, фитнес-трекерах передают самую различную информацию о вас и ваших занятиях. Например, в 2016 году было продано около 1,4 биллиона (больше миллиарда) смартфонов. В каждом из которых есть множество сенсоров для сбора данных об их владельце. И с каждым годом появляется всё больше вещей с интернет-доступом, а еще вчера они замечательно работали и без него.
- Личные данные тоже становятся частью больших данных. Часто эти данные обезличены: данные вашей медицинской карты, списки дел и так далее.
- Коммерческие транзакции. Речь не только о банковских транзакциях, но и о любых платежах в интернете.
- Любой другой контент, создаваемый нами: видео на YouTube, фотографии в Instagram. Каждую минуту мы загружаем 300 часов видео на YouTube, а в 2015 году загрузили около триллиона фотографий, из которых миллионы доступны публично. К концу 2017 года 80% всех фотографий будет сделано на смартфон
Всё это пугает и иногда хочется спрятаться под камень и добывать огонь при помощи двух палок. Однако, за Большими данными — будущее и приходится мириться с тем, что Великий Компьютер знает про нас всё. Хотим мы этого или нет. На основе этих данных мы можем не только получать таргетированную рекламу, ориентированную только на нас, но и значительно улучшить нашу жизнь. Только большинство не понимает, как происходит это улучшение и пугается любого упоминания о биг дате.
Если вас уже поразили размеры того, сколько информации обрабатывается, то вот ещё один интересный факт. Сегодня обработке подвергается лишь 0,5% всех доступных данных. Поэтому самое интересное всё еще впереди.
Предсказание будущего
Часто Big Data используют для предсказания будущего. Например, спортивных мероприятий вроде Олимпийских игр. Ученые в 2012 году при помощи компьютерной модели прогнали эмуляцию Игр и получили прогноз, что США получат 108 медалей, но по факту США получили 104 медали.
Конечно, в спорте не последнюю роль играет человеческий фактор, но уже давно математический анализ влияет на покупку и продажу игроков в бейсболе и в других спортивных играх. С приходом больших данных и нейросетей провести этот анализ стало еще проще.
С помощью них становится возможно предотвратить эпидемии. Анализируя поисковые запросы и посты в социальных сетях медики могут отследить увеличение ключевых слов-симптомов болезней и предложить пользователям обратиться к врачу за профилактической медицинской помощью.
Улучшить наше настоящее
В некоторых городах уже сегодня можно добраться до работы без пробок, благодаря большим данным. Например, в Лондоне ежесекундно анализируется автомобильный трафик и светофоры переключаются в соответствии с загруженностью дорог. Иногда они даже заставляют водителей объехать пробку. Вы едете на работу и даже не знаете, что на соседней улице произошла авария.
Наверняка, вы слышали про автомобилиTesla, которые могут ездить без помощи водителя. Пожалуй, это первые беспилотные автомобили, доступные любому желающему. Tesla ориентируются в пространстве не только при помощи спутника, карты, GPS и прочих сенсоров.
Автомобиль постоянно анализирует ваш стиль вождения: как часто вы набираете скорость, жмете педаль тормоза, как двигаетесь по вашим ежедневным маршрутам. Эти данные собираются со всех автомобилей компании и после анализа возвращаются обратно.
Вчера вы доверились автопилоту Tesla, а на повороте он не сбросил скорость или вообще свернул не туда. Сегодня уже другого владельца автомобиль провезет по этому участку без ошибок.
Конечно, Tesla это только начало и скоро по всему миру будут ездить беспилотные Uber, Google и Яндекс такси.
Наше настоящее и ежедневное
Если отвлечься от будущего, то кажется, что Большие данные совсем не влияют на нас и нашу жизнь. Однако, это совершенно не так.
- Например, создание карт для GPS-навигации идет при помощи Big Data. Тысячи снимков со спутника, анализ движения автомобилей, данные об авариях. Всё это учитывается в любом современном приложении для навигации и маршрут будет построен на основе этих данных.
- Новостные ленты в социальных сетях уже давно показывают посты не по дате публикации, а на основе того, что думает о наших предпочтениях алгоритм сети.
- Стриминговые сервисы, например, Google Музыка или Netflix предлагают нам музыкальные треки или видео на основе того, что мы уже смотрели. При этом может учитываться время суток, день недели и многие другие параметры.
Что же в итоге
Уже сегодня сложно найти хоть одну область нашей жизни, которая не подвержена большим данным.
Любое наше действие так или иначе уже кем-то посчитано и повлияет на наши действия в будущем.
Магазины всё чаще будут предлагать товары, которые нам могут быть нужны, еще до того, как мы об этом подумаем. Врачи смогут заранее провести профилактические меры от будущей болезни и предотвратить эпидемии. ВКонтакте нам подскажет, кого выбрать в президенты в этом году, а рядом будет реклама холодильника, о котором мы мечтаем уже неделю. И всё это Биг дата, которую не стоит бояться, и о которой стоит знать.
Если вы хотите научиться разбираться в Big Data и стать специалистом в этой области, то рекомендуем записаться на наш курс «Big Data: основы сбора и анализа данных».
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.
Читать еще
- Как настроить сводки, виджеты и сегменты в Google Analytics
- Инструкция: Как оптимизировать сайт на WordPress для SEO
- Как пользователи видят сайты: F- и Z- паттерны, диаграмма Гутенберга
Обучение
- Бесплатный курс «Курс молодого бойца: первые шаги в digital»
- Программа обучения «Big Data: основы работы с большими массивами данных»
- Офлайн-курс «Руководитель digital-продукта»
- Офлайн-курс «Data Scientist»