Data Science для начинающих: обзор сферы и профессий

28.03.2019
2222
Подпишитесь, чтобы получать новые статьи на почту

Продюсер направления Data Science Нетологии Елена Герасимова рассказала, что представляет из себя отрасль и как построить в ней карьеру.

Обучение в онлайн-университете: курс «Data Scientist»

Что такое Data Science

Data Science — наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат, включая визуализацию, работу со статистикой и аналитическими методами — машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.


Сфера работы с данными — огромная отрасль, в которой выделяют несколько ключевых направлений, включая Data Science

  • Искусственный интеллект — обучение машин думать для упрощения рутинных процессов и освобождение людского ресурса для творческих задач. Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, сегодня ИИ в большинстве областей еще не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных — две стороны одной медали.

  • Машинное обучение — создание инструментов для извлечения знаний из данных. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумленными данными.
  • Глубокое обучение — создание многослойных нейронных сети в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. «Глубину» обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.

  • Data Science — придача массивам данных смысла, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления использует некоторые методы машинного обучения и Big Data — облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
  • Big Data — работа с огромными объемами часто неструктурированных данных. Специфика сферы — инструменты и системы, способные выдержать высокую нагрузку.

Как и где зарабатывать на данных

  • Собирать и продавать данные — в соцсетях, поисковых системах, медиа сайтах.
  • Обслуживать данные — в софтверных компаниях-гигантах Google, Amazon и других.
  • Разрабатывать продукты, использующие Data-решения — в компаниях, которые создают беспилотники и другую инновационную технику.
  • Извлекать из данных пользу — в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.

Самая обширная сфера — извлечение пользы из данных. Она охватывает:

  • обнаружение аномалий, например, аномального поведения клиентов, мошенничества;
  • персонализированный маркетинг — персональные e-mail рассылки, ретаргетинг, рекомендательные системы;
  • прогнозы метрик — показателей эффективности, качества рекламных кампаний и других направлений деятельности;
  • скоринговые системы — обрабатывают большие объемы данных и помогают принять решение, например, о выдаче кредита;
  • базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.

Из чего состоит аналитика данных

Сбор. Поиск каналов, где можно собирать данные, и способов их получения.

Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.

Анализ. Изучение данных, подтверждение предположений, выводы.

Визуализация. Представление в таком виде, который будет простым и понятным для восприятия человеком — в графиках, диаграммах.

Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.

Кем можно работать в аналитических проектах

Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140-190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, еще больше — 1,5 миллионов человек. Эти прогнозы подтвердились, специалистов действительно не хватает.


Траектории обучения Data Scientist / Аналитик Данных / Аналитик BI в Нетологии

Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в БД:

  • Data Engineer — отвечает за целостность и оптимальное хранение данных;
  • разработчик БД — обеспечивает работоспособность БД;
  • архитектор БД — проектирует хранение данных.

Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:

  • аналитик — анализирует метрики, проводит эксперименты, составляет прогнозы;
  • Data scientist — разрабатывает продукт, основанный на данных, например, рекомендательную систему.
  • BI-специалист — занимается визуализацией, интерактивным dashboard;
  • ML Engineer — разрабатывает и отвечает за развитие Data Driven продуктов.

Больше всего карьерных треков у ML Engineer (по сути, разработчик алгоритмов). Это нейросети, голосовые помощники, Object detection — сфера безопасности, предсказание спроса, предиктивная аналитика, распознаванием объектов. Среди более сложных направлений: GAN — работа с изображениями, RL — игровые стратегии, геймдев, Black-box AI — коробочные решения для искусственного интеллекта.


Из каких профессий быстрее всего переквалифицироваться

Как разобраться в направлениях работы

Какие знания и навыки нужны аналитику данных


Чему обучают будущих аналитиков

Hard skills:

  • собирать и анализировать требования заказчика к отчетности;
  • получать, очищать и преобразовывать, визуализировать и представлять данные;
  • интерпретировать данные, делать на их основе обоснованные выводы;
  • разрабатывать требования к аналитическим инструментам, сопровождать их внедрение;
  • проводить исследования и А/Б тесты, готовить аналитику для принятия стратегических решений.

Soft skills:

  • знать основные математические методы и азы статистики;
  • мыслить абстрактно;
  • делать скетчи и прототипы;
  • видеть в метриках физический смысл, находить причины и взаимосвязи событий;
  • обладать развитым эмоциональным интеллектом;
  • предоставлять рекомендации бизнесу.


Навыки верхнего уровня по направлениям работы в Data Science

С какими инструментами предстоит работать

Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.

BI-аналитику: инструменты BI, например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.

Data Scientist и аналитику данных: библиотеки визуализации и анализа внутри Python и R, инструменты майнинга — углубленно, интерактивные оболочки Jupiter, Zeppelin, инструменты автоматизации и развертывания Docker, Airflow.


Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Елена Герасимова
Руководитель программ Data Science Нетология
Мы используем файлы cookie
Чтобы улучшить работу сайта и предоставить вам больше возможностей для обучения. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.