Редакция «Нетологии» разбирается, кто такой Data Scientist, что он делает, а также какими навыками и технологиями должен владеть, чтобы максимально эффективно работать с Big Data.
Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.
Средняя зарплата в США Data Scientist — 91 тысяча $ в год. А вот график зависимости заработка от опыта работы.
Данные PayScale
В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.
Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».
Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.
Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».
Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:
- Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
- Решение бизнес-задач с использованием данных.
- Работа с различными языками программирования, включая SAS, R и Python.
- Работа со статистикой, включая статистические тесты и распределения.
- Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
- Сотрудничество с ИТ и бизнесом в равной мере.
- Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.
А вот термины и технологии, которые надо знать будущему Data Scientist:
- Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
- Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
- Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
- Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
- Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
- Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.
Помимо прочего, нужно знать и понимать:
- Статистику и машинное обучение.
- Языки программирования SAS, R или Python.
- Базы данных MySQL и Postgres.
- Технологии визуализации данных и отчетности.
- Hadoop и MapReduce.
Вот здесь можно прочитать, как Beeline проводит собеседование на Data Scientist в своей компании: «Процесс начинается с телефонного интервью с вопросами по некоторым разделам математики. После кандидата ждёт тестовая задача — конкретная задача машинного обучения, аналогичная задачам на kaggle.com. Построив хороший алгоритм и получив высокое значение метрики качества на тестовой выборке, кандидат допускается до следующего этапа — непосредственного собеседования, на котором проверяется знание методов машинного обучения и анализа данных, а также задаются нетривиальные вопросы из практики и задачи на логику».
И да, в Data Scientist можно попасть не с нуля, но с хорошей базой. Вот что пишет физик, выпустившийся из университета, и променявший науку на Big Data: «Контора, которая называется Bidgely, предложила мне позицию Data Scientist с окладом $130k в год грязными (примерно $7400 в месяц чистыми): работать в офисе, расположенном в городке Sunnyvale, что в Кремниевой Долине, в паре километров от штаб-квартир Google, Linkedin, Apple». В январе он подумал, что надо уходить в Data Science, а уже в октябре работал в США, выпустившись из университета в июне.
Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.
Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.
От редакции
Если вы хотите стать Data Scientist, то советуем записаться на наш очный курс, длящийся 5 месяцев. После обучения вы получите диплом о профессиональной переподготовке по специальности «Аналитик данных/Специалист по машинному обучению». Преподаватели — реальные специалисты из Yandex Data Factory, OWOX, Rambler, Сбербанк-Технологии, Microsoft, МТС и другие. Все обучение построено не только на теории, но и на обязательной практической отработке. Поэтому после очного курса вы выйдете подготовленным специалистом, который может пойти в любую интересную ему сферу: ритейл, банки, стартапы, ИТ, телеком. Все подробности здесь.
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.