Аналитика и Data Science

Будущее за Data Scientist: что нужно знать о профессии и причём тут единороги

Ведущий научный сотрудник лаборатории Philips Research в Сколково Ирина Федулова рассказывает, чем занимаются Data Scientists и где научиться работать с большими данными.

Мы сталкиваемся с «умными» технологиями практически каждый день: смартфоны распознают владельца по отпечатку пальца, социальные сети и интернет-магазины показывают нам товары, которые интересует именно нас, а на улицах городов уже появляются беспилотные автомобили. Растущее количество информации, необходимость её обработки и анализа, а также бурное развитие инноваций спровоцировали появление новой профессии — Data Scientist.

В чем суть работы Data Scientist

Data Science — сравнительно новая дисциплина в ИТ. Это анализ данных и создание на их основе передовых ИТ-продуктов, прогнозов, рекомендаций и других полезных технологий.

В Data Science применяется машинное обучение, благодаря которому компьютеры обучаются самостоятельно, по подобию людей. Чем больше информации у человека о какой-то задаче и чем чаще он её выполняет, — тем лучше он решает эту задачу. Так работает и машинное обучение у компьютеров.

Data Scientist как раз делает так, чтобы компьютер «научился учиться». Так, компьютер обучается решать задачи, с которыми ежедневно сталкиваются люди в разных сферах бизнеса: в банковском деле, торговле, здравоохранении и др.

Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. К примеру, в медицине алгоритмы позволяют более качественно диагностировать заболевания и назначать план лечения.

Можно проанализировать предпочтения потребителей в ритейле и изменить сервис. Сложные алгоритмы машинного обучения могут рассказывать о поведении, действиях людей в социальных сетях, отзывах — затем на основании полученных данных маркетолог меняет подход к работе с клиентами и повышает прибыль компании.

Анализ больших данных помогает принимать эффективные решения, будь то построение избирательной кампании на выборах или качественное управление персоналом в крупной компании. Разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью доступных данных. В этом и состоит работа дата-сайентистов.

Какие задачи стоят перед специалистами в Data Science

Специалисту в Data Science уже недостаточно разбираться только в математике, программировании и статистике — нужно понимать, как решать бизнес-задачи. Одно дело, когда от специалиста по данным требуют повысить точность распознавания или предсказания уже работающей системы. И совсем другой случай, когда всё приходится создавать с нуля.

На Западе используют термин Unicorn Data Scientist. «Единорог» в отличие от обычного специалиста владеет навыками бизнес-аналитика: отлично разбирается в предметной области — например, в финансовых процессах или медицинской сфере, и знает её особенности. Эти знания помогают ему отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какой набор генов соответствует определённому заболеванию, как распознать мошеннические транзакции.

Такой специалист не просто создает алгоритм, он ответственен за принятие важных решений, ему необходимо понимать, как устроены бизнес-процессы компании.

Важны коммуникационные навыки: дата-сайентисту нужно не только работать с цифрами, но и уметь находить общий язык с разными людьми. Помимо ИТ-грамотности, математических и статистических знаний, от «единорога» требуются такие качества, как креативность, проактивность и стратегическое мышление.

В этой сфере очень важно доносить свои идеи и обсуждать целый спектр задач проекта с разными специалистами именно на их языке, будь то ученый, маркетолог или программист.

Всё дело в данных

Считается, что больших успехов в развитии этих технологий удалось достичь благодаря сочетанию нескольких факторов.

Мощные компьютеры стали общедоступными, так что появилась возможность накапливать и обрабатывать огромные массивы данных. Одновременно были разработаны всевозможные устройства и сервисы, которые собирают данные об окружающей среде, о поведении людей.

Мобильные операторы собирают данные не только о звонках, но и о перемещении своих клиентов. Магазины хранят информацию о покупках и предпочтениях клиентов при помощи карт лояльности. Банки знают, где, когда и какие покупки совершает клиент. Интернет-сайты запоминают, какой контент пользователь просматривал. Вся эта информация затем используется для того, чтобы предлагать клиенту новые товары и услуги, оптимизировать процессы, автоматизировать рутинные операции.

Анализ данных и машинное обучение сейчас активно используются в инновационном бизнесе, фундаментальной науке и прикладных исследованиях. Профессию Data Scientist можно назвать одной из самых популярных специальностей XXI века.

Несмотря на огромное количество академических программ, курсов и онлайн-платформ для обучения, кадров всё ещё не хватает — спрос на них слишком велик. Средние зарплаты специалистов по анализу данных превышают зарплаты классических инженеров-программистов.

Нет конкуренции, есть возможности

Внутри профессии Data Scientist уже появилось множество специализаций: одни аналитики изучают зависимости в данных, другие строят модели, третьи общаются с заказчиком. Во многих из них конкуренция невысокая, а возможности для роста и карьерного развития обширны.

Кроме аналитиков есть ещё инженеры-программисты — они занимаются внедрением моделей в реальное производство, и инженеры, которые создают инфраструктуру для сбора, хранения и подготовки данных. Среди аналитиков тоже появились различные специализации: в банках, телекоме и ритейле «классическая» аналитика занимается обработкой табличных данных и построением рекомендаций.

Специалисты по компьютерному зрению (computer vision) разрабатывают модели для распознавания изображений или отдельных объектов на фото, извлечения информации из документов, распознавания людей на видео с камер наблюдения и даже для оценки эмоций клиента по выражению лица.

Другие специализируются на обработке текстов на естественном языке — natural language processing, NLP. Строят всевозможные чат-боты вроде Siri и Алисы, создают модели для автоматического определения тем постов в соцсетях или для анализа отзывов о товарах на сайте интернет-магазина.

Куда идти учиться

Чтобы стать Data Scientist, в первую очередь стоит получить качественное высшее математическое или техническое образование — фундамент для успешного развития в сфере Data Science. Многие специалисты по работе с данными начинали свою карьеру как математики, физики, инженеры и экономисты. Базовое профильное образование можно получить в МГУ, МФТИ, ВШЭ и Сколтехе. Также подготовкой таких специалистов занимаются, например, в Школе Анализа Данных Яндекса и в Техносфере компании Mail.ru Group.

Будущее за Data Scientist: что нужно знать о профессии и причём тут единороги

Ирина Федулова

Ведущий научный сотрудник лаборатории Philips Research

профессия

Дата-инженер с нуля до PRO 🚀

Узнать больше

  • Получите профессию с высоким окладом на низкоконкурентном рынке
  • Научитесь автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных

Кроме того, нужно владеть языками программирования, обязательный минимум — Python и R. Существует множество онлайн-платформ для обучения программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях — например, Kaggle — и хакатонах, которые проводятся разными компаниями совместно с академическими институтами.

Иногда крупные компании проводят открытые конкурсы на своих онлайн-платформах: придумывают задачи на основе тех, которые возникают у них на практике. После этого они обрабатывают данные и выкладывают часть в открытый доступ для построения моделей, а часть оставляют себе на проверку. Математики и программисты соревнуются друг с другом, кто лучше научится сам и научит свои алгоритмы справляться с прогнозированием скрытой части данных. Самые успешные решения претворяются в жизнь.

Как работают эксперты по аналитическим данным в лаборатории Philips Research

В лаборатории Philips Research каждый Data Scientist занимается разработками в рамках текущих проектов компании в сфере здравоохранения. Тематика разработок достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений и текстов, предсказанием болезней, поиском аномалий, генеративными моделями и другими технологиями.

Один из приоритетов специалистов лабораторий Philips Research по всему миру — разработка инновационных подходов к медицинской визуализации. Учёные стремятся автоматизировать некоторые из задач врачей, деятельность которых связана с оценкой изображений, и внедряют ИИ (искуственный интеллект) в рентгенологию, МРТ, компьютерную томографию, патоморфологию.

Примером может послужить возможность создавать один вид изображения на основании другого — этому могут обучаться генеративные алгоритмы. Нейросети моделируют изображения на основании известной информации: мы знакомы с этой возможностью, по развлекательным мобильным приложениям, в которых можно создать «гибрид» двух людей по фотографиям.

В медицине это применимо, когда пациенту во время обследования требуется сразу две процедуры: компьютерная томография (КТ) и МРТ. При проведении КТ доза облучения пациента несколько выше, особенно когда необходимо хорошее разрешение. Чтобы снизить уровень лучевой нагрузки, особенно, если пациент — ребенок, ученые создали метод, который называется квази-КТ. Согласно ему обученная программа генерирует КТ на основе существующих МРТ. Пациент проходит одну процедуру вместо нескольких. Таким образом уменьшается время и стоимость обследования, а главное — доза облучения.

Среди направлений разработок Philips Research, не связанных с визуализацией, особенно перспективна прогнозная аналитика — предсказание заболеваний в зависимости от местности и группы населения. Если будут учитываться медицинские показатели миллионов человек, можно будет находить взаимосвязи и закономерности, выяснять, почему где-то одни заболевания распространены больше, чем другие, и затем на основании полученной информации определять группы риска и проводить профилактику до возникновения вспышек болезней.

Специалисты Philips Research принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием. К тому же специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей и выступают с докладами на ведущих мировых конференциях в сфере искусственного интеллекта, таких как MICCAI, MIDL, ACPR.

Data Scientist на сегодня — одна из самых быстроразвивающихся профессий, которая позволяет претворять в жизнь то, что раньше казалось нереальным. Спрос на специалистов в области данных велик и продолжает расти, а возможности для развития практически безграничны.

профессия

Data Scientist 🔗

Узнать больше

  • Научитесь строить и обучать предиктивные модели с помощью алгоритмов машинного обучения и нейросетей
  • Сможете находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые бизнес-процессы

Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Будущее за Data Scientist: что нужно знать о профессии и причём тут единороги