Светлана Шаповалова, редактор блога «Нетологии», адаптировала статью Dave Holtz, в которой он рассказал о восьми навыках, которые помогут начать карьеру Data Scientist.
Интересна профессия Data Scientist? Самое время начать её изучать: Томас Дэвенпорт и Дж. Патил, известные лидеры области, в статье для Harvard Business Review назвали Data Scientist «самой желанной профессией XXI века».
Но как стать дата-сайентистом? Если верить большинству источников, создастся впечатление, что понадобится, как минимум, ученая степень в самых разных областях: от разработки программного обеспечения, обработки данных, работы с базами данных и статистики до машинного обучения и визуализации данных.
Не переживайте. Опыт показывает, что это не главное. Не надо как можно больше и быстрее изучать множество информации о данных и осваивать все навыки подряд — это может затянуться на полжизни. Вместо этого научитесь внимательно читать описание должностных обязанностей. Именно это позволяет претендовать на вакансии, для которых у вас уже есть необходимые умения, или развивать конкретные навыки работы с данными, чтобы получить желаемое место.
Я расскажу вам о восьми важных навыках для Data Scientist.
Базовый инструментарий
Не важно, в какую компанию вы собираетесь, от вас ожидаемо потребуют знание стандартных профессиональных инструментов: язык программирования для статистической обработки данных, например R или Python, а также язык запросов для работы с базами данных, например, SQL.
Базовые знания статистики
Базовое понимание статистики жизненно необходимо в Data Science. Один интервьюер пожаловался мне, что большинство кандидатов, которых он собеседовал, даже не смогли внятно сформулировать определение P-значения. Вы должны понимать, что такое статистические тесты, распределения, метод максимального правдоподобия и т. д.
Вспомните, чему вас учили на парах по статистике. Это также понадобится при работе с машинным обучением.
Однако, самое важное — это чтобы вы точно понимали, когда и какой подход необходимо использовать.
Знания статистики понадобятся для работы в любом месте, но особенно важными они будут в компаниях, полностью ориентированных на работу с данными, и где акционеры принимают решения в зависимости от тех данных, что им предоставляются.
Машинное обучение
Методы машинного обучения пригодятся в работе с большими объемами информации и в компаниях, чей продукт целиком основан на данных. Это значит, что придется узнать значение всех слов, которые на слуху в теме машинного обучения: k-ближайшие соседи, случайные леса, ансамблевые методы.
Многие из этих методов вполне реализуемы с помощью библиотек R или Python — именно поэтому вам не придется изобретать велосипед, если только вы не ведущий специалист с мировым именем.
Важнее умение видеть всю ситуацию целиком и понимать, когда уместно применять те или иные методы.
Многомерный анализ и линейная алгебра
Скорее всего, вас попросят привести примеры результатов, которые вы получили на прошлом месте работы, используя машинное обучение или статистику. Если их нет, интервьюер может задать вопросы, связанные с множеством переменных или линейной алгеброй, поскольку это — основа многих методов.
Вы можете спросить, зачем необходимо понимать этот материал, если есть куча встроенных реализаций в sklearn или R. Смысл в том, что если в какой-то момент команда разработчиков решит разработать собственную реализацию, эти знания вам очень пригодятся.
Понимание этих концепций особенно важно в компаниях, где продукт определяется данными, а небольшие улучшения в прогнозируемой производительности или оптимизации алгоритма могут привести к огромным выигрышам.
Обработка данных
Зачастую данные, которые вы анализируете, не организованы, поэтому с ними трудно работать. Поэтому важно знать, как бороться с их разрозненностью. Это могут быть пропущенные значения, непоследовательное форматирование строки (например, «нью-йорк» и «нй» вместо «Нью-Йорк») и форматирование даты (’01 / 01/2014′ вместо ‘2014-01-01’ и т.д.). Этот навык важен как для небольших компаний, где вы только начинаете работать с данными, так и для data-driven компаний.
Визуализация и передача данных
Визуализация и передача данных невероятно важны. Особенно в молодых компаниях, которые впервые принимают основанные на данных решения. Или в компаниях, где дата-сайентист — это человек, который помогает другим принимать решения, основываясь на данных.
Передача данных означает, что вам понадобится описывать свои выводы или методы работы как технической, так и нетехнической аудитории.
Что касается визуализации данных, будет полезно ознакомится с такими инструментами как ggplot и d3.js. Важно не просто узнать, как работать с инструментами визуализации данных, но и понять принципы кодирования данных и передачи информации.
Программная разработка
Если вы собеседуетесь в небольшую компанию и будете одним из первых специалистов по данным, вам однозначно пригодится опыт разработки программного обеспечения. Вы будете отвечать за обработку большого объема данных и, возможно, разработку продуктов, управляемых данными.
Мышление в мире данных
Компаниям важно знать, что вы умеете решать задачи, основываясь на данных.
Это означает, что в какой-то момент собеседования вас, возможно, могут спросить о проблеме более высокого уровня, чем ваш нынешний. Например, о тесте, который компания хочет запустить, или о продукте, который может потребоваться для разработки. Важно понимать, что в таком случае важно, а что нет. Как бы вы, в роли Data Scientist, взаимодействовали с разработчиками и менеджерами продукта? Какие методы использовали бы?
Наука данных только зарождается и еще не имеет четких границ. Чтобы получить работу, важнее найти компанию, чьи потребности соответствуют вашим навыкам, чем заниматься развитием этих навыков вхолостую. Конечно, это лишь мои личные впечатления.