Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по data science, выпущенные на специализированных медиаплощадках в ноябре.

Обучение в онлайн-университете: курс «Big Data: основы работы с большими массивами данных»

«Закупать 50 тысяч товаров в день и не разориться», vc.ru

Представитель компании Ozon Александр Алексейцев рассказал об использовании машинного обучения для управления закупками.

Чтобы управлять закупками, мы подключили data science. За годы работы у Ozon накопилось достаточно данных для использования машинного обучения. Для предсказания будущих продаж выделили 170 критериев, среди которых:

продажа товара за прошлые недели, доступность на площадке;
тренд недели на основе графика продаж за каждый день;
отношение прошлой цены к будущей с учетом скидок;
количество прямых конкурентов на сайте.

Чтобы анализировать данные о 1,2 миллионах товарах, которые пользователи ежедневно рассматривают на сайте, мы разделили их на 13 типов по аналогии с каталогом. Для каждого типа обучили модели прогноза. Обучение проходило в течение 5 суток.

На следующем этапе внесли в прогноз поправки на человеческий фактор: вовремя ли поставщики привозят товары, хватает ли их поставок, на каких условиях проходит сотрудничество.

Получился алгоритм, который выбирает поставщиков для каждого товара, прогнозирует объем продаж и формирует заявки на закупку. Ежедневно менеджеры отдела закупок получают готовые таблицы с заказами. Так мы отошли от хранения огромных объемов на складе и перешли на цикличные закупки — закупаем столько товара, сколько по прогнозу купят на следующей неделе.

«Data Science: проект от исследования до внедрения на примере Говорящей шляпы», habr.соm

На сайте гипермаркета «Лента» запустили конкурс, в котором говорящая шляпа из Гарри Поттера распределяет по факультетам участников, предоставивших доступ к своим соцсетям. Разработчики компании Open Data Science повторили проект и опубликовали результаты в блоге компании на Хабре.

Разработчики сформулировали задачу — распределять участников на один из четырех факультетов по их имени и фамилии.
Выбрали алгоритмы машинного обучения: нейронные сети, линейную регрессию, факторизационные машины, SVM.
Собрали данные для анализа из wikia по миру Гарри Поттера.
Изучили собранные данные.
Обучили алгоритмы по схеме: сделать предсказание → оценить ошибку → внести поправку в параметры → повторять предыдущие шаги до тех пор, пока процесс не остановится или не закончатся данные → оценить качество модели.
Протестировали результаты.
Упаковали модель в удобный интерфейс, подготовили к использованию в любой среде без долгой настройки.

«Как Яндекс.Такси прогнозирует время подачи автомобиля с помощью машинного обучения», habr.соm

Виктор Кантор опубликовал в блоге компании Яндекс подробное объяснение, как разработчики используют машинное обучение для прогноза времени подачи автомобиля.

Когда машина назначена, для прогноза времени ожидания ETA в Яндексе используют роутинг Яндекс.Карт и время при движении по оптимальному пути. До заказа ETA прогнозируют при помощи машинного обучения: составляют выборку с объектами и правильными ответами, обучают алгоритм угадывать ответ по признакам объекта. Как признаки используют числовые параметры, известные до заказа:

количество пользователей рядом с пином — точкой, куда вызывают машину;
количество водителей рядом;
расстояние до ближайших автомобилей и прочие.

В компании использовали машинное обучение для прогноза ЕТА, чтобы предоставлять пользователям достоверные данные. После А/В-теста выяснилось, что вложения в проект целесообразны, так как после внедрения более точного прогноза выросла конверсия из заказа в поездку и из пользовательской сессии в заказ.

Читать еще: «Машинное обучение: прогнозируем цены акций на фондовом рынке»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.