Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science за февраль.

Обучение в онлайн-университете: профессия «Data Scientist»

«Jupyter Notebook в Netflix», habr

Сотрудники Netflix рассказали, как используют Jupyter Notebooks для быстрого прототипирования и анализа данных и как переосмысливают способы его использования — а читатели Хабра перевели оригинал статьи на русский язык.

Netflix построили гибкую и мощную платформу для работы с данными — Netflix Data Platform. Для того, чтобы упростить работу и сделать возможным поддержку широкого круга пользователей были разработаны сервисы Genie (сервис выполнения задач) и Metacat (метахранилище).

Изначально в Netflix использовали Jupyter для поддержки data science workflows, но позже осознали его универсальность для общего доступа к данным. Это позволило дать пользователям доступ ко всей платформе Netflix через Notebook.

Jupyter notebook в nteract отображает Vega и Altair

Поддержка системы требует вспомогательной инфраструктуры:

Инфраструктура Notebook в Netflix

Каждый пользователь Netflix Data Platform имеет домашнюю директорию на EFC с рабочим пространством для notebooks.

Notebook хранение vs. доступ

Управление вычислительными ресурсами сложная часть работы с данными. В Netflix для управления вычислительными ресурсами используют контейнерную архитектуру в AWS. Запросы, конвейеры, notebook и другие задания выполняются в контейнерах.

«Как рекомендовать музыку, которую почти никто не слушал. Доклад Яндекса», habr

Руководитель команды рекомендаций в Медиасервисах Даниил Бурлаков выступил на встрече «Яндекс изнутри» и рассказал о проблемах, которые возникают при работе с рекомендациями в Яндекс.Музыке.

Главные продукты Яндекс.Музыки — умные плейлисты и Яндекс.Радио, которые активно используются и развиваются.

Умные плейлисты

Плейлист дня — набор треков, который обновляется каждый день и доступен без интернета.

Дежавю — треки, которые пользователи никогда не слушали.

Премьера — подборка треков исполнителей, которые могут понравится слушателю.

Сложности формирования плейлистов

При создании рекомендаций существуют две серьезные проблемы:

Холодные пользователи — только пришли на сервис и про них ничего не известно
Холодный контент — треки, которые появились недавно или редкие песни.

Варианты решения проблем

Пользователь выбирает жанры и любимых исполнителей, а потом получает первый плейлист дня.

Сначала система ориентируется на среднего пользователя, а затем переходит к персонализации. Если трек не понравился — предлагает что-то другое. Так формируется персонализированный плейлист.

Эти два варианта в целом решают проблему холодных пользователей, но они не применимы к холодному контенту. Эту проблему можно решить с помощью SVD.

Результаты

«В Москве протестируют беспилотный трамвай. Мы поговорили с разработчиками автопилота», habr

Руководитель департамента разработки беспилотных транспортных средств в Cognitive Technologies Юрий Минкин рассказал о проекте беспилотного трамвая в Москве.

Как работает. Система использует 20 камер и 10 радаров, которые контролируют все зоны трамвая. Для того, чтобы система работала в любую погоду используют технологию data fusion — обрабатывает данные с камер и радаров одновременно.

О машинном зрении. Позволяет определять разные объекты — людей, светофоры, автомобили и другое разнообразие, которое обычно видит водитель.

О безопасности. Высокая технологичность трамвая дает возможность управлять трамваем электронно и получать информацию о состоянии всех систем. Атаковать трамвай невозможно — вся система находится внутри и не имеет входа снаружи. Радары помогут избежать атак изображений-обманок.

Что нужно, чтобы проект был реализован:

тестирование различных ситуаций в городских условиях;
доработка алгоритмов;
сбор данных.

«Разработчик SearchFace о возможностях алгоритма», habr

Кейс компании, получившей иск «ВКонтакте», о том, как работает сервис и какие возможности он открывает.

Поиск в SearchFace выполняется по базе из 500 миллионов альтернатив. Системе нужно отличить человека от миллионов других. Главная задача, которую поставили перед собой создатели — поиск по искаженным картинкам.

Пример работы сервиса

Тестирование помогло понять, что сервис может искать по фотографиям:

с низким разрешением;
с необычным выражением лица и мимикой;
где видна только часть лица;
по детским фотографиям.

«Как научить машину понимать инвойсы и извлекать из них данные», habr

В блоге компании ABBYY рассказали, как с помощью машинного обучения извлекать данные из инвойсов.

Инвойс — документ, который предоставляется продавцом покупателю и содержит информацию о товарах и услугах, их количестве и цене. Обычный инвойс состоит из различных полей из заголовка и табличных данных.

Пример инвойса

Компании тратят миллионы человеко-часов на обработку инвойсов и расходуют до 40$ на работу с одним бумажным инвойсом. Развитие машинного обучения дало возможность извлекать данные с помощью нейронных сетей, что ускорят процесс получения информации и экономит финансы компании. В ABBYY разработали свой алгоритм работы с инвойсами:

Результаты использования машинного обучения:

выросло качество извлечения данных;
появилась возможность дообучать сеть на новых данных, что решило проблему разнообразия форм инвойсов;
можно просто установить продукт и начать его использовать без программирования.

«Новый подход к пониманию мышления машин», habr

Редактор Хабра Вячеслав Голованов перевел интервью исследовательницы из Google Brain Бин Ким.

Бин Ким — специалист по «интерпретированному» машинному обучению. Совместно с коллегами из Google Brain она разработала систему TCAV (Testing with Concept Activation Vectors), которая позволяет задать ИИ вопрос и получить на него осмысленный ответ.

Читать еще: «Как сквозная аналитика помогает бизнесу»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.