Data Science-дайджест №7
Книжная полка

Data Science-дайджест №7

Редакция Нетологии собрала и законспектировала самые интересные статьи по Data Science.

Обучение в онлайн-университете: профессия «Data Scientist»

«Эксперимент: Фейковый тест Тьюринга», tjournal

Автор телеграм-канала Denis Sexy IT Денис Ширяев провел эксперимент: он свел двух людей, которые думают, что общаются с роботом.

В телеграм-канале опубликовали пост, где рассказали о создании чатбота, натренированного на комментариях из сети. Пользователям нужно было определить, кто был их собеседник: человек или робот?

Data Science-дайджест №7

Но никакой нейронки не было — пользователей разыграли. Большинство людей уверены, что общались с глупым ботом:

Data Science-дайджест №7

Data Science-дайджест №7
Оказалось, что людям нравится прикидываться роботами

«ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми», habr

В блоге компании Pochtoy рассказали, как «Сколково» и центр Samsung AI делают видео человека из одной картинки.

Специалисты создали систему, которая ищет на фото ориентиры вроде носа, глаз, бровей, подбородка. Она улавливает, что из себя представляет человек, а затем переносит его особенности на видео:

Data Science-дайджест №7

Модель не требует многого — нужно фото одного человека, у которого будут видны хотя бы глаза. Если дать системе видео, где человека находится в таком же положении, как на фото, то система сделает с ним все что угодно. Результат генерируется моментально — достаточно одной картинки. Идеала можно достичь с помощью 32 снимков.

Data Science-дайджест №7
Удалось оживить Мона Лизу

Data Science-дайджест №7
Мерлин Монро вновь запела для нас

«Как мы создавали новостные заголовки на русском языке с помощью Deep Learning», DOU

Data Scientist компании Genesis Виктор Трохименко рассказал, как они создавали новостные заголовки с помощью глубокого обучения.

Автоматизация процессов — тренд в медиабизнесе. В Genesis Media решили помочь авторам писать заголовки с помощью Data Science. За основу взяли казахстанский новостной сайт nur.kz.

Всего собрали 2,8 млн записей с признаками «заголовок» и «текст»:

Data Science-дайджест №7

Операции с регулярными выражениями использовали для предварительной обработки:

Data Science-дайджест №7

Модели

Решения «из коробки». Тестировали два решения: gensim и summa. Они больше подходят для английского языка и не дают нужного результата, поэтому эти варианты отбросили.

Data Science-дайджест №7

TensorFlow. Нашли несколько подходов, где можно обучаться на собственных данных. Сначала взяли модель, которая написана Tensorflow. Для инициализации векторов слов она использует предобученный Glove. Альтернатива Glove — предобученный FastText.

Data Science-дайджест №7

На основе Keras. Решили попробовать еще один вариант — keras-text-summarization. Чтобы решить, какую модель лучше использовать для русского языка, задали вопрос в репозитории. Ответ был такой: «I think recursive-rnn-1 or recursive-rnn-2 should be good for the start».

Data Science-дайджест №7

На основе OpenNMT. OpenNMT — нейронная система машинного перевода с открытым исходным кодом. Ее плюс — можно попробовать разные варианты перевода и обобщений.

Data Science-дайджест №7

Команда Genesis Media остановилась на варианте с Keras, потому что он показал удовлетворительный вариант.

«Самые интересные и быстрорастущие библиотеки Python 2019 года», MentorCruise

В MentorCruise рассказали, на какие библиотеки Python стоит обратить внимание в 2019 году.

PySnooper

У большинства IDE отличный отладчик для Python. Он позволяет проходить по коду, проверять переменные и видеть, где что-то идет не так. Но если вы не работает с IDE — установка утомительна.

PySnooper — альтернатива для этого. Библиотека настроена на две строки, записывает каждый вызов и строку кода в оформленной функции. Затем можно выгрузить ее в стандартный вывод или в файл.

PySnooper позволяет наблюдать за определенными переменными с помощью однострочного изменения кода и может отлаживать многопоточные программы.

Leon

Леон — личный помощник с открытым исходным кодом, похожий на Siri и Google Assistant.

В настоящее время приложение понимает текст и голос, общие английские фразы, имеет доступ к определенным модулям для вычислений и проверки интеграций.

Bullet

Bullet — полезный инструмент для разработчиков, способный создавать настраиваемые приглашения CLI, в том числе простые [y / n] приглашения, а также красивые списки выбора, ввод свободного текста, запросы пароля.

AutoML-GS

Библиотека поддерживает фреймворк. Нужно только предоставить аннотированный CSV, и AutoML автоматически выберет и сравнит подходящие модели.

В библиотеке есть крутые штуки: код автоматически выполняется на бесплатном TPU для максимально быстрого обучения, наборы данных фильтруются и анализируются автоматически, генерируется собственный код Python для интеграции.

«Как устроено A/B-тестирование в Авито», habr

Аналитик Данил Леньков рассказал, как устроена платформа для A/B-тестирования в Авито, и поделился некоторыми техническими деталями.

Data Science-дайджест №7

Для Авито А/B эксперименты — важный инструмент принятия решений. Проверяется каждая гипотеза, а затем принимаются позитивные изменения.

A/B платформа в Авито нужна, чтобы:

  • помогать в запуске экспериментов;
  • контролировать нежелательные пересечения;
  • считать метрики, визуализировать результаты.

Data Science-дайджест №7
Так выглядит полный цикл эксперимент

Для конфигурации экспериментов используют YAM:

Data Science-дайджест №7

Технику хеширования с солью используют для деления трафика на группы:

Data Science-дайджест №7

Эффект «памяти» пользователей устраняют при помощи дополнительного перемешивания второй солью:

Data Science-дайджест №7

Сырые логи сначала раскладывают в Vertica, а затем агрегируют в таблицы-препараты:

Data Science-дайджест №7

T-test, Mann-Whitney U-test помогают измерять значимость отклонений по метрикам:

Data Science-дайджест №7

Для визуализации используют Tableau и веб-вью на Tableau Server.

«Машинное обучение позволит быстро анализировать нанопрепараты для иммунотерапии рака», XX2 ВЕК

Исследователи из Северо-Западного университета (США) изобрели сферические нуклеиновые кислоты (СНК)  — наноструктуры из шароподобных форм ДНК и РНК.

Data Science-дайджест №7
СНК с ядром и без

Ученые могут запрограммировать СНК для точечного лечения пациентов: отключение конкретных генов, подавление клеточной активности, стимулирование иммунного ответа организма на разные заболевания.

Машинное обучение помогло создать цифровую модель и определить количество частиц, способных запустить оптимальную активность.

СНК может помочь в лечении различных форм рака, генетических заболеваний и заболеваний нервной системы.

Читать еще: «Data Science для начинающих: обзор сферы и профессий»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Data Science-дайджест №7