По прогнозам компании MarketsandMarkets, мировой рынок обработки естественного языка (NLP) к 2026 году увеличится до 35,1 млрд долларов с ожидаемым среднегодовым темпом роста в 20,3%.
О том, что такое компьютерная лингвистика и NLP, мы рассказывали здесь. В этой статье поговорим о компьютерном лингвисте — специалисте, который разрабатывает программы по обработке языков и текстов. Чем занимается, какими навыками и знаниями должен обладать, как им стать.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Какие задачи решает компьютерный лингвист
Компьютерный, или цифровой лингвист — это специалист, который разрабатывает алгоритмы и программы, способные воспроизводить когнитивную языковую деятельность человека: умение читать, понимать на слух, говорить, участвовать в диалоге и переводить с одного языка на другой.
Что делает компьютерный лингвист:
- разрабатывает алгоритмы и методы машинного перевода;
- программирует системы извлечения и поиска информации, распознавания речи и других продуктов;
- работает с генераторами текстов;
- объединяет похожие тексты в группы;
- разрабатывает вопросно-ответные системы;
- создаёт программы, которые облегчают коммуникацию людям с ограниченными возможностями.
Помимо этого, цифровой лингвист анализирует, насколько хорошо работают программы по автоматической обработке текста: системы проверки правописания, машинные переводчики или измерители сходства текстов.
Компьютерные лингвисты пользуются спросом среди крупных ИТ-компаний, связанных с обработкой больших объёмов текстовых и речевых данных. Эти специалисты могут работать везде, где требуется применение современных технологий к лингвистическим данным: в финансах, торговле, науке, медиа и здравоохранении.
Какими качествами и навыками должен обладать компьютерный лингвист
Специалист по компьютерной лингвистике сочетает в себе знания языковеда и программиста, поэтому в нём объединяются профессиональные качества, характерные для этих двух, казалось бы, несовместимых специальностей.
Для работы с компьютером и базами данных цифровой лингвист должен обладать математическими и аналитическими способностями, а также уметь обрабатывать большие потоки информации.
Чтобы алгоритмы и нейросети запоминали корректные сведения, от специалиста требуется знание достоверных источников информации для анализа и высокий уровень грамотности для их верной разметки и трактовки.
Компьютерные и естественные языки относятся к знаковым системам. Поэтому компьютерному лингвисту важно уметь одинаково хорошо обращаться с обеими системами и находить в них точки соприкосновения. Желательно знать иностранные языки, а также языки программирования и технологии машинного обучения и ИИ, необходимые для работы: Python и его многочисленные библиотеки и фреймворки, R, специализированные языки Lisp и Prolog, эмбеддинги, нейросети, разметка данных и многое другое.
Цифровые лингвисты часто находятся в связке с разработчиками и дата-сайентистами, которые работают с размеченными данными. Поэтому важно не просто обрабатывать данные, но и формировать методологию, объяснять её принципы коллегам. Для этого пригодятся навыки межотраслевой коммуникации.
Лингвистический аспект профессии компьютерного лингвиста требует наличие таких качеств, как образное мышление, хорошая память, внимательность, усидчивость и терпение. Кроме того, специалист должен уметь ясно формулировать мысли и долго концентрироваться на одной задаче.
- Освоите один из самых универсальных языков программирования
- Добавите в портфолио три полностью работоспособных проекта
- Получите опыт работы в команде — выполните совместный проект с одногруппниками
Сколько зарабатывают компьютерные лингвисты
Размер зарплаты цифрового лингвиста зависит от его опыта и компетенций, а также стремления к постоянному развитию и статуса компании, в которой он работает.
Некоторые работодатели готовы взять новичка без опыта, но с хорошей теоретической подготовкой. В среднем компании ищут специалистов с опытом работы от года.
На момент написания статьи на hh.ru компьютерному лингвисту или специалисту по обработке естественного языка предлагали оклад от 95 тыс. рублей.
В США, согласно данным Glassdoor, средний уровень зарплат начинающего компьютерного лингвиста составляет около 92 тыс. долларов в год. Специалист высокого профиля может зарабатывать до 170 тыс. долларов в год.
По подсчётам аналитической компании Payscale, в среднем компьютерные лингвисты зарабатывают 80,3 тысячи долларов в год.
Как стать компьютерным лингвистом
С чего начать
Познакомиться с компьютерной лингвистикой и NLP помогут научно-популярные издания и фильмы.
Языкознание от Аристотеля до компьютерной лингвистики
Владимир Алпатов
Автор книги объясняет, чем занимаются лингвисты, что их интересует и как они пишут компьютерные программы.
Прибытие (2016)
Дени Вильнёв
Экранизация повести «История твоей жизни» Теда Чана. Фильм о том, как трудно, но увлекательно разгадывать язык пришельцев при помощи математики.
Компьютерная лингвистика — сложное направление для самостоятельного изучения, но для получения определённой базы можно пройти курсы или изучить профессиональную литературу.
Учебные программы
- Специализированные курсы по машинному обучению, ИИ и NLP, которые предлагают различные образовательные платформы. Например, курс по обработке естественного языка от Coursera или курс «Data Scientist» от Нетологии.
- Курсы-практикумы на базе компаний: Huawei, NVidia, Google и Microsoft.
Книги
The Oxford Handbook of Computational Linguistics
Руслан Митков
Тридцать восемь глав, описывающих базовые концепции, методы и приложения компьютерной лингвистики.
Foundations of Statistical Natural Language
Processing
Кристофер Д. Мэннинг, Генрих Шютце
Издание, которое содержит более продвинутые статистические методы обработки естественного языка.
Natural Language Processing with Python
Стивен Бёрд, Эдуард Лопер и Юэн Кляйн
Эта книга поможет развить практический навык обработки естественного языка с использованием языка программирования Python.
Speech and Language Processing
Дэниел Джурафски, Джеймс Х. Мартин
Первый в своём роде текст, который подробно освещает языковые технологии.
Фундаментальное образование в области компьютерной лингвистики
- Бакалавриат по специальности «Фундаментальная и прикладная лингвистика», которая есть во многих российских вузах.
- Магистратура «Компьютерная (цифровая) лингвистика» — например, в РГГУ, МФТИ, СПбГУ, МГЛУ.
- Программы профессиональной переподготовки, которые можно пройти после получения высшего образования, — есть в заочной и дистанционной форме, например, в НИУ ВШЭ.
Резюмируем
Чтобы стать компьютерным лингвистом, нужно иметь способности и к математике, и аналитике, и к формализации языка. Для работы в этой профессии важно обладать безупречной грамотностью, склонностью к алгоритмизации и программированию, умением работать с большими данными, а также хорошей памятью и способностью мыслить логически.
Компьютерная лингвистика — интересная низкоконкурентная область с неисчерпаемыми возможностями развития. Одни люди приходят в профессию ради создания алгоритмов распознавания текста и речи, систем перевода и голосовых помощников, вторые — чтобы разрабатывать инструменты для решения коммерчески важных задач, связанных с обработкой естественных языков, третьи — для помощи людям с ограниченными способностями.
Те, кто идут по третьему пути, как правило, заинтересованы в том, чтобы выявлять предубеждения в алгоритмах и ИИ в отношении малоизученных групп пользователей адаптивных технологий. Они стремятся усилить рынок труда и оздоровить экономику, создавая рабочие места и помогая преодолевать дискриминацию вокруг людей с ограниченными возможностями здоровья.
Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.