По прогнозам компании MarketsandMarkets, мировой рынок обработки естественного языка (NLP) к 2026 году увеличится до 35,1 млрд долларов с ожидаемым среднегодовым темпом роста в 20,3%.
О том, что такое компьютерная лингвистика и NLP, мы рассказывали здесь. В этой статье поговорим о компьютерном лингвисте — специалисте, который разрабатывает программы по обработке языков и текстов. Чем занимается, какими навыками и знаниями должен обладать, как им стать.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Какие задачи решает компьютерный лингвист
Компьютерный, или цифровой лингвист — это специалист, который разрабатывает алгоритмы и программы, способные воспроизводить когнитивную языковую деятельность человека: умение читать, понимать на слух, говорить, участвовать в диалоге и переводить с одного языка на другой.
Что делает компьютерный лингвист:
- разрабатывает алгоритмы и методы машинного перевода;
- программирует системы извлечения и поиска информации, распознавания речи и других продуктов;
- работает с генераторами текстов;
- объединяет похожие тексты в группы;
- разрабатывает вопросно-ответные системы;
- создаёт программы, которые облегчают коммуникацию людям с ограниченными возможностями.
Помимо этого, цифровой лингвист анализирует, насколько хорошо работают программы по автоматической обработке текста: системы проверки правописания, машинные переводчики или измерители сходства текстов.
Компьютерные лингвисты пользуются спросом среди крупных ИТ-компаний, связанных с обработкой больших объёмов текстовых и речевых данных. Эти специалисты могут работать везде, где требуется применение современных технологий к лингвистическим данным: в финансах, торговле, науке, медиа и здравоохранении.
Какими качествами и навыками должен обладать компьютерный лингвист
Специалист по компьютерной лингвистике сочетает в себе знания языковеда и программиста, поэтому в нём объединяются профессиональные качества, характерные для этих двух, казалось бы, несовместимых специальностей.
Для работы с компьютером и базами данных цифровой лингвист должен обладать математическими и аналитическими способностями, а также уметь обрабатывать большие потоки информации.
Чтобы алгоритмы и нейросети запоминали корректные сведения, от специалиста требуется знание достоверных источников информации для анализа и высокий уровень грамотности для их верной разметки и трактовки.
Компьютерные и естественные языки относятся к знаковым системам. Поэтому компьютерному лингвисту важно уметь одинаково хорошо обращаться с обеими системами и находить в них точки соприкосновения. Желательно знать иностранные языки, а также языки программирования и технологии машинного обучения и ИИ, необходимые для работы: Python и его многочисленные библиотеки и фреймворки, R, специализированные языки Lisp и Prolog, эмбеддинги, нейросети, разметка данных и многое другое.
Цифровые лингвисты часто находятся в связке с разработчиками и дата-сайентистами, которые работают с размеченными данными. Поэтому важно не просто обрабатывать данные, но и формировать методологию, объяснять её принципы коллегам. Для этого пригодятся навыки межотраслевой коммуникации.
Лингвистический аспект профессии компьютерного лингвиста требует наличие таких качеств, как образное мышление, хорошая память, внимательность, усидчивость и терпение. Кроме того, специалист должен уметь ясно формулировать мысли и долго концентрироваться на одной задаче.
- Освоите один из самых универсальных языков программирования
- Добавите в портфолио три полностью работоспособных проекта
- Получите опыт работы в команде — выполните совместный проект с одногруппниками
Сколько зарабатывают компьютерные лингвисты
Размер зарплаты цифрового лингвиста зависит от его опыта и компетенций, а также стремления к постоянному развитию и статуса компании, в которой он работает.
Некоторые работодатели готовы взять новичка без опыта, но с хорошей теоретической подготовкой. В среднем компании ищут специалистов с опытом работы от года.
На момент написания статьи на hh.ru компьютерному лингвисту или специалисту по обработке естественного языка предлагали оклад от 95 тыс. рублей.
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%9A%D0%9B-%D0%B7%D0%BF-hh2.png)
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%9A%D0%9B-%D0%B7%D0%BF-%D1%85%D1%851.png)
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%9A%D0%9B-%D0%B7%D0%BF-hh.png)
В США, согласно данным Glassdoor, средний уровень зарплат начинающего компьютерного лингвиста составляет около 92 тыс. долларов в год. Специалист высокого профиля может зарабатывать до 170 тыс. долларов в год.
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D0%B8%CC%86-%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82-%D0%B7%D0%BF-%D0%B7%D0%B0-%D0%B3%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B5%D0%B8%CC%86.png)
По подсчётам аналитической компании Payscale, в среднем компьютерные лингвисты зарабатывают 80,3 тысячи долларов в год.
Как стать компьютерным лингвистом
С чего начать
Познакомиться с компьютерной лингвистикой и NLP помогут научно-популярные издания и фильмы.
Языкознание от Аристотеля до компьютерной лингвистики
Владимир Алпатов
Автор книги объясняет, чем занимаются лингвисты, что их интересует и как они пишут компьютерные программы.
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%AF%D0%B7%D1%8B%D0%BA%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5.jpeg)
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/%D0%9F%D1%80%D0%B8%D0%B1%D1%8B%D1%82%D0%B8%D0%B5.jpeg)
Прибытие (2016)
Дени Вильнёв
Экранизация повести «История твоей жизни» Теда Чана. Фильм о том, как трудно, но увлекательно разгадывать язык пришельцев при помощи математики.
Компьютерная лингвистика — сложное направление для самостоятельного изучения, но для получения определённой базы можно пройти курсы или изучить профессиональную литературу.
Учебные программы
- Специализированные курсы по машинному обучению, ИИ и NLP, которые предлагают различные образовательные платформы. Например, курс по обработке естественного языка от Coursera или курс «Data Scientist» от Нетологии.
- Курсы-практикумы на базе компаний: Huawei, NVidia, Google и Microsoft.
Книги
The Oxford Handbook of Computational Linguistics
Руслан Митков
Тридцать восемь глав, описывающих базовые концепции, методы и приложения компьютерной лингвистики.
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/The-Oxford-Handbook-of-Computational-Linguistics.jpeg)
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/Foundations-of-Statistical.png)
Foundations of Statistical Natural Language
Processing
Кристофер Д. Мэннинг, Генрих Шютце
Издание, которое содержит более продвинутые статистические методы обработки естественного языка.
Natural Language Processing with Python
Стивен Бёрд, Эдуард Лопер и Юэн Кляйн
Эта книга поможет развить практический навык обработки естественного языка с использованием языка программирования Python.
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/Natural-Language-Processing-with-Python.jpeg)
![Кто такой компьютерный лингвист, чем занимается и как им стать](https://blog-prod-bucket.website.yandexcloud.net/uploads/2022/03/Speech-and-Language-Processing.jpg)
Speech and Language Processing
Дэниел Джурафски, Джеймс Х. Мартин
Первый в своём роде текст, который подробно освещает языковые технологии.
Фундаментальное образование в области компьютерной лингвистики
- Бакалавриат по специальности «Фундаментальная и прикладная лингвистика», которая есть во многих российских вузах.
- Магистратура «Компьютерная (цифровая) лингвистика» — например, в РГГУ, МФТИ, СПбГУ, МГЛУ.
- Программы профессиональной переподготовки, которые можно пройти после получения высшего образования, — есть в заочной и дистанционной форме, например, в НИУ ВШЭ.
Резюмируем
Чтобы стать компьютерным лингвистом, нужно иметь способности и к математике, и аналитике, и к формализации языка. Для работы в этой профессии важно обладать безупречной грамотностью, склонностью к алгоритмизации и программированию, умением работать с большими данными, а также хорошей памятью и способностью мыслить логически.
Компьютерная лингвистика — интересная низкоконкурентная область с неисчерпаемыми возможностями развития. Одни люди приходят в профессию ради создания алгоритмов распознавания текста и речи, систем перевода и голосовых помощников, вторые — чтобы разрабатывать инструменты для решения коммерчески важных задач, связанных с обработкой естественных языков, третьи — для помощи людям с ограниченными способностями.
Те, кто идут по третьему пути, как правило, заинтересованы в том, чтобы выявлять предубеждения в алгоритмах и ИИ в отношении малоизученных групп пользователей адаптивных технологий. Они стремятся усилить рынок труда и оздоровить экономику, создавая рабочие места и помогая преодолевать дискриминацию вокруг людей с ограниченными возможностями здоровья.
Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.