Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей.
Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
В материале:
1. Компьютерная лингвистика решает задачи, связанные с обработкой естественного языка
2. Синтез речи и генерирование текста — ключевые задачи компьютерной лингвистики
3. Как Data Science помогает людям с вербальными и когнитивными нарушениями
4. Адаптивные технологии расширяют возможности людей с инвалидностью
Наши предки изобрели естественный язык много тысяч лет назад для нужд эволюционирующего общества. Современные естественные языки развиваются по своим законам: в каждую эпоху они служат адекватным средством человеческого общения, выражения чувств, мыслей и действий.
Структура и использование естественного языка основаны на предположении, что участники разговора имеют схожий опыт и знания, а также мировоззрение и манеру поведения. Большим вызовом оказалось применение неограниченного языка для обмена информацией с существом совершенно другой природы ― компьютером.
За последние 200 лет человечество успешно автоматизировало многие задачи с помощью механических и электрических устройств, которые продолжают служить обществу в повседневной жизни. Во второй половине XX века внимание людей переключилось на автоматизацию обработки естественного языка (Natural Language Processing, NLP). С тех пор устройства выполняют не только механические функции, но и интеллектуальные.
У машин появилась новая задача: прочитать текст, проверить его на правильность, выполнить прописанные инструкции или дать разумный ответ, основанный на значении этого текста. За собой люди оставили лишь принятие окончательных решений.
В стремлении заполнить пробел между человеческим общением и компьютерным пониманием NLP опирается на многие дисциплины, в том числе на компьютерную лингвистику (Computational Linguistics, CL).
Рассмотрим, что такое компьютерная лингвистика, какие задачи она решает и как помогает людям с ограниченными возможностями здоровья.
Компьютерная лингвистика решает задачи, связанные с обработкой естественного языка
Компьютерная лингвистика — это область знаний, которая занимается компьютерным моделированием владения естественным языком и решением прикладных задач автоматической обработки текстов и речи.
История компьютерной лингвистики начинается в 1950-х годах с исследований известного американского лингвиста, публициста и философа Ноама Хомского по формализации структуры естественного языка, а также с пробных экспериментов по машинному переводу и первых ИИ-программ понимания естественного языка.
Можно сказать, что компьютерная лингвистика зародилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведён первый в мире публичный эксперимент по машинному переводу. Инженерам удалось перевести более 60 предложений с русского языка на английский в полностью автоматическом режиме.
В конце 1980-х годов с развитием интернета объём доступных в электронном виде текстов резко увеличился, что привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи для обработки текстов на естественном языке. Тогда же были созданы первые алгоритмы машинного обучения и системы статистического машинного перевода.
Прорыв в области обработки языка пришёлся на 2010-е годы, когда стали развиваться алгоритмы глубокого обучения. С тех пор появилось и продолжает появляться множество разработок для решения задач компьютерной лингвистики.
Сегодня компьютерные лингвисты разрабатывают программы для обработки естественного языка, инструменты распознавания текста и устной речи, системы перевода, текстовые редакторы, учебные материалы по языку, голосовых помощников, умных чатботов и многое другое.
Компьютерная лингвистика как инструмент извлечения нужной информации из огромного объёма текста
Необходимость интеллектуальной автоматической обработки текста возникает в основном по двум причинам, обе из которых связаны с количеством производимых текстов.
Миллионы людей, которые работают с текстами во всём мире, не имеют достаточно знаний и образования для соответствия современным стандартам обработки документов. Например, секретарь в офисе не может каждый раз принимать во внимание сотни различных правил, необходимых для написания хорошего делового письма в другую компанию, особенно когда он пишет не на своём родном языке. Поэтому дешевле один раз научить машину делать эту работу, чем многократно учить каждое новое поколение пользователей компьютеров делать это самостоятельно.
Во многих случаях, чтобы принять обоснованное решение или найти информацию, нужно прочитать, понять и взять в расчёт огромное количество текстов. Чтобы найти в интернете информацию об ожидаемом спросе на конкретный продукт в следующем месяце, специалистам пришлось бы читать тексты по этой теме в течение ста лет. В таких ситуациях использование компьютера — единственный возможный способ выполнить задачу.
Поскольку объектом обработки компьютерной лингвистики выступают тексты на естественном языке, её развитие невозможно представить без базовых знаний в области общей лингвистики.
Лингвистика — наука о естественном человеческом языке, его структуре и функционировании
В составе лингвистики выделяют несколько разделов:
- Фонология и графика изучают воспринимаемую слухом или зрением сторону языковых знаков, а семантика — напротив, их смысловую, понимаемую и переводимую часть.
- Морфология занимается внутренней структурой и внешней формой слов речи, включая части речи и их категории.
- Синтаксис изучает структуру предложений, правила сочетаемости и порядка следования слов в предложении, а также общие его свойства как единицы языка.
- Прагматика изучает отношения знаков к субъектам, которые их производят и интерпретируют.
Эти разделы соответствуют этапам автоматического анализа текста, который заключается в извлечении грамматической и семантической информации из заданного текста на естественном языке.
Компьютерная лингвистика образовалась на стыке лингвистики, математики, информатики и искусственного интеллекта.
Однако наиболее тесно наука связана с областью ИИ, в рамках которой разрабатываются программные модели отдельных интеллектуальных функций.
Синтез речи и генерирование текста — ключевые задачи компьютерной лингвистики
Перед компьютерной лингвистикой стоят задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Самые важные из них:
- Распознавание и синтез речи.
- Генерирование текста.
- Автоматический перевод текстов.
- Создание и использование электронных корпусов текстов.
- Извлечение информации из текста.
- Автореферирование.
- Автоматическое обнаружение и исправление ошибок при вводе текста на компьютере.
- Создание вопросно-ответных систем.
- Создание электронных словарей, тезаурусов, онтологий.
NLU и NLG: подходы для решения задач компьютерной лингвистики
Перед NLP стоит две крупные задачи — генерация естественного языка (Natural Language Generation, NLG) и его понимание (Natural Language Understanding, NLU).
Генерация языка — функция, которая помогает создавать, например, короткие фрагменты текста для чатботов или настраиваемое содержимое для приложений. NLG можно сравнить с процессом, который используют люди, когда они превращают идеи в письмо или речь.
Понимание естественного языка позволяет получать команды и запросы от человека в удобной для него форме, а также сортировать информацию, выделять главное, проводить анализ содержания текста и его эмоциональной окраски.
Речевые приложения и системы обмена изображениями: как Data Science помогает людям с вербальными и когнитивными нарушениями
Устройства, которые доступны на рынке
- Коммуникационные системы обмена изображениями, которые позволяют общаться, передавая собеседникам физические карточки.
- Устройства с записью речи, а также специальное оборудование для создания синтезированного голоса и озвученных букв, слов и сообщений.
- Речевые приложения для электронных планшетов, которые работают на различных интеллектуальных устройствах: планшетах, умных часах и портативных игровых консолях.
Более узкое применение технологий
- Создание корпусов для малоизученных и узко представленных малых языков. Технология преобразования текста в речь и API хорошо работают для популярных языков. Продукты с голосовой функцией могут создаваться без необходимости преобразования текста в речь — в этом случае используются коммуникационные планшеты.
- Корпуса малых языков должны быть доступны в формате TEI в соответствии со стандартом ISO для разговорной речи.
- Возрождение или обучение исчезающим языкам — помощь людям, которые не говорят на языке: исследователям, историкам, медицинскому персоналу и путешественникам.
TEI (Text Encoding Initiative) — формат кодирования текстов, который используется во многих проектах по созданию цифровых ресурсов.
Международные стандарты ISO — это свод критериев оценки бизнеса и технологий, который используется всеми игроками мирового рынка в качестве эталонной основы стандартизации.
- Научитесь обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения
- Освоите необходимый математический аппарат для продуктивной работы с моделями данных и нейронными сетями
- Узнаете, как структурировать результаты, формулировать гипотезы и находить области применения машинного обучения
Адаптивные технологии расширяют возможности людей с инвалидностью
Компьютерная лингвистика — основа адаптивных технологий, которые создаются для помощи людям с ограниченными возможностями здоровья.
По данным Всемирной организации здравоохранения, проблема инвалидности затрагивает более 1 млрд человек — примерно 15% населения мира. Количество жителей нашей планеты с ограниченными возможностями неуклонно растёт из-за хронических заболеваний и демографического старения населения.
Согласно конвенции ООН, к людям с инвалидностью относятся лица с устойчивыми физическими, психическими, интеллектуальными или сенсорными нарушениями, которые при взаимодействии человека с различными барьерами мешают его полному и эффективному участию в жизни общества наравне с другими.
Разработки в области компьютерного анализа и обработки естественного языка призваны облегчить жизнь этой категории населения. Особенно это касается тех, у кого имеются физические, когнитивные и сенсорные нарушения. Новые адаптивные технологии значительно расширяют возможности людей с инвалидностью и предоставляют им большую автономию — на работе, на улице и дома.
Компьютерная лингвистика облегчает коммуникацию людям с ограничениями слуха, зрения и речи
Глухота и нарушение слуха — самая распространённая в мире форма так называемой сенсорной инвалидности. Сегодня потерей слуха страдает более 5% населения планеты, или 430 млн человек, и к 2050 году, согласно прогнозу ВОЗ, это число увеличится вдвое.
Проблемы со слухом могут быть вызваны генетическими причинами, осложнениями при рождении, некоторыми инфекционными заболеваниями, хроническими ушными инфекциями, применением определённых лекарств, чрезмерным шумом и старением.
Если говорить о других нарушениях сенсорных функций, таких как слепота и потеря речи, то они также довольно широко распространены среди населения. В связи с этим появляется всё больше технологий, призванных облегчить коммуникацию людям, страдающим дисфункцией сенсорных систем. Среди них самые распространённые – сервисы распознавания и синтеза речи, при создании которых используются методы компьютерной лингвистики.
Какие задачи решает компьютерная лингвистика для помощи людям с ограниченными способностями
- Синтез и распознавание речи при физических или когнитивных нарушениях.
- Преобразование речи для улучшения разборчивости.
- Речевые и языковые технологии для повседневного проживания с уходом и создания среды ограниченно зависимого проживания.
- Новые подходы к моделированию и машинному обучению для ассистивной альтернативной коммуникации.
- Персонализированные голоса для ассистивной коммуникации и синтеза речи на основе ограниченных данных.
- Мультимодальные пользовательские интерфейсы и диалоговые системы, адаптированные к вспомогательным технологиям.
- NLP для приложений когнитивной помощи.
- Представление графической информации для людей с нарушениями зрения.
- Речь и NLP применительно к интерфейсным приложениям.
- Интерфейсы мозг-компьютер для приложений обработки языков.
- Речевые, естественные и мультимодальные интерфейсы для вспомогательных технологий.
- Веб-доступность, упрощение текста, адаптированные режимы представления, такие как речь или спецсимволы.
- Развёртывание инструментов речи и NLP в клиниках.
- Лингвистические ресурсы, схемы корпусов и аннотаций.
Рост рынка NLP сдерживается несколькими факторами, среди которых:
- наличие разрыва в части восприятия, понимания и распознавания текстовой информации между человеком и машиной;
- дефицит кадров и программ подготовки исследователей в области обработки естественных языков;
- сложность машинной обработки и понимания контекста и смысла текстов.
Одним из вызовов в сегменте NLP также остаётся создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом при помощи одной системы. Другими словами, эта система будет понимать текстовую информацию и сможет взаимодействовать с человеком так, как это делал бы другой человек.
Очки для незрячих и гайд по цифровой доступности: разработки, которые уже помогают людям с ограниченными возможностями
Eyegaze Edge
Американская компания LC Technologies изобрела устройство, которое даёт людям возможность управлять компьютером одними глазами. Eyegaze Edge помогает пользователям с церебральным параличом, мышечной дистрофией, синдромом Ретта и другими обездвиживающими нарушениями писать сообщения, генерировать речь и пользоваться интернетом.
Проект Euphonia от Google
Euphonia — исследовательская инициатива по сбору и анализу образцов голоса людей с нарушением речи. В рамках проекта корпорация планирует создать систему машинного обучения, распознающую речь, а также индивидуальные технологии воспроизведения голоса.
Проект Live Relay от Google
Ещё одна инициатива Google призвана помочь глухим или слабослышащим людям. Во время телефонного разговора программа преобразует речь собеседника в текст и говорит от имени пользователя, пока тот набирает сообщение. Для применения инструмента не требуется подключение к интернету.
Voice vision
При помощи очков Voice vision любой незрячий человек может воспринимать пространство через звук. Разработка дополняет традиционные методы вроде белой трости, ультразвуковых фонариков и глазных имплантов, чтобы человек мог свободно перемещаться по городу, быть активным и самостоятельным членом общества.
Cognixion One
Калифорнийский стартап Cognixion разрабатывает гарнитуру дополненной реальности для людей с нарушением речи. Устройство будет обладать нейронным интерфейсом и сможет считывать мысли, после чего воспроизводить их в виде понятной речи.
Livox
Разработка Livox — коммуникационное приложение на основе пиктограмм, которое помогает людям с широким спектром визуальных и двигательных нарушений участвовать в разговоре. С помощью классификатора на основе машинного обучения и NLP сервис определяет конкретные вопросы и предлагает пользователям наиболее актуальные пиктограммы.
Разработки Лаборатории «Сенсор-Тех»
«Альберт» — приложение альтернативной коммуникации. Это универсальный конструктор коммуникативных досок, словарей, расписаний, игр и упражнений для развития речевых, когнитивных и поведенческих навыков.
«Робин» — интеллектуальное устройство, которое помогает незрячим людям ориентироваться в пространстве. Оно помогает определять препятствия, рассчитывать расстояние до объектов и распознавать лица людей.
«Чарли» — устройство, которое переводит устную речь в текст и выводит её на экран смартфона, планшета или телевизора, а также на Брайлевский дисплей. Технология создана для независимого диалога между людьми с нарушениями слуха, слепоглухими и людьми без ограничений здоровья.
LINKa
Проект LINKa — это бесплатные программы, которые помогают людям с нарушениями речи и опорно-двигательной системы общаться с миром. Автор проекта — программист-самоучка Иван Бакаидов — сам с детства страдает церебральным параличом. Создавать коммуникативные программы ему помогает команда волонтёров.
Среди последних разработок Ивана — программа «LINKa. смотри», которая позволяет выбирать карточки из таблицы на мониторе при помощи разных средств ввода: клавиатуры, мышки, джойстика или айтрекера Tobii. Также программист создал бот Whatsaidhere для ВКонтакте, который переводит голосовые сообщения в текст.
Онлайн-переводчик с языка жестов от сибирских учёных
Учёные Новосибирского государственного технического университета НЭТИ завершают разработку системы, которая с помощью камер и нейронных сетей узнаёт жесты глухонемых и переводит их в текст или голос. Исследователи планируют обучить систему переводить сообщения как с жестового языка, так и на него, чтобы ей свободно могли пользоваться глухие и слабослышащие люди.
Решения для неслышащих и незрячих людей у сервисов такси
Специальные возможности для людей с нарушением слуха и зрения можно найти у крупных агрегаторов такси. Яндекс.Такси, к примеру, добавил для неслышащих и слабослышащих водителей сурдоперевод и субтитры в обучающие видео, а также адаптировал приложение для незрячих пользователей.
Uber внедрил в своё приложение ряд функций для таксистов, имеющих проблемы со слухом, вроде визуального оповещения о новых заказах и запроса пункта назначения пользователя. В сервисе также есть опции, которые помогают людям с особыми потребностями пользоваться услугами без посторонней помощи.
Руководство по цифровой доступности Сбербанка
У Сбербанка есть гайдлайн по адаптации цифровой среды для инклюзивных пользователей, включая людей с нарушениями слуха, зрения, моторики и сложностями в восприятии информации. Его подготовила Валерия Курмак — специалист по практике Human Experience. В 2016 году она провела одно из самых больших исследований по инвалидности в России, результаты которого и легли в основу гайда.
Ландшафт компаний компьютерной лингвистики в России
Денис Кулешов
Руководитель Лаборатории «Сенсор-Тех», преподаватель в МГТУ им. Н. Э. Баумана
Каждый человек, будь то программист, учёный или ремесленник, хочет чувствовать себя полезным. Специалистов, которые придерживаются такой позиции, довольно много, в том числе в области ИТ и социальных инноваций.
Эти люди улучшают сервисы доставки и обслуживания в банке, создают адаптивные технологии и в принципе помогают жить той жизнью, какой хотелось бы жить. Их мотивация — эмоции и удовольствие от проделанной работы. Такие люди стремятся менять мир и жизнь к лучшему.
Большие корпорации соревнуются в улучшении алгоритма на сотые доли процента, их разработки и проекты очень масштабны. А в случае с социальным направлением задачи более локальные и прикладные, но их результат виден сразу.
Из неприятных вещей — в социальных стартапах нет бюджетов. Эмоциональная вовлечённость является конкурирующим фактором. Крупные игроки предлагают очень хорошие условия, поэтому многие кандидаты предпочитают работать в таких компаниях. Это затрудняет поиск команды. Кроме того, в социальных стартапах зарплата обычно меньше на 30–40%, а искать замену таким специалистам сложно.
Рассмотрим два ключевых принципа инклюзивности.
При создании пространств и услуг все страны должны руководствоваться принципами универсального дизайна — всё должно быть одинаково доступным для каждого. Однако природа создала всех разными и придерживаться этого принципа во всём невозможно. Например, при открытии магазина одежды едва ли получится сделать подходящие для всех проходы, ценники и силуэты.
Принцип возможной адаптации или приспособления. Согласно общественному мнению, если у человека есть потребность, то он должен её закрыть. Но не так всё просто: принцип заботы должен поддерживаться, но вряд ли стоит рассчитывать на то, что только принятие закона поможет решить все вопросы.
Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.