К основному контенту

Искусственный интеллект и будущее образования: преимущества и вызовы

Разбираемся с современными системами распознавания речи в Linux

speech-h
Человека всегда привлекала идея управлять машиной естественным языком. Возможно, это отчасти связано с желанием человека быть НАД машиной. Так сказать, чувствовать свое превосходcтво. Но основной посыл — это упрощение взаимодействия человека с искусственным интеллектом. Управление голосом в Linux с переменным успехом реализуется без малого уже четверть века. Давай разберемся в вопросе и попробуем сблизиться с нашей ОС настолько, насколько это только возможно.

Суть дела

Систeмы работы с человеческим голосом для Linux существуют давно, и их великое множество. Но не все они корректно обрабатывают русскую речь. Некоторые и вовсе заброшены разработчиками. В первой части нашего обзора мы поговорим непосредственно о системах распознавания речи и голосовых ассистентах, а во второй — рассмотрим конкретные примеры их использования на Linux-десктопе.
Следует различать собственно системы распознавания речи (перевод речи в текст или в команды), такие как, например, CMU Sphinx, Julius, а также приложения на основе этих двух движков, и голосовые ассистенты, ставшие популярными с развитием смартфонов и планшетов. Это, скорее, побочный продукт систем распознавания речи, дальнейшее их развитие и воплощение всех удачных идей распознавания голоса, применение их на практике. Для Linux-десктопов таких пока мало.
Надо понимать, что движок распознавания речи и интерфейс к нему — это разные вещи. Таков базовый принцип архитектуры Linux — разделение сложного механизма на более простые составные части. Самая сложная работа ложится на плечи движков. Обычно это скучная консольная программа, работающая незаметно для пользователя. Пользователь же взаимодействует в oсновном с программой-интерфейсом. Создать интерфейс несложно, поэтому основные усилия разработчики направляют именно на разработку открытых движков распознавания речи.

Что было раньше

Исторически сложилось так, что все системы работы с речью в Linux развивались не спеша и скачкообразно. Причина не в криворукости разработчиков, а в высоком уровне вхождения в среду разрaботки. Написание кода системы для работы с голосом требует высокой квалификации программиста. Поэтому, перед тем как начать разбираться с системами работы с речью в Linux, необходимо сделать небольшой экскурс в историю. Была когда-то в IBM такая чудесная операционная система — OS/2 Warp (Merlin). Вышла она в сентябре далекого уже 1996 года. Кроме того, что она обладала очевидными преимуществами перед всеми остальными операционками, OS/2 была укомплектована весьма продвинутой системой распознавания речи — IBM ViaVoice. Для того времени это было очень круто, учитывая, что ОС работала на системах с 486-м процессором с объемом ОЗУ от 8 Мбайт (!).
Как известно, OS/2 проиграла битву Windows, однако многие ее компоненты продолжили существовать независимо. Одним из таких компонентов стала та самая IBM ViaVoice, превратившаяся в самостоятельный продукт. Так как IBM всегда любила Linux, ViaVoice была портирована на эту ОС, что дало детищу Линуса Торвальдса самую передовую для своего времени систему распознавания речи.
К сожалению, судьба ViaVoice сложилась не так, как хотели бы линуксоиды. Сам движок распространялся бесплатно, но его исходники оставались закрытыми. В 2003 году IBM продала права на технологию канадо-американской компании Nuance. Nuance, разработавшая, пожалуй, самый успешный коммерческий продукт для распознавания речи — Dragon Naturally Speeking, здравствует и ныне. На этом бесславная история ViaVoice в Linux практически закончилась. За то короткое время, что ViaVoice была бесплатной и доступной линуксоидам, к ней разработали несколько интерфейсов, таких, например, как Xvoice. Однако проект давно заброшен и ныне практически неработоспособен.
OS/2 Warp — система, которую мы потеряли
OS/2 Warp — система, которую мы потеряли
INFO

Самое сложное звено в машинном распознавании речи — естественный человеческий язык.
Что сегодня?
Сегодня все гораздо лучше. В последние годы, после открытия исходников Google Voice API, ситуация с развитием систем распознавания речи в Linux значительно улучшилась, выросло качество распознавания. Например, проект Linux Speech Recognition на основе Google Voice API показывает очень неплохие результаты для русского языка. Все движки работают примерно одинаково: сначала звук с микрофона устройства юзера попадает в систему распознавания, после чего либо голос обрабатывается на локальном устройстве, либо запись отправляется на удаленный сервер для дальнейшей обработки. Второй вариант больше подходит для смартфонов или планшетов. Собственно, именно так и работают коммерческие движки — Siri, Google Now и Cortana.
Из всего многообразия движков для работы с человеческим голосом можно выделить несколько активных на данный момент.
WARNING

Установка многих из описанных систем распознавания речи — нетривиальная задача!
CMU Sphinx
Большая часть разработки CMU Sphinx ведется в университете Карнеги — Меллона. В разное время над проектом работали и Массачусетский технологический институт, и покойная ныне корпорация Sun Microsystems. Исходники движка распространяются под лицензией BSD и доступны как для коммерческого, так и для некоммерческого использования. Sphinx — это не пользовательское приложение, а, скорее, набор инструментов, который можно применить в разработке приложений для конечных пользователей. Sphinx сейчас — это крупнейший проект по распознаванию речи. Он состоит из нескольких частей:
  • Pocketsphinx — небольшая быстрая программа, обрабатывающая звук, акустические модели, грамматики и словари;
  • библиотека Sphinxbase, необходимая для работы Pocketsphinx;
  • Sphinx4 — собственно библиотека распознавания;
  • Sphinxtrain — программа для обучения акустическим моделям (записям человеческого голоса).
Проект развивается медленно, но верно. И главное — его можно использовать на практике. Причем не только на ПК, но и на мобильных устройствах. К тому же движок очень хорошо работает с русской речью. При наличии прямых рук и ясной головы можно настроить распознавание русской речи с помощью Sphinx для управления домашней техникой или умным домом. По сути, можно обычную квартиру превратить в умный дом, чем мы и займемся во второй части этого обзора. Реализации Sphinx имеются для Android, iOS и даже Windows Phone. В отличие от облачного способа, когда работа по распознаванию речи ложится на плечи серверов Google ASR или Яндекс SpeechKit, Sphinx работает точнее, быстрее и дешевле. И полностью локально. При желании можно научить Sphinx русской языковой модели и грамматике пользовательских запросов. Да, придется немного потрудиться при установке. Равно как и настройка голосовых моделей и библиотек Sphinx — занятие не для новичков. Так как основа CMU Sphinx — библиотека Sphinx4 — написана на Java, можно включать ее код в свои приложения для распознавания речи. Конкретные примеры использования будут описаны во второй части нашего обзора.
VoxForge
Особо выделим понятие речевого корпуса. Речевой корпус — это структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса. Иными словами — это набор человеческих голосов на разных языках. Без речевого корпуса невозможна работа ни одной системы распознавания речи. В одиночку или даже небольшим коллективом создать качественный открытый речевой корпус сложно, поэтому сбором записей человеческих голосов занимается специальный проект — VoxForge.
Любой, у кого есть доступ к интернету, может поучаствовать в создании речевого корпуса, просто записав и отправив фрагмент речи. Это можно сделать даже по телефону, но удобней воспользоваться сайтом. Конечно, кроме собственно аудиозаписи, речевой корпус должен включать в себя дополнительную информацию, такую как фонетическая транскрипция. Без этого запись речи бессмысленна для системы распознавания.
VoxForge — стартовый портал для тех, кто хочет внести свой вклад в разработку открытых систем распознавания речи
VoxForge — стартовый портал для тех, кто хочет внести свой вклад в разработку открытых систем распознавания речи
HTK, Julius и Simon
HTK — Hidden Markov Model Toolkit — это инструментарий для исследования и разработки средств распознавания речи с использованием скрытых марковских моделей, разрабатывается в Кембриджском университете под патронажем Microsoft (Microsoft когда-то выкупила этот код у коммерческого предприятия Entropic Cambridge Research Laboratory Ltd, а затем вернула его Кембриджу вместе с ограничивающей лицензией). Исходники проекта доступны всем желающим, но использование кода HTK в продуктах, предназначенных для конечных пользователей, запрещено лицензией.
Однако это не означает, что HTK бесполезен для Linux-разработчиков: его можно использовать как вспомогательный инструмент при разработке открытых (и коммерческих) средств распознавания речи, что и делают разработчики открытого движка Julius, который разрабатывается в Японии. Julius лучше всего работает с японским языком. Великий и могучий тоже не обделен, ведь в качестве голосовой базы данных используется все тот же VoxForge.
Продолжение статьи доступно подписчикам
ПОДПИСКА НА «ХАКЕР»
Подписка позволит вам читать ВСЕ платные материалы сайта, включая эту статью, без каких-либо ограничений. Мы принимаем банковские карты, Яндекс.Деньги и оплату со счетов мобильных операторов. Подробнее о проекте

Комментарии

Популярные сообщения из этого блога

"Ремонт со СберУслугами" - это сервис, разработанный Сбербанком, который предоставляет удобный и безопасный способ взаимодействия между заказчиками и исполнителями при проведении ремонтных работ

"Ремонт со СберУслугами" - это сервис, разработанный Сбербанком, который предоставляет удобный и безопасный способ взаимодействия между заказчиками и исполнителями при проведении ремонтных работ. Главная цель сервиса - сделать процесс ремонта более простым, выгодным и комфортным для всех участников. Сервис " Ремонт со СберУслугами " обеспечивает заказчикам доступ к широкому кругу профессиональных исполнителей, таких как строители, ремонтные бригады, дизайнеры и другие специалисты, которые могут выполнить требуемые работы. Заказчики могут просматривать профили исполнителей, ознакомиться с их портфолио и оценками от предыдущих клиентов, чтобы выбрать подходящего специалиста. Оплата за работы производится через сервис "Ремонт со СберУслугами", что гарантирует безопасность и надежность финансовых транзакций. Заказчики могут выбрать удобный способ оплаты - наличными, банковской картой или через электронные платежные системы. Для удобства контроля за

Искусственный интеллект и будущее образования: преимущества и вызовы

Искусственный интеллект (ИИ) проникает в различные сферы жизни, и образование не стало исключением. В четвертом промышленном революции мы наблюдаем изменения в том, как мы учимся, какие навыки становятся более важными, и как ИИ может усилить образовательный процесс. ИИ в образовании не только изменяет то, что мы учимся, но и то, как мы учимся. Преимущества ИИ для образования очевидны. Он может индивидуализировать обучение, предлагая персонализированные планы и материалы для каждого ученика. Это особенно важно с учетом различий в уровнях знаний, стилях обучения и темпах освоения материала у разных учащихся. Кроме того, ИИ может расширить доступ к образованию. Он может обеспечить обучение дистанционно, снижая препятствия, такие как географическое расстояние или доступность качественного образования. Это особенно важно для учащихся, которые живут в удаленных районах или странах с низким уровнем образования. Важной областью применения ИИ в образовании является аналитика данных.

SpaceWeb - это российский хостинг-провайдер, которому доверяют более 120 000 клиентов в России и за её пределами

SpaceWeb - это российский хостинг-провайдер, которому доверяют более 120 000 клиентов в России и за её пределами. Эта компания предоставляет широкий спектр услуг хостинга, включая виртуальный хостинг, VPS-хостинг, выделенные серверы, регистрацию доменов и другие связанные услуги. Один из главных преимуществ SpaceWeb - это высокая скорость загрузки сайтов и высокая доступность ресурсов. Компания использует прогрессивные технологии и надежное оборудование, чтобы обеспечить стабильную работу и максимальную скорость загрузки сайтов. Благодаря этому, сайты клиентов работают практически без перерывов и задержек. SpaceWeb также гарантирует надежность и безопасность хранения данных. Резервное копирование данных и множество служб защиты от DDoS-атак и других угроз обеспечивают сохранность данных клиентов в любой ситуации. Клиенты SpaceWeb могут рассчитывать на качественную и быструю поддержку от технических специалистов компании. Они готовы помочь в решении любых технических или пр