Существующие и Перспективные Области Применения Распознавания Речи - Часть 1

ВВЕДЕНИЕ

В настоящее время речевые технологии активно развиваются и находят свое применения в различных областях. Так, благодаря этим технологиям появилась возможность управлять компьютером с помощью голоса, диктовать тексты, общаться с компьютером на интеллектуальном уровне.

Актуальность темы заключается в широкой востребованности использования методов и средств распознавания слитной речи (РСР)  в современных сферах практической деятельности. 


1 ОСОБЕННОСТИ ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ СЛИТНОЙ РЕЧИ

1.1. Специфика процесса распознавания слитной речи

Процесс РСР может быть разделен на две основные фазы: оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе ис-пользования различных моделей и алгоритмов. Алгоритмы декодирования могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно достаточно 40-60 фонем, чтобы описать произношение всех слов. Наиболее точными с точки зрения распознавания являются модели, основанные на распознавании слов целиком. Однако они могут использоваться лишь в системах со словарями небольшого объема Модели, основанные на фонемной структуре, являются гораздо более универсальными и в значительной мере решают проблему объема словаря. Концептуальная схема РСР приведена на рис.1.


 

Рис.1. Концептуальная схема реализации процесса РСР


В основу предлагаемого подхода, и это является его главной отличительной чертой, положено сложное (иерархическое и многоярусное) представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания. 


Этапы процесса распознавания слитной речи.

  1. Для речевого сигнала, который будет использоваться в процессе обучения распознающей системы, составляется детальная сегментная транскрипция. Сегменты – аллофоны фонем – описываются посредством двух основных классов стандартных фонетических признаков – автономных и иерархических. Автономные признаки определяют характер представления акустико-фонетического пространства, они могут использоваться для описания фонетических единиц любого уровня иерархии. Иерархический признак характеризуется обязательной соотнесенностью с другими классификационными признаками. Все аллофоны, затранскрибированные с помощью описанного выше набора признаков, далее используются в процессе обучения системы распознавания речи. 
  2. Составляется словарь системы распознавания речи, при этом каждое слово получает транскрипционное представление. За основу принимается стандартное произнесение, определяемое как исходная транскрипция слова (ИТС). 
  3. Осуществляется генерация всех теоретически возможных вариантов реализации данного слова. При генерации используются фонетические правила модификации, которые позволяют для любой фонемы в любом контексте спрогнозировать все возможные модификационные сценарии. Модификационные правила дополняются факторами влияния, наличие или отсутствие которых в конкретной речевой реализации определяет относительные вероятности типов и степеней моди-фикационных изменений фонетической единицы, предписанной в ИТС. 
  4. Иерархизация пространства произносительной вариативности слова за счет введения определенного количества обобщающих уровней описания. Обобщение осуществляется лингвистами (экспертами-фонетистами) на основе наблюдений за звучащей речью. При использовании достаточно больших баз речевых данных возможно применение автоматической процедуры обобщения аллофонных транскрипций. В результате объединения детализованных, промежуточных и обобщенных транскрипционных представлений для каждого слова генерируется иерархическая многоярусная сеть (ИМС), которая обеспечивает полноценный учет и эффективную организацию всех допустимых произносительных вариантов слова в различной степени подробности. 
  5. Обучения системы, т.е. для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы. 
  6. Сравнение входных данных и имеющихся ИТС. С учетом  значений иерархической весовой функции устанавливается мера сходства между найденной текущей  реализацией распознаваемого слова и ИМС, построенной по ИТС. Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слитной речи.


Обобщенная структура модулей системы РСР приведена на рис.2.


 

Рис.2. Обобщенная структура модулей системы РСР


Для оценки эффективности разрабатываемых систем РСР применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки.


1.2. Основные этапы и проблемы распознавания речи

Главная особенность речевого сигнала в том, что он очень сильно варьируется по многим параметрам: длительность, темп, высота голоса, искажения, вносимые большой изменчивостью голосового тракта человека, различными эмоциональными состояниями диктора, сильным различием голосов разных людей. 


Для успешного распознавания речи следует решить следующие задачи:

  • обработку словаря (фонемный состав);
  • обработку синтаксиса;
  • сокращение речи (включая возможное использование жестких сценариев);
  • выбор диктора (включая возраст, пол, родной язык и диалект);
  • тренировку дикторов;
  • выбор особенного вида микрофона (принимая во внимание направленность и местоположение микрофона);
  • условия работы системы и получения результата с указанием ошибок.


Проводится процесс, первым этапом которого является первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так, чтобы ее можно было бы подвергнуть компьютерному анализу. Следующим этапом является спектральное представление речи, получившееся путем преобразования Фурье. Результат преобразования Фурье позволяет не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи, которые интенсивно изучались в сфере экспериментальной фонетики. 


Проблемы разработки эффективных РСР заключаются в:

  • различии человеческих голосов;
  • уровне речи говорящего;
  • вариациях в произношении;
  • варьировании движения артикуляторов (языка, нёба и др).


Также, на процесс РСР существенное влияние оказывают следующие аспекты акустической структуры:

  • природу сегментов индивидуального звука (гласные/согласные), 
  • структуру слога, 
  • структуру морфем (приставки, корни, суффиксы),
  • лексикон, 
  • уровень  синтаксиса фраз и предложений и 
  • долгосрочные ограничения речи (long-term discourse constraints) . 


1.3. Применение технологий распознавания слитной речи 

Существующие технологии распознавания слитной речи (РСР) не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. РСЛ в настоящее время нашло реальное применение в жизни, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Актуальной задачей является организация методов распознавания нескольких десяткой тысяч слов естественного языка. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания. 

Системы РСР применяются в автомобилях типа Infinity и Jaguar  для управления и контроля за панелью: радио, температурным режимом и навигационной системой. В настоящее время технологии РСР начинают применяться и в машинах среднего класса. Подобные системы в перспективе применимы к поиску логистической информации.



 Рис.3. Компонентный состав системы РСР в общем виде


Голосовые системы управления, реализованные на базе использования технологий РСР упрощают работу с компьютером для людей с ограниченными возможностями.  

Применение современных системы РСР позволяет упростить работу стенографистов при документировании устных выступлений на совещаниях и симпозиумах. И хотя РСР-технологии не позволяют переводить устную речь в текстовые документы без корректировок стенографистов, они значительно упрощают работу над документами, особенно если нужно быстро подготовить и надежно сохранить результаты многочисленных устных выступлений на крупных мероприятиях.

 


Рис. 4. Модель работы принципа РСР


Существующие сегодня системы РСР основываются на сборе всей доступной информации, необходимой для распознавания слов. Исследователи считают, что таким образом задача распознавания образца речи, основанная на качестве сигнала, подверженного изменениям, будет достаточной для распознавания, но настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом. 


ВЫВОДЫ

Таким образом, в данной статье проведен анализ специфики и основных тенденций развития современных информационных технологий РСР на рынке программного обеспечения.

Проведенный анализ позволил выяснить, что основными направлениями исследований в области распознавания речи являются: распознавание и синтез речи, управления голосом и идентификация по образцу языка. Все существующие системы распознавания речи по назначению различаются на системы диктовки текста, голосовые интерфейсы, системы расшифровки записей, хранящиеся на цифровых носителях. 

Имплементация РСР позволит повысить эффективность труда сотрудников организаций различных сфер деятельности, путем формирования голосовых команд управляющим производственным системам и снизить временные затраты на операционно-отчетную деятельность. 

Актуальной задачей является проведение обзора возможностей и классификации существующих программных решений и систем распознавания речи, имеющихся на рынке, что будет выполнено в дальнейшем.



Авторы:

к.т.н., доцент кафедры информационных технологий ОНМУ Рудниченко Н.Д.

к.т.н., доцент кафедры информационных технологий ОНМУ Бойко В.Д.

к.т.н., старший преподаватель кафедры информационных технологий ОНМУ Шибаева Н.О.

старший преподаватель кафедры информационных технологий ОНМУ Косенко Е.Д.

аспирант кафедры информационных технологий ОНМУ Шибаев Д.С.

Инженер-программист, кандидат технических наук, доцент кафедры информационных технологий Одесского Национального Морского Университета. Научные интересы: искусственный интеллект, интеллектуальный анализ данных, управление IT-проектами, автоматизация разработки и тестирования ПО.