Исследования телефонии: преимущества систем распознавания речи

Если взглянуть на образ протяженно произнесенной гласной (или сонарного звука), то за исключением небольших по длине отрезков в начале и конце образа звук состоит из участков с высокой степенью идентичности - домен.

Домен начинается с максимального значения в определенном диапазоне, после которого идет затухающий по некоторому закону колебательный процесс.

Использование домен при распознавании речи вполне очевидно. По сути, домен содержит в себе информацию, достаточную для распознавания звука. Даже для различных людей многие характеристики, а соответственно, и общий вид домен во многом схожи, что придает особую универсальность методам распознавания при выделении и распознавании фонем через домены. Создавать универсальные системы распознавания речи, работающие в фоновом режиме, позволит использование участков затухания импульсов от основных (необертонных) колебаний истинных голосовых связок – домен.

Из исследований в технической фонетике, в частности в телефонии, известно, что приемлемый диапазон частот, при котором человек может распознавать речь и определить говорящего, является 4. Именно это значение легло в основу частотного уплотнения каналов в телефонии и определении пропускной способности цифровых каналов связи. Характерно, что при незначительном увеличении количества полезной информации увеличивается и количество шумов.

Иерархия построения системы распознавания речи.

Рассмотрим нижний уровень иерархии, где производится фонемный разбор речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием.

В качестве простого примера рассмотрим схему распознавания, когда сигнал делится на два слова (для уверенного деления в простейших случаях достаточно полуторасекундной задержки между словами при произношении). Слова, в свою очередь, распознаются как единое целое. При этом используются различные методы сравнения с эталонами, вид которых зависит от методики распознавания: при использовании методов динамического программирования эталоны представляются в том же виде, что и поступающий сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны представляют собой наборы параметров этого ряда.

Результатом работы этой схемы является слово из списка присутствующих во множестве эталонов или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному эталону.

К недостаткам такой системы можно отнести: необходимость создания совокупности эталонов фактически для каждого человека (так называемый процесс обучения системы распознавания), невозможность создания автоматической системы коррекции эталонов и пропорциональность времени, затрачиваемого на распознание слова, количеству эталонов. А также необходимость конечного выбора из нескольких возможных вариантов. Из-за перечисленных недостатков описанная схема может применяться только при необходимости распознавания ограниченного списка слов одного или нескольких операторов. Например, в различных системах управления с небольшим количеством команд. Однако идея увеличения количества информации о слове не обязательно должна быть связана с верхним уровнем.

Из списка фонем, распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящего слова и осуществляется передача информации о выборе для дальнейшего анализа. А затем на нижний для подстройки системы на конкретного пользователя.

Достоинством этой схемы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность выполнения работы. Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем, можно сделать вывод: при небольшом количестве слов, используемых оператором, более высокую надежность и скорость можно ожидать от распознавания целых слов. Однако при увеличении словаря скорость резко падает. Предположительно, размер словаря системы распознавания уже в сотню слов делает переход на уровень более низкий, чем распознавание слов, в целом, актуальным.
Задать вопрос
Подключить услугу
           
Отправление
               
Форма отправлена
          
           
Отправление
               
Форма отправлена