Лучшее предложение на «холодные звонки»! Бесплатная подготовка повторного проекта при запуске в течение 7 дней.
500 минут горячей линии бесплатно! Предложение действует первый месяц при покупке пакета от 6500 минут.

Иерархия построения системы распознавания речи. Исследования телефонии для построения цифровых каналов связи.

Если взглянуть на образ протяженно произнесенной гласной (или сонарного звука), то за исключением небольших по длине отрезков в начале и конце образа звук состоит из участков с высокой степенью идентичности - домен.

Домен начинается с максимального значения в определенном диапазоне, после которого идет затухающий по некоторому закону колебательный процесс.

Использование домен при распознавании речи вполне очевидно. По сути, домен содержит в себе информацию, достаточную для распознавания звука. Даже для различных людей многие характеристики, а соответственно, и общий вид домен во многом схожи, что придает особую универсальность методам распознавания при выделении и распознавании фонем через домены. Создавать универсальные системы распознавания речи, работающие в фоновом режиме, позволит использование участков затухания импульсов от основных (необертонных) колебаний истинных голосовых связок – домен.

Из исследований в технической фонетике, в частности в телефонии, известно, что приемлемый диапазон частот, при котором человек может распознавать речь и определить говорящего, является 4. Именно это значение легло в основу частотного уплотнения каналов в телефонии и определении пропускной способности цифровых каналов связи. Характерно, что при незначительном увеличении количества полезной информации увеличивается и количество шумов.

Иерархия построения системы распознавания речи.

Рассмотрим нижний уровень иерархии, где производится фонемный разбор речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием.

В качестве простого примера рассмотрим схему распознавания, когда сигнал делится на два слова (для уверенного деления в простейших случаях достаточно полуторасекундной задержки между словами при произношении). Слова, в свою очередь, распознаются как единое целое. При этом используются различные методы сравнения с эталонами, вид которых зависит от методики распознавания: при использовании методов динамического программирования эталоны представляются в том же виде, что и поступающий сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны представляют собой наборы параметров этого ряда.

Результатом работы этой схемы является слово из списка присутствующих во множестве эталонов или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному эталону.

К недостаткам такой системы можно отнести: необходимость создания совокупности эталонов фактически для каждого человека (так называемый процесс обучения системы распознавания), невозможность создания автоматической системы коррекции эталонов и пропорциональность времени, затрачиваемого на распознание слова, количеству эталонов. А также необходимость конечного выбора из нескольких возможных вариантов. Из-за перечисленных недостатков описанная схема может применяться только при необходимости распознавания ограниченного списка слов одного или нескольких операторов. Например, в различных системах управления с небольшим количеством команд. Однако идея увеличения количества информации о слове не обязательно должна быть связана с верхним уровнем.

Из списка фонем, распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящего слова и осуществляется передача информации о выборе для дальнейшего анализа. А затем на нижний для подстройки системы на конкретного пользователя.

Достоинством этой схемы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность выполнения работы. Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем, можно сделать вывод: при небольшом количестве слов, используемых оператором, более высокую надежность и скорость можно ожидать от распознавания целых слов. Однако при увеличении словаря скорость резко падает. Предположительно, размер словаря системы распознавания уже в сотню слов делает переход на уровень более низкий, чем распознавание слов, в целом, актуальным.
Задать вопрос
Подключить услугу
           
Отправление
               
Форма отправлена
          
           
Отправление
               
Форма отправлена