Распознавание и генерация речи — полезные системы для колл-центра

Распознавание речи производится в аппаратном режиме, без обращения к центральному процессору.
На голос определенного человека могут реагировать два режима распознавания речи – режим с настройкой (speaker-dependent) и без настройки (speaker-independent). В первом случае можно научить аппаратуру распознавать весьма широкий набор слов, однако при этом требуется обучение системы (настройка на голос). Это очень удобно для удаленного доступа к офисным системам в режиме unified messaging: можно по телефону соединиться с телефонным сервером и выяснить, есть ли новые сообщения, ознакомиться с содержанием голосовых сообщений, а также, если использовать технологию преобразования текст-речь (о ней еще будет сказано), прослушать содержание факсов и электронных писем. Технология speaker-dependent обеспечивает также и защиту данных в колл-центре – голос постороннего система просто не распознает. В режиме speaker-independent система «узнает» любой голос и может работать с довольно плохой линией связи.

При распознании слов используется так называемый «словарь», загружаемый в DSP-систему платы. Он содержит шаблоны распознаваемых слов. К сожалению, в словаре для работы без настройки на голос пользователя их не слишком много. Словари, как правило, разрабатываются фирмой-изготовителем оборудования; основной принцип разработки – усреднение речи. Именно наличием словаря, а не характеристиками платы определяется возможность распознавания речи на том или ином языке или допустимость использования определенного слова в качестве команды. В ходе диалога можно менять используемые словари, что позволяет увеличить «ассортимент» команд. Как правило, фирма-разработчик плат в первую очередь создает словарь с числительными и самыми простыми командами типа «да», «нет», «стоп».

Немаловажно по своему значению «обратное преобразование» – текст-речь (text-to-speech – TTS). Эта технология, позволяющая озвучивать ASCII-тексты, – одна из ключевых технологий компьютерной телефонии. Когда она (наряду с распознаванием речи) будет реализована в полном объеме, компьютерная телефония выйдет на совершенно новый уровень. Технологию TTS не следует путать с генерацией голосовых сообщений по шаблону. Например, для озвучивания остатка на счете совершенно не обязательно пользоваться TTS (некоторые неграмотно называют технологию text-to-speach), достаточно просто наговорить все необходимые слова и написать простую программу подбора шаблонов по числительным. В качестве аппаратного обеспечения для этой задачи сгодится любая голосовая плата. Платы Text-To-Speech же получают произвольный ASCII-текст и по нему генерируют речь, не загружая этим центральный процессор.

Последнее, о чем необходимо рассказать, – это преобразование пульс-тон. Дело в том, что все голосовые платы умеют распознавать только сигналы так называемого тонового набора номера, которые используются в США, Израиле и еще некоторых странах. Весь остальной мир (в том числе и Россия) пользуется пульсовым набором, выполняемым как серия разрывов цепи между телефонной станцией и аппаратом у абонента. Разрывы цепи, соответствующие одной и той же цифре, разделены короткими интервалами; более длинный интервал соответствует переходу от одной цифры к другой. Основная проблема с пульсовым набором состоит в том, что коммутационное оборудование не передает разрывы цепи: в результате приходится заниматься распознаванием характерных щелчков в линии, что проще распознавания речи, но все равно достаточно сложно, особенно для младших цифр. Современные платы решают эту задачу, используя DSP-технологии.

по материалам журнала "LAN Magazine"
Задать вопрос
Подключить услугу
           
Отправление
               
Форма отправлена
          
           
Отправление
               
Форма отправлена