Распознавание речи и голосовое управление

 

Практика для студентов. Кафедра компьютерных систем и сетей, Хмельницкий национальный университет. Мясищев А.А.

 

      Распознавания речи  - это процесс преобразования  речевого сигнала в текстовый поток. Голосовое управление - способ взаимодействия с устройством при помощи голоса. В отличие от распознавания речи, голосовое управление предназначено для ввода команд — например, "включить свет", "показать погоду на завтра", "выключить телевизор" и т.д . Однако в любом случае необходимо выполнить преобразование сигнала, формируемого микрофоном в слово или набор слов.

      Для создания системы распознавания речи нужно решить множество задач.

1. Необходимо преобразовать колебания воздуха в электрические сигналы при помощи микрофона, отфильтровав при этом помехи и шумы.

2. Далее сигнал необходимо представить в цифровой форме, доступной для обработки при помощи компьютера (оцифровать). Например, проанализировать спектральный состав сигнала, выделяя из сигнала набор основных частот и  амплитуд (выполнить преобразование Фурье).

3. Выделить из оцифрованного звука лингвистические конструкции (например фонемы), применив различные математические методы. Здесь наиболее широко в зависимости от постановки задачи используются методы статистического анализа - это метод скрытого Марковского моделирования (СММ), метод динамического программирования и метод нейронных сетей.

      Таким образом задачи, связанные с распознаванием голоса - это сложные наукоемкие задачи. Однако в настоящее время стало появляться большое количество сторонних сервисов, библиотек, которые в состоянии выполнить достаточно качественное распознавание произнесенных фраз. В приведенных здесь примерах используется голосовой поиск Google, который очень хорошо представлен в смартфонах с операционной системой Android. Используя представленные  Google библиотеки распознавания голоса рассматриваются некоторые практические примеры управления устройствами с помощью голосовых команд и даже элементы построения голосового диалога с Андроид устройствами. Такие задачи широко используются при построении "умного дома". Необходимо учитывать, что для качественного распознавания голоса требуется подключение Андроид - устройства к Интернет. Используемые на некоторых Андроид  - устройствах библиотеки распознавание голоса в режиме оффлайн не всегда правильно распознают произнесенные фразы.

 

Видео демонстрация простой программы