Распознавание речи и голосовое управление
Практика для студентов. Кафедра компьютерных систем и сетей, Хмельницкий национальный университет. Мясищев А.А.
Распознавания речи - это процесс преобразования речевого сигнала в текстовый поток. Голосовое управление - способ взаимодействия с устройством при помощи голоса. В отличие от распознавания речи, голосовое управление предназначено для ввода команд — например, "включить свет", "показать погоду на завтра", "выключить телевизор" и т.д . Однако в любом случае необходимо выполнить преобразование сигнала, формируемого микрофоном в слово или набор слов.
Для создания системы распознавания речи нужно решить множество задач.
1. Необходимо преобразовать колебания воздуха в электрические сигналы при помощи микрофона, отфильтровав при этом помехи и шумы.
2. Далее сигнал необходимо представить в цифровой форме, доступной для обработки при помощи компьютера (оцифровать). Например, проанализировать спектральный состав сигнала, выделяя из сигнала набор основных частот и амплитуд (выполнить преобразование Фурье).
3. Выделить из оцифрованного звука лингвистические конструкции (например фонемы), применив различные математические методы. Здесь наиболее широко в зависимости от постановки задачи используются методы статистического анализа - это метод скрытого Марковского моделирования (СММ), метод динамического программирования и метод нейронных сетей.
Таким образом задачи, связанные с распознаванием голоса - это сложные наукоемкие задачи. Однако в настоящее время стало появляться большое количество сторонних сервисов, библиотек, которые в состоянии выполнить достаточно качественное распознавание произнесенных фраз. В приведенных здесь примерах используется голосовой поиск Google, который очень хорошо представлен в смартфонах с операционной системой Android. Используя представленные Google библиотеки распознавания голоса рассматриваются некоторые практические примеры управления устройствами с помощью голосовых команд и даже элементы построения голосового диалога с Андроид устройствами. Такие задачи широко используются при построении "умного дома". Необходимо учитывать, что для качественного распознавания голоса требуется подключение Андроид - устройства к Интернет. Используемые на некоторых Андроид - устройствах библиотеки распознавание голоса в режиме оффлайн не всегда правильно распознают произнесенные фразы.
Видео демонстрация простой программы