Программа DictRecog предназначена для определения близости (идентичности) дикторов по фонограмме. Возможны два режима работы: анализ ранее записанной фонограммы и запись и анализ фонограммы в псевдо-реальном времени.
Анализ дикторов производится на основе ранее сформированной базы эталонов. Формирование базы выполняется так же с использованием программы. Созданная база и конфигурация программы характеризуется параметрами алгоритма. Для выполнения распознавания необходимо совпадение конфигурации и параметров базы.
Конфигурация программы
Работа программы характеризуется следующими параметрами: частота дискретизации, длина эталона и длина образца. Частота дискретизации может принимать значения от 11025 до 44100. Длина эталона характеризует длительность фрагмента звукового файла используемого для создания образа диктора. Задается в секундах. В строке статуса отображается параметром «М» и представляет значение умноженное на 100. Длина образца характеризует длительность фрагмента звукового файла используемого для идентификации диктора. Задается в секундах. В строке статуса отображается параметром «N» и представляет значение умноженное на 100. Точность распознавания возрастает с увеличением длины эталона и образца. Длина образца может быть меньше либо равной длине эталона. Длина не может быть меньше 5 секунд.
Создание базы
Для создания базы эталонов необходимо воспользоваться пунктом меню или кнопкой «Файл — Добавить эталон». При этом необходимо указать требуемый звуковой файл. После обработки файла в корневой директории программы будет создан файл модели диктора с расширением «.mdl» и этот эталон будет добавлен в базу. Каждый раз при запуске программы все эталоны находящиеся в корневой директории будут загружаться в базу. При изменении параметров конфигурации выполняется повторная перезагрузка базы. Загружаются только эталоны соответствующие текущей конфигурации. Для создания базы с новыми параметрами необходимо удалить старые файлы моделей и повторно добавить необходимых дикторов.
Распознавание дикторов
После того как база сформирована можно выполнять распознавание образцов дикторов. Для этого необходимо воспользоваться пунктом меню или кнопкой «Файл — Определить диктора». После анализа указанного файла в окне на панели инструментов будет отображено имя файла модели и значение близости наиболее близкого диктора. Для достоверного распознавания необходимо учитывать следующие особенности работы алгоритма: Каждый звуковой файл должен содержать речь только одного диктора. Звуковые файлы эталонов и образцов должны быть записаны в тех же условиях, на той же аппаратуре, с тех же источников (линия связи, микрофон). Результат можно считать достоверным если значение меры близости меньше значения меры близости «ложного обнаружения». Значение меры ложного обнаружения приблизительно можно оценить как минимальное значение меры из всех мер неправильно определенных дикторов. Т.е. путем сравнения заранее известных дикторов и эталонов по принципу каждый с каждым определяется минимальное значение меры при неправильном определении диктора. Ориентировочное значение меры «ложного обнаружения» около 1. Для более точной оценки ее необходимо определять для каждого частного случая использования системы.
Распознавание в псевдо-реальном времени
Работа программы возможна и в режиме распознавания в псевдо реальном времени. При этом программа записывает звук во временный файл и определяет диктора. После этого повторно производиться запись и определение до выключения режима. Режим активизируется путем нажатия кнопки «Записать и определить». При этом запись производиться в соответствии с параметрами конфигурации. В процессе записи автоматически производиться пропуск пауз и учет длины записанного фрагмента. При накоплении нужного количества звукового материала запись прерывается и выполняется определение диктора. После определения диктора вновь активизируется запись и цикл повторяется. Прекращение работы осуществляется путем нажатия кнопки «Стоп».
В ходе работы с программой возможна также запись эталонов и формирование базы. Для записи и добавления эталона необходимо воспользоваться пунктом «Запись — Добавить эталон». Работа в этом режиме аналогична распознаванию в псевдо-реальном времени. После формирования эталона запись не возобновляется.
Заказать