Разделы презентаций


Методы идентификации и верификации дикторов по голосу

Содержание

Содержание Введение, постановка задачи Выделение речевых характеристик Временное выравнивание речи Принятие решения верификации Пример работы системы

Слайды и текст этой презентации

Слайд 1Лекция 15. Методы идентификации и верификации дикторов по голосу
студент гр. 0382

Симончик К.К.

Лекция 15. Методы идентификации и верификации дикторов по голосустудент гр. 0382	 Симончик К.К.

Слайд 2Содержание
Введение, постановка задачи
Выделение речевых характеристик
Временное выравнивание речи

Принятие решения верификации
Пример работы системы

Содержание Введение, постановка задачи Выделение речевых характеристик Временное выравнивание речи Принятие решения верификации Пример работы системы

Слайд 3Идентификация


Модели клиентов 1, 2, …,N
1
2
3
N


Система идентификации

Речь
Личность говорящего
или
«Неизвестный диктор»
Клиент №1

ИдентификацияМодели клиентов 1, 2, …,N123N…Система идентификацииРечьЛичность говорящегоили«Неизвестный диктор»Клиент №1

Слайд 4Верификация


Модели клиентов 1, 2, …,N
1
2
3
N


Система верификации

Речь
«Допуск»
или
«Отклонение»
Допуск
Диктор №2

ВерификацияМодели клиентов 1, 2, …,N123N…Система верификацииРечь«Допуск»или«Отклонение»ДопускДиктор №2

Слайд 5Критерий качества

Система верификации
Сравнение с порогом
K > Порог - пропуск

K ≤

Порог - отклонение




FRR – False Reject Rate (вероятность ошибки отклонения)
FAR

– False Accept Rate(вероятность ошибки пропуска)

где СFR – стоимость ошибки пропуска,
CFA – стоимость ошибки отклонения.


,

Коэффициент доверия K

Критерий качестваСистема верификацииСравнение с порогомK > Порог - пропускK ≤ Порог - отклонениеFRR – False Reject Rate

Слайд 6Верификация дикторов

Проблемы разработки систем верификации
Стохастичность речевых характеристик
Неравномерность

произношения
Зависимость качества верификации от произношения

Этапы разработки системы

верификации
Выбор речевых характеристик с индивидуальными признаками личности
Компенсация неравномерности произношения
Принятие решения о результате верификации
Верификация дикторов Проблемы разработки систем верификации Стохастичность речевых характеристик Неравномерность произношения Зависимость качества верификации от произношения Этапы

Слайд 7Классификация
Системы верификации
Текстозависимые
Текстонезависимые
Динамическое Искажение Времени
Скрытые Марковские Модели
Векторное Квантование
Смешанные Гауссовские Модели
Искусственные Нейронные

Сети

КлассификацияСистемы верификацииТекстозависимыеТекстонезависимыеДинамическое Искажение ВремениСкрытые Марковские МоделиВекторное КвантованиеСмешанные Гауссовские МоделиИскусственные Нейронные Сети

Слайд 8Верификация дикторов
Выделение границ фразы

Сегментирование




Выделение характеристик

Алгоритм выравнивания во времени




Принятие решения
Пропуск
Отклонение


Функциональная схема

текстозависимой системы верификации

Верификация дикторовВыделение границ фразыСегментированиеВыделение характеристикАлгоритм выравнивания во времениПринятие решенияПропускОтклонениеФункциональная схема текстозависимой системы верификации

Слайд 9Речевые характеристики

Популярные речевые характеристики

Анализ банка фильтров

Коэффициенты линейного

предсказания (LPC)

Кепстральные коэффициенты (FCC)

Коэффициенты отражения (LPREFC )


Речевые характеристики Популярные речевые характеристики Анализ банка фильтров Коэффициенты линейного предсказания (LPC) Кепстральные коэффициенты (FCC)  Коэффициенты

Слайд 10Речевые характеристики



Анализ банка фильтров
- частота в спектре, Гц, а


- частота в новом пространстве, mel
Информативность

различных частей линейного спектра неодинакова: в низкочастотной области содержится больше информации чем в высокочастотной. Поэтому для предотвращения излишнего расходования ресурсов, необходимо уменьшать число элементов, получающих информацию с высокочастотной области, или, что то же самое, сжать высокочастотную область спектра в пространстве частот. Наиболее распространенный метод – логарифмическое сжатие или приведение к mel шкале:

Mel-шкала

Банк фильтров

Речевые характеристикиАнализ банка фильтров - частота в спектре, Гц, а - частота в новом пространстве, mel

Слайд 11Речевые характеристики

где
- количество коэффициентов модели (порядок предсказания);

- коэффициенты линейного предсказания;
- функция ошибки модели
Коэффициенты

линейного предсказания

Речевой сигнал звука [a]

КЛП (порядок = 15)

Спектр речевого сигнала,
инвертированный спектр КЛП

Речевые характеристикигде - количество коэффициентов модели (порядок предсказания); - коэффициенты линейного предсказания; - функция ошибки модели Коэффициенты

Слайд 12Речевые характеристики

Mel кепстральные коэффициенты
FFT
MEL
LOG
DCT

x(t)
c(n)
где
- средняя спектральная
мощность фильтра


,
- количество фильтров
Рекурсивный расчет с использованием КЛП

где

- коэффициенты линейного

предсказания
Речевые характеристикиMel кепстральные коэффициентыFFTMELLOGDCTx(t)c(n)где - средняя спектральная  мощность фильтра №, - количество фильтровРекурсивный расчет с использованием

Слайд 13
25 мсек


25 мсек
Кепстральные коэффициенты
Спектр
МУЖСКОЙ ГОЛОС
ЖЕНСКИЙ ГОЛОС
Mel кепстральные коэффициенты
Речевые характеристики

25 мсек25 мсекКепстральные коэффициентыСпектрМУЖСКОЙ ГОЛОСЖЕНСКИЙ ГОЛОСMel кепстральные коэффициентыРечевые характеристики

Слайд 14Базовые принципы ДИВ
Две временные последовательности Q и C, длиной N

и M, соответственно
Матрица (NxM), состоящая из расстояния между последовательностями Q

и C.

Результирующее соотношение

Оптимальный способ деформации



Q

C

Q

C

N

M

0

N

M

N

M

Q

C

До временного искажения

После временного искажения

Динамическое Искажение Времени

Динамическое сравнение тестовой и эталонной матриц ( множество векторов характеристик)
Вычисление расстояния тестовым и эталонным образами
Текстозависимое сравнение

Базовые принципы ДИВДве временные последовательности Q и C, длиной N и M, соответственноМатрица (NxM), состоящая из расстояния

Слайд 15Параметры ДИВ

Путь должен идти по диагонали
Теоретически, ГО определяют

как
далеко от диагонали может идти путь
Практически, ГО

задают
максимальное сжатие/растяжение
сигналов на больших отрезках

Глобальные ограничения

Допустимая область

Локальные ограничения

Полоса Сакое-Чиба

Параллелограмм Итакуры





Параметры ДИВ Путь должен идти по диагонали Теоретически, ГО определяют как  далеко от диагонали может идти

Слайд 16Принятие решения верификации




Классификатор
ТЕСТ
ЭТАЛОН




Класс 1
Класс 2



PCM запись голоса

Пространство
характеристик
- Клиент
- Злоумышленник
Входные данные

Принятие решения верификацииКлассификаторТЕСТЭТАЛОНКласс 1Класс 2PCM запись голосаПространствохарактеристик- Клиент- ЗлоумышленникВходные данные

Слайд 17



Нейронные сети

Статистические решающие функции

Решающие деревья

Нечеткие выводы

Линейные дискриминантные функции

Методы классификации
Принятие решения

верификации

Нейронные сетиСтатистические решающие функцииРешающие деревьяНечеткие выводыЛинейные дискриминантные функцииМетоды классификацииПринятие решения верификации

Слайд 18



Нейронные сети
Принятие решения верификации

Многослойный персептрон

Так как

в задаче верификации решением является выдача указания на пропуск или

отклонение пользователя системы, следовательно, в выходном слое нейронной сети достаточно будет одного нейрона, который в случае попытки доступа клиента выдавал бы «1», а злоумышленника «–1»

Выходной вектор слоя L нейронной сети



- матрица весовых коэффициентов


- выходной вектор слоя l,


- вектор смещения слоя l,


- активационная функция нейронов

где

Нейронные сетиПринятие решения верификацииМногослойный персептрон    Так как в задаче верификации решением является выдача указания

Слайд 19 -й элемент эталонного
вектора речевых характеристик
Принятие решения верификации

где

- набор весовых коэффициентов
Линейные дискриминантные функции
Редукция пространства признаков

где


-


-

-й признак тестового
вектора речевых характеристик

-й элемент эталонноговектора речевых характеристик Принятие решения верификациигде	 - набор весовых коэффициентов Линейные дискриминантные функцииРедукция

Слайд 20Система верификации

Сегментирование речи на участки 25 мс с шагом

12.5 мс
Выделение 20 Mel кепстральных коэффициентов
Алгоритм ДИВ cо

степенью искажения = 3
Линейная дискриминантная функция
Система верификации Сегментирование речи на участки 25 мс с шагом 12.5 мс Выделение 20 Mel кепстральных коэффициентов

Слайд 21




Общая схема работы системы
void GetMFCC(INT16* Buffer,UINT16 BufferLen, UINT16 BlockSize, UINT16

BlockStep, TMFCC* MFCC);
void GetDistantion(TMFCCVector* MFCCVector, TMFCC* MFCC, DOUBLE* Distantion);
Экспортируемые функции
Microsoft

Visual C++ 6.0

Borland Delphi 6.0

Общая схема работы системыvoid GetMFCC(INT16* Buffer,UINT16 BufferLen, UINT16 BlockSize, UINT16 BlockStep, TMFCC* MFCC);void GetDistantion(TMFCCVector* MFCCVector, TMFCC* MFCC,

Слайд 22Качество работы




Тестовые данные
20 дикторов
15 PCM 16bit

записей парольной фразы на диктора
~ 1 сек длительность

фразы
S/N ≈ 20дб
5 записей парольной фразы для построения модели

Результаты тестирования

Гистограмма выхода
Линейной Решающей Функции

где: FAR – вероятность ложного отклонения
FRR – вероятность ложного допуска

FRR = 1.0 %; FAR = 0.026 %;

Качество работыТестовые данные  20 дикторов  15 PCM 16bit записей парольной фразы на диктора  ~

Слайд 23Спасибо за внимание

Спасибо за внимание

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика