Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 2. Основные классы естественно-языковых систем.
Системы распознавания речи
Слайд 3Основные классы естественно-языковых систем
Средства распознавания речи
распознают голосовую (речевую) информацию
и преобразуют ее в последовательность символов
13
Слайд 46
Структура коммуникационной системы для организации речевого поведения
Слайд 5
7
Структура коммуникационной системы для организации речевого поведения
Слайд 68
Информационно-кодовая модель коммуникации Шеннона и Уивера
Слайд 710
Адресант передает, а адресат принимает одно из группы событий
(классов,
к которым относятся передаваемые и получаемые сообщения). Группа событий обладает следующими свойствами (она - полная):
1) все события попарно несовместны: ;
2) их объединение образует пространство элементарных исходов :
Правило Байеса
Слайд 811
Правило Байеса
Пусть
- полная группа событий и
– некоторое событие. Тогда по формуле Байеса исчисляется вероятность реализации гипотезы при условии, что событие А произошло. Здесь А – конкретное наблюдение (измерение).
- априорная вероятность гипотезы
- апостериорная вероятность
известны функции распределения вектора признаков для каждого класса
Слайд 912
Правило Байеса
В случае двух классов и
, если
то
классифицируется в , иначе в .
Слайд 1215
Информационно-кодовая модель коммуникации Шеннона и Уивера,
модифицированная для коммуникационного акта Якобсоном
Слайд 133
Автоматическое распознавание речи
Общая блок-схема ориентированной
на задачу системы распознавания-синтеза речи
Слайд 1420
Речевая волна во временной
и частотной областях
Слайд 15уровень семантических представлений (словарь попарной сочетаемости слов)
синтаксический уровень (словарь синтаксем)
лексикон
(словарь корневых основ)
морфологический уровень (словарь окончаний)
акустико-фонетический уровень
Процесс восприятия речи человеком
Структура речевой информации
31
Слайд 16Системы распознавания речи
1. Системы покомандного распознавания
2. Системы распознавания ключевых слов
в потоке слитной речи
3. Системы распознавания связной речи
4. Системы распознавания
слитной речи
54
Слайд 17Системы покомандного распознавания
Средства голосового ввода, управления и сбора данных
предназначены для ввода голосовых команд, управляющих работой некоторой системы (например
бытовой техникой)
14
Слайд 18лексикон (словарь корневых основ)
акустико-фонетический уровень
Системы покомандного распознавания
31
Слайд 1938
1) Формирование вектора признаков
2) Сегментация
3) Сравнение входного и эталонных образов
4) Принятие решения
Покомандное распознавание речи
Базовый алгоритм покомандного распознавания
Слайд 2039
Покомандное распознавание речи
Имеется три основных подхода к покомандному
распознаванию речи
1.
Подход, основанный на распознавании образов
2. Акустико-фонетический (структурный) подход
3. Подход,
основанный на использовании
искусственных нейронных сетей
Слайд 2144
Подход, основанный на
распознавании образов
Блок-схема распознавателя речи на основе
подхода, основанного
на распознавании образов
Слайд 2247
Подход, основанный на
распознавании образов
Алгоритм включает четыре
основных шага:
1) Измерение первичных
признаков речевого сигнала.
Вычисляются спектральные признаки, либо с помощью
гребенки фильтров,
либо с помощью линейного
предсказывающего кодирования, либо с помощью
Дискретного преобразования Фурье
2) Формирование эталонов (обучение). Эталоны
формируются с помощью некоторых усредняющих
процедур. Это может быть модель, характеризующая
статистику признаков эталона.
Слайд 2347
Подход, основанный на
распознавании образов
Алгоритм включает четыре
основных шага:
3) Классификация, во
время которой входной
образ сравнивается с эталонами. Сравнение образов,
которые есть последовательность
векторов признаков,
осуществляется с использованием как локального
расстояния между двумя синхронными векторами,
так и глобальной выравнивающей во времени
процедуры (чаще всего, это процедура динамического
программирования), которая компенсирует
различные скорости произнесения входного и
эталонного образов
4) Принятие решения
Слайд 2445
Подход, основанный на
распознавании образов
Достоинства подхода:
1. Простота. Он легко интерпретируется
2. Имеется хорошо развитый математический аппарат для всех процедур подхода
3.
Устойчивость и инвариантность к различным словарям, пользователям, выбору признаков, использования алгоритмов сравнения образов и принятия решения, а также групп дикторов, используемого оборудования, канала
4. Не зависит от выбора речевой единицы: от фонемы до фразы. Дает хорошие результаты в широком круге задач
Слайд 2546
Подход, основанный на
распознавании образов
Недостатки:
1. Чувствительность к объему обучающей
выборки
2. Подверженность
качества распознавания
влиянию шума
3. Неиспользование лингвистической
информации
4. Большая вычислительная емкость
Слайд 2641
Акустико-фонетический подход
Фонетические гипотезы, полученные
при распознавании строки слов «all about»
Слайд 2741
Акустико-фонетический подход
Диаграмма классификации стандартных фонем
американского английского в широкие звуковые классы
Слайд 2842
Акустико-фонетический подход
Бинарное дерево классификации речевых звуков
Слайд 2942
Акустико-фонетический подход
Акустико-фонетический классификатор гласных
Слайд 3040
Сравнение подходов, основанного на распознавании образов и на основе акустико-фонетического
анализа
Слайд 3151
Подход, основанный на искусственных нейронных сетях
Многослойный персептрон для классификации
гласных, основанной
на формантных измерениях
Слайд 32Искусственные нейронные сети
Трехслойный персептрон
- сравнивает с порогом
- вычисляет сумму
Слайд 3352
Подход, основанный на искусственных нейронных сетях
Нейронная сеть с задержками
Слайд 3438
1) Формирование вектора признаков
2) Сегментация
3) Сравнение входного и эталонных образов
4) Принятие решения
Покомандное распознавание речи
Базовый алгоритм покомандного распознавания
Слайд 3653
Первичная обработка
Наиболее характерные подходы:
1. Спектральный анализ
2. Антропоморфная модель
Слайд 3757
Спектральный анализ
Типичный вид речевой волны и ее спектра в
модели
анализа на основе гребенки фильтров
Слайд 3854
Спектральный анализ
На основе гребенки фильтров
Слайд 3954
Спектральный анализ
На основе гребенки фильтров
Слайд 4021
Представление речи в виде
формантных траекторий
Для последовательности «Why do
I owe you a letter»
Слайд 4121
Сегментация
Сегментация и разметка для последовательности «did-you»
Слайд 4275
Принятие решения
Динамическое программирование
Байесовское правило
Скрытые Марковские модели
Слайд 4375
Принятие решения
Ключевым вопросом в распознавании речи является вопрос сравнения
входного образа с эталонными образами с целью выяснения степени их
подобия
Обычно входной и эталонный образы имеют разную длину
Слайд 4475
Принятие решения
Сравниваемые образы не могут быть нормализованы по длительности,
поскольку различные типы звуков имеет различные возможности по удлинению произнесения
Необходимо
найти способ сравнения спектральных векторов такой, чтобы можно было вычислять глобальную меру совпадения образов
Слайд 4683
Адресант передает, а адресат принимает одно из группы событий
(классов,
к которым относятся передаваемые и получаемые сообщения). Группа событий обладает следующими свойствами (она - полная):
1) все события попарно несовместны: ;
2) их объединение образует пространство элементарных исходов :
Правило Байеса
Слайд 4711
Правило Байеса
Эти вероятности можно оценить методами математической статистики на множестве
прецедентов.
, где - число прецедентов из ,
- общее число прецедентов. - гистограмма распределения вектора признаков для прецедентов из класса .
Слайд 4811
Системы покомандного распознавания
Слайд 49Системы распознавания слитной речи
Системы типа «Речь-текст»
предназначены для распознавания
слитной речи (например для диктовки деловой корреспонденции)
14
Слайд 5039
Распознавание слитной речи
Имеется два подхода к распознаванию слитной
речи:
1. Подход, основанный
на распознавании образов
2. Структурный подход
Слайд 5144
Подход, основанный на
распознавании образов
Блок-схема распознавателя речи на основе подхода,
основанного на распознавании образов
Слайд 52уровень семантических представлений (словарь попарной сочетаемости слов)
синтаксический уровень (словарь синтаксем)
лексикон
(словарь корневых основ)
морфологический уровень (словарь окончаний)
акустико-фонетический уровень
Системы распознавания слитной речи
31
Слайд 5390
Подход, основанный на
распознавании образов
Модель фонемы
Слайд 5494
Подход, основанный на
распознавании образов
Составление эталонных сигналов слов из фонем
в соответствие с моделью произношения
Слайд 5597
Подход, основанный на
распознавании образов
Модель предложения с произвольным порядком следования
моделей слов и моделей фонем в предложении
Слайд 5644
Подход, основанный на
распознавании образов
Блок-схема распознавателя речи на основе
подхода, основанного
на распознавании образов
Слайд 5748
Структурный подход
«Снизу-вверх» подход интеграции знаний для
Распознавания слитной речи
Слайд 5849
Структурный подход
«Сверху-вниз» подход к интеграции знаний
для распознавания слитной речи
Слайд 5950
Структурный подход
Подход, основанный на концепции классной
доски для интеграции знаний
Слайд 6050
Структурный подход
Взаимодействие между источниками знаний
разных уровней
Слайд 6150
Структурный подход
Частичные гипотезу на разных уровнях
Слайд 6252
Модель языка на основе многослойного персептрона
Структурный подход
(синтаксический уровень)
Слайд 6311
Системы распознавания слитной речи
Слайд 644
Сравнение эффективности распознавания
человеком и искусственными системами
Слайд 654
Сравнение эффективности распознавания
человеком и искусственными системами
(продолжение)
Слайд 664
Сравнение эффективности распознавания
человеком и искусственными системами
в условиях шума
Слайд 674
Диалог человека и машины
Существует два типа таких систем
Системы первого
типа ведут человека, следуя четкому порядку заполнения определенных форм. Примером
такой системы может стать заказ билетов. В каждом из состояний система настраивается на распознавание заранее приготовленных атрибутов, допуская варианты возврата к предыдущему шагу или выходу из системы
В системах второго типа человеку отводится роль собеседника, который может сам проявлять интерес к разным аспектам информации, задавая любые вопросы.
Слайд 683
Общая блок-схема ориентированной
на задачу системы речевого диалога
Диалог человека и
машины
Слайд 694
Диалог человека и машины
Классификация систем устного диалога
по направлению потока
информации
Слайд 704
Диалог человека и машины
Классификация систем устного диалога
по структуре информации