Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 24. Основные классы естественно-языковых систем.
Системы синтеза
Слайд 36
Структура коммуникационной системы для организации речевого поведения
Слайд 4
7
Структура коммуникационной системы для организации речевого поведения
Слайд 58
Информационно-кодовая модель коммуникации Шеннона и Уивера
Слайд 615
Информационно-кодовая модель коммуникации Шеннона и Уивера,
модифицированная для коммуникационного акта Якобсоном
Слайд 73
Автоматический синтез речи
Общая блок-схема ориентированной
на задачу системы распознавания-синтеза речи
Слайд 8Основные классы естественно-языковых систем
- Средства синтеза речи и текстов
осуществляют
формирование корректного текста по его смысловой структуре, и синтез речи
по тексту
- Сюда же можно отнести средства клонирования голоса
- Отдельно стоят системы синтеза видеоряда по тексту
16
Слайд 9Системы синтеза речи реализуют следующие технологии
1. Компилятивный синтез. В этом
случае воспроизводятся заранее подготовленные речевые фрагменты, которые озвучиваются пользователю
2. Пофонемный
синтез. В этом случае самыми мелкими, заранее подготовленными, единицами являются фонемы, или субфонемные элементы
16
Слайд 10Системы синтеза речи реализуют следующие технологии
3. Физический синтез. Для физического
синтеза реализуется физическая модель артикуляторного тракта, которая управляется последовательностью символов,
соответствующих буквам синтезируемого текста, с добавлением специальных символов, отмечающих выделенные речевые фрагменты
16
Слайд 11Рассмотрим пофонемный синтез на примере системы синтеза речи Б.М. Лобанова
(lobanov@newman.bas-net.by)
Объединенный
институт проблем информатики НАН,
Минск, Беларусь
16
Слайд 12Пофонемный синтез
Отличительной особенностью описываемой модели мультиволнового синтеза является использование
в качестве элементов компиляции речи отрезков естественной речевой волны, соотносимой
с элементами различной фонетической длинны: аллофонами, диаллофонами и аллослогами
16
Слайд 13Структура системы синтеза речи
Синтезатор включает четыре основных модуля:
- текстовый процессор
-
просодический процессор
- фонетический процессор
- акустический процессор
Каждый из этих модулей поддерживается
наборами соответствующих БД и правил
Слайд 15Текстовый процессор
включает два основных блока:
- блок предварительной обработки входного текста
- блок
морфологической и акцентной маркировки слов текста
Эти блоки поддерживаются соответствующими базами
данных, словарями и правилами
Слайд 17Блок предварительной обработки входного текста
реализует ряд этапов обработки:
- очистки текста
-
дешифровки чисел
- дешифровки аббревиатур
- дешифровки иностранных слов
- корректировки “ё”
Эти
этапы поддерживаются соответствующими базами данных, словарями и правилами
Слайд 18Структура блока предварительной обработки текста
Слайд 19Блок морфо-фонетической маркировки
- осуществляет маркировку каждого слова входного текста, необходимую
для адекватного синтеза звуков и интонации речи
- для фонетической маркировки
используется грамматический словарь, в котором каждое слово снабжено пометой позиции ударения
Слайд 20Структура просодического процессора
Слайд 21Просодический процессор
- синтез речи по тексту предполагает наличие процедуры
формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности
пауз на основе анализа определенных свойств входного текста и его просодической разметки
- просодическая разметка текста заключается в его членении на синтагмы, разметке синтагм на акцентные единицы и маркировке интонационного типа синтагм в соответствии с определёнными правилами
Слайд 22Просодический процессор
- под синтагмой понимается самостоятельная в интонационном смысле
часть предложения или всё предложение
- установка границ синтагм влияет на
передачу интонационных характеристик, а также на передачу смыслового содержания
- при разбиении текста на синтагмы важно не поставить границу синтагмы там, где она может нарушить передачу смыслового содержания текста
Слайд 23Просодический процессор
- для установки границ синтагм используются определённые правила
синтагматического членения, базирующиеся на пунктуационном, морфологическом и синтаксическом анализе текста,
а также на статистическом анализе синтагматического членения в естественной речи
Слайд 24Фонетический процессор
- задачей фонетического процессора является преобразование орфографического текста
в последовательность аллофонов, которая используется на этапе акустической обработки при
синтезе речевого сигнала
- в фонетическом процессоре заложены правила преобразования орфографического текста в последовательность фонем (преобразование буква-фонема) и правила преобразования последовательности фонем в аллофонную последовательность (преобразование фонема-аллофон)
Слайд 25Структура фонетического процессора
Слайд 26Структура акустического процессора
Слайд 27Мировая тенденция развития речевых технологий указывает на актуальность создания систем
синтеза выразительной речи (expressive text-to-speech)
- “Да не читай, как
пономарь, а с чувством, с толком, с расстановкой” (А.С. Пушкин)
Достижение этой цели невозможно без развития многоуровнего семантического представления читаемого текста, а в идеале - его понимания
Б.М. Лобанов
Слайд 28Семантическая система синтеза речи
- основной сложностью при создании процессоров
обработки текста для систем синтеза русской речи является значительная гибкость
языка
- каждый из этапов сопряжен с определенными сложностями, связанными с тем, что в русском языке не существует строгих правил как построения фраз, так и произношения
Слайд 29Семантическая система синтеза речи
- В результате этого большое количество
фраз допускает разночтение, разное произношение и интонацию, устранить которое может
только анализ всего предложения, а иногда и всего текста
Слайд 30Семантическая система синтеза речи
- синтаксический анализ отдельного предложения, выявляющий
его смысловую структуру, позволяет снять омонимию на уровне предложения
- семантический
анализ целого текста позволяет учесть контекст при снятии омонимии
Слайд 31Многоуровневый семантический анализ
для синтеза речи
Слайд 33Системы клонирования голоса
- системы клонирования голоса предназначены для замены
параметров речевого сигнала, характеризующих тембр одного диктора, на параметры тембра
другого диктора
- остальные характеристики речи остаются неизменными
16
Слайд 34 Модель персонифицированного
русскоязычного синтеза
Б. Лобанов, А. Карпов, Л. Цирульник
B. Lobanov,
A. Karpov, L. Tsirulnik
Объединенный институт проблем информатики
Национальной академии наук Беларуси
{lobanov,
l.tsirulnik}@newman.bas-net.by
Слайд 35Тенденцией в развитии речевых технологий является улучшение качества восприятия и
распознавания речи за счет включения дополнительного – визуального- канала передачи
информации
Слайд 36Визуальная инфрмация очень важна для распознавания речи в шумной обстановке,
и незаменима для людей с ограничениями слуха и дефектами речи.
Число исследований в аудио-визуальном распознавании речи и текст-речь синтезе неуклонно растет
Слайд 37Имеется два подхода к созданию аудио-визуальной системы текст-речь синтеза («говорящей
головы»): имитационный и конкатентивный
В имитационном подходе создается 2D или 3D
модель головы и лица, и формируются параметры для мимики лица и движения губ
Слайд 38В конкатенативном подходе говорящая голова формируется из подходящих видеофрагментов или
образов из визуальной базы данных конкретного диктора
Слайд 39Примеры имитационной говорящей головы
Слайд 40Достоинством имитационного подхода является малый физический объем данных, необходимых для
визуализации синтеза речи. В то время как использование 2D или
3D моделей связано со значительными вычислительными сложностями. Однако, иммитационный подход не позволяет получить естественного результата в персонификации говорящей головы из-за карикатурности речевых движений
Слайд 41Таким образом, конкатенативный подход является предпочтительным при создании систем персонифицированного
текст-речь синтеза
Слайд 42Дальнейшее развитие аудио-визуальных систем текст-речь синтеза идет в направлении развития
технологии персонификации голоса и клонирования персональной интонации
Слайд 43Разработана программная система конкатенативнго аудио-визуального текст-речь синтеза под операционную систему
Windows
Особенностью системы является параллельная работа модулей обработки визуальной и аудиоинформации
Слайд 44AudioVideoClon - DEMO
Boris Lobanov Liliya
Tsirulnik Vladimir Golenkov
Слайд 45Системы синтеза видеоряда по тексту
Предназначены для превращения текста в последовательность
кадров видеоряда
16
Слайд 46Системы синтеза видеоряда по тексту состоят из:
- модуля лингвистического анализа
-
модуля семантического анализа
- рисовальщика
16
Слайд 47Системы синтеза видеоряда по тексту
Модуль лингвистического анализа для каждого
предложения формирует дерево зависимостей
16
Слайд 48Системы синтеза видеоряда по тексту
Модуль семантического анализа формирует семантическую
структуру по дереву зависимостей
16
Слайд 49Системы синтеза видеоряда по тексту
Глаголам ставится в соответствие их
семантический фрейм
16
Слайд 50Системы синтеза видеоряда по тексту
Рисовальщик управляет 3D представлением объектов:
размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16
Слайд 51Системы синтеза видеоряда по тексту
Рисовальщик управляет 3D представлением объектов:
размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16
Слайд 52Системы синтеза видеоряда по тексту
Он также выявляет пространственные и
временные отношения между объектами
16
Слайд 53Системы синтеза видеоряда по тексту
Он также выявляет пространственные и
временные отношения между объектами:
«пчела на утке, утка на курице, курица
на свинье, свинья на корове, корова на овце»
16