Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 24. Основные классы естественно-языковых систем.
Системы синтеза
Слайд 36
Структура коммуникационной системы для организации речевого поведения
Слайд 4
7
Структура коммуникационной системы для организации речевого поведения
Слайд 58
Информационно-кодовая модель коммуникации Шеннона и Уивера
Слайд 615
Информационно-кодовая модель коммуникации Шеннона и Уивера,
модифицированная для коммуникационного акта Якобсоном
Слайд 73
Автоматический синтез речи
Общая блок-схема ориентированной
на задачу системы распознавания-синтеза речи
Слайд 8Основные классы естественно-языковых систем
- Средства синтеза речи и текстов
осуществляют
формирование корректного текста по его смысловой структуре, и синтез речи
по тексту
- Сюда же можно отнести средства клонирования голоса
- Отдельно стоят системы синтеза видеоряда по тексту
16
Слайд 9Системы синтеза речи реализуют следующие технологии
1. Компилятивный синтез. В этом
случае воспроизводятся заранее подготовленные речевые фрагменты, которые озвучиваются пользователю
2. Пофонемный
синтез. В этом случае самыми мелкими, заранее подготовленными, единицами являются фонемы, или субфонемные элементы
3. Физический синтез. Для физического синтеза реализуется физическая модель артикуляторного тракта, которая управляется последовательностью символов, соответствующих буквам синтезируемого текста, с добавлением специальных символов, отмечающих выделенные речевые фрагменты.
16
Слайд 10Рассмотрим пофонемный синтез на примере системы синтеза речи Б.М. Лобанова
(lobanov@newman.bas-net.by)
Объединенный
институт проблем информатики НАН,
Минск, Беларусь
16
Слайд 11Пофонемный синтез
Отличительной особенностью описываемой модели мультиволнового синтеза является использование
в качестве элементов компиляции речи отрезков естественной речевой волны, соотносимой
с элементами различной фонетической длинны: аллофонами, диаллофонами и аллослогами
16
Слайд 12Структура системы синтеза речи
Синтезатор включает четыре основных модуля:
- текстовый процессор
-
просодический процессор
- фонетический процессор
- акустический процессор
Каждый из этих модулей поддерживается
наборами соответствующих БД и правил
Слайд 14Текстовый процессор
Текстовый процессор включает два основных блока:
- блок предварительной обработки входного
текста
- блок морфологической и акцентной маркировки слов текста
Эти блоки поддерживаются
соответствующими базами данных, словарями и правилами
Слайд 16Блок предварительной обработки входного текста
Блок предварительной обработки реализует ряд этапов
обработки:
- очистки текста
- дешифровки чисел
- дешифровки аббревиатур
- дешифровки иностранных слов
-
корректировки “ё”
Эти этапы поддерживаются соответствующими базами данных, словарями и правилами
Слайд 17Структура блока предварительной обработки текста
Слайд 18Блок морфо-фонетической маркировки
- Блок морфо-фонетической маркировки осуществляет маркировку каждого слова
входного текста, необходимую для адекватного синтеза звуков и интонации речи
-
Для фонетической маркировки используется грамматический словарь, в котором каждое слово снабжено пометой позиции ударения
Слайд 19Структура просодического процессора
Слайд 20Просодический процессор
- Синтез речи по тексту предполагает наличие процедуры
формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности
пауз на основе анализа определенных свойств входного текста и его просодической разметки
- Просодическая разметка текста заключается в его членении на синтагмы, разметке синтагм на акцентные единицы и маркировке интонационного типа синтагм в соответствии с определёнными правилами
Слайд 21Просодический процессор
- Под синтагмой понимается самостоятельная в интонационном смысле
часть предложения или всё предложение
- Установка границ синтагм влияет на
передачу интонационных характеристик, а также на передачу смыслового содержания
- При разбиении текста на синтагмы важно не поставить границу синтагмы там, где она может нарушить передачу смыслового содержания текста
Слайд 22Просодический процессор
- Для установки границ синтагм используются определённые правила
синтагматического членения, базирующиеся на пунктуационном, морфологическом и синтаксическом анализе текста,
а также на статистическом анализе синтагматического членения в естественной речи
Слайд 23Фонетический процессор
- Задачей фонетического процессора является преобразование орфографического текста
в последовательность аллофонов, которая используется на этапе акустической обработки при
синтезе речевого сигнала
- В фонетическом процессоре заложены правила преобразования орфографического текста в последовательность фонем (преобразование буква-фонема) и правила преобразования последовательности фонем в аллофонную последовательность (преобразование фонема-аллофон)
Слайд 24Структура фонетического процессора
Слайд 25Структура акустического процессора
Слайд 26Мировая тенденция развития речевых технологий указывает на актуальность создания систем
синтеза выразительной речи (expressive text-to-speech)
- “Да не читай, как
пономарь, а с чувством, с толком, с расстановкой” (А.С. Пушкин)
Достижение этой цели невозможно без развития многоуровнего семантического представления читаемого текста, а в идеале - его понимания
Слайд 27Семантическая система синтеза речи
- Основной сложностью при создании процессоров
обработки текста для систем синтеза русской речи является значительная гибкость
языка
- Каждый из этапов сопряжен с определенными сложностями, связанными с тем, что в русском языке не существует строгих правил как построения фраз, так и произношения
- В результате этого большое количество фраз допускает разночтение, разное произношение и интонацию, устранить которое может только анализ всего предложения, а иногда и всего текста
Слайд 28Многоуровневый семантический анализ
для синтеза речи
Слайд 30Системы клонирования голоса
Системы клонирования голоса предназначены для замены параметров
речевого сигнала, характеризующих тембр одного диктора, в параметры тембра другого
диктора
Остальные характеристики речи остаются неизменными
16
Слайд 31 A Model of Personalized
Audio-Visual TTS-synthesis
for Russian
B. Lobanov,
A. Karpov, L. Tsirulnik
United Institute of Informatics Problems of NAS
Belarus
{lobanov, l.tsirulnik}@newman.bas-net.by
Слайд 32Introduction-1
The tendency of developing speech technologies points out the relevance
of including visual information as an additional channel of speech
perception and recognition.
Visual information is very important for speech recognition in noisy environments and is indispensable for people with restricted hearing or defects of pronunciation. The number of research in the fields of audio-visual speech recognition and TTS-synthesis is permanently increasing.
Слайд 33Introduction-2
There are two approaches to the creation of audio-visual
TTS-synthesis systems (often called „talking head”): imitation and concatenative.
In the imitation approach a 2D or 3D model of the head and face is created and parameters for facial expression and lips movement representation are adjusted.
In the concatenative approach the “talking head” is generated by choosing corresponding video fragments or images from the visual database (DB) of a certain speaker.
Слайд 34Examples of imitational “Talking Head”
Слайд 35Introduction-3
The advantage of the imitation approach is a smaller
physical size of the data necessary for visual speech synthesis.
On the other hand, the implementation of a 2D or 3D model presents considerable computational complexity. Moreover, the imitation approach does not give sufficiently realistic results in the personification of the “talking head” due to unavoidable sketchiness of speech movement representation.
Thus, the concatenative approach is more preferable for the purposes of creating a system of personalised audio-visual TTS-synthesis.
Слайд 36Introduction-4
The audio-visual personalized TTS-synthesis modelis the result of further development
of our technology of
personal voice, diction and intonation cloning
Слайд 37Conclusion
The software implementation of the model for Windows-family operating
systems is created and used as a component of the
audio-visual TTS-synthesis system.
The peculiarity of system implementation is simultaneous work of the modules of visual and acoustic data processing.
Synchronization of audio- and visual flows on the software-based level is implemented by the standard MS Windows means for multithreaded processing.
Слайд 38AudioVideoClon - DEMO
Boris Lobanov Liliya
Tsirulnik Vladimir Golenkov
Слайд 39Системы синтеза видеоряда по тексту
Предназначены для превращения текста в последовательность
кадров видеоряда
16
Слайд 40Системы синтеза видеоряда по тексту состоят из:
1. Модуля лингвистического анализа
2.
Модуля семантического анализа
3. Рисовальщика
16
Слайд 41Системы синтеза видеоряда по тексту
Модуль лингвистического анализа для каждого
предложения формирует дерево зависимостей
16
Слайд 42Системы синтеза видеоряда по тексту
Модуль семантического анализа формирует семантическую
структуру по дереву зависимостей
16
Слайд 43Системы синтеза видеоряда по тексту
Глаголам ставится в соответствие их
семантический фрейм
16
Слайд 44Системы синтеза видеоряда по тексту
Рисовальщик управляет 3D представлением объектов:
размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16
Слайд 45Системы синтеза видеоряда по тексту
Рисовальщик управляет 3D представлением объектов:
размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16
Слайд 46Системы синтеза видеоряда по тексту
Он также выявляет пространственные и
временные отношения между объектами
16
Слайд 47Системы синтеза видеоряда по тексту
Он также выявляет пространственные и
временные отношения между объектами:
«пчела на утке, утка на курице, курица
на свинье, свинья на корове, корова на овце»
16