Разделы презентаций


Новые информационные технологии

Содержание

Лекция № 24. Основные классы естественно-языковых систем.Системы синтеза

Слайды и текст этой презентации

Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.

М. Тореза

Новые информационные технологииХарламов Александр Александрович © 2012 МГЛУИн. яз. им. М. Тореза

Слайд 2Лекция № 24. Основные классы естественно-языковых систем.
Системы синтеза

Лекция № 24. Основные классы естественно-языковых систем.Системы синтеза

Слайд 36
Структура коммуникационной системы для организации речевого поведения

6Структура коммуникационной системы для организации речевого поведения

Слайд 4
7
Структура коммуникационной системы для организации речевого поведения

7Структура коммуникационной системы для организации речевого поведения

Слайд 58
Информационно-кодовая модель коммуникации Шеннона и Уивера

8Информационно-кодовая модель коммуникации Шеннона и Уивера

Слайд 615
Информационно-кодовая модель коммуникации Шеннона и Уивера,
модифицированная для коммуникационного акта Якобсоном

15Информационно-кодовая модель коммуникации Шеннона и Уивера,модифицированная для коммуникационного акта Якобсоном

Слайд 73
Автоматический синтез речи
Общая блок-схема ориентированной
на задачу системы распознавания-синтеза речи

3Автоматический синтез речиОбщая блок-схема ориентированной на задачу системы распознавания-синтеза речи

Слайд 8Основные классы естественно-языковых систем - Средства синтеза речи и текстов осуществляют

формирование корректного текста по его смысловой структуре, и синтез речи

по тексту - Сюда же можно отнести средства клонирования голоса - Отдельно стоят системы синтеза видеоряда по тексту

16

Основные классы естественно-языковых систем  - Средства синтеза речи и текстов  осуществляют формирование корректного текста по

Слайд 9Системы синтеза речи реализуют следующие технологии 1. Компилятивный синтез. В этом

случае воспроизводятся заранее подготовленные речевые фрагменты, которые озвучиваются пользователю 2. Пофонемный

синтез. В этом случае самыми мелкими, заранее подготовленными, единицами являются фонемы, или субфонемные элементы 3. Физический синтез. Для физического синтеза реализуется физическая модель артикуляторного тракта, которая управляется последовательностью символов, соответствующих буквам синтезируемого текста, с добавлением специальных символов, отмечающих выделенные речевые фрагменты.

16

Системы синтеза речи реализуют следующие технологии 1. Компилятивный синтез. В этом случае воспроизводятся заранее подготовленные речевые фрагменты,

Слайд 10Рассмотрим пофонемный синтез на примере системы синтеза речи Б.М. Лобанова (lobanov@newman.bas-net.by) Объединенный

институт проблем информатики НАН, Минск, Беларусь
16

Рассмотрим пофонемный синтез на примере системы синтеза речи Б.М. Лобанова (lobanov@newman.bas-net.by) Объединенный институт проблем информатики НАН,

Слайд 11Пофонемный синтез Отличительной особенностью описываемой модели мультиволнового синтеза является использование

в качестве элементов компиляции речи отрезков естественной речевой волны, соотносимой

с элементами различной фонетической длинны: аллофонами, диаллофонами и аллослогами

16

Пофонемный синтез  Отличительной особенностью описываемой модели мультиволнового синтеза является использование в качестве элементов компиляции речи отрезков

Слайд 12Структура системы синтеза речи Синтезатор включает четыре основных модуля: - текстовый процессор -

просодический процессор - фонетический процессор - акустический процессор Каждый из этих модулей поддерживается

наборами соответствующих БД и правил
Структура системы синтеза речи Синтезатор включает четыре основных модуля: - текстовый процессор - просодический процессор - фонетический

Слайд 13Структура системы синтеза речи

Структура системы синтеза речи

Слайд 14Текстовый процессор Текстовый процессор включает два основных блока: - блок предварительной обработки входного

текста - блок морфологической и акцентной маркировки слов текста Эти блоки поддерживаются

соответствующими базами данных, словарями и правилами
Текстовый процессор Текстовый процессор включает два основных блока: - блок предварительной обработки входного текста - блок морфологической и

Слайд 15Структура текстового процессора

Структура текстового процессора

Слайд 16Блок предварительной обработки входного текста Блок предварительной обработки реализует ряд этапов

обработки: - очистки текста - дешифровки чисел - дешифровки аббревиатур - дешифровки иностранных слов -

корректировки “ё” Эти этапы поддерживаются соответствующими базами данных, словарями и правилами
Блок предварительной обработки входного текста  Блок предварительной обработки реализует ряд этапов обработки: - очистки текста - дешифровки

Слайд 17Структура блока предварительной обработки текста

Структура блока предварительной обработки текста

Слайд 18Блок морфо-фонетической маркировки - Блок морфо-фонетической маркировки осуществляет маркировку каждого слова

входного текста, необходимую для адекватного синтеза звуков и интонации речи -

Для фонетической маркировки используется грамматический словарь, в котором каждое слово снабжено пометой позиции ударения
Блок морфо-фонетической маркировки  - Блок морфо-фонетической маркировки осуществляет маркировку каждого слова входного текста, необходимую для адекватного синтеза

Слайд 19Структура просодического процессора

Структура просодического процессора

Слайд 20Просодический процессор - Синтез речи по тексту предполагает наличие процедуры

формирования текущих контуров мелодии, силы звука, фонемной длительности и длительности

пауз на основе анализа определенных свойств входного текста и его просодической разметки - Просодическая разметка текста заключается в его членении на синтагмы, разметке синтагм на акцентные единицы и маркировке интонационного типа синтагм в соответствии с определёнными правилами
Просодический процессор  - Синтез речи по тексту предполагает наличие процедуры формирования текущих контуров мелодии, силы звука,

Слайд 21Просодический процессор - Под синтагмой понимается самостоятельная в интонационном смысле

часть предложения или всё предложение - Установка границ синтагм влияет на

передачу интонационных характеристик, а также на передачу смыслового содержания - При разбиении текста на синтагмы важно не поставить границу синтагмы там, где она может нарушить передачу смыслового содержания текста
Просодический процессор  - Под синтагмой понимается самостоятельная в интонационном смысле часть предложения или всё предложение -

Слайд 22Просодический процессор - Для установки границ синтагм используются определённые правила

синтагматического членения, базирующиеся на пунктуационном, морфологическом и синтаксическом анализе текста,

а также на статистическом анализе синтагматического членения в естественной речи
Просодический процессор  - Для установки границ синтагм используются определённые правила синтагматического членения, базирующиеся на пунктуационном, морфологическом

Слайд 23Фонетический процессор - Задачей фонетического процессора является преобразование орфографического текста

в последовательность аллофонов, которая используется на этапе акустической обработки при

синтезе речевого сигнала - В фонетическом процессоре заложены правила преобразования орфографического текста в последовательность фонем (преобразование буква-фонема) и правила преобразования последовательности фонем в аллофонную последовательность (преобразование фонема-аллофон)
Фонетический процессор  - Задачей фонетического процессора является преобразование орфографического текста в последовательность аллофонов, которая используется на

Слайд 24Структура фонетического процессора

Структура фонетического процессора

Слайд 25Структура акустического процессора

Структура акустического процессора

Слайд 26Мировая тенденция развития речевых технологий указывает на актуальность создания систем

синтеза выразительной речи (expressive text-to-speech)

- “Да не читай, как

пономарь, а с чувством, с толком, с расстановкой” (А.С. Пушкин)

Достижение этой цели невозможно без развития многоуровнего семантического представления читаемого текста, а в идеале - его понимания

Мировая тенденция развития речевых технологий указывает на актуальность создания систем синтеза выразительной речи (expressive text-to-speech)	 - “Да

Слайд 27Семантическая система синтеза речи - Основной сложностью при создании процессоров

обработки текста для систем синтеза русской речи является значительная гибкость

языка - Каждый из этапов сопряжен с определенными сложностями, связанными с тем, что в русском языке не существует строгих правил как построения фраз, так и произношения - В результате этого большое количество фраз допускает разночтение, разное произношение и интонацию, устранить которое может только анализ всего предложения, а иногда и всего текста
Семантическая система синтеза речи  - Основной сложностью при создании процессоров обработки текста для систем синтеза русской

Слайд 28Многоуровневый семантический анализ для синтеза речи

Многоуровневый семантический анализ  для синтеза речи

Слайд 2911
Системы синтеза речи

11Системы синтеза речи

Слайд 30Системы клонирования голоса Системы клонирования голоса предназначены для замены параметров

речевого сигнала, характеризующих тембр одного диктора, в параметры тембра другого

диктора Остальные характеристики речи остаются неизменными

16

Системы клонирования голоса  Системы клонирования голоса предназначены для замены параметров речевого сигнала, характеризующих тембр одного диктора,

Слайд 31 A Model of Personalized
Audio-Visual TTS-synthesis
for Russian


B. Lobanov,

A. Karpov, L. Tsirulnik

United Institute of Informatics Problems of NAS

Belarus
{lobanov, l.tsirulnik}@newman.bas-net.by

A Model of Personalized Audio-Visual TTS-synthesis for RussianB. Lobanov, A. Karpov, L. TsirulnikUnited Institute of Informatics

Слайд 32Introduction-1
The tendency of developing speech technologies points out the relevance

of including visual information as an additional channel of speech

perception and recognition.
Visual information is very important for speech recognition in noisy environments and is indispensable for people with restricted hearing or defects of pronunciation. The number of research in the fields of audio-visual speech recognition and TTS-synthesis is permanently increasing.
Introduction-1The tendency of developing speech technologies points out the relevance of including visual information as an additional

Слайд 33Introduction-2
There are two approaches to the creation of audio-visual

TTS-synthesis systems (often called „talking head”): imitation and concatenative.

In the imitation approach a 2D or 3D model of the head and face is created and parameters for facial expression and lips movement representation are adjusted.
In the concatenative approach the “talking head” is generated by choosing corresponding video fragments or images from the visual database (DB) of a certain speaker.
Introduction-2 There are two approaches to the creation of audio-visual TTS-synthesis systems (often called „talking head”): imitation

Слайд 34Examples of imitational “Talking Head”

Examples of imitational “Talking Head”

Слайд 35Introduction-3
The advantage of the imitation approach is a smaller

physical size of the data necessary for visual speech synthesis.

On the other hand, the implementation of a 2D or 3D model presents considerable computational complexity. Moreover, the imitation approach does not give sufficiently realistic results in the personification of the “talking head” due to unavoidable sketchiness of speech movement representation.
Thus, the concatenative approach is more preferable for the purposes of creating a system of personalised audio-visual TTS-synthesis.
Introduction-3 The advantage of the imitation approach is a smaller physical size of the data necessary for

Слайд 36Introduction-4
The audio-visual personalized TTS-synthesis modelis the result of further development

of our technology of
personal voice, diction and intonation cloning


Introduction-4The audio-visual personalized TTS-synthesis modelis the result of further development of our technology of personal voice, diction

Слайд 37Conclusion
The software implementation of the model for Windows-family operating

systems is created and used as a component of the

audio-visual TTS-synthesis system.
The peculiarity of system implementation is simultaneous work of the modules of visual and acoustic data processing.
Synchronization of audio- and visual flows on the software-based level is implemented by the standard MS Windows means for multithreaded processing.
Conclusion The software implementation of the model for Windows-family operating systems is created and used as a

Слайд 38AudioVideoClon - DEMO
Boris Lobanov Liliya

Tsirulnik Vladimir Golenkov

AudioVideoClon - DEMO Boris Lobanov     Liliya Tsirulnik   Vladimir Golenkov

Слайд 39Системы синтеза видеоряда по тексту Предназначены для превращения текста в последовательность

кадров видеоряда
16

Системы синтеза видеоряда по тексту Предназначены для превращения текста в последовательность кадров видеоряда16

Слайд 40Системы синтеза видеоряда по тексту состоят из: 1. Модуля лингвистического анализа 2.

Модуля семантического анализа 3. Рисовальщика
16

Системы синтеза видеоряда по тексту состоят из: 1. Модуля лингвистического анализа 2. Модуля семантического анализа 3. Рисовальщика16

Слайд 41Системы синтеза видеоряда по тексту Модуль лингвистического анализа для каждого

предложения формирует дерево зависимостей
16

Системы синтеза видеоряда по тексту  Модуль лингвистического анализа для каждого предложения формирует дерево зависимостей16

Слайд 42Системы синтеза видеоряда по тексту Модуль семантического анализа формирует семантическую

структуру по дереву зависимостей
16

Системы синтеза видеоряда по тексту  Модуль семантического анализа формирует семантическую структуру по дереву зависимостей16

Слайд 43Системы синтеза видеоряда по тексту Глаголам ставится в соответствие их

семантический фрейм
16

Системы синтеза видеоряда по тексту  Глаголам ставится в соответствие их семантический фрейм16

Слайд 44Системы синтеза видеоряда по тексту Рисовальщик управляет 3D представлением объектов:

размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16

Системы синтеза видеоряда по тексту  Рисовальщик управляет 3D представлением объектов: размером, позицией, цветом, позой человека, кинематикой,

Слайд 45Системы синтеза видеоряда по тексту Рисовальщик управляет 3D представлением объектов:

размером, позицией, цветом, позой человека, кинематикой, а также выражением лица
16

Системы синтеза видеоряда по тексту  Рисовальщик управляет 3D представлением объектов: размером, позицией, цветом, позой человека, кинематикой,

Слайд 46Системы синтеза видеоряда по тексту Он также выявляет пространственные и

временные отношения между объектами
16

Системы синтеза видеоряда по тексту  Он также выявляет пространственные и временные отношения между объектами16

Слайд 47Системы синтеза видеоряда по тексту Он также выявляет пространственные и

временные отношения между объектами: «пчела на утке, утка на курице, курица

на свинье, свинья на корове, корова на овце»

16

Системы синтеза видеоряда по тексту  Он также выявляет пространственные и временные отношения между объектами: «пчела на

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика