Разделы презентаций


Методы обработки речевых сигналов в задаче распознавания

Содержание

Содержание Теория сэмплирования Линейные фильтры Анализ кратковременного преобразования Фурье Применение окон Кодирование речи

Слайды и текст этой презентации

Слайд 1Лекция 14. Методы обработки речевых сигналов в задаче распознавания
Докладчик Симончик К.
Группа 0382

Лекция 14. Методы обработки речевых сигналов в задаче распознавания Докладчик	Симончик К.Группа		0382

Слайд 2Содержание
Теория сэмплирования
Линейные фильтры
Анализ

кратковременного
преобразования Фурье
Применение окон
Кодирование

речи
Содержание  Теория сэмплирования  Линейные фильтры  Анализ кратковременного   преобразования Фурье  Применение окон

Слайд 3Речевой сигнал
wav-файл, 8000Hz, 16 bit (106 kbyte)
Представление речевого сигнала во

временной области
Time

Речевой сигналwav-файл, 8000Hz, 16 bit (106 kbyte)Представление речевого сигнала во временной областиTime

Слайд 4Теория сэмплирования
Перед дискретизацией сигнал необходимо отфильтровать. Теоретически, максимальная воспроизводимая частота

является половиной частоты дискретизации
Частота дискретизации
Разрешение дискретизации
В телефонии

использована частота дискретизации 8 кГц. 16 кГц обычно считается достаточным для распознавания и синтеза речи.

Нормальное качество достигается при 16 битах из которых 12 – значащие

Теория сэмплированияПеред дискретизацией сигнал необходимо отфильтровать. Теоретически, максимальная воспроизводимая частота является половиной частоты дискретизации Частота дискретизации Разрешение

Слайд 5Линейные фильтры
Фильтры с конечной импульсной характеристикой

Yn = b0 xn

+ b1 xn-1 + b2 xn-2 + ... + bq

xn-q


Фильтр с конечной импульсной характеристикой (КИХ) вычисляет выходное значение y(n), как взвешенную сумму текущего входного значения и предыдущих входных значений.

Блок-схема КИХ-фильтра

Передаточная характеристика КИХ-фильтра

Линейные фильтрыФильтры с конечной импульсной характеристикой Yn = b0 xn + b1 xn-1 + b2 xn-2 +

Слайд 6Линейные фильтры
Фильтры с конечной импульсной характеристикой
Импульсная характеристика фильтра нижних

частот
Амплитудно-частотная характеристика фильтра нижних частот
Сигнал после НЧ фильтрации

Линейные фильтрыФильтры с конечной импульсной характеристикой Импульсная характеристика фильтра нижних частотАмплитудно-частотная характеристика фильтра нижних частотСигнал после НЧ

Слайд 7Линейные фильтры
Фильтры с конечной импульсной характеристикой
Импульсная характеристика фильтра высоких

частот
Амплитудно-частотная характеристика фильтра высоких частот
Сигнал после ВЧ фильтрации

Линейные фильтрыФильтры с конечной импульсной характеристикой Импульсная характеристика фильтра высоких частотАмплитудно-частотная характеристика фильтра высоких частотСигнал после ВЧ

Слайд 8Линейные фильтры
Фильтры с бесконечной импульсной характеристикой
Фильтры с бесконечной импульсной

характеристикой (БИХ) производят выходное воздействие, y(n), как взвешенную сумму текущего

и предыдущих входных воздействий, x(n), и предыдущих выходных воздействий.


Обычные типы фильтров

Блок-схема БИХ-фильтра

Линейные фильтрыФильтры с бесконечной импульсной характеристикой Фильтры с бесконечной импульсной характеристикой (БИХ) производят выходное воздействие, y(n), как

Слайд 9Линейные фильтры
Анализ банка фильтров



- частота в спектре, Гц, а


- частота в новом пространстве, mel

Информативность различных частей линейного

спектра неодинакова: в низкочастотной области содержится больше информации чем в высокочастотной. Поэтому для предотвращения излишнего расходования ресурсов, необходимо уменьшать число элементов, получающих информацию с высокочастотной области, или, что то же самое, сжать высокочастотную область спектра в пространстве частот. Наиболее распространенный метод – логарифмическое сжатие или приведение к mel шкале:

Mel-шкала

Банк фильтров

Линейные фильтрыАнализ банка фильтров - частота в спектре, Гц, а - частота в новом пространстве, mel Информативность

Слайд 10Кратковременный анализ Фурье

Дискретное преобразование Фурье (ДПФ)

Где θ = 2

π f T = 2 π f / fs ,T

– период дискретизации, fs – частота дискретизации.

Обратное преобразование Фурье


Сигнал звука «а» в t-области

Сигнал звука «а» в частотной области

Кратковременный анализ ФурьеДискретное преобразование Фурье (ДПФ) Где θ = 2 π f T = 2 π f

Слайд 11Кратковременный анализ Фурье
Свойства ДПФ
Линейность

Временной

сдвиг

Частотный сдвиг

Свертка


Кратковременный анализ ФурьеСвойства ДПФ  Линейность  Временной сдвиг  Частотный сдвиг  Свертка

Слайд 12Применение окон

Прямоугольное окно
Окно Хэмминга
Вид окна
во временной области
Сигнал после
наложения окна
Спектр

сигнала
Умножение сигнала на функцию окна во временной области равносильно свертке

сигнала в частотной области
Применение оконПрямоугольное окноОкно ХэммингаВид окна во временной областиСигнал посленаложения окнаСпектр сигналаУмножение сигнала на функцию окна во временной

Слайд 13Применение окон
Наиболее часто используемые окна

Прямоугольное

Треугольное

Хэмминга

Блэкмана

Блэкмана-Харриса

Ханна

Чебышева

Гаусса

Кайзера
Применение оконНаиболее часто используемые окна  Прямоугольное   Треугольное  Хэмминга  Блэкмана  Блэкмана-Харриса

Слайд 14Применение окон
Данное окружение подходит в большинстве задач фильтрации, где фильтр

может зависеть от времени и анализируемого сигнала

Метод перекрывания и

добавления в линейной фильтрации

Метод перекрывания и добавления во временной области

Применение оконДанное окружение подходит в большинстве задач фильтрации, где фильтр может зависеть от времени и анализируемого сигнала

Слайд 15Кодирование речи

Речь может быть закодирована на многих

уровнях
Низкий Bit-rates достигается путем наложения больших ограничений на

механизм получения речи.
Качество уменьшается с уменьшением bit-rate

Waveform кодеры

Импульсная кодовая модуляция (PCM)

Требуется, чтобы частота дискретизации, fs, была больше частоты Найквиста (в два раза большая, чем максимальная частота сигнала)

Дифференцированная импульсная кодовая модуляция (DPCM)

Предсказывает следующий отсчет, основываясь на нескольких отсчетах, декодированных последними
Минимизирует среднеквадратичную ошибку остатка предсказания – использует LP-кодирование.

Адаптивная дифференцированная импульсная кодовая модуляция (АDPCM)

Адаптируется предсказатель
Предшествующая адаптация: новые значения предсказания уточняются из входных данных
Последующая адаптация: используются значения предсказателя, вычисленные из недавно декодированного сигнала

wav-файл (106kbyte)

vox-файл (26kbyte)

Кодирование речи  Речь может быть закодирована на многих уровнях  Низкий Bit-rates достигается путем наложения больших

Слайд 16Кодирование речи
Кодировщики подобластей
Использует неравномерную частотную чувствительность

слуховой системы.

Каждая подобласть кодируется со свойственной ей разрешением

– например 4 бита на отсчет в низкочастотной подобласти и 2 бита на отсчет в высокочастотной подобласти.

Также может использоваться слуховое маскирование – используется меньше бит если соседняя подобласть намного громче.

Основа для стандарта MPEG-audio (сжатие 5:1 с CD качеством звука без заметной деградации).

Пример: MP3 32, 64, 128, 256, 320 kbit/sec

Кодирование речи Кодировщики подобластей  Использует неравномерную частотную чувствительность слуховой системы.  Каждая подобласть кодируется со свойственной

Слайд 17Кодирование речи
Вокодеры линейного предсказания
Для каждого фрейма

необходимо закодировать:
- Представление LP-фильтра
- Мощность
- Затухание голоса
- Высоту (если есть

голос)

Большинство битов идет на LP-параметры

Обычно используют «LP-коэффициенты» или «Линейные спектральные пары» для представления LP-параметров:


CELP кодеры


Основан на базисном LP-кодере

Применяется долговременный предсказатель для устранения избытка повторяемости

Кодирование требует намного больших вычислительных затрат чем декодирование (нужен поиск в codebook).

Результирующий bit-rate около 4 kbps.

Кодеры, возбуждаемые кодами линейного предсказания (Code Excite Linear Prediction)

G.729 (8 kbit/sec)

ICELP (4.8 kbit/sec)

MMBE (2.4 kbit/sec)

LBRAMR (1.2 kbit/sec)

Кодирование речи Вокодеры линейного предсказания  Для каждого фрейма необходимо закодировать:	- Представление LP-фильтра	- Мощность	- Затухание голоса	- Высоту

Слайд 18Спасибо за внимание

Спасибо за внимание

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика