Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 42. Лингвистика в новых информационных технологиях.
Фонетический, морфологический, синтаксический,
семантический анализ
Слайд 311
Фонетический и фонологический анализ
Цель фонетического анализа найти фонемное представление слова
Сегментация
и идентификация акустического сигнала в последовательности лингвистических единиц сложна, поскольку
акустические сигналы ассоциируются с сегментами, непосредственно с ними не связанными
Кроме того, на эти сигналы сильно влияют соседние сегменты
Слайд 411
Фонетический и фонологический анализ
Акустико-фонетический компонент необходим в любой обрабатывающей речь
системе, чтобы восстановить канонические произношение слов, которые могут быть сопоставлены
с соответствующими эталонами словаря, и далее реализовать синтаксическую, семантическую и/прагматическую интерпретацию речевого высказывания
Слайд 520
Речевая волна во временной
и частотной областях
Слайд 620
Речевая волна во временной
и частотной областях
Широкополосная и узкополосная
спектрограммы и речевая волна для
последовательности «Every salt breeze comes
from the sea»
Слайд 721
Представление речи в виде
формантных траекторий
Для последовательности «Why do
I owe you a letter»
Слайд 819
Речевая волна во временной области
Речевая волна, соответствующая началу фразы «It’s
time».
Каждый отрезок на графике соответствует временному отрезку в 100
мсек.
S – пауза, U – невокализованный, и V – вокализованный звуки.
Слайд 941
Акустико-фонетический подход
Фонетические гипотезы, полученные
при распознавании строки слов «all about»
Слайд 1011
Фонетический и фонологический анализ
В русском языке имеется два типа звуков:
гласные и согласные
Гласные звуки характеризуются по ряду, длительности, лабиализации,
напряженности
Согласные характеризуются по месту образования, способу, твердости/мягкости, глухости/звонкости, придыхательности
Слайд 1142
Акустико-фонетический подход
Бинарное дерево классификации речевых звуков
Слайд 1211
Фонетический и фонологический анализ
Не трудно учесть фонологические компоненты в рамках
лексических процессов, которые обычно имеют дело с фонологически управляемыми изменениями,
генерируя альтернативное произношение для индивидуальных лексических единиц и сохраняя их в дополнительном словаре
Сложнее учесть фонологические процессы, которые соединяют границы слова
Слайд 1311
Фонетический и фонологический анализ
Отличие фонологии от фонетики состоит в том,
что предмет фонетики не сводится к функциональному аспекту звуков речи,
но охватывает наряду с этим также её субстанциальный аспект, а именно - физический и биологический (физиологический) аспекты – артикуляцию, акустические свойства звуков, их восприятие слушающим
Слайд 1411
Фонетический и фонологический анализ
Фонема и звук - разные понятия, так
как фонема - психическое явление, а звук — акустико-физиологическое
Слайд 1511
Фонетический и фонологический анализ
Фонема – полифункциональная единица языка, которая:
различает звуковые
оболочки слов и морфем
доводит звуки речи до восприятия
является смыслоразличительной единицей
Слайд 1611
Фонетический и фонологический анализ
Фонема - целиком психическое явление, равно как
и аллофон, реализацией их в речи является звук
Одной фонеме могут
соответствовать несколько различных ее реализаций или аллофонов
Слайд 1711
Фонетический и фонологический анализ
Аллофон - группа звуков, в которых реализуется
данная фонема в зависимости от характера выполняемой ими функции, места
в слове и соседства с другими звуками, а также ударности и безударности
Слайд 1811
Фонетический и фонологический анализ
Согласно артикуляционной теории звук образуется в 3
стадии:
экскурсия (приготовление)
произнесение
рекурсия (расслабление)
Слайд 1911
Фонетический и фонологический анализ
Так как звуки речи произносятся не изолированно,
а в звуковой цепи связной речи, то они могут, во-первых,
влиять друг на друга, когда рекурсия предыдущего звука взаимодействует с экскурсией последующего, и, во-вторых, испытывать влияние общих условий произношения
Слайд 2011
Фонетический и фонологический анализ
В результате появляются следующие фонетические процессы:
1) редукция
(изменение длительности звуков в безударных словах: количественная/качественная). Она тесно связана
с ударением: - силовое – количественное (ударный звук произносится более долго) – тоновое (изменение высоты тона)
Слайд 2111
Фонетический и фонологический анализ
В результате появляются следующие фонетические процессы:
2) аккомодация
- взаимное приспособление гласных и согласных, качество согласного влияет на
качество гласного и наоборот
Слайд 2211
Фонетический и фонологический анализ
В результате появляются следующие фонетические процессы:
3) ассимиляция
- качественное уподобление смежных по произношению звуков. Бывает - прогрессивной
(когда предыдущий звук влияет на последующий), - регрессивной (когда последующий звук влияет на предыдущий)
Слайд 2311
Фонетический и фонологический анализ
В результате появляются следующие фонетические процессы:
4) диссимиляция
- расподобление, когда из двух одинаковых или подобных звуков получается
два различных звука. Процесс, противоположный ассимиляции
Слайд 2411
Фонетический и фонологический анализ
Для нахождения канонического фонемного представления слова русского
языка в словаре по его фонетической форме произнесения необходимо учитывать
что:
одна буква может обозначать несколько звуков
несколько букв могут обозначать один звук
Слайд 2511
Фонетический и фонологический анализ
Основные прикладные аспекты фонетических исследований в речевых
технологиях:
автоматическое распознавание речи
синтез речи
идентификация говорящего по характеристикам речевого сигнала
Слайд 26
Программная система
для анализа текстовой информации
TextAnalyst
Формирование семантической сети
Слайд 27
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Первичная
обработка
Удаление нетекстовой информации
Сегментация на осмысленные фрагменты (предложения)
Удаление стоп-слов, рабочих
и общеупотребимых слов
Морфологическая обработка
Слайд 2811
Морфологический анализ
Морфологический анализ тесно связан с морфологическим уровнем языка, единицей
которого является морфема
Морфемы по обязательности наличия в слове делятся на:
корневые
(корни) – обязательные
аффиксальные (аффиксы) - необязательные
Слайд 2911
Морфологический анализ
Корень — основная значимая часть слова. Является обязательной частью
любого слова — не существует слов без корня (кроме редких
вторичных образований с утраченным корнем типа русского вы-ну-ть (префикс-суффикс-окончание)
Слайд 3011
Морфологический анализ
Аффикс — вспомогательная часть слова, присоединяемая к корню и
служащая для словообразования и выражения грамматических значений
По положению относительно корня:
префиксы
- перед корнем (традиционное название в русском языке - приставки)
постфиксы — после корня
Слайд 3111
Морфологический анализ
По словоизменяющей функции :
словонеизменяющие аффиксы - передают грамматическое и
лексическое значение
флексии — словоизменяющие аффиксы, которые передают реляционное, т.е.
указывающее на связь с другими членами предложения, значение и являются показателем комплекса грамматических категорий, выражающихся в словоизменении
Слайд 3211
Морфологический анализ
В отличие от флексии основа - это неизменяемая часть
слова, которая выражает его лексическое значение, то есть соотнесённость звуковой
оболочки слова с соответствующими предметами или явлениями объективной действительности
Применительно к русскому языку основа – это часть слова без окончания
Слайд 3311
Морфологический анализ
Парадигма - в лингвистике список словоформ, принадлежащих одной лексеме
и имеющих разные грамматические значения
Обычно парадигмы упорядочены в некотором традиционном
порядке граммем, например, парадигма русского склонения записывается в порядке падежей И — Р — Д — В — Т — П
Слайд 3411
Морфологический анализ
Лемма — это начальная (словарная) форма лексемы
Процесс привода словоформы
к лемме — её словарной форме называется лемматизацией
Слайд 3511
Морфологический анализ
В русском языке начальными формами (леммами) являются:
для существительных
— именительный падеж, единственное число
для прилагательных — именительный падеж, единственное
число, мужской род
для глаголов, причастий, деепричастий — глагол в инфинитиве
Слайд 3611
Морфологический анализ
Цель морфологического анализа:
- определить принадлежность некоторой словоформы к парадигме
определенной лексемы
- выявить грамматические признаки для этой словоформы - морфологическую
информацию для использования ее на последующих этапах обработки естественно-языкового текста
Слайд 3711
Морфологический анализ
Морфологические признаки слов русского языка
Слайд 3811
Морфологический анализ
Для русского языка морфологический разбор текста включает:
выделение
внутри предложений отдельных словоформ
определение всех вариантов комбинаций основ и
аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм
Слайд 3911
Морфологический анализ
Для русского языка морфологический разбор текста включает:
устранение
грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления
слов
Слайд 4011
Морфологический анализ
Существует несколько классификаций основных видов алгоритмов морфологического анализа:
по использованию
словарей системы МА можно разделить на словарные (со словарем словоформ
или со словарем основ) и бессловарные
по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией
Слайд 4111
Морфологический анализ
МА со словарем основ имеет словарь основ
Безсловарный МА
имеет таблицу аффиксов и список слов-исключений
При декларативном методе в словаре
хранятся все возможные словоформы каждого слова с приписанной им МИ
Процедурный МА выделяет в текущей словоформе основу и приписывает данной словоформе соответствующий комплекс МИ
Слайд 4211
Морфологический анализ
Описание постоянной МИ в модуле LINGUIST