Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 43. Лингвистика в новых информационных технологиях.
Синтаксический анализ, семантический
анализ
Слайд 311
Синтаксический анализ
Синтаксическим анализом называется процесс структурирования линейной репрезентации (предложения) в
соответствии с заданной грамматикой
Слайд 411
Синтаксический анализ
Синтаксис изучает правила связывания слов и форм слов, а
также единства, в составе которых эти правила реализуются — синтаксические
единицы
Слайд 511
Синтаксический анализ
Минимальной составляющей синтаксических единиц является слово (лексема) и форма
слова, т.е. высшие морфологические единицы
Более крупными синтаксическими единицами являются: словосочетание
простое предложение
сложное предложение
Слайд 611
Синтаксический анализ
Задача синтаксического анализа состоит в том, чтобы, используя морфологическую
информацию о словоформах, выявить синтаксическую структуру предложения (осуществить разбор предложения)
Синтаксическая
структура отражает синтаксические связи между синтаксическими единицами
Слайд 711
Синтаксиечский анализ
Классификация синтаксических конструкций
Рассмотрим типы синтаксических конструкций:
- словосочетание
простое предложение
сложное предложение
Слайд 811
Синтаксический анализ
Классификация словосочетаний
Словосочетания по структуре делятся на:
- простые
(двучленные) (заседание думы)
- сложные, в которых реализуются
связи, исходящие из одного главного слова (долгожданный вестник победы)
- комбинированные, в которых реализуются связи, исходящие из разных слов (проверка домашней работы)
Слайд 911
Синтаксиечский анализ
Классификация словосочетаний
Словосочетания по главному слову классифицируются на:
-
глагольные
- именные
- наречные
Слайд 1011
Синтаксический анализ
Глагольные словосочетания
Глагольные словосочетания:
- с именем существительным
(читать книгу)
- с инфинитивом (предложить выучить)
- с наречием (поступать справедливо)
Слайд 1111
Синтаксический анализ
Именные словосочетания
С именем существительным в роли главного слова
- с именами существительными (тезисы доклада, вагон для некурящих)
- с именами прилагательными (полезная книга, наша страна)
- с наречиями (прогулка верхом)
- с инфинитивом (желание учиться)
Слайд 1211
Синтаксический анализ
Именные словосочетания
С именем прилагательным в роли главного слова
- с именами существительными (достойный похвалы, свободный от
гнета)
- с наречиями (очень интересный)
- с инфинитивом (способный работать)
Слайд 1311
Синтаксический анализ
Именные словосочетания
С именем числительным в роли главного слова (две
книги)
С местоимением в роли главного слова (кто-то из студентов)
Слайд 1411
Синтаксический анализ
Наречные словосочетания
С наречием (очень удачно)
С именами существительными (далеко от
дома)
Слайд 1511
Синтаксический анализ
Синтаксические связи
Синтаксическая связь — формальные строевые отношения между компонентами
синтаксических единиц, выявляющие синтаксические отношения и выраженные средствами языка
Слайд 1611
Синтаксический анализ
Синтаксические связи
Синтаксические связи делятся на сочинительные и подчинительные, которые
противостоят друг другу по признаку наличия/отсутствия отношения «хозяина» и «слуги»
в синтаксической конструкции
Слайд 1711
Синтаксический анализ
Синтаксические связи
Сочинительная связь - при сочинении все компоненты однофункциональны
Подчинительная связь - при подчинении роль компонентов в создании конструкции
различна, они разнофункциональны
Слайд 1811
Синтаксический анализ
Синтаксические связи
В русском языке выделяется три вида подчинительной связи:
согласование
- уподоблением формы зависимого слова форме главенствующего слова (новый дом)
управление
- присоединением к главенствующему слову существительного в форме косвенного падежа (стать ученым)
Слайд 1911
Синтаксический анализ
Синтаксические связи
В русском языке выделяется три вида подчинительной связи:
примыкание
- собственно примыкание - в роли зависимого
слова выступают слова неизменяемые (умудриться упасть)
- падежное примыкание - присоединение к главному слову падежной формы имени (прийти к вечеру)
Слайд 2011
Синтаксический анализ
Синтаксические связи
Средства выражения синтаксических связей в словосочетаниях:
-
формы слов:
- форма падежа существительных;
- число, род, падеж прилагательных
- лицо, число, род спрягаемых форм глаголов
- предлоги
- порядок слов
- интонация (знаки препинания)
Слайд 2111
Синтаксический анализ
Цель
Для фразы требуется получить все синтаксические представления, которые удовлетворяют
определенным соглашениям
Вопрос о том, какое из этих представлений является
не только правильно построенным, но и соответствующим смыслу анализируемой фразы, в рамках синтаксического анализа не решается
Слайд 2211
Синтаксический анализ
Цель
Наиболее общим для разработчиков синтаксических анализаторов является взгляд, что
синтаксическое строение предложения можно представить некоторым частично упорядоченным множеством бинарных
связей между элементами
Слайд 2311
Синтаксический анализ
Алгоритм определения, являются ли два слова связанными подчинительной связью
Задача алгоритма сводится к поиску пар синтаксически связных слов
Он
состоит в проверке того, является ли первое слово главным, или является ли второе слово главным
Если ни одно из слов не является главным, связи между словами нет
Слайд 2411
Синтаксический анализ
Проблемы, возникающие при выявлении синтаксической структуры
Лингвистически мотивированные причины появления
проблем:
- явление омонимии
- длина
связи между словами
- сложность сегментной структуры предложения, выраженная в сочинительных конструкциях
Слайд 2511
Синтаксический анализ
Проблемы, возникающие при выявлении синтаксической структуры
Синтаксическая омонимия
Предложение может
иметь несколько «правильных» систем составляющих, соответствующих различным толкованиям предложения
Слайд 2611
Синтаксический анализ
Синтаксическая омонимия
Стрелочная омонимия (Он умеет заставить себя слушать (заставить
себя, или себя слушать)) – разные смыслы можно отобразить с
помощью разных стрелок
Слайд 2711
Синтаксический анализ
Синтаксическая омонимия
Разметочная омонимия (Преследование тигра закончилось неудачей (тигр преследует
кого-то или кто-то преследует тигра)) – пара «хозяин — слуга»
выделяется единственным способом, но проинтерпретировать связь между этими словами можно по-разному
Слайд 2811
Синтаксический анализ
Синтаксическая омонимия
Конституентная омонимия (В концерте приняли участие известные ансамбли
и самодеятельные коллективы (прилагательное известные относится только к существительному ансамбли
или также к коллективы)) – рядом расположенные слова могут по-разному объединяться в группы
Слайд 2911
Синтаксический анализ
Средства синтаксического анализа
Таким образом, лингвистическая база знаний состоит из:
-
множества правил, позволяющих выявлять типы синтаксических связей, и
- описательной
модели синтаксической структуры предложения
Слайд 3011
Синтаксический анализ
Средства синтаксического анализа
Наиболее общей формой описательной модели синтаксической структуры
предложения является дерево зависимостей - дерево, множество узлов которого служит
множеством вхождений слов в предложение, а между узлами установлены бинарные отношения подчинения
Слайд 3111
Например – граф зависимостей для фразы «программное обеспечение вычислительной техники
и автоматизированных систем »
Дуги графа помечаются индексами синтаксических отношений
Синтаксический анализ
Слайд 3211
Синтаксический анализ
Средства синтаксического анализа
Указание для каждого слова тех слов, которые
ему непосредственно подчинены дает грамматика зависимостей
Одной из таких грамматик является
исчисление предикатов
Слайд 3311
Семантический анализ
Семантический анализ предложения
Предикат – термин логики и языкознания, обозначающий
конститутивный член суждения – то, что высказывается (утверждается или отрицается)
о субъекте
Предикат находится в предикативном отношении к субъекту, способном принимать отрицание и различные модальные значения
Слайд 3411
Семантический анализ
Предикат
К понятию предиката предъявляются определенные семантические требования, а именно,
предикат – не всякая информация о субъекте, но указание на
признак субъекта, его состояние и отношение к другим предметам
Слайд 3511
Семантический анализ
Предикат
В славянских терминологических системах термин «предикат» был заменен термином
«сказуемое»
Однако с термином «сказуемое» ассоциируется прежде всего формальный аспект
этого члена предложения, с термином «предикат» – его содержательный аспект
Поэтому принято говорить о семантических типах предиката
Слайд 3611
Семантический анализ
Предикатная структура предложения
Предикативность – это одна из важнейших характеристик
простого предложения
Предикатная структура -двусложная конструкция, которая воссоздает произвольную ситуацию, в
которой сочетается субъект с предикатом
Значение сообщения состоит из совокупности значений предикатных выражений
Слайд 3711
Семантический анализ
Предикатная структура предложения
Наличие предикативно связанных грамматических субъекта и предиката
многие исследователи считают обязательным свойством предложения
Эти члены предложения квалифицируются как
главные, поскольку они формируют предикатную основу предложения, его конструктивный минимум
Слайд 3811
Семантический анализ
Предикатная структура предложения
Грамматический субъект (подлежащее) является одной из конститутивных
единиц в составе предложения
Позиция подлежащего иногда может отсутствовать
Слайд 3911
Семантический анализ
Предикатная структура предложения
Субъект задаёт грамматико-смысловую перспективу предложения
Примеры с изменяющейся
ориентацией представления одной и той же предметной ситуации: Отец оставил
сыну в наследство дом. – Сын получил в наследство от отца дом.
Слайд 4011
Семантический анализ
Грамматический субъект
Формальными признаками грамматического субъекта могут быть:
начальная позиция в
линейной структуре предложения
интонационная выделенность
в языках с развитой системой словоизменения падежные
флексии
Слайд 4111
Семантический анализ
Предикатная структура предложения
Грамматический предикат (сказуемое) является второй из двух конститутивных
единиц в составе предложения
Его смысловой опорой является семантический предикат, т.е. признаковая
семантема
В позиции грамматического предиката чаще всего выступает глагол
Слайд 4211
Семантический анализ
Предикат
На синтаксическом уровне предикат – структура, которая включает в
свой состав n актантов
Ядро предиката (предикатор) – глагольная конструкция, а
актанты объединяются с ядром системой отношений
Актанты могут быть представлены или в виде объектов, или в форме характеристик предикатора - атрибутов
Слайд 4311
Семантический анализ
Предикат
Структура предиката: Subj – субъект, Obji – актанты предиката,
Ri – отношения предиката, R0 – отношение «быть субъектом»
Слайд 4411
Семантический анализ
Классификация предикатов
По количеству актантов предикаты делятся на:
- одноместные (Ель
зеленая);
- двухместные (Ель заслоняет нору);
- трехместные (Ель заслоняет нору от
охотника);
- четырехместные (Ель заслоняет нору от охотника большими ветками);
- есть еще пяти-, шести-, и семиместные предикаты
Слайд 4511
Семантический анализ
Отношения в предикатной структуре
Составляющие предикатной структуры: атрибутивный уровень описания
объекта (слева), атрибутивный уровень описания действия (справа)
Слайд 4611
Семантический анализ
Отношения в предикатной структуре
При реализации базовой синтаксической структуры атомарного
предложения выявляются три группы отношений:
отношение R0 основное отношение двухсоставной предикатной
конструкции
отношения Ri предиката (часть из них – с объектами, часть –отношения атрибутивного уровня
предикативное отношение Р
Слайд 4711
Семантический анализ
Отношения в предикатной структуре
Если предикативные отношения реализуются исключительно в
зависимости от выбранного предикатора, то формирование ситуационных отношений будет всегда
одинаковым и не зависит от предикатора
Это отношения типа «быть временем», «быть пространством», «быть причиной», «быть следствием» и тому подобное
Слайд 4811
Семантический анализ
Отношения в предикатной структуре
Временные отношения определяют динамические характеристики объекта:
протяженность
существования во времени
момент возникновения
Пространственные отношения фиксируют место пребывания объекта, или
взаимоотношения объектов между собой в некотором пространстве
Слайд 4911
Семантический анализ
Отношения в предикатной структуре
Каузальные отношения отражают причинно-следственные связи, а
также связи, определяющие цель, мотивацию, предпочтения при принятии решений
Инструментальные отношения
отражают прагматический аспект деятельности
И т.д.
Слайд 5011
Семантический анализ
Анализ целого текста
В задачу семантического анализа входит выявление смысла
входного текста и выражение этого смысла на внутреннем языке системы
Интерпретация
(понимание) смысла заключается в отображении входного текста на знания (системы)
Слайд 5111
Семантический анализ
Анализ целого текста
Под смыслом предложения понимается его целостное содержание,
не сводимое к значениям составляющих его частей и элементов, но
само определяющее эти значения
Под смыслом всего текста понимается целостное содержание этого текста, не сводимое к значениям составляющих его высказываний
Слайд 5211
Семантический анализ
Представление смысла текста
Выбор системы представления знаний определяет организацию информации,
а также алгоритмы восприятия и (или) преобразования фактов
Слайд 5311
Семантический анализ
Представление смысла текста
Разнообразные модели представления знаний, могут быть подразделены
на четыре класса:
семантические сети
системы фреймов
продукционные системы
логические модели (языки)
Слайд 5411
Семантический анализ
Семантические сети
Семантические сети – это класс подходов, для которых
общим является использование графических схем с узлами, соединенными дугами
Узлы (вершины
сети) представляют некоторые понятия (объекты, события, явления), а дуги – отношения между ними
Слайд 55
Структурный нейросетевой подход
к анализу текстовой информации
Семантический уровень
Попарная сочетаемость
корневых основ ключевых слов и словосочетаний
(ассоциативная , или семантическая сеть)
– понятия с их весом и связи с их весом
Семантические представления – сеть для предметной области
Вес понятий – частота встречаемости в тексте
Вес связей – частота попарной встречаемости в фрагментах текста
Слайд 56
Семантические сети
Ассоциативная навигация
Основная идея моделирования при помощи семантических моделей заключается
в том, что модель представляет данные о реальных объектах и
связях между ними прямым способом
Это существенно облегчает доступ к знаниям: начиная движение от некоторого понятия, по дугам отношений можно достичь других понятий
3
Слайд 57
Семантические сети
Достоинства семантических сетей:
- в семантических сетях существует возможность представлять
знания более естественным и структурированным образом, чем в других формализмах
- семантические сети более других соответствуют современным представлениям об организации долговременной памяти человека
3
Слайд 58
Семантические сети
Недостатки семантических сетей:
- нет специальных средств, позволяющих определить временные
зависимости, поэтому временные значения и события трактуются как обычные понятия
-
сложность организации процедуры поиска вывода на семантической сети
3
Слайд 60
Модель семантической сети
Проблема поиска решения в базе знаний типа семантической
сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети,
соответствующей поставленному вопросу
3
Слайд 61
Модель семантической сети
Можно ввести несколько классификаций семантических сетей:
- по количеству
типов отношений
- однородные (с единственным типом отношений)
- неоднородные (с различными
типами отношений)
3
Слайд 62
Модель семантической сети
Наиболее часто в семантических сетях используются следующие отношения:
-
связи типа "часть-целое" ("класс-подкласс", "элемент-множество" и т.п.)
- функциональные связи (определяемые
обычно глаголами "производит", "влияет"...)
- количественные (больше, меньше, равно...)
- пространственные (далеко от, близко от, за, под, над...)
3
Слайд 63
Модель семантической сети
Наиболее часто в семантических сетях используются следующие отношения
(продолжение):
- временные (раньше, позже, в течение...)
- aтрибутивные связи
(иметь свойство,иметь значение...)
- логические связи (и, или, не) и др.
3
Слайд 64
Модель семантической сети
Можно ввести несколько классификаций семантических сетей:
- по типам
отношений:
- бинарные (в которых отношения связывают два объекта);
- непарные (в
которых есть специальные отношения, связывающие более двух понятий)
3
Слайд 65
Модель семантической сети
Проблема поиска решения в базе знаний типа семантической
сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети,
соответствующей поставленному вопросу
3
Слайд 67Семантическая сеть
Семантическая сеть представляет знания преимущественно декларативно
3
Слайд 68
Системы фреймов
Фреймы – это фрагменты знания, предназначенные для представления стандартных
ситуаций
Термин «фрейм» (frame – рамка) был предложен М. Минским
3
Слайд 69
Системы фреймов
Например, слово «комната» вызывает у слушающих образ комнаты: «жилое
помещение с четырьмя стенами, полом, потолком, окнами и дверью, площадью
6-20 м2»
3
Слайд 70
Фрейм
Фрейм - это минимальное возможное описание сущности какого-либо явления, события, ситуации,
процесса или объекта
Минимальность означает, что при дальнейшем упрощении описания теряется
его полнота
3
Слайд 71
Фрейм
В этом описании есть незаполненные значения некоторых атрибутов
Эти незаполненные значения
атрибутов — количество окон, цвет стен, высота потолка, покрытие пола
и др.
3
Слайд 72
Фрейм
Различают фреймы-образцы или прототипы, хранящиеся в базе знаний, и фреймы-экземпляры, которые создаются
для отображения реальных ситуаций на основе поступающих данных
3
Слайд 73Фрейм
Каждый фрейм как структура хранит знания о предметной области
(фрейм-прототип), а при заполнении слотов значениями превращается в конкретный фрейм
события или явления
3
Слайд 74
Фрейм
Фрейм-прототип – это наиболее типичный представитель своего класса, с обобщенными, но
вполне конкретными, значениями своих свойств
3
Слайд 75
Фрейм
Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие
знаний о мире через:
- фреймы-структуры, для обозначения объектов и понятий
(заем, залог, вексель)
- фреймы-роли (менеджер, кассир, клиент)
3
Слайд 76
Фрейм
Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие
знаний о мире через:
- фреймы-сценарии (банкротство, собрание акционеров, празднование именин)
- фреймы-ситуации (тревога, авария, рабочий режим устройства)
3
Слайд 77
Фрейм: Человек
Имя слота: Значение слота
Класс: Животное
Структурный элемент: Голова, шея, руки,
...
Рост: 30 - 220 см
Масса: 1 - 200 кг
Хвост: Нет
Язык:
Русский, английский, ...
Связь: Обезьяна
3
Слайд 79Фрейм
Достоинство фреймового представления заключается в том, что этот тип представления
комбинирует декларативные и процедурные знания
3
Слайд 80Фрейм
Фреймовые модели обеспечивают требования структурированности и связности
Это достигается за счет
свойств наследования и вложенности, которыми обладают фреймы, т.е. в качестве
слотов может выступать система имен слотов более низкого уровня, а также слоты могут быть использованы как вызовы каких-либо процедур для выполнения
3
Слайд 81Фрейм
К недостаткам фреймовых систем относят их относительно высокую сложность, что
проявляется в снижении скорости работы механизма вывода и увеличения трудоемкости
внесения изменений в родо-видовую иерархию
3
Слайд 82
Ассоциативная или семантическая сеть – понятия с их весом
и связи с их весом
Вес понятий – частота встречаемости в
тексте
Вес связей – частота попарной встречаемости в фрагментах текста
Семантический анализ целого текста – формирование смыслового портрета текста
Слайд 83Существует множество подходов к решению задачи формирования смыслового портрета текста.
Например на основе на заранее сформированных семантических сетей как в
Excalibur [1]. В других случаях семантическая сеть конкретного текста формируется в процессе его поступления как в TextAnalyst [2, 3].
Семантический анализ целого текста – формирование смыслового портрета текста
Слайд 84 Автоматически строится семантическая (ассоциативная) сеть (индекс понятий и
их связей)
Семантический анализ целого текста – формирование смыслового портрета текста
Слайд 85Рассмотрим формирование ассоциативной (однородной семантической) сети на примере технологии TextAnalyst
Семантический
анализ целого текста – формирование смыслового портрета текста
Слайд 86
Семантический анализ целого текста – формирование смыслового портрета текста