Разделы презентаций


Московский авиационный институт  (национальный исследовательский университет)

Содержание

Определения Нормализация словосочетаний - это процесс приведения словосочетания к нормальной форме со строго определенным порядком слов и их грамматической формой. Синтагма - совокупность нескольких слов, объединённых по принципу семантико-грамматической и фонетической сочетаемости.

Слайды и текст этой презентации

Слайд 1Московский авиационный институт  (национальный исследовательский университет) Метод автоматической нормализации словосочетаний на основе

обобщенных синтагм
Студентка: Руснак В.И.

Московский авиационный институт  (национальный исследовательский университет)      Метод автоматической нормализации словосочетаний на основе

Слайд 2Определения
Нормализация словосочетаний - это процесс приведения словосочетания к нормальной форме

со строго определенным порядком слов и их грамматической формой. Синтагма -

совокупность нескольких слов, объединённых по принципу семантико-грамматической и фонетической сочетаемости. Обобщенная синтагма - ?
Определения	Нормализация словосочетаний - это процесс приведения словосочетания к нормальной форме со строго определенным порядком слов и их

Слайд 3Актуальность
В большинстве современных подходов к анализу текстов не используют информацию

о порядке следования слов. Многие из них могут быть усовершенствованы,

в случае, если атомарными элементами анализа станут не слова, а обобщения понятия словосочетание, то есть синтагмы. Имеет большой спектр приложений в NLP. Может быть успешно применено, например:
В задачах выделения именованных сущностей.
В задачах тематического моделирования для построения ядер тем, для последующей регуляризации в методе LDA. И во многих других задачах обработки текстов, требующих большей точности, чем подходы, использующие bag of words. 
Актуальность	В большинстве современных подходов к анализу текстов не используют информацию о порядке следования слов. Многие из них

Слайд 4Постановка задачи
?

Постановка задачи	?

Слайд 5Введение в метод
Задачу автоматической нормализации слов и словосочетаний необходимо разбить

на две подзадачи. Отдельно на подзадачу нормализации слов и на

подзадачу нормализации словосочетаний. Нормализация слов русского языка на различных уровня обобщения достаточно хорошо исследована и решается путем замены грамматических окончаний, а в некоторых случаях и трансформации конечных буквосочетаний основ.
Другое дело – нормализация именных и глагольных словосочетаний. Здесь наряду с задачей морфологического синтеза необходимо также решить задачу анализа структуры текстового словосочетания - установить главные (опорные) и зависимые слова словосочетания и определить синтаксические связи между ними. На основании этой информации может быть принято решение о синтаксической (перестановка слов нормализованного словосочетании) и морфологической (трансформации основ слов и замены грамматических окончаний опорных и зависимых слов. Эти процедуры также разработаны, но реализация требуют больших вычислительных и временных ресурсов.

Введение в метод	Задачу автоматической нормализации слов и словосочетаний необходимо разбить на две подзадачи. Отдельно на подзадачу нормализации

Слайд 6Описание метода
Концепция фразеологического концептуального анализа текстов, разработанная проф. Г. Г.

Белоноговым совместно с его учениками, в рамках которой проводилось данное

исследование, базируется на машинной грамматике, в основу которой положена система флективных классов русских слов. Заложенное в теоретической концепции флективных классов слов русского языка жесткое соответствие между формой представления слов и их грамматической информацией позволило создать на этой основе новые классы – классы слов, имеющие одинаковые наборы грамматических признаков, соответствующие их формам представления в сходных контекстных окружениях.
При разработке этой синтаксической модели текстов авторы исходили из следующей гипотезы: одинаковым последовательностям обобщенных символов классов слов (обобщенным синтагмам) должны соответствовать одинаковые синтаксические структуры. При этом предполагалось, что такая гипотеза верна для любых синтаксических моделей и может быть полезна при решении как глобальных, так и частных задач синтаксического анализа.
Таким образом, синтаксическая модель языка будет выражена совокупностью устойчивых синтаксических конструкций, имеющих частоту встречаемости более трех. При этом корпус текстов, используемый для формирования синтаксической модели языка должен быть значительного размера. Исследования проводились на корпусе текстов размером 1,5 млн предложений. Полученный словарь обобщенных синтагм имеет объем 39865 словарных статей
Описание метода	Концепция фразеологического концептуального анализа текстов, разработанная проф. Г. Г. Белоноговым совместно с его учениками, в рамках

Слайд 7Алгоритм формирования словаря обобщенных синтагм
В процессе исследований был разработан алгоритм,

позволяющий автоматически формировать словарь устойчивых синтаксических конструкций для синтаксической модели

языка. Далее приведем сам алгоритм:
Разделить текст на предложения и выполнить обработку каждого анализируемого предложения процедурой морфологического анализа. Получить для каждого слова символ флективного класса и грамматического окончания.
Провести синтаксический анализ предложения [3], провести назначение грамматической информации и построить дерево зависимости предложения. Рассчитать вероятности правильности получения информации.
Выявить последовательности слов, для которых вероятность правильного установления грамматической информации равна 1.
Сформировать для этих последовательностей индексы обобщенных синтагм.
Сформировать из получившихся последовательностей подпоследовательности размером от трех слов до длины исходной последовательности.
Добавить подпоследовательности индексов обобщенных синтагм, полученные на шаге 5, в словарь устойчивых синтаксических конструкций. Пересчитать значения частот для этих подпоследовательностей.
Исключить из словаря устойчивых синтаксических конструкций синтагмы с частотой менее трех.

Алгоритм формирования словаря обобщенных синтагм	В процессе исследований был разработан алгоритм, позволяющий автоматически формировать словарь устойчивых синтаксических конструкций

Слайд 8Примеры работы алгоритма

Примеры работы алгоритма

Слайд 9Описание алгоритма нормализации
Выполняется обработка анализируемого словосочетания процедурой морфологического словоизменительного анализа.


 
Формируется синтагма на основе полученной на шаге 1 грамматической информации.
Выполняется

поиск главного слова словосочетания в соответствии с правилами языка.
Выполняется приведение главного слова к нормальной форме
В словаре обобщенных синтагм ищется синтагма, в которой главное слово находится в нормальной форме, а остальные слова имеют грамматическую информацию, которую путем словоизменения можно привести к исходной.
Приведение слов словосочетания в соответствие с обобщённой синтагмой при помощи процедур морфологического анализа.
Описание алгоритма нормализацииВыполняется обработка анализируемого словосочетания процедурой морфологического словоизменительного анализа.  Формируется синтагма на основе полученной на шаге

Слайд 10Пример нормализации именных словосочетаний
Исходное предложение: Он основывается на использовании подготовленных

семантико-статистическими методами, устойчивых обобщенных синтагм, которые представляют собой - контактно

расположенные последовательности символов обобщенных классов словоформ, включающие в себя набор грамматических признаков.

Список выявленных именных словосочетаний: семантико-статистическими методами; устойчивых обобщенных синтагм; контактно расположенные последовательности символов обобщенных классов словоформ; набор грамматических признаков


Пример нормализации именных словосочетанийИсходное предложение: Он основывается на использовании подготовленных семантико-статистическими методами, устойчивых обобщенных синтагм, которые представляют

Слайд 11Пример нормализации именных словосочетаний
Нормализуемое словосочетание: контактно расположенные последовательности символов обобщенных

классов словоформ
Сформированная для словосочетания последовательность грамматических признаков



Пример нормализации именных словосочетанийНормализуемое словосочетание: контактно расположенные последовательности символов обобщенных классов словоформ Сформированная для словосочетания последовательность грамматических

Слайд 12Пример нормализации именных словосочетаний
Главное слово: синтагм
Найденная для последовательность грамматических признаков

, где главное слово представлено в нормальной форме грамматических признаков












Сформированное по данной синтагме словосочетание: устойчивая обобщенная синтагма




Пример нормализации именных словосочетанийГлавное слово: синтагмНайденная для последовательность грамматических признаков , где главное слово представлено в нормальной

Слайд 13Заключение
В работе приведена актуальная задача и метод её решения. С

помощью приведения словосочетаний к нормальной форме создан объёмный словарь.

На основе

построенного словаря проводится последующая нормализация словосочетаний с помощью нахождения словосочетаний с такими же признаками, что, в конечном счёте, позволяет автоматизировать процесс.

Заключение	В работе приведена актуальная задача и метод её решения. С помощью приведения словосочетаний к нормальной форме создан

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика