Разделы презентаций


Автоматическая обработка текстов на естественном языке

Содержание

Графемный анализ текстовой информации

Слайды и текст этой презентации

Слайд 1Автоматическая обработка текстов на естественном языке

Автоматическая обработка текстов на естественном языке

Слайд 2Графемный анализ текстовой информации

Графемный анализ текстовой информации

Слайд 3Токенизация = автоматический графемный анализ =
Процедура выделения в тексте слов, чисел,
а

также нахождение границ устойчивых сочетаний и предложений.

Выделяемые текстовые единицы –

токены

англ. tokenization, token

Токенизация = автоматический графемный анализ =Процедура выделения в тексте слов, чисел,а также нахождение границ устойчивых сочетаний и

Слайд 4Задачи токенизации
Разделение входного текста на элементы (слова, разделители и т.д.);
удаление

нетекстовых элементов;
выделение и оформление нестандартных (нелексических) элементов, например:
элементов

форматирования;
структурных элементов текста;
различных элементов текста, не являющихся словами;
имен (имя, отчество), написанных инициалами;
иностранных лексем, записанных латиницей и т.д.

Задачи токенизацииРазделение входного текста на элементы (слова, разделители и т.д.);удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических)

Слайд 5Сложности токенизации

обработка дефиса и пробела;
выделение составных предлогов, устойчивых оборотов,

аналитических форм и др.;
иноязычные фрагменты;
нетекстовые элементы.

Сложности токенизацииобработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты;нетекстовые элементы.

Слайд 6Токенизация
Межсловный дефис:
объединительная функция (буква)?
кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф
или


разделительная функция (знак препинания)?
старик-художник, словарь‑справочник, девочка-пионерка
Пробел:
объединительная функция (буква)?
сто двадцать

пять
или
разделительная функция?
русский язык

ТокенизацияМежсловный дефис:объединительная функция (буква)? 	кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншефили разделительная функция (знак препинания)?	старик-художник, словарь‑справочник, девочка-пионеркаПробел:объединительная функция

Слайд 7Примерный перечень элементов текста, требующих специальной обработки

Примерный перечень элементов текста, требующих специальной обработки

Слайд 8Морфологический анализ текстовой информации

Морфологический анализ текстовой информации

Слайд 9Морфологический анализ –
преобразование текста, при котором каждая словоформа текста представлена

в виде пары , где
Лемма –

это основная форма слова,
Морфологическая характеристика указывает часть речи, падеж, род, число и т.д. соответствующей словоформы.
Морфологический анализ –преобразование текста, при котором каждая словоформа текста представлена в виде пары , где Лемма –

Слайд 10В корпусной лингвистике процедуру морфологического анализа и разметки текста называют

тегированием, а результат – морфологически размеченным или аннотированным корпусом.

В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием, а результат – морфологически размеченным или

Слайд 11Лемматизация, т.е. сведение различных словоформ к исходной форме, или лемме
Стемминг

– приведение разных словоформ к одной основе
Частеречный тэгинг (pos-tagging), т.е.

указание части речи для каждой словоформы в тексте
Полный морфологический анализ - приписывание грамматических характеристик (граммем) словоформе

Морфологический анализ: процедуры

Лемматизация, т.е. сведение различных словоформ к исходной форме, или леммеСтемминг – приведение разных словоформ к одной основеЧастеречный

Слайд 12Морфологический анализ: этапы (1)
Последовательное отделение от конца словоформы возможных афиксов;

оставшиеся части объявляются гипотетическими основами
Поиск полученной основы на совпадение;
или
Каждая единица

сравнивается со словарем основ, а оставшаяся правая часть объявляется гипотетическим окончанием

Чередования внутри основы могут учитываться по-разному: включением в словарь нескольких видов основы (бег-/беж-) или заданием отдельной таблицы чередований
Морфологический анализ: этапы (1)Последовательное отделение от конца словоформы возможных афиксов; оставшиеся части объявляются гипотетическими основамиПоиск полученной основы

Слайд 13Морфологический анализ: этапы (2)
Определение совместимости информации об аффиксах и основах
Разбор

считается завершенным успешно, если всё слово было разобрано на морфемы

и не осталось не разобранных букв.
Программа накапливает все возможные варианты разбора
Морфологический анализ: этапы (2)Определение совместимости информации об аффиксах и основах	Разбор считается завершенным успешно, если всё слово было

Слайд 14Каждой морфеме присваивается некоторый вес. Вариант разбора, набравший наибольший вес,

считается оптимальным.
После разбора программа формирует файл отчета, в который

заносятся все слова с вариантами их разбора.
Также производится подсчет статистики по введенному тексту.

Морфологический анализ: этапы (3)

Каждой морфеме присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным. После разбора программа формирует файл

Слайд 15Система весов морфем
Междометия имеют более высокий вес, нежели существительные, это

делается во избежание разбора междометия как существительного.
Вес варианта разбора

может уменьшиться в случае, если в нем встречается много корней (т.к. удельный вес многокоренных слов в рус. яз. ниже, чем однокоренных).
Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность:
чтобы система дальше не
стала выделять приставку до,
корни сто, меч)
Система весов морфемМеждометия имеют более высокий вес, нежели существительные, это делается во избежание разбора междометия как существительного.

Слайд 16Два подхода к морф. анализу текста:
словарный, при котором задаѐтся

словарь словоформ или словарь основ и окончаний. Такие системы, как

правило, базируются на Грамматическом словаре А.А. Зализняка;
бессловарный, при котором задаѐтся список возможных окончаний (или псевдоокончаний) с приписанной им информацией о возможных грамматических значениях, а также используются вероятностно-статистические методы.
Два подхода к морф. анализу текста: словарный, при котором задаѐтся словарь словоформ или словарь основ и окончаний.

Слайд 17Словарный подход к морфологическому анализу
Наиболее лингвистический метод
Дает максимально полный анализ

словоформы
Этот подход реализован, например, в системах машинного перевода ЭТАП (разрабатывавшиеся

под руководством Ю.Д. Апресяна и основанные на модели «СМЫСЛ ↔ ТЕКСТ»), ПРОМТ.
Словарный подход к морфологическому анализуНаиболее лингвистический методДает максимально полный анализ словоформыЭтот подход реализован, например, в системах машинного

Слайд 18Словарный подход к морфологическому анализу: минусы
Проблема большого объема словаря, который

создается вручную
Проблема анализа новых слов (для данной системы, то

есть относительно используемого словаря) Не существует абсолютно полных словарей – лексика языка непрерывно пополняется
Невозможно включить в словарь всю существующую терминологию, имена, фамилии и т.д.
Словарный подход к морфологическому анализу: минусыПроблема большого объема словаря, который создается вручную Проблема анализа новых слов (для

Слайд 19Бессловарный подход к морфологическому анализу: аналогия
Типичный способ решения этой проблемы

состоит в выдвижении гипотез о грамматических характеристиках нового слова на

основе аналогии.
Бессловарный подход к морфологическому анализу: аналогияТипичный способ решения этой проблемы состоит в выдвижении гипотез о грамматических характеристиках

Слайд 21+ Более экономичный, т.к. не нужен словарь основ или словоформ
+

Позволяет одинаковым способом обрабатывать все слова как «новые», не найденные

в словаре.
Для этого задаются списки грамматических морфем языка: флексий, предлогов, союзов, частиц

Бессловарный подход к морфологическому анализу: плюсы

+ Более экономичный, т.к. не нужен словарь основ или словоформ+ Позволяет одинаковым способом обрабатывать все слова как

Слайд 22Не имеет выхода к семантическому анализу, для которого нужно знать

леммы.
Все слова трактуются как новые для анализатора большее количество ошибочных

решений
Для снижения их численности используются элементы синтаксического анализа (учитываются возможные списки сочетаний грамматических морфем)
Например, На –ом –е соответствует определенному типу синтаксических структур, в частности, словосочетанию На золотом крыльце).

Бессловарный подход к морфологическому анализу: минусы

Не имеет выхода к семантическому анализу, для которого нужно знать леммы.Все слова трактуются как новые для анализатора

Слайд 23На завод привезли стекло.
Масло стекло на пол.
Данные эксперименты являются ошибочными.
Последние

данные являются ошибочными.
Эти типы стали есть в цехе
Омонимия как основная

проблема морфлогического анализа
На завод привезли стекло.Масло стекло на пол.Данные эксперименты являются ошибочными.Последние данные являются ошибочными.Эти типы стали есть в

Слайд 24Проблема морфологической омонимии
Использование скрытой Марковской модели:
Для каждого слова, входящего в

предложение выбирается грамматический класс так, чтобы максимизировать вероятность
P(word|tag) * P(tag|previous

n tags)

P(word|tag) - условная вероятность (вычисленная по вручную
размеченному корпусу) появления в данном месте слова word, при условии, что это слово имеет данный грамматический класс tag

P(tag|previous n tags) - условная вероятность (также вычисленная по корпусу), появления данного тэга tag, при условии, что
предыдущие n тэгов уже определены.

Точность алгоритма для английского языка – 96%.
Проблема морфологической омонимииИспользование скрытой Марковской модели:	Для каждого слова, входящего в предложение выбирается грамматический класс так, чтобы максимизировать

Слайд 25Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций

соседних слов (Ю.Г. Зеленков, И.В. Сегалович)
Целью алгоритма является получение леммы,

то есть выбор между несколькими правилами преобразования словоформы в возможные леммы
Используется небольшой, тщательного отобранный и размеченный вручную корпус как источник построения словаря контекстов омонимов
Элементы контекста влияют на выбор омонима сильнее или слабее в зависимости от расположения относительно омонима
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович)Целью алгоритма

Слайд 26Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций

соседних слов (Ю.Г. Зеленков, И.В. Сегалович)
Сначала для каждого омонима исходного

текста и его ближайших соседей строятся их нормализующие подстановки
Для каждой пары <омоним, элемент контекста> из словаря контекстов выбирается лемма и вероятность ее порождения данным элементом контекста
Для каждой леммы вычисляется сумма вероятностей, умноженная на значение коэффициента «силы» элемента контекста
Значением омонима в данном контексте считается лемма с наибольшей взвешенной суммой вероятностей
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович)Сначала для

Слайд 27Алгоритмы для улучшения морф. анализа
вероятностно-статистические
основанные на продукционных правилах, оперирующих

словами и кодами.

Алгоритмы для улучшения морф. анализавероятностно-статистические основанные на продукционных правилах, оперирующих словами и кодами.

Слайд 28Большинство вероятностно-статистических алгоритмов исп. два источника информации:
Словарь словоформ языка, в

котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься

у данной словоформы.
well   noun                  4         occurences in corpus well   adverb               1567     occurences in corpus well   adjective            6          occurences in corpus well   interjection         1          occurences in corpus

Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.
Большинство вероятностно-статистических алгоритмов исп. два источника информации:Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов,

Слайд 29Модели встречаемости возможных последовательностей лексико-грам. классов
биграмная,
триграмная
квадриграмная.

В биграмной

модели используется информация о всех возможных последовательностях из 2-х словоформ:
неопр.артикль

+ сущ.ед.ч 35983 occurences in corpus опр.артикль + сущ.ед.ч 13838 occurences in corpus неопр.артикль + глагол 3 л., ед.ч 0 occurences in corpus глагол 3 л., ед.ч + предлог 3744 occurences in corpus
В триграмной модели модели используется соответственно информация о всех возможных последовательностях из 3-х словоформ.
Модели встречаемости возможных последовательностей лексико-грам. классовбиграмная, триграмная квадриграмная. В биграмной модели используется информация о всех возможных последовательностях

Слайд 30Алгоритмы, основанные на продукционных правилах
Используют правила собранные автоматически с корпуса

текстов, либо подготовленные квалифицированными лингвистами, например:

Если словоформа может быть как

глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Алгоритмы, основанные на продукционных правилахИспользуют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами, например:Если словоформа

Слайд 31Вероятностно-статистических алгоритмы
Информация о словоформах языка и о встречаемости всех возможных

последовательностей лексико-грамматических классов обрабатывается программой, использующей статистические алгоритмы.
Для нахождения

наиболее вероятного лексико-грамматического класса для каждого слова в предложении чаще всего исп. алгоритм скрытых цепей Маркова.
Вероятностно-статистических алгоритмыИнформация о словоформах языка и о встречаемости всех возможных последовательностей лексико-грамматических классов обрабатывается программой, использующей статистические

Слайд 32Результативность
Оба подхода дают примерно одинаковый результат.
При их использовании раздельно либо

в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %.


Точность лексико-грамматического анализа английского языка в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.
РезультативностьОба подхода дают примерно одинаковый результат.При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается

Слайд 33Стемминг и лемматизация

Стемминг и лемматизация

Слайд 34Лемматизация
Специфическая задача морфологического анализа – это лемматизация, т.е. процесс образования

первоначальной формы слова, исходя из других его словоформ.
Во многих

языках слово может встречаться в нескольких формах с различными флексиями.
Формы англ. 'walk‘: 'walk', 'walked', 'walks', 'walking'.

Базовая форма, 'walk', зафиксированная в словаре, называется леммой слова.
Лемматизация представляет собой процесс группировки различных флективных форм одного слова таким образом, чтобы при анализе они обрабатывались как одно слово.
ЛемматизацияСпецифическая задача морфологического анализа – это лемматизация, т.е. процесс образования первоначальной формы слова, исходя из других его

Слайд 35Лемматизация
позволяет исследователю выделять и изучать все варианты отдельной лексемы без

необходимости введения всех возможных вариантов
All women were walking in

the streets
"<*all>"         "all" <*> DET PRE SG/PL
""         "woman" N NOM PL
""         "be" V PAST VFIN
""         "walk" PCP1
""         "in" PREP
""         "the" DET CENTRAL ART SG/PL
""         "street" N NOM PL
"<$.>"
Лемматизацияпозволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов All women

Слайд 36состоит в нахождении стема (основы) слова.
Стемминг - отсечение от

слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была

одинаковой для всех грамматических форм слова.
Разница между стеммингом и лемматизацией заключается в том, что стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи.
Тем не менее, стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.

Стемминг

состоит в нахождении стема (основы) слова. Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть,

Слайд 37Стемминг применим к языкам, которые реализуют словоизменение через афиксы


Применим к

русскому языку, английскому языку и т.д.

Стемы предложения «The quick brown

fox jumped over the lazy dogs»:
[quick] [brown] [fox] [jump] [over] [lazy] [dog].
Стемминг применим к языкам, которые реализуют словоизменение через афиксыПрименим к русскому языку, английскому языку и т.д.Стемы предложения

Слайд 38Стеммером пользуются для поиска текстов с имитацией учета морфологии.
(подразумевается неустранимо

большое количество ошибок и нерелевантных результатов, которые возникают, если применять

только стеммер )


Для русского языка используется два дополнительные модуля грамматического словаря:
Лемматизатор (словарь склонения)
Флексер (словарь спряжения)

Стеммером пользуются для поиска текстов с имитацией учета морфологии.(подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые

Слайд 39
Принцип работы стемминга применяется в поисковых машинах, позволяя производить

поиск с учетом морфологии слова.
При вводе ключевого слова, поисковик

учитывает все словоформы этого слова и отражает это в поисковой выдаче.

Принцип работы стемминга применяется в поисковых машинах, позволяя производить поиск с учетом морфологии слова. При вводе

Слайд 40Допускаемые при стемминге ошибки:
Ошибки 1го рода:
Стеммер дает слишком большое обощение


и поэтому сопоставляет исх. слово с
грамматическими формами более чем


одной словарной статьи.

Компенсация ошибок первого рода
выполняется либо введением списка стоп-
слов, либо более качественно
лемматизатором или флексером.
Допускаемые при стемминге ошибки:Ошибки 1го рода:Стеммер дает слишком большое обощение и поэтому сопоставляет исх. слово с грамматическими

Слайд 41Ошибки стемминга 2го рода - усечение формы дает слишком длинный

стеммер, который не сопоставляется с некоторыми грамматическими формами этого же

слова. Чаще всего такое происходит, когда меняется основа слова. Сюда же входят неправельные глаголы.
Ошибки стемминга 3го рода - стеммер построить невозможно из-за изменения букв в корне слова.
Ошибки стемминга 2го рода - усечение формы дает слишком длинный стеммер, который не сопоставляется с некоторыми грамматическими

Слайд 42 Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная

версия стеммера была предназначена для английского языка.
Мартин создал проект «Snowball»

и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского.

Стеммер Портера 

Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка.Мартин

Слайд 43Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются

окончания в расчете на то, что в большинстве случаев это

себя оправдает. Стемминг часто подразумевает удаление производных аффиксов.
Лемматизация— это точный процесс с использованием лексикона и морфологического анализа слов, в результате которого возвращается словарная форма слова.
Например, лексема saw в ходе стемминга может превратиться в букву s, в то время как лемматизация вернет либо слово see, либо слово saw в зависимости от того, является ли лексема глаголом или именем существительным.
Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика