Разделы презентаций


Новые информационные технологии

Содержание

Лекция № 25. Основные классы естественно-языковых систем.Системы обработки связных текстов

Слайды и текст этой презентации

Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.

М. Тореза

Новые информационные технологииХарламов Александр Александрович © 2012 МГЛУИн. яз. им. М. Тореза

Слайд 2Лекция № 25. Основные классы естественно-языковых систем.
Системы обработки связных текстов

Лекция № 25. Основные классы естественно-языковых систем.Системы обработки связных текстов

Слайд 3Основные классы систем общения с ЭВМ, включающие в свой состав

ЕЯ-системы - Системы обработки связных текстов, в том числе: - Системы

реферирования ЕЯ информации - Системы сравнения (классификации) ЕЯ информации - Системы кластеризаци ЕЯ информации

21

Основные классы систем общения с ЭВМ, включающие в свой состав ЕЯ-системы   - Системы обработки связных

Слайд 411
Системы реферирования текстов
Реферирование это извлечение наиболее важных или характерных фрагментов

из одного или многих источников информации
Новости, биржевые котировки, анонсы фильмов

– все это рефераты
11Системы реферирования текстовРеферирование это извлечение наиболее важных или характерных фрагментов из одного или многих источников информацииНовости, биржевые

Слайд 511
Системы реферирования текстов
Требования к реферированию:
Объем аннотации, или реферата должен

составлять от 5 до 30% исходного текста
Необходима гарантия того,

что аннотация действительно является адекватной заменой текста
11Системы реферирования текстовТребования к реферированию: Объем аннотации, или реферата должен составлять от 5 до 30% исходного текста

Слайд 611
Системы реферирования текстов
Рефераты различаются по функции и целевым группам пользователей


- Реферат может быть повествовательным, информативным или критическим
- Реферат

может быть общим или ориентированным на специфического пользователя
11Системы реферирования текстовРефераты различаются по функции и целевым группам пользователей - Реферат может быть повествовательным, информативным или

Слайд 711
Системы реферирования текстов
По функциям
- Повествовательный реферат предоставляет достаточный объем информации,

чтобы создать представление об источниках
Информативный реферат содержит основную или

новую фактическую информацию
Критический реферат (обзор) сообщает суть информации и предлагает мнение о ней
11Системы реферирования текстовПо функциям- Повествовательный реферат предоставляет достаточный объем информации, чтобы создать представление об источниках Информативный реферат

Слайд 811
Системы реферирования текстов
Процесс реферирования распадается на три этапа:
анализ исходного текста
определение

его характерных фрагментов и
формирование соответствующего вывода

11Системы реферирования текстовПроцесс реферирования распадается на три этапа:анализ исходного текстаопределение его характерных фрагментов иформирование соответствующего вывода

Слайд 911
Системы реферирования текстов
Подходы к реферированию делятся на две категории: без

опоры на знания и с опорой на знания
Иначе - статистические

и синтаксические (на основе понимания языка)
Еще по другому: метод составления выдержек, и формирование краткого изложения
11Системы реферирования текстовПодходы к реферированию делятся на две категории: без опоры на знания и с опорой на

Слайд 1011
Системы реферирования текстов
Такие инструменты, как AutoSummarize в Microsoft Office, IBM

Intelligent Text Miner, Oracle Context и Inxight Summarizer осуществляют выделение

фрагментов из исходного документа и соединение их в короткий текст
Краткое же изложение текста предполагает передачу основной мысли текста, и не обязательно теми же словами
11Системы реферирования текстовТакие инструменты, как AutoSummarize в Microsoft Office, IBM Intelligent Text Miner, Oracle Context и Inxight

Слайд 1111
Системы реферирования текстов
Метод составления выдержек
Метод составления выдержек акцентирует на характерных

фрагментах (как правило, предложениях)
Выделяются блоки наибольшей лексической и статистической релевантности


Итоговый документ — просто соединение выбранных фрагментов
11Системы реферирования текстовМетод составления выдержекМетод составления выдержек акцентирует на характерных фрагментах (как правило, предложениях)Выделяются блоки наибольшей лексической

Слайд 1211
Системы реферирования текстов
Основу аналитического этапа составляет процедура назначения весовых коэффициентов

для блоков текста в соответствии с расположением в оригинале, частотой

появления, частотой использования в ключевых предложениях
11Системы реферирования текстовОснову аналитического этапа составляет процедура назначения весовых коэффициентов для блоков текста в соответствии с расположением

Слайд 1311
Системы реферирования текстов
Сумма весов, определенная после дополнительной модификации в соответствии

со специальными параметрами настройки, дает общий вес всего блока текста


11Системы реферирования текстовСумма весов, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, дает общий вес

Слайд 1411
Системы обработки связных текстов
Подход на основе понимания естественного языка
Системы подготовки

краткого изложения информации моделируют процесс понимания законченных описаний определенных фрагментов

действительности
Понимание текста трактуется как извлечение из него всей существенной с точки зрения системы информации
11Системы обработки связных текстовПодход на основе понимания естественного языкаСистемы подготовки краткого изложения информации моделируют процесс понимания законченных

Слайд 1511
Системы реферирования текстов
Метод формирования краткого изложения опирается на понимание естественного

языка
Синтаксический разбор входит составной частью в этот метод анализа

11Системы реферирования текстовМетод формирования краткого изложения опирается на понимание естественного языкаСинтаксический разбор входит составной частью в этот

Слайд 1611
Системы реферирования текстов
Формируется концептуальная репрезентативная структура исходного текста
В качестве такой

структуры могут быть использованы формулы логики предикатов, семантическая сеть или

набор фреймов
11Системы реферирования текстовФормируется концептуальная репрезентативная структура исходного текстаВ качестве такой структуры могут быть использованы формулы логики предикатов,

Слайд 1711
Системы реферирования текстов
Избыточная информация устраняется путем удаления поверхностных суждений (отсечения

концептуальных подграфов)
Затем информация подвергается дальнейшему агрегированию путем слияния графов (или

шаблонов) или обобщения информации
11Системы реферирования текстовИзбыточная информация устраняется путем удаления поверхностных суждений (отсечения концептуальных подграфов)Затем информация подвергается дальнейшему агрегированию путем

Слайд 1811
Системы реферирования текстов
В результате преобразования формируется концептуальная репрезентативная структура реферата,

то есть концептуальная «выжимка» текста
Затем на основе шаблонов предложений,

соответствующих элементам репрезентативной структуры, синтезируется связный текст реферата
11Системы реферирования текстовВ результате преобразования формируется концептуальная репрезентативная структура реферата, то есть концептуальная «выжимка» текста Затем на

Слайд 1911
Системы реферирования текстов
Выдержки vs изложение
Методы извлечения выдержек легко настроить

для обработки крупных массивов информации. Текст реферата лишен связности
Метод формирования

кратких изложений выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст
11Системы реферирования текстовВыдержки vs изложение Методы извлечения выдержек легко настроить для обработки крупных массивов информации. Текст реферата

Слайд 2011
Системы реферирования текстов
В отличие от метода подбора выдержек, для подготовки

краткого изложения информации требуются мощные вычислительные ресурсы для систем обработки

естественного языка, в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций
11Системы реферирования текстовВ отличие от метода подбора выдержек, для подготовки краткого изложения информации требуются мощные вычислительные ресурсы

Слайд 2111
Формирование концептуальной репрезентативной структуры текстов
Концептуальная репрезентативная структура текста представляет

собой, например, семантическую сеть - сеть взвешенных смысловыми весами ключевых

понятий текста
Взвешивание позволяет выявить предложения текста, несущие важный смысл
11Формирование концептуальной репрезентативной структуры текстов Концептуальная репрезентативная структура текста представляет собой, например, семантическую сеть - сеть взвешенных

Слайд 2211
Формирование концептуальной репрезентативной структуры текстов
Локальная смысловая структура предложения представлена

ключевыми понятиями связанными некоторыми отношениями
Например, такая смысловая структура может быть

представлена предикатной структурой предложения
11Формирование концептуальной репрезентативной структуры текстов Локальная смысловая структура предложения представлена ключевыми понятиями связанными некоторыми отношениямиНапример, такая смысловая

Слайд 2311
Формирование концептуальной репрезентативной структуры текстов
Предикат (лат. praedicatum – заявленное,

упомянутое, сказанное) – термин логики и языкознания, обозначающий то, что

высказывается (утверждается или отрицается) о субъекте
Предикат – не всякая информация о субъекте, но указание на признак субъекта, его состояние и отношение к другим объектам
11Формирование концептуальной репрезентативной структуры текстов Предикат (лат. praedicatum – заявленное, упомянутое, сказанное) – термин логики и языкознания,

Слайд 2411
Формирование концептуальной репрезентативной структуры текстов
Структура предиката: Subj – субъект,

Obji – актанты предиката, Ri – отношения предиката, R0 –

отношение «быть субъектом»
11Формирование концептуальной репрезентативной структуры текстов Структура предиката: Subj – субъект, Obji – актанты предиката, Ri – отношения

Слайд 2511
Формирование концептуальной репрезентативной структуры текстов

Ядро предиката (предикатор), в общем

случае, - это глагольная конструкция, которая может иметь дополнительно атрибутивные

компоненты
Актанты могут быть представлены или в виде отдельных объектов, или в форме конкретных характеристик предикатора, представленных наречиями
11Формирование концептуальной репрезентативной структуры текстов Ядро предиката (предикатор), в общем случае, - это глагольная конструкция, которая может

Слайд 2611
Формирование концептуальной репрезентативной структуры текстов
Локальные смысловые структуры предложений наивысшего

ранга выстраиваются в цепочку подобных структур по длине текста и

формирует репрезентативную структуру текста
11Формирование концептуальной репрезентативной структуры текстов Локальные смысловые структуры предложений наивысшего ранга выстраиваются в цепочку подобных структур по

Слайд 2711
Системы реферирования текстов
Методы оценки
Целью методов оценки рефератов является определение

адекватности (и достоверности) или пользы реферата по отношению к оригинальному

тексту
Сейчас известны две методики оценки: оценка «изнутри», и оценка «извне»

11Системы реферирования текстовМетоды оценки Целью методов оценки рефератов является определение адекватности (и достоверности) или пользы реферата по

Слайд 2811
Системы реферирования текстов
При оценке «изнутри» оценивается насколько хорошо реферат отражает

основные идеи текста, оценивается гладкость текста
Во втором методе оценивается качество

реферата по тому, как он позволяет ответить на вопросы, относящиеся ко всему содержанию текста

11Системы реферирования текстовПри оценке «изнутри» оценивается насколько хорошо реферат отражает основные идеи текста, оценивается гладкость текстаВо втором

Слайд 2911
Системы реферирования текстов

11Системы реферирования текстов

Слайд 3011
Системы классификации
и кластеризации текстов
Под классификацией текста понимается отнесение текста

к одной из рубрик классификатора
Под кластеризацией корпуса текстов понимается разбиение

его на тематические рубрики
11Системы классификации и кластеризации текстовПод классификацией текста понимается отнесение текста к одной из рубрик классификатораПод кластеризацией корпуса

Слайд 3111
Системы классификации
и кластеризации текстов
Классификация текста строится на основе механизма

сравнения текстов
Кластеризация – на разбиении семантической сети корпуса текстов на

подсети
11Системы классификации и кластеризации текстовКлассификация текста строится на основе механизма сравнения текстовКластеризация – на разбиении семантической сети

Слайд 3211
Системы классификации
и кластеризации текстов
Используются различные способы представления текстов:
список

ключевых слов, содержащихся в тексте
список ключевых слов, объединенный в сеть


11Системы классификации и кластеризации текстовИспользуются различные способы представления текстов: список ключевых слов, содержащихся в текстесписок ключевых слов,

Слайд 3311
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов проходит в несколько

этапов:
Первичная обработка текста
Индексирование текста (выявление ключевых понятий)
Взвешивание ключевых понятий
Вычисление степени

пересечения индексов
11Системы классификации и кластеризации текстовКлассификация (сравнение) текстов проходит в несколько этапов:Первичная обработка текстаИндексирование текста (выявление ключевых понятий)Взвешивание

Слайд 3411
Системы классификации
и кластеризации текстов
До того, как начать обработку текста,

его необходимо подготовить к виду, удобному для обработки

11Системы классификации и кластеризации текстовДо того, как начать обработку текста, его необходимо подготовить к виду, удобному для

Слайд 3511
Системы классификации
и кластеризации текстов
Первичная обработка текста
Текст на основе графематического

анализа сегментируется на слова и предложения
Удаляются общеупотребимые и
рабочие слова
Проводится

морфологический анализ оставшихся слов
11Системы классификации и кластеризации текстовПервичная обработка текстаТекст на основе графематического анализа сегментируется на слова и предложенияУдаляются общеупотребимые

Слайд 3611
Системы классификации
и кластеризации текстов
Первичная обработка текста
Общеупотребимые и рабочие слова

удаляются с использованием заранее сформированных словарей

11Системы классификации и кластеризации текстовПервичная обработка текстаОбщеупотребимые и рабочие слова удаляются с использованием заранее сформированных словарей

Слайд 3711
Системы классификации
и кластеризации текстов
Первичная обработка текста
От слов отсекаются окончания

и слова заменяются их корневыми основами, которые могут содержать помимо

корня еще и суффикс (суффиксы)
11Системы классификации и кластеризации текстовПервичная обработка текстаОт слов отсекаются окончания и слова заменяются их корневыми основами, которые

Слайд 3811
Системы классификации
и кластеризации текстов
Индексирование текста
Индексные понятия извлекаются из текста
Индекс

корректируется экспертом

11Системы классификации и кластеризации текстовИндексирование текстаИндексные понятия извлекаются из текстаИндекс корректируется экспертом

Слайд 3911
Системы классификации
и кластеризации текстов
Индексирование текста
Два фактора определяют эффективность использования

языка индексов: полнота и специфичность языка индексов
Полнота это количество

понятий, извлекаемых из текста (полнота описания содержания)
Специфичность – способность точно описать текст (разделять тексты)
11Системы классификации и кластеризации текстовИндексирование текстаДва фактора определяют эффективность использования языка индексов: полнота и специфичность языка индексов

Слайд 4011
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов

Простые способы статистической

обработки текстов базируются на частоте встречаемости слов в тексте

11Системы классификации и кластеризации текстовВзвешивание слов словаря индексовПростые способы статистической обработки текстов базируются на частоте встречаемости слов

Слайд 4111
Системы классификации
и кластеризации текстов
Закон Ципфа

Пусть f – частота встречаемости

слова в тексте, а r – ранг этого слова (степень

важности слова в тексте). Тогда кривая, связывающая ранг слова с частотой его встречаемости имеет вид гиперболы, что означает, что произведение частоты встречаемости на его ранг есть константа
Чем реже встречается слово, тем оно важнее
11Системы классификации и кластеризации текстовЗакон ЦипфаПусть f – частота встречаемости слова в тексте, а r – ранг

Слайд 4211
Системы классификации
и кластеризации текстов
Закон Ципфа

11Системы классификации и кластеризации текстовЗакон Ципфа

Слайд 4311
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Наиболее простой способ

взвешивания – выявление на частотной гиперболе слов в соответствие с

мысленной гауссианой: центр гауссианы приходится на наиболее весомые слова текста
11Системы классификации и кластеризации текстовВзвешивание слов словаря индексовНаиболее простой способ взвешивания – выявление на частотной гиперболе слов

Слайд 4411
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Другой способ взвешивания

связан с частотным распределением слов в коллекции документов: чем в

меньшем числе текстов встречается понятие, тем оно более специфично
11Системы классификации и кластеризации текстовВзвешивание слов словаря индексовДругой способ взвешивания связан с частотным распределением слов в коллекции

Слайд 4511
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Еще один способ

взвешивания – перенормировка в соответствие со структурой текста
Чем с большим

числом понятий связано слово в данном тексте, тем имеет больший вес
11Системы классификации и кластеризации текстовВзвешивание слов словаря индексовЕще один способ взвешивания – перенормировка в соответствие со структурой

Слайд 4611
Системы классификации
и кластеризации текстов
Сравнение текстов
Под сравнением двух текстов мы

будем понимать степень пересечения некоторых признаков текстов
Такими признаками могут быть

индекс текста, или семантическая сеть
11Системы классификации и кластеризации текстовСравнение текстовПод сравнением двух текстов мы будем понимать степень пересечения некоторых признаков текстовТакими

Слайд 47Перечень понятий vs сеть
European
citizenship
European unite
globalization
human right
citizens
ethnographic
cultural citizenship
research
nationality
global
social
European unite
entitlements
particularization
European citizenship

European
citizenship
European unite
globalization
human

right
citizens

Перечень понятий vs сетьEuropeancitizenshipEuropean uniteglobalizationhuman rightcitizensethnographiccultural citizenshipresearchnationalityglobalsocialEuropean uniteentitlementsparticularizationEuropean citizenshipEuropeancitizenshipEuropean uniteglobalizationhuman rightcitizens

Слайд 4811
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов
Под классификацией текстов мы

будем понимать отнесение текста к одной или нескольким рубрикам классификатора

путем сравнения этого текста и текстов рубрик
11Системы классификации и кластеризации текстовКлассификация (сравнение) текстовПод классификацией текстов мы будем понимать отнесение текста к одной или

Слайд 4911
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов
Большинство известных методов классификации

основаны на предположении, что тексты относятся к тематической рубрике по

отличительным признакам (словам или словосочетаниям – индексу текста)
11Системы классификации и кластеризации текстовКлассификация (сравнение) текстовБольшинство известных методов классификации основаны на предположении, что тексты относятся к

Слайд 5011
Системы классификации
и кластеризации текстов
Классификация на основе сравнения перечней индексов
Простая

классификация осуществляется определением степени пересечения индекса анализируемого текста и индексов

рубрик
В этом случае мера сравнения есть просто пересечение
11Системы классификации и кластеризации текстовКлассификация на основе сравнения перечней индексовПростая классификация осуществляется определением степени пересечения индекса анализируемого

Слайд 5111
Системы классификации
и кластеризации текстов
Кластеризация текстов
Под кластеризацией текстов понимается разбиение

множества текстов (корпуса текстов) на подмножества, которые группируются вокруг определенных

тем
Эти темы могут быть заданы заранее, а могут быть выявлены после того, как произведена группировка текстов
11Системы классификации и кластеризации текстовКластеризация текстовПод кластеризацией текстов понимается разбиение множества текстов (корпуса текстов) на подмножества, которые

Слайд 5211
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации заключается в разбиении

обучающей выборки на подмножества, называемые кластерами, так, чтобы каждый кластер

состоял из объектов, близких по некоторой метрике, а объекты разных кластеров отстояли друг от друга на значительном расстоянии
11Системы классификации и кластеризации текстовКластеризация текстовПроцедура кластеризации заключается в разбиении обучающей выборки на подмножества, называемые кластерами, так,

Слайд 5311
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации должна обладать свойством

интерпретируемости найденных кластеров в терминах общности содержания относящихся к одному

кластеру документов
11Системы классификации и кластеризации текстовКластеризация текстовПроцедура кластеризации должна обладать свойством интерпретируемости найденных кластеров в терминах общности содержания

Слайд 5411
Системы классификации и кластеризации текстов

11Системы классификации и кластеризации текстов

Слайд 55
Программная система
для анализа текстовой информации
TextAnalyst
Формирование семантической сети

Программная система для анализа текстовой информацииTextAnalystФормирование семантической сети

Слайд 56
Программная система
для анализа текстовой информации
TextAnalyst
Тематическая структура текста

Программная система для анализа текстовой информацииTextAnalystТематическая структура текста

Слайд 57
Программная система
для анализа текстовой информации
TextAnalyst
Формирование реферата

Программная система для анализа текстовой информацииTextAnalystФормирование реферата

Слайд 58
Программная система
для анализа текстовой информации
TextAnalyst
Разбиение сети на подсети

– подтемы

Программная система для анализа текстовой информацииTextAnalystРазбиение сети на подсети – подтемы

Слайд 59
Программная система
для анализа текстовой информации
TextAnalyst
Функциональность
Формирование семантической сети

– выявление ключевых понятий с их связями
Формирование тематической структуры текста


Формирование гипертекстового представления
Программная система для анализа текстовой информацииTextAnalystФункциональность Формирование семантической сети – выявление ключевых понятий с их связямиФормирование

Слайд 60
Программная система
для анализа текстовой информации
TextAnalyst
Функциональность
Ассоциативная навигация по

тексту
Формирование реферата, тематического реферата
Кластеризация текстов
Сравнение (классификация) текстов

Программная система для анализа текстовой информацииTextAnalystФункциональность Ассоциативная навигация по текстуФормирование реферата, тематического рефератаКластеризация текстовСравнение (классификация) текстов

Слайд 61
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации

Первичная

обработка

Удаление нетекстовой информации
Сегментация на осмысленные фрагменты (предложения)
Удаление стоп-слов, рабочих

и общеупотребимых слов
Морфологическая обработка
Программная система для анализа текстовой информацииTextAnalystЭтапы обработки текстовой информацииПервичная обработкаУдаление нетекстовой информацииСегментация на осмысленные фрагменты (предложения)

Слайд 62
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Формирование

частотного портрета текста
Вычисление частоты встречаемости корневых основ в тексте
Вычисление частоты

попарной встречаемости корневых основ в тексте
Формирование первичной ассоциативной сети
Выявление устойчивых словосочетений
Программная система для анализа текстовой информацииTextAnalystЭтапы обработки текстовой информацииФормирование частотного портрета текстаВычисление частоты встречаемости корневых основ

Слайд 63
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Перенормировка

Перевычисление

весовых характеристик понятий

Программная система для анализа текстовой информацииTextAnalystЭтапы обработки текстовой информацииПеренормировкаПеревычисление весовых характеристик понятий

Слайд 64Формирование семантической сети

Формирование семантической сети

Слайд 65Сравнение сетей (вычисление степени пересечения сетей)

Сравнение сетей (вычисление степени пересечения сетей)

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика