Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 25. Основные классы естественно-языковых систем.
Системы обработки связных текстов
Слайд 3Основные классы систем общения с ЭВМ, включающие в свой состав
ЕЯ-системы
- Системы обработки связных текстов, в том числе:
- Системы
реферирования ЕЯ информации
- Системы сравнения (классификации) ЕЯ информации
- Системы кластеризаци ЕЯ информации
21
Слайд 411
Системы реферирования текстов
Реферирование это извлечение наиболее важных или характерных фрагментов
из одного или многих источников информации
Новости, биржевые котировки, анонсы фильмов
– все это рефераты
Слайд 511
Системы реферирования текстов
Требования к реферированию:
Объем аннотации, или реферата должен
составлять от 5 до 30% исходного текста
Необходима гарантия того,
что аннотация действительно является адекватной заменой текста
Слайд 611
Системы реферирования текстов
Рефераты различаются по функции и целевым группам пользователей
- Реферат может быть повествовательным, информативным или критическим
- Реферат
может быть общим или ориентированным на специфического пользователя
Слайд 711
Системы реферирования текстов
По функциям
- Повествовательный реферат предоставляет достаточный объем информации,
чтобы создать представление об источниках
Информативный реферат содержит основную или
новую фактическую информацию
Критический реферат (обзор) сообщает суть информации и предлагает мнение о ней
Слайд 811
Системы реферирования текстов
Процесс реферирования распадается на три этапа:
анализ исходного текста
определение
его характерных фрагментов и
формирование соответствующего вывода
Слайд 911
Системы реферирования текстов
Подходы к реферированию делятся на две категории: без
опоры на знания и с опорой на знания
Иначе - статистические
и синтаксические (на основе понимания языка)
Еще по другому: метод составления выдержек, и формирование краткого изложения
Слайд 1011
Системы реферирования текстов
Такие инструменты, как AutoSummarize в Microsoft Office, IBM
Intelligent Text Miner, Oracle Context и Inxight Summarizer осуществляют выделение
фрагментов из исходного документа и соединение их в короткий текст
Краткое же изложение текста предполагает передачу основной мысли текста, и не обязательно теми же словами
Слайд 1111
Системы реферирования текстов
Метод составления выдержек
Метод составления выдержек акцентирует на характерных
фрагментах (как правило, предложениях)
Выделяются блоки наибольшей лексической и статистической релевантности
Итоговый документ — просто соединение выбранных фрагментов
Слайд 1211
Системы реферирования текстов
Основу аналитического этапа составляет процедура назначения весовых коэффициентов
для блоков текста в соответствии с расположением в оригинале, частотой
появления, частотой использования в ключевых предложениях
Слайд 1311
Системы реферирования текстов
Сумма весов, определенная после дополнительной модификации в соответствии
со специальными параметрами настройки, дает общий вес всего блока текста
Слайд 1411
Системы обработки связных текстов
Подход на основе понимания естественного языка
Системы подготовки
краткого изложения информации моделируют процесс понимания законченных описаний определенных фрагментов
действительности
Понимание текста трактуется как извлечение из него всей существенной с точки зрения системы информации
Слайд 1511
Системы реферирования текстов
Метод формирования краткого изложения опирается на понимание естественного
языка
Синтаксический разбор входит составной частью в этот метод анализа
Слайд 1611
Системы реферирования текстов
Формируется концептуальная репрезентативная структура исходного текста
В качестве такой
структуры могут быть использованы формулы логики предикатов, семантическая сеть или
набор фреймов
Слайд 1711
Системы реферирования текстов
Избыточная информация устраняется путем удаления поверхностных суждений (отсечения
концептуальных подграфов)
Затем информация подвергается дальнейшему агрегированию путем слияния графов (или
шаблонов) или обобщения информации
Слайд 1811
Системы реферирования текстов
В результате преобразования формируется концептуальная репрезентативная структура реферата,
то есть концептуальная «выжимка» текста
Затем на основе шаблонов предложений,
соответствующих элементам репрезентативной структуры, синтезируется связный текст реферата
Слайд 1911
Системы реферирования текстов
Выдержки vs изложение
Методы извлечения выдержек легко настроить
для обработки крупных массивов информации. Текст реферата лишен связности
Метод формирования
кратких изложений выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст
Слайд 2011
Системы реферирования текстов
В отличие от метода подбора выдержек, для подготовки
краткого изложения информации требуются мощные вычислительные ресурсы для систем обработки
естественного языка, в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций
Слайд 2111
Формирование концептуальной репрезентативной структуры текстов
Концептуальная репрезентативная структура текста представляет
собой, например, семантическую сеть - сеть взвешенных смысловыми весами ключевых
понятий текста
Взвешивание позволяет выявить предложения текста, несущие важный смысл
Слайд 2211
Формирование концептуальной репрезентативной структуры текстов
Локальная смысловая структура предложения представлена
ключевыми понятиями связанными некоторыми отношениями
Например, такая смысловая структура может быть
представлена предикатной структурой предложения
Слайд 2311
Формирование концептуальной репрезентативной структуры текстов
Предикат (лат. praedicatum – заявленное,
упомянутое, сказанное) – термин логики и языкознания, обозначающий то, что
высказывается (утверждается или отрицается) о субъекте
Предикат – не всякая информация о субъекте, но указание на признак субъекта, его состояние и отношение к другим объектам
Слайд 2411
Формирование концептуальной репрезентативной структуры текстов
Структура предиката: Subj – субъект,
Obji – актанты предиката, Ri – отношения предиката, R0 –
отношение «быть субъектом»
Слайд 2511
Формирование концептуальной репрезентативной структуры текстов
Ядро предиката (предикатор), в общем
случае, - это глагольная конструкция, которая может иметь дополнительно атрибутивные
компоненты
Актанты могут быть представлены или в виде отдельных объектов, или в форме конкретных характеристик предикатора, представленных наречиями
Слайд 2611
Формирование концептуальной репрезентативной структуры текстов
Локальные смысловые структуры предложений наивысшего
ранга выстраиваются в цепочку подобных структур по длине текста и
формирует репрезентативную структуру текста
Слайд 2711
Системы реферирования текстов
Методы оценки
Целью методов оценки рефератов является определение
адекватности (и достоверности) или пользы реферата по отношению к оригинальному
тексту
Сейчас известны две методики оценки: оценка «изнутри», и оценка «извне»
Слайд 2811
Системы реферирования текстов
При оценке «изнутри» оценивается насколько хорошо реферат отражает
основные идеи текста, оценивается гладкость текста
Во втором методе оценивается качество
реферата по тому, как он позволяет ответить на вопросы, относящиеся ко всему содержанию текста
Слайд 3011
Системы классификации
и кластеризации текстов
Под классификацией текста понимается отнесение текста
к одной из рубрик классификатора
Под кластеризацией корпуса текстов понимается разбиение
его на тематические рубрики
Слайд 3111
Системы классификации
и кластеризации текстов
Классификация текста строится на основе механизма
сравнения текстов
Кластеризация – на разбиении семантической сети корпуса текстов на
подсети
Слайд 3211
Системы классификации
и кластеризации текстов
Используются различные способы представления текстов:
список
ключевых слов, содержащихся в тексте
список ключевых слов, объединенный в сеть
Слайд 3311
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов проходит в несколько
этапов:
Первичная обработка текста
Индексирование текста (выявление ключевых понятий)
Взвешивание ключевых понятий
Вычисление степени
пересечения индексов
Слайд 3411
Системы классификации
и кластеризации текстов
До того, как начать обработку текста,
его необходимо подготовить к виду, удобному для обработки
Слайд 3511
Системы классификации
и кластеризации текстов
Первичная обработка текста
Текст на основе графематического
анализа сегментируется на слова и предложения
Удаляются общеупотребимые и
рабочие слова
Проводится
морфологический анализ оставшихся слов
Слайд 3611
Системы классификации
и кластеризации текстов
Первичная обработка текста
Общеупотребимые и рабочие слова
удаляются с использованием заранее сформированных словарей
Слайд 3711
Системы классификации
и кластеризации текстов
Первичная обработка текста
От слов отсекаются окончания
и слова заменяются их корневыми основами, которые могут содержать помимо
корня еще и суффикс (суффиксы)
Слайд 3811
Системы классификации
и кластеризации текстов
Индексирование текста
Индексные понятия извлекаются из текста
Индекс
корректируется экспертом
Слайд 3911
Системы классификации
и кластеризации текстов
Индексирование текста
Два фактора определяют эффективность использования
языка индексов: полнота и специфичность языка индексов
Полнота это количество
понятий, извлекаемых из текста (полнота описания содержания)
Специфичность – способность точно описать текст (разделять тексты)
Слайд 4011
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Простые способы статистической
обработки текстов базируются на частоте встречаемости слов в тексте
Слайд 4111
Системы классификации
и кластеризации текстов
Закон Ципфа
Пусть f – частота встречаемости
слова в тексте, а r – ранг этого слова (степень
важности слова в тексте). Тогда кривая, связывающая ранг слова с частотой его встречаемости имеет вид гиперболы, что означает, что произведение частоты встречаемости на его ранг есть константа
Чем реже встречается слово, тем оно важнее
Слайд 4211
Системы классификации
и кластеризации текстов
Закон Ципфа
Слайд 4311
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Наиболее простой способ
взвешивания – выявление на частотной гиперболе слов в соответствие с
мысленной гауссианой: центр гауссианы приходится на наиболее весомые слова текста
Слайд 4411
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Другой способ взвешивания
связан с частотным распределением слов в коллекции документов: чем в
меньшем числе текстов встречается понятие, тем оно более специфично
Слайд 4511
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Еще один способ
взвешивания – перенормировка в соответствие со структурой текста
Чем с большим
числом понятий связано слово в данном тексте, тем имеет больший вес
Слайд 4611
Системы классификации
и кластеризации текстов
Сравнение текстов
Под сравнением двух текстов мы
будем понимать степень пересечения некоторых признаков текстов
Такими признаками могут быть
индекс текста, или семантическая сеть
Слайд 47Перечень понятий vs сеть
European
citizenship
European unite
globalization
human right
citizens
ethnographic
cultural citizenship
research
nationality
global
social
European unite
entitlements
particularization
European citizenship
European
citizenship
European unite
globalization
human
right
citizens
Слайд 4811
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов
Под классификацией текстов мы
будем понимать отнесение текста к одной или нескольким рубрикам классификатора
путем сравнения этого текста и текстов рубрик
Слайд 4911
Системы классификации
и кластеризации текстов
Классификация (сравнение) текстов
Большинство известных методов классификации
основаны на предположении, что тексты относятся к тематической рубрике по
отличительным признакам (словам или словосочетаниям – индексу текста)
Слайд 5011
Системы классификации
и кластеризации текстов
Классификация на основе сравнения перечней индексов
Простая
классификация осуществляется определением степени пересечения индекса анализируемого текста и индексов
рубрик
В этом случае мера сравнения есть просто пересечение
Слайд 5111
Системы классификации
и кластеризации текстов
Кластеризация текстов
Под кластеризацией текстов понимается разбиение
множества текстов (корпуса текстов) на подмножества, которые группируются вокруг определенных
тем
Эти темы могут быть заданы заранее, а могут быть выявлены после того, как произведена группировка текстов
Слайд 5211
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации заключается в разбиении
обучающей выборки на подмножества, называемые кластерами, так, чтобы каждый кластер
состоял из объектов, близких по некоторой метрике, а объекты разных кластеров отстояли друг от друга на значительном расстоянии
Слайд 5311
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации должна обладать свойством
интерпретируемости найденных кластеров в терминах общности содержания относящихся к одному
кластеру документов
Слайд 5411
Системы классификации и кластеризации текстов
Слайд 55
Программная система
для анализа текстовой информации
TextAnalyst
Формирование семантической сети
Слайд 56
Программная система
для анализа текстовой информации
TextAnalyst
Тематическая структура текста
Слайд 57
Программная система
для анализа текстовой информации
TextAnalyst
Формирование реферата
Слайд 58
Программная система
для анализа текстовой информации
TextAnalyst
Разбиение сети на подсети
– подтемы
Слайд 59
Программная система
для анализа текстовой информации
TextAnalyst
Функциональность
Формирование семантической сети
– выявление ключевых понятий с их связями
Формирование тематической структуры текста
Формирование гипертекстового представления
Слайд 60
Программная система
для анализа текстовой информации
TextAnalyst
Функциональность
Ассоциативная навигация по
тексту
Формирование реферата, тематического реферата
Кластеризация текстов
Сравнение (классификация) текстов
Слайд 61
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Первичная
обработка
Удаление нетекстовой информации
Сегментация на осмысленные фрагменты (предложения)
Удаление стоп-слов, рабочих
и общеупотребимых слов
Морфологическая обработка
Слайд 62
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Формирование
частотного портрета текста
Вычисление частоты встречаемости корневых основ в тексте
Вычисление частоты
попарной встречаемости корневых основ в тексте
Формирование первичной ассоциативной сети
Выявление устойчивых словосочетений
Слайд 63
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Перенормировка
Перевычисление
весовых характеристик понятий
Слайд 65Сравнение сетей
(вычисление степени пересечения сетей)