Слайд 1Новые информационные технологии
Харламов
Александр Александрович
© 2012 МГЛУ
Ин. яз. им.
М. Тореза
Слайд 2Лекция № 25. Основные классы естественно-языковых систем.
Системы обработки связных текстов
Слайд 3Основные классы систем общения с ЭВМ, включающие в свой состав
ЕЯ-системы
- Системы обработки связных текстов, в том числе:
- Системы
реферирования ЕЯ информации
- Системы сравнения (классификации) ЕЯ информации
- Системы кластеризаци ЕЯ информации
21
Слайд 411
Системы обработки связных текстов
Системы данного класса моделируют процесс понимания законченных
описаний определенных фрагментов действительности
Понимание текста трактуется как извлечение из
него всей существенной с точки зрения системы информации
Слайд 511
Системы реферирования текстов
Реферирование это извлечение наиболее важных или характерных фрагментов
из одного или многих источников информации
Новости, биржевые котировки, анонсы фильмов
– все это рефераты
Слайд 611
Системы реферирования текстов
Такие инструменты, как AutoSummarize в Microsoft Office, IBM
Intelligent Text Miner, Oracle Context и Inxight Summarizer осуществляют выделение
фрагментов из исходного документа и соединение их в короткий текст
Краткое же изложение текста предполагает передачу основной мысли текста, и не обязательно теми же словами
Слайд 711
Системы реферирования текстов
Требования к реферированию:
Объем аннотации, или реферата должен
составлять от 5 до 30% исходного текста
Необходима гарантия того,
что аннотация действительно является адекватной заменой текста
Слайд 811
Системы реферирования текстов
Рефераты различаются по функции и целевым группам пользователей
- Реферат может быть повествовательным, информативным или критическим
- Реферат
может быть общим или ориентированным на специфического пользователя
Слайд 911
Системы реферирования текстов
По функциям
- Повествовательный реферат предоставляет достаточный объем информации,
чтобы создать представление об источниках
Информативный реферат содержит основную или
новую фактическую информацию Критический реферат (обзор) сообщает суть информации и предлагает мнение о ней
Слайд 1011
Системы реферирования текстов
Распространение полнотекстовых поисковых механизмов и средств фильтрации информации,
адаптирующихся к требованиям конкретных пользователей, приводят к тому, что настраиваемые
под пользователя рефераты приобретают все большее значение
Слайд 1111
Системы реферирования текстов
Процесс реферирования распадается на три этапа: анализ исходного
текста, определение его характерных фрагментов и формирование соответствующего вывода
Слайд 1211
Системы реферирования текстов
Подходы к реферированию распадаются на две категории: без
опоры на знания и с опорой на знания
Иначе - статистические
и синтаксические
Еще по другому: метод составления выдержек, и формирование краткого изложения
Слайд 1311
Системы реферирования текстов
Метод составления выдержек акцентирует на характерных фрагментахв (как
правило, предложениях)
Выделяются блоки наибольшей лексической и статистической релевантности
Итоговый документ
— просто соединение выбранных фрагментов
Слайд 1411
Системы реферирования текстов
В большинстве методов применяется модель линейных весовых коэффициентов
Основу аналитического этапа составляет процедура назначения весовых коэффициентов для блоков
текста в соответствии с расположением в оригинале, частотой появления, частотой использования в ключевых предложениях
Слайд 1511
Системы реферирования текстов
Сумма весов, определенная после дополнительной модификации в соответствии
со специальными параметрами настройки, дает общий вес всего блока текста
Слайд 16
Программная система
для анализа текстовой информации
TextAnalyst
Функциональность
Формирование семантической сети
– выявление ключевых понятий с их связями
Формирование тематической структуры текста
Формирование гипертекстового представления
Ассоциативная навигация по тексту
Формирование реферата, тематического реферата
Кластеризация текстов
Сравнение (классификация) текстов
Слайд 17
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Первичная
обработка
Удаление нетекстовой информации
Сегментация на осмысленные фрагменты (предложения)
Удаление стоп-слов, рабочих
и общеупотребимых слов
Морфологическая обработка
Слайд 18
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Формирование
частотного портрета текста
Вычисление частоты встречаемости корневых основ в тексте
Вычисление частоты
попарной встречаемости корневых основ в тексте
Формирование первичной ассоциативной сети
Выявление устойчивых словосочетений
Слайд 19
Программная система
для анализа текстовой информации
TextAnalyst
Этапы обработки текстовой информации
Перенормировка
Перевычисление
весовых характеристик понятий
Слайд 20
Программная система
для анализа текстовой информации
TextAnalyst
Формирование семантической сети
Слайд 21
Программная система
для анализа текстовой информации
TextAnalyst
Тематическая структура текста
Слайд 22
Программная система
для анализа текстовой информации
TextAnalyst
Формирование реферата
Слайд 23
Программная система
для анализа текстовой информации
TextAnalyst
Разбиение сети на подсети
– подтемы.
Слайд 2411
Системы реферирования текстов
В отличие от метода подбора выдержек, для подготовки
краткого изложения информации требуются мощные вычислительные ресурсы для систем обработки
естественных языков, в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Необходима ориентация на предметную область
Слайд 2511
Системы реферирования текстов
Метод формирования краткого изложения предполагает два основных подхода
Первый опирается на традиционный лингвистический метод синтаксического разбора предложений
Второй подход
опирается на понимание естественного языка. Синтаксический разбор входит составной частью в этот метод анализа.
Слайд 2611
Системы реферирования текстов
Метод формирования краткого изложения предполагает два основных подхода
Первый опирается на традиционный лингвистический метод синтаксического разбора предложений
Второй подход
опирается на понимание естественного языка. Синтаксический разбор входит составной частью в этот метод анализа
Слайд 2711
Системы реферирования текстов
Подход на основе синтаксического разбора предложений
Формируются деревья разбора
Для
аннотирования деревьев разбора применяется семантическая информация
Слайд 2811
Системы реферирования текстов
Подход на основе понимания естественного языка
Формируются концептуальные репрезентативные
структуры всей исходной информации. В качестве таких структур могут быть
использованы формулы логики предикатов, семантическая сеть или набор фреймов
Слайд 2911
Системы реферирования текстов
И в том и в другом подходе избыточная
информация устраняется путем удаления поверхностных суждений или отсечения концептуальных подграфов
Затем
информация подвергается дальнейшему агрегированию путем слияния графов (или шаблонов) или обобщения информации
Слайд 3011
Системы реферирования текстов
В результате преобразования формируется концептуальная репрезентативная структура реферата,
по существу, концептуальные «выжимки» из текста
Затем на основе шаблонов
синтезируется связный текст реферата
Слайд 3111
Системы реферирования текстов
Выдержки или изложение
Методы извлечения выдержек легко настроить
для обработки крупных массивов информации. Текст реферата лишен связности
Метод формирования
кратких изложений выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст
Слайд 3211
Лингвистический анализ текстов
Глобальная семантическая структура текста включает в себя одномоментно
все ключевые понятия текста вместе с их взаимосвязями (и потому
может считаться статической парадигматической структурой)
Слайд 3311
Лингвистический анализ текстов
Локальная смысловая структура предложения включается в цепочку подобных
структур по длине текста и формирует синтагматичскую динамическую прагматическую структуру
Слайд 3411
Лингвистический анализ текстов
Смысловые структуры предложения представлены ключевыми понятиями связанными некоторыми
отношениями. Наилучшим образом эти смысловые структуры могут быть представлены предикатной
структурой предложения
Слайд 3511
Лингвистический анализ текстов
Предикат (лат. praedicatum – заявленное, упомянутое, сказанное) –
термин логики и языкознания, обозначающий то, что высказывается (утверждается или
отрицается) о субъекте
Предикат – не всякая информация о субъекте, но указание на признак субъекта, его состояние и отношение к другим объектам
Слайд 3611
Лингвистический анализ текстов
Структура предиката: Subj – субъект, Obji – актанты
предиката, Ri – отношения предиката, R0 – отношение «быть субъектом»
Слайд 3711
Лингвистический анализ текстов
Ядро предиката (предикатор), в общем случае, - это
глагольная конструкция, которая может иметь дополнительно атрибутивные компоненты. Актанты могут
быть представлены или в виде отдельных объектов, или в форме конкретных характеристик предикатора, представленных наречиями
Слайд 3811
Лингвистический анализ текстов
Таким образом, четырех частей речи (существительное, глагол, прилагательное,
наречие) достаточно для описания произвольной ситуации внешнего мира, потому что
местоимение и числительное всегда функционально эквивалентные существительному, а другие части речи выполняют служебные функции
Слайд 3911
Лингвистический анализ текстов
Предикатные отношения между сущностями, представленными в предложениях, выстраиваются
в цепочку, как и предложения текста, в которых они содержатся.
Это квазиграф, подобный размеченному ориентированному графу
Слайд 4011
Лингвистический анализ текстов
В процессе синтаксического анализа из предложений текста выделяются
содержащиеся в них предикатные структуры, а также отношения сочинения, и
атрибутивные отношения
Слайд 4111
Лингвистический анализ текстов
Общую схему действий по можно представить в виде
последовательности шагов:
Членение предложения на начальные сегменты
Построение синтаксических групп
для каждого сегмента с помощью синтаксических правил
Установление иерархии между сегментами с помощью синтаксических правил
Слайд 4211
Системы реферирования текстов
Разработчики средств реферирования все больше склоняются к гибридным
системам, а исследователям все более успешно удается объединять статистические методы
и методы, основанные на знаниях
Слайд 4311
Системы реферирования текстов
Методы оценки
Целью методов оценки рефератов является определение
адекватности (и достоверности) или пользы реферата по отношению к оригинальному
тексту
Сейчас известны две методики оценки. Первая – оценка «изнутри», вторая– оценка «извне»
Слайд 4411
Системы реферирования текстов
При оценке «изнутри» оценивается насколько хорошо реферат отражает
основные идеи оригинала, оценивается гладкость текста
Во втором методе оценивается качество
реферата по тому, как он влияет на завершение той или иной работы, например, позволят ответить на вопросы, относящиеся ко всему содержанию текста
Слайд 4511
Тенденции в автоматическом реферировании
Гибридные источники. Средства реферирования должны извлекать информацию
из отформатированных данных и из неотформатированного текста
Большое число документов.
Методы реферирования одного документа должны быть распространены на большой набор документов
Слайд 4611
Тенденции в автоматическом реферировании
Реферирование мультимедийной информации. Соответствующие технологии должны обрабатывать
информацию из источников разного типа на этапе анализа, на этапе
извлечения и на этапе синтеза, когда происходит интеграция информации разного типа
Слайд 4811
Системы классификации
и кластеризации текстов
До того, как начать обработку текста,
его необходимо подготовить к виду, удобному для обработки
Слайд 4911
Системы классификации
и кластеризации текстов
Используются различные способы представления текстов. Может
быть представлен реферат текста, или список ключевых слов, содержащихся в
тексте
Слайд 5011
Системы классификации
и кластеризации текстов
Первичная обработка текста
Удаляются общеупотребимые слова,
и проводится морфологический анализ оставшихся слов
Кроме того, удаляются рабочие
слова: предлоги, артикли, местоимения
Слайд 5111
Системы классификации
и кластеризации текстов
Первичная обработка текста
Наиболее часто встречающиеся слова
не несут смысла в предметной области текста. Они удаляются на
основе частотного анализа, с использованием верхней границы на графике
Слайд 5211
Системы классификации
и кластеризации текстов
Первичная обработка текста
Более точно это можно
сделать, используя заранее вручную сформированные перечни общеупотребимых слов. В результате
объем исходного текста уменьшается на 30-50%
Слайд 5311
Системы классификации
и кластеризации текстов
Морфологический анализ
От слов отсекаются окончания и
слова заменяются их корневыми основами, которые могут содержать помимо корня
еще и суффикс (суффиксы)
Слайд 5411
Системы классификации
и кластеризации текстов
Индексирование текста
Индексные понятия извлекаются из текста
Индекс
корректируется вручную
Слайд 5511
Системы классификации
и кластеризации текстов
Индексирование текста
Два фактора определяют эффективность использования
языка индексов: полнота и специфичность языка индексов
Полнота это количество
понятий, извлекаемых из текста (подчеркивает описание содержания)
Специфичность – способность точно описать текст (разделять тексты)
Слайд 5611
Системы классификации
и кластеризации текстов
Простые способы статистической обработки текстов базируются
на частоте встречаемости слов в тексте.
Слайд 5711
Системы классификации
и кластеризации текстов
Закон Ципфа
Пусть f – частота встречаемости
слова в тексте, а r – ранг этого слова (степень
важности слова в тексте). Тогда кривая, связывающая ранг слова с частотой его встречаемости имеет вид гиперболы, что означает, что произведение частоты встречаемости на его ранг есть константа
Слайд 5811
Системы классификации
и кластеризации текстов
Закон Ципфа
Слайд 5911
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Наиболее простой способ
взвешивания – выявление на частотной гиперболе слов в соответствие с
мысленной гауссианой: центр гауссианы приходится на наиболее весомые слова текста
Слайд 6011
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Другой способ взвешивания
связан с частотным распределением слов в коллекции документов: чем в
меньшем числе текстов встречается понятие, тем оно более специфично
Слайд 6111
Системы классификации
и кластеризации текстов
Взвешивание слов словаря индексов
Еще один способ
взвешивания – перенормировка в соответствие со структурой текста. Чем с
большим числом понятий связано слово, тем имеет больший вес
Слайд 6211
Системы классификации
и кластеризации текстов
Автоматическая классификация (сравнение) текстов
Под классификацией текстов
мы будем понимать отнесение текста к одной или нескольким рубрикам
классификатора путем сравнения этого текста и текстов рубрик
Слайд 6311
Системы классификации
и кластеризации текстов
Автоматическая классификация (сравнение) текстов
Большинство известных методов
классификации основаны на предположении, что тексты относятся к тематической рубрике
по отличительным признакам (словам или словосочетаниям)
Слайд 6411
Системы классификации
и кластеризации текстов
Классификация на основе сравнения перечней индексов
Простая
классификация осуществляется определением степени пересечения индекса анализируемого текста и индексов
рубрик. В этом случае мера сравнения есть просто пересечение
Слайд 6511
Системы классификации
и кластеризации текстов
Кластеризация текстов
Под кластеризацией текстов понимается разбиение
множества текстов (корпуса текстов) на подмножества, которые группируются вокруг определенных
тем. Эти темы могут быть заданы заранее, а могут быть выявлены после того, как произведена группировка текстов
Слайд 6611
Системы классификации
и кластеризации текстов
Кластеризация текстов
Кластерный анализ представляет собой совокупность
методов, подходов и процедур, разработанных для решения проблемы формирования однородных
классов (кластеров) в произвольной проблемной области
Слайд 6711
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации заключается в разбиении
обучающей выборки на подмножества, называемые кластерами, так, чтобы каждый кластер
состоял из объектов, близких по некоторой метрике, а объекты разных кластеров отстояли друг от друга на значительном расстоянии
Слайд 6811
Системы классификации
и кластеризации текстов
Кластеризация текстов
Процедура кластеризации должна обладать свойством
интерпретируемости найденных кластеров в терминах смысла содержания относящихся к ним
документов
Слайд 6911
Системы классификации и кластеризации текстов