Слайд 1Информационные технологии в лингвистике
Естественно-языковые системы
Слайд 2Обработка естественного языка
Автоматический перевод текстов (PROMT, Google Translate)
Создание вопросно-ответных
систем (англ. question answering systems).
Автоматическое извлечение фактов из текста
(англ. fact extraction, text mining)
Построение систем управления знаниями.
Автореферирование (automatic text summarization).
Корпусная лингвистика, создание и использование электронных корпусов текстов.
Создание электронных словарей, тезаурусов, онтологий. (Lingvo).
Слайд 3Естественно-языковые системы
В конце 60-х годов в исследованиях по искусственному интеллекту
сформировалось самостоятельное направление, получившее название «обработка естественного языка» (Natural Language
Processing).
Задача данного направления: исследование методов и разработка систем, обеспечивающих реализацию процесса общения с компьютерными системами на естественном языке (систем ЕЯ-общения или ЕЯ-систем).
Слайд 4Естественно-языковые системы
интеллектуальные вопрос - ответные системы;
системы общения с базами данных;
диалоговые
системы решения задач;
системы обработки связных текстов;
системы машинного перевода.
Слайд 5Исходные понятия
Общение - коммуникативное взаимодействие.
Диалог - процесс достижения его участниками
определенных согласованных целей путем обмена связанными высказываниями, выраженными в языке,
о некотором реальном или гипотетическом мире (проблемной области).
Применительно к диалогу между пользователем и компьютером:
Общение - процесс обмена взаимосвязанными высказываниями, выраженными в языке, направленный на достижение целей пользователя, т.е. на удовлетворение информационных потребностей пользователя (ИПП).
Слайд 6Задача поддержки диалога предполагает:
Анализ и понимание реплик партнера;
Синтез правильного ответа.
Высказывания
участников общения образуют связный текст - дискурс.
Связность дискурса обеспечивается:
лингвистическими средствами
(родовидовыми, анафорическими, модальными, стилистическими согласованиями, согласованиями пресуппозиций и т.п.),
экстралингвистическими средствами (ситуативными), т. е. с помощью временных, причинно-следственных и других связей, существующих в проблемной области.
Слайд 7Эффективность средств общения
Зависит от того как учитываются важнейшие особенности процесса
общения, направленного на удовлетворение реальных информационных потребностей пользователя.
Слайд 8Особенности процесса общения
Изменяемость информационной потребности пользователя. ИПП не может
быть заранее четко определена в при разработке системы общения, она
изменяется в ходе разработки и эксплуатации системы.
2. Несовпадение представлений, имеющихся у пользователя и системы о языке общения и проблемной области, относительно которой ведется общение.
3. Связность общения. В большинстве реальных случаев ИПП не может быть выражена в виде одного вопроса (предложения). Требуется определить контекст, в котором необходимо решать определенную задачу. Процесс общения должен иметь сложную, разветвленную структуру и состоять из обмена связанными высказываниями.
4. «Неправильность» высказываний пользователя.
пользователь обычно не в состоянии учесть все ограничения системы общения в части ее возможностей и знаний
использованием умолчаний, характерных для естественного общения и допускающих неоднозначное толкование высказываний,
отклонение предложений от грамматической нормы.
Слайд 9Учет особенностей общения
Разработка формализованных языков общения (APL, NOMAD, MAPPER).
Использование конечными пользователями для взаимодействия с компьютером естественного языка,
семантически и прагматически ограниченного проблемной областью, относительно которой ведется общение.
Слайд 10Функции ЕЯ-системы
Ведение диалога - определение его структуры и роли,
которую система и пользователь выполняют на каждом шаге диалога;
Понимание
- преобразование поступающих от пользователя высказываний на естественном языке в высказывания на языке внутреннего представления (формализованном языке);
Обработка высказываний - формирование или определение заданий на решение задач или подзадач на данном шаге диалога;
Генерация - формирование выходных высказываний на ЕЯ.
Слайд 12Ведение диалога
- выполняется по одной из двух схем:
1. Диалог ведет
пользователь.
Инициатива в основном находится у пользователя (за исключением сообщений об
ошибках), а система только реагирует на его тре6ования, определяя по виду требования тип задания.
Для системы весь диалог сводится к выработке реакции на текущие высказывания пользователя.
2. Диалог ведет система.
Система ведет диалог в соответствии с имеющимися у нее представлениями о структуре диалога (т.е. о разбиении задач на подзадачи и о том, кто из участников, когда и какую подзадачу решает) и о способе обмена высказываниями.
Слайд 14Интеллектуальные вопрос-ответные системы
основное внимание уделяется языковому аспекту, т. е. максимальному
приближению языка общения к литературному естественному языку.
Пример: система ПОЭТ,
созданная коллективом исследователей под руководством Э.В. Попова.
Система ПОЭТ воспринимает вопросительные предложения русского языка с практически несущественными ограничениями на допустимые синтаксические конструкции и пунктуацию.
_______________________________
Попов Э.В. Общение с ЭВМ на естественном языке.- М.: Наука. - 1982. – 360с.
Слайд 15Пример диалога с системой ПОЭТ
В: КАКОВ ОБЪЕМ ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНЫМ ТРАНСПОРТОМ
В 1970-ОМ ГОДУ?
[Вариант: КАКОЕ КОЛИЧЕСТВО ГРУЗОВ ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ ПЕРЕВЕЗ В
1970-ОМ ГОДУ?]
[Вариант: ЧЕМУ РАВЕН В 1970-ОМ ГОДУ ОБЪЕМ ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА?
О: В 1970 ГОДУ ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ ПЕРЕВЕЗ 1882 МЛН. ТОНН ГРУЗОВ.
В: КАКОВ УДЕЛЬНЫЙ ВЕС ПЕРЕВОЗОК ЖЕЛЕЗНОДОРОЖНЫМ ТРАНСПОРТОМ В ОБЩЕМ ОБЪЕМЕ ПЕРЕВОЗОК ВСЕМИ ВИДАМИ ТРАНСПОРТА В 1975 ГОДУ?
О: 18%.
Слайд 16Пример диалога с системой ПОЭТ
В: КАКИЕ ОРГАНИЗАЦИИ ПОСТАВЛЯЛИ В 1-ОМ
КВАРТАЛЕ 1970 ГОДА ТОКАРНЫЕ СТАНКИ В МОСКОВСКУЮ ОБЛАСТЬ?
О: В 1-ОМ
КВАРТАЛЕ 1970 ГОДА ПОСТАВЛЯЛИ ТОКАРНЫЕ СТАНКИ В МОСКОВСКУЮ ОБЛАСТЬ ЗАВОДЫ «РУБИН» И «ЗАРЯ».
В: ОСУЩЕСТВЛЯЛ ЛИ ЗАВОД «ЗАРЯ» В 1970-ОМ ГОДУ ПОСТАВКИ ТОКАРНЫХ СТАНКОВ В МОСКОВСКУЮ ОБЛАСТЬ?
О: ДА, ОСУЩЕСТВЛЯЛ.
Слайд 17Пример диалога с системой ПОЭТ
В: КАКИЕ ПЕРЕВОЗКИ УГЛЯ ВОДНЫМ ТРАНСПОРТОМ
БЫЛИ СОВЕРШЕНЫ В 1970-ОМ ГОДУ?
О: СЛОВО «ВОДНЫМ» ОТСУТСТВУЕТ В СЛОВАРЕ.
О:
СЛОВО «ВОДНЫМ» ПОНЯТО КАК ХАРАКТЕРИСТИКА ТРАНСПОРТА.
В: ЧТО ИЗВЕСТНО О ВИДАХ ТРАНСПОРТА?
О: РАЗЛИЧАЮТСЯ СЛЕДУЮЩИЕ ВИДЫ ТРАНСПОРТА: МОРСКОЙ, РЕЧНОЙ, АВТОМОБИЛЬНЫЙ, ЖЕЛЕЗНОДОРОЖНЫЙ.
В: КАКИЕ ПЕРЕВОЗКИ УГЛЯ МОРСКИМ И РЕЧНЫМ ТРАНСПОРТОМ БЫЛИ СОВЕРШЕНЫ В 1970-ОМ ГОДУ?
О: В 1970-ОМ ГОДУ СОВЕРШЕНО 5716 ПЕРЕВОЗОК МОРСКИМ И РЕЧНЫМ ТРАНСПОРТОМ.
Слайд 19База знаний системы ПОЭТ
1. Лингвистические знания
хранятся в различных зонах словаря
(морфологической и синтактико-семантической),
описания базовых событий представлены в виде моделей
управления.
2. Проблемные знания
хранятся в семантической сети.
абстрактная (описывающая общие понятия и категории) и конкретная (описывающая конкретные сущности) семантические сети.
Слайд 21Недостатки вопросно-ответных систем
Возможность получения ответов на ЕЯ-вопросы, относящиеся к ограниченным
проблемным областям.
Система ПОЭТ могла отвечать па вопросы о перевозках
различных народнохозяйственных грузов.
ДИСПУТ - об обслуживании контейнерных перевозок к морскому порту,
LUNAR - о свойствах образцов лунных пород,
LIFER - о дислокации и характеристиках судов военно-морских сил.
2. Жесткая структура диалога, при которой каждое высказывание пользователя воспринимается как очередной запрос, система играет пассивную роль.
Следствие: задача – повышение гибкости общения.
Слайд 22Подходы к анализу ЕЯ-запросов
Использование синтаксических конструкций. Синтаксическое представление запроса строится
на основе подлежащего, сказуемого, прямого дополнения и т.п., которые определяются
с помощью морфологических характеристик (часть речи, род, падеж, лицо и т.д.).
В результате анализа запроса дерево синтаксического разбора непосредственно отображается в выражение на формализованном языке или языке запросов к базе данных.
Синтаксически-ориентированные системы используют грамматику, описывающую возможные синтаксические структуры пользовательских запросов.
Типичная система, основанная на синтаксическом анализе - LUNAR.
Слайд 23Пример преобразования запросов
Какие студенты учатся в группе 630?
Слайд 24Пример преобразования запросов
Какие студенты учатся в группе 630?
Отображение дерева в
выражение запроса производится с помощью правил и целиком основывается на
синтаксической информации дерева разбора. Пример правил:
"какие" отображается в SELECT;
"студент" отображается в student;
"группа" отображается в group;
поддерево NT отображается в N="T" (в примере group="630");
поддерево NP отображается в det(N) (SELECT (student));
поддерево VP отображается в WHERE NT (WHERE group="630");
S отображается в NP and VP (SELECT (student) WHERE group="630").
Результат: SQL-запрос
SELECT (student) WHERE group="630"
Слайд 25Подходы к анализу ЕЯ-запросов
2. Семантически-ориентированный метод
- предложен А.С.Нариньяни.
используется
синтаксическая информация из предыдущего подхода, а также информация из семантических
словарей.
Каждое слово в словаре имеет характеристики, позволяющие определять смысловые отношения между ним и другими словами, точнее, их значениями.
Полное описание связей между смыслами слов образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве узлов.
ЕЯ-запрос сначала обрабатывается синтаксическим анализатором с использованием набора синтаксических правил для построения дерева синтаксического разбора. Семантический интерпретатор последовательно трансформирует дерево синтаксического разбора в язык промежуточного представления, используя семантические правила.
Слайд 27Подходы к анализу ЕЯ-запросов
3. Метод шаблонов
Пример: система English Query от
Microsoft основана на синтаксически-ориентированных шаблонах, связываемых с моделью предметной области,
и через нее - со схемой базы данных.
При настройке необходимо задать модель базы данных и предметной области, а затем для каждого отношения в базе данных (например, между товаром и его ценой) задать синтаксический шаблон английской грамматики, выбираемый из списка.
Далее: системы обработки связных текстов, системы МП