Слайд 1Министерство образования Российской Федерации
Казанский государственный технический университет им. А.Н.Туполева
Кафедра АСОИУ
Интеллектуальные
информационные системы
Лекция 7
Системы обработки естественного языка.
Информационно-поисковые системы
2011
Слайд 2ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА
{di} – множество документов
информационного хранилища D
r(di, dj) - оценка смысловой близости двух документов di и dj
d0 - некоторый воображаемый (виртуальный) документ
определенного содержания.
Задача информационного поиска:
В информационном хранилище требуется отыскать:
некоторый документ di такой, что
r(di, d0)=0
или множество документов D0 = {di}, что
r(di, d0) min для всех di из множества D0 .
Слайд 3Оценка результатов информационного поиска
Информационная полнота - все ли нужные
документы найдены.
Информационный шум - отобраны и ненужные с точки зрения
информационного запроса документы.
Dp - множество документов, полученных в
результате выполнения поисковых процедур.
kп - коэффициент полноты
kш, - коэффициент шума
Слайд 4Возможные варианты результатов поиска:
Dр = D0, т.е. найдены все адекватные
смыслу запроса
документы.
kп = 1, kш = 0.
2. Dр ⊂ D0 Информационный поиск является неполным:
0 <= kп<1, kш = 0.
3. D0 ⊂ Dр, В результате поиска отобраны лишние
документы (информационный шум):
kп = 1, 0<= kш <1.
4. Пересечение Dp и D0 не пустое, при Dp != 0 и D0 != 0,
0 <= kп <1, 0<= kш <1.
5. Пересечение Dp и D0 пустое, при Dp != 0 и D0 != 0,
kп = 0, kш = 1.
Слайд 6 Вычисление kп и kш
Интегральная оценка эффективности поиска
Слайд 7 Вычисление kп и kш
Интегральная оценка эффективности поиска
Коэффициент точности Kτ =
1 - kш
Слайд 8Факторы, влияющие на процессы обработки информации
Огромный объем доступной информации
Взаимосвязи
Высокий
процент временной информации
Неконтролируемое качество информации
Разнотипность информации
Избыточность
Разнородность пользователей
Слайд 9 Фактографические ИПС (ФИПС)
Характерные отличия::
- высокая однородность
сообщений,
- фиксированный порядок следования признаков объектов
Способы поиска:
- поиск по совпадению значений для одного или
нескольких признаков;
- поиск по интервалу:
- поиск, по выражению, когда используется некий
логический критерий
kп max = 1 при kш = 0
Слайд 10Документальные (библиографические) ИПС
Характерные отличия:
- хранение и поиск текстовых
документов.
Методы поиска:
Поиск по метаданным.
Поиск на основе
морфологического разбора.
Поиск на основе оценок релевантности документа запросу.
Поиск с использованием языков запросов.
Поиск на основе семантического анализа.
kп max= 0.5 при kш max = 1
Слайд 11Информационный поиск в ДИПС Дескрипторный поиск
Ввод документа
в ДИПС
Слайд 12Информационный поиск в ДИПС Дескрипторный поиск
Ввод документа
в ДИПС
Слайд 13Информационный поиск в ДИПС Дескрипторный поиск
Ввод документа
в ДИПС
Формирование ПОД
Включение ПОД в массив ПОД.
3. Пополнение словаря дескрипторов
Слайд 14Информационный поиск в ДИПС Дескрипторный поиск
Релевантность -
смысловое соответствие
Слайд 15
ГИПЕРТЕКСТОВЫЕ ИПС
Основные идеи гипертекста:
- текст разбит на семантические единицы;
- между сетами устанавливаются связи;
- текст читается
по различным траекториям.
ИСС1
ИСС2 ИСС3
. . . . . .
ИССn+1 ИССn
(х0 , х1 ,… х10 , х11)
х0 - имя ИСС,
х1 - заголовок ИСС,
х2 - аннотация ИСС,
х3 - точка входа в ИСС,
х4 - множество текстовых документов ИСС,
х5 – множество цифровых объектов ИСС,
х6 - множество программных объектов ИСС,
х7 - справка по ИСС,
х8 - признак ускоренного просмотра ИСС,
х9 - признак детального просмотра,
х10 - список гиперссылок внутри ИСС,
х11 - список гиперссылок между ИСС
Слайд 18ГИПС
1. Атрибутивный поиск с помощью SQL-запросов, адресуемых на
выполнение сопряженной СУБД.
2. Поиск по логической формуле, составленной из ключевых
слов.
3. Лексический поиск на основе релевантности, оцениваемой пропорционально количеству терминов из запроса.
4. Ассоциативный поиск, учитывающий вхождение терминов, связанных отношением ассоциативности с терминами запроса.
5. Поиск ассоциаций используется для ассоциативного расширения и уточнения запроса в диалоге с пользователем.
6. Поиск документов по семантическому подобию.
7. Комбинированный поиск.
kп max= 0.9 – 1 при kш max = 0.1 – 0.2
Слайд 19Модель поиска
Способ представления документов
Способ представления поисковых запросов
Вид
критерия релевантности документов
Релевантность - смысловое соответствие
Формальная релевантность.
Содержательная релевантность
Пертинентность
Слайд 20Простейшие модели поиска
Модель дескрипторного поиска
Дескриптор - совокупность слов
или словосочетаний
Дескриптор приписывается документу:
1) на основе содержания (индексирование по содержанию),
2) на основе названия (индексирование по заголовкам).
Слайд 21Простейшие модели поиска
Модель, основанная на Дублинском ядре
Дублинское ядро – набор метаданных, зафиксированных в
спецификации определяющего стандарта.
Образ документа Dk : Dk = {( Nik , Vik )}
Представление запроса: Q = {( Nj , Vj )}
Критерий релевантности k-го документа: Q ⊂ Dk
Слайд 22Модели поиска
Булевские модели
Образ документа - совокупность термов.
T(di) - множество термов документа di (словарь
документа )
T = Ui=1,…,n T(di) - словарь коллекции документов
Представление запроса: булевское выражение.
Критерий релевантности – истинность булевского
выражения.
Слайд 23Модели поиска
Векторные модели
Образ документа Dk :
( w1k, w2k, …, wnk )
веса термов
Например: wik = nik /Nk )
количество повторений i-го терма число термов документа
Представление запроса: ( w1, w2, …, wn )
Критерий релевантности вычисляется как результат операций над векторами
Слайд 24Модели поиска
Вероятностные модели
(PRP -
Probabilistic Ranking Principle)
Для документа Dk определяется оценка вероятности
релевантности запросу.