Разделы презентаций


ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА

Содержание

ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА {di} – множество документов информационного хранилища D r(di, dj) - оценка смысловой близости двух документов di

Слайды и текст этой презентации

Слайд 1Министерство образования Российской Федерации Казанский государственный технический университет им. А.Н.Туполева Кафедра АСОИУ
Интеллектуальные

информационные системы


Лекция 7
Системы обработки естественного языка.
Информационно-поисковые системы




2011

Министерство образования Российской Федерации Казанский государственный технический университет им. А.Н.Туполева Кафедра АСОИУИнтеллектуальные информационные системыЛекция 7Системы обработки естественного

Слайд 2ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА
{di} – множество документов

информационного хранилища D

r(di, dj) - оценка смысловой близости двух документов di и dj
d0 - некоторый воображаемый (виртуальный) документ
определенного содержания.
Задача информационного поиска:
В информационном хранилище требуется отыскать:
некоторый документ di такой, что
r(di, d0)=0
или множество документов D0 = {di}, что
r(di, d0) min для всех di из множества D0 .

ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА   {di} – множество документов информационного хранилища D

Слайд 3Оценка результатов информационного поиска
Информационная полнота - все ли нужные

документы найдены.
Информационный шум - отобраны и ненужные с точки зрения

информационного запроса документы.










Dp - множество документов, полученных в
результате выполнения поисковых процедур.
kп - коэффициент полноты
kш, - коэффициент шума
Оценка результатов информационного поиска  Информационная полнота - все ли нужные документы найдены.Информационный шум - отобраны и

Слайд 4Возможные варианты результатов поиска:
Dр = D0, т.е. найдены все адекватные

смыслу запроса

документы.
kп = 1, kш = 0.
2. Dр ⊂ D0 Информационный поиск является неполным:
0 <= kп<1, kш = 0.
3. D0 ⊂ Dр, В результате поиска отобраны лишние
документы (информационный шум):
kп = 1, 0<= kш <1.
4. Пересечение Dp и D0 не пустое, при Dp != 0 и D0 != 0,
0 <= kп <1, 0<= kш <1.
5. Пересечение Dp и D0 пустое, при Dp != 0 и D0 != 0,
kп = 0, kш = 1.

Возможные варианты результатов поиска:Dр = D0, т.е. найдены все адекватные смыслу запроса

Слайд 5
Вычисление kп и kш






Вычисление   kп  и   kш

Слайд 6 Вычисление kп и kш




Интегральная оценка эффективности поиска


Вычисление   kп  и   kш Интегральная оценка эффективности поиска

Слайд 7 Вычисление kп и kш




Интегральная оценка эффективности поиска


Коэффициент точности Kτ =

1 - kш



Вычисление   kп  и   kш Интегральная оценка эффективности поиска Коэффициент точности

Слайд 8Факторы, влияющие на процессы обработки информации
Огромный объем доступной информации
Взаимосвязи
Высокий

процент временной информации
Неконтролируемое качество информации
Разнотипность информации
Избыточность
Разнородность пользователей

Факторы, влияющие на процессы обработки информацииОгромный объем доступной информацииВзаимосвязи Высокий процент временной информации Неконтролируемое качество информацииРазнотипность информацииИзбыточностьРазнородность

Слайд 9 Фактографические ИПС (ФИПС)
Характерные отличия::
- высокая однородность

сообщений,
- фиксированный порядок следования признаков объектов


Способы поиска:
    -   поиск по совпадению значений для одного или
нескольких признаков;
    -   поиск по интервалу:
- поиск, по выражению, когда используется некий
логический критерий
kп max = 1 при kш = 0
Фактографические ИПС (ФИПС) Характерные отличия:: - высокая однородность сообщений,  - фиксированный порядок следования признаков объектов

Слайд 10Документальные (библиографические) ИПС
Характерные отличия:
- хранение и поиск текстовых

документов.

Методы поиска:
  Поиск по метаданным.
Поиск на основе

морфологического разбора.
  Поиск на основе оценок релевантности документа запросу.
  Поиск с использованием языков запросов.
  Поиск на основе семантического анализа.
kп max= 0.5 при kш max = 1
Документальные (библиографические) ИПС Характерные отличия: - хранение и поиск текстовых документов.Методы поиска:   Поиск по метаданным.

Слайд 11Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа

в ДИПС





Информационный поиск в ДИПС Дескрипторный поиск

Слайд 12Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа

в ДИПС





Информационный поиск в ДИПС Дескрипторный поиск

Слайд 13Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа

в ДИПС





Формирование ПОД
Включение ПОД в массив ПОД.
3. Пополнение словаря дескрипторов
Информационный поиск в ДИПС Дескрипторный поиск

Слайд 14Информационный поиск в ДИПС Дескрипторный поиск






Релевантность -

смысловое соответствие

Информационный поиск в ДИПС Дескрипторный поиск  Релевантность - смысловое соответствие

Слайд 15




ГИПЕРТЕКСТОВЫЕ ИПС
Основные идеи гипертекста:
- текст разбит на семантические единицы;

- между сетами устанавливаются связи;
- текст читается

по различным траекториям.

ИСС1

ИСС2 ИСС3
. . . . . .
ИССn+1 ИССn
ГИПЕРТЕКСТОВЫЕ ИПСОсновные идеи гипертекста: - текст разбит на семантические единицы;  - между сетами устанавливаются связи;

Слайд 16Модель ИСС

(х0 , х1 ,… х10 , х11)

х0 - имя ИСС,
х1 - заголовок ИСС,
х2 - аннотация ИСС,
х3 - точка входа в ИСС,
х4 - множество текстовых документов ИСС,
х5 – множество цифровых объектов ИСС,
х6 - множество программных объектов ИСС,
х7 - справка по ИСС,
х8 - признак ускоренного просмотра ИСС,
х9 - признак детального просмотра,
х10 - список гиперссылок внутри ИСС,
х11 - список гиперссылок между ИСС
Модель ИСС            (х0 , х1 ,…

Слайд 17Структура гипертекста

Структура гипертекста

Слайд 18ГИПС
1. Атрибутивный поиск с помощью SQL-запросов, адресуемых на

выполнение сопряженной СУБД.
2.     Поиск по логической формуле, составленной из ключевых

слов.
3.     Лексический поиск на основе релевантности, оцениваемой пропорционально количеству терминов из запроса.
4.     Ассоциативный поиск, учитывающий вхождение терминов, связанных отношением ассоциативности с терминами запроса.
5.     Поиск ассоциаций используется для ассоциативного расширения и уточнения запроса в диалоге с пользователем.
6.     Поиск документов по семантическому подобию.
7.     Комбинированный поиск.
kп max= 0.9 – 1 при kш max = 0.1 – 0.2
ГИПС 1. Атрибутивный поиск с помощью SQL-запросов, адресуемых на выполнение сопряженной СУБД.2.     Поиск по логической формуле, составленной

Слайд 19Модель поиска

Способ представления документов
Способ представления поисковых запросов
Вид

критерия релевантности документов

Релевантность - смысловое соответствие
Формальная релевантность.

Содержательная релевантность
Пертинентность

Модель поиска Способ представления документов Способ представления поисковых запросов Вид критерия релевантности документов Релевантность - смысловое соответствие

Слайд 20Простейшие модели поиска
Модель дескрипторного поиска
Дескриптор - совокупность слов

или словосочетаний

Дескриптор приписывается документу:

1) на основе содержания (индексирование по содержанию),
2) на основе названия (индексирование по заголовкам).
Простейшие модели поискаМодель дескрипторного поиска  Дескриптор - совокупность слов или словосочетаний   Дескриптор приписывается документу:

Слайд 21Простейшие модели поиска
Модель, основанная на Дублинском ядре

Дублинское ядро – набор метаданных, зафиксированных в

спецификации определяющего стандарта.
Образ документа Dk : Dk = {( Nik , Vik )}
Представление запроса: Q = {( Nj , Vj )}

Критерий релевантности k-го документа: Q ⊂ Dk
Простейшие модели поискаМодель, основанная на Дублинском ядре      Дублинское ядро – набор метаданных,

Слайд 22Модели поиска
Булевские модели
Образ документа - совокупность термов.

T(di) - множество термов документа di (словарь

документа )
T = Ui=1,…,n T(di) - словарь коллекции документов

Представление запроса: булевское выражение.
Критерий релевантности – истинность булевского
выражения.
Модели поиска Булевские модели  Образ документа - совокупность термов.  T(di) - множество термов документа di

Слайд 23Модели поиска
Векторные модели
Образ документа Dk :

( w1k, w2k, …, wnk )

веса термов
Например: wik = nik /Nk )
количество повторений i-го терма число термов документа
Представление запроса: ( w1, w2, …, wn )

Критерий релевантности вычисляется как результат операций над векторами
Модели поиска Векторные модели  Образ документа  Dk :  ( w1k, w2k, …, wnk )

Слайд 24Модели поиска
Вероятностные модели

(PRP -

Probabilistic Ranking Principle)
Для документа Dk определяется оценка вероятности
релевантности запросу.

Модели поиска Вероятностные модели

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика