Слайд 1Поиск информации.
Борисов В.А.
Красноармейский филиал
ГОУ ВПО «Академия народного хозяйства
при Правительстве РФ»
Красноармейск 2009 г.
Слайд 2Поиск информации
Задача, которую человечество решает уже многие столетия.
Слайд 3
Все найденные за много лет средства и приемы поиска информации
доступны и эффективны и при поиске информации в Интернет.
Слайд 4“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”
Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся
к делу, подходящий по сути”.
Слайд 5Цель информационного поиска
Найти все пертинентные и только пертинентные документы (мы
хотим найти “только то, что хотим, и ничего больше”).
Эта цель
- идеальна и пока недостижима.
Слайд 6
Для того, чтобы было с чем сравнивать, необходимо некоторое количество
непертинентных документов.
Эти документы называются - “ШУМ”.
Слайд 7
Когда документов много, используется информационно-поисковая система (ИПС).
В этом случае
информационная потребность должна быть выражена средствами, которые “понимает” ИПС -
должен быть сформулирован ЗАПРОС.
Слайд 8РЕЛЕВАНТНОСТЬ
Степень соответствия документа запросу.
Слайд 9
Виды информационно поисковых систем
Слайд 10Классификационные ИПС
В классификационных ИПС используется иерархическая (древовидная) организация информации, которая
называется КЛАССИФИКАТОРОМ.
Слайд 11
Разделы классификатора называются РУБРИКАМИ.
Библиотечный аналог классификационной ИПС - систематический
каталог.
ИПС Web-кольца
Поиск названия нужного предмета своего интереса (предметом может быть
и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
Слайд 13Словарные ИПС
Основная идея словарной ИПС - создать словарь из слов,
встречающихся в документах Интернет, в котором при каждом слове будет
храниться список документов, из которых взято данное слово.
Слайд 14
Два основных алгоритма работы словарных ИПС:
-с использованием ключевых слов,
-с
использованием дескрипторов.
Слайд 15Использование ключевых слов
Для оценки содержимого документа используются только те слова,
которые в нем встречаются, и по запросу ИПС сопоставляет слова
из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
Слайд 16Использование дескрипторов
Индексируемые документы переводятся на некоторый дескрипторный информационный язык.
Дескрипторный
информационный язык, как и любой другой язык, состоит из алфавита
(символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
Слайд 17Ранжирование результатов поиска
Все ИПС в настоящее время уделяют основное внимание
именно алгоритму ранжирования полученных ссылок.
Слайд 18Критерии при ранжировании в ИПС
наличие слов из запроса в
документе, их количество, близость к началу документа, близость друг к
другу;
наличие слов из запроса в заголовках и подзаголовках документов;
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.
Слайд 19Современные проблемы поисковых систем
Когда эти технологии разрабатывались никто из разработчиков
не представлял себе, что Интернет станет глобальной информационной средой.
Слайд 20Архитектура
crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках
изменений на страницах;
indexer (индексатор) - индексирует ресурсы, строит базы
данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
Слайд 21Алгоритмы поиска и ранжирования
Основной проблемой современных поисковых систем является то,
что по причине фактически устаревшей архитектуры они не могут обеспечить
качественный поиск информации.
Слайд 22Основные моменты новой архитектуры ИПС
Переход к распределенной модели вычислений;
Переход
от модели «один поиск на всех» к модели персонального поиска;
Переход
от критериев релевантности к критерию пертинентности;
Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.