Слайд 1ПОИСК В ГИПЕРТЕКСТОВЫХ СИСТЕМАХ
Слайд 2ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Релевантными называются документы, в наибольшей степени соответствующие потребностям пользователя,
проводящего их поиск.
Процесс загрузки из Сети информации и предварительного анализа
ее поисковой машиной называется индексацией.
База данных поисковой машины, в которой хранится собранная информация называется индексом.
Слайд 3КАТАЛОГИ И ПОИСКОВЫЕ МАШИНЫ
Поисковые каталоги:
с их помощью можно достаточно
быстро найти несколько сайтов, содержащих информацию по интересующей вас теме;
имеют удобную древовидную структуру;
web – узлы перечисляются в порядке их значимости ( с точки зрения редактора каталога);
возможна сортировка по посещаемости, дате открытия и др.
Слайд 4НЕДОСТАТКИ КАТАЛОГОВ
Необъективность «ранжирования» сайтов.
В каталоги попадают далеко не все сайты.
Обновление
каталогов происходит достаточно медленно.
Слайд 5ПОИСКОВЫЕ МАШИНЫ
Это комплекс программ, которые:
обеспечивают оперативное обновление информации о
тысячах Web- узлов Интернет;
проводят индексацию Web- страниц и документов, т.е.
заносят в базу данных поисковой машины информацию о них.
Слайд 6ПРЕИМУЩЕСТВА ПОИСКОВЫХ МАШИН
Малое количество в результатах поиска устаревших ссылок.
Намного большее
количество Web- узлов, по которым производится поиск.
Более высокая скорость поиска.
Поисковая
машина выдает сразу адреса конкретных документов.
Высокая релевантность поиска.
Слайд 7НЕДОСТАТКИ ПОИСКОВЫХ МАШИН
Ограниченная область поиска
Относительная сложность использования
Менее наглядная форма представления
результатов запроса
Слайд 8РЕЙТИНГИ И ПОРТАЛЫ
Рейтинги- сайты, с помощью которых очень быстро можно
найти адреса наиболее посещаемых сайтов по интересующей теме.
Порталы – сайты,
содержащие новости, развлечения, почтовые ящики и т. д.
Слайд 9КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ.
СОСТАВ «ПОИСКОВИКА»
Spider («паук») –программа, которая загружает в
поисковую машину Web – страницы.
Crawler («червяк») – программа, способная найти
на Web – странице все ссылки на другие страницы.
Indexer (индексатор) – программа, которая разбирает страницу на составные части и анализирует их.
Слайд 10КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ.
СОСТАВ «ПОИСКОВИКА
Database (база данных) – хранилище всех
данных, которые поисковая система загружает и анализирует
Search Engine Results Engine
(система выдачи результатов поиска) решает, какие страницы удовлетворяет запросу пользователя и в какой степени.
Слайд 11ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Релевантными называются документы, в наибольшей степени соответствующие потребностям пользователя,
проводящего их поиск.
Процесс загрузки из Сети информации и предварительного анализа
ее поисковой машиной называется индексацией, а сама база данных поисковой машины, в которой хранится собранная информация называется индексом.
Слайд 12ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Алгоритм поиска – метод, руководствуясь которым поисковая машина принимает
решение, включать или не включать ссылку на страницу либо документ
в результате поиска.
Слайд 13ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:
Присутствует
ли ключевое слово в заголовке документа?
Присутствует ли ключевое слово в
имени домена или в адресе страницы?
Встречается ли ключевое слово в подзаголовке документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?
Как часто ключевое слово встречается на странице?
Слайд 14ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:
Встречаются
ли ключевые слова в описаниях страниц, выполненных их разработчиком, и
среди ключевых слов, указанных разработчиком страниц?
На какие Web–узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?
Какие Web –узлы имеют ссылку на анализируемый сайт? Каков текст ссылки?
На какие еще страницы данного сайта содержит ссылки анализируемая страница?
Слайд 15АЛГОРИТМЫ ПОИСКА
ЗАКОНЫ ЗИПФА (1949 г.)
Длинные слова встречаются в тексте реже,
чем короткие – закономерность!
Слайд 16ПЕРВЫЙ ЗАКОН ЗИПФА
Связывает частоту появления того или иного слова в
каком-то тексте (она называется частота вхождения слова) с рангом этой
частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице.
Частоте вхождения тех, что встречаются чуть реже, - ранг 2 и т. д.
Если умножить вероятность обнаружения слова в тексте на ранг частоты его вхождения, то получившаяся величина приблизительно постоянна.
Слайд 17ПЕРВЫЙ ЗАКОН ЗИПФА
В математике такая зависимость отображается гиперболой.
Например, если наиболее
распространенное слово встречается в тексте 100 раз, то следующее по
распространенности слово встретится не 99 и не 90, а примерно 50 раз.
Значение вышеупомянутой постоянной в различных языках различно, но внутри одной языковой группы она остается неизменной.
Для английского текста постоянная Зипфа равна 0,1, для русского языка примерно 0,06-0,07.
Слайд 18ВТОРОЙ ЗАКОН ЗИПФА
Частота и количество слов, входящих в текст с
этой частой, связаны между собой.
Если построить график зависимости частоты
вхождения слова от количества слов, входящих в текст с данной частотой, то получавшаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов.
Слайд 19АНАЛИЗ ГРАФИКА ЗАВИСИМОСТИ РАНГА ОТ ЧАСТОТЫ
Наиболее значимые для текста слова
лежат в средней части диаграммы.
Чтобы сузить диапазон значимых слов, создается
словарь «бесполезных» слов (стоп-слов).
Слайд 20ИНВЕРСНАЯ ЧАСТОТА ТЕРМИНА
Значение этого параметра тем меньше, чем чаще слово
встречается в документах базы данных.
На его основе вычисляется весовой коэффициент,
отражающий значимость термина.
Весовые коэффициенты слов вычисляются с учетом местоположения термина внутри документа, взаимного расположения терминов и морфологических особенностей.
В качестве терминов могут выступать словосочетания. Например: «математический анализ».
Слайд 21ПОЛНОТА И ТОЧНОСТЬ ПОИСКА. РЕЛЕВАНТНОСТЬ
Релевантным называется документ, имеющий отношение к
сделанному запросу.
Релевантность – смысловое соответствие между информационным запросом и полученным
сообщением.
Релевантность – мера соответствия результатов поиска задаче, поставленной в запросе.
Релевантность – соответствие ответа вопросу с учетом таких понятий, как полнота и точность поиска.
Слайд 22ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИ
Реальная потребность – неосознанная истинная информационная потребность пользователя,
возникающая при поиске некой новой информации исследователем, про которую он
сам толком ничего не знает.
Осознанная потребность – то, как пользователь понимает стоящую перед ним неосознанную проблему.
Слайд 23ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИ
Выраженная потребность – то, как пользователь описывает свою
потребность средствами естественного языка.
Формализованная потребность – представление выраженной потребности средствами
языка запросов поисковой системы.
Слайд 24РЕЛЕВАНТНЫЙ ДОКУМЕНТ
Это документ, который имеет отношение к сделанному пользователем запросу
и содержит необходимую пользователю информацию или какую-то ее часть.
Слайд 25КОЭФФИЦИЕНТЫ ПОЛНОТЫ И ТОЧНОСТИ
Коэффициентом полноты поиска (или просто полнотой поиска)
называют
отношение количества полученных релевантных результатов к общему количеству существующих
в поисковом массиве документов, релевантных данному запросу.
Коэффициент точности поиска -
это отношение количества релевантных результатов к общему числу документов, ссылки на которые содержатся в ответе ИПС.
Слайд 26Основные принципы создания поисковых алгоритмов
Web- страницы и размещаемые на них
документы создают с помощью языка HTML
Особые элементы HTML- документа –дескрипторы
позволяют придать должную форму тексту (разбить его на абзацы, снабдить заголовками и т. д.) и разместить на Web- странице любую другую информацию
С помощью гиперссылок устанавливаются связи между страницами
Дескрипторы позволяют снабдить страницу метаинформацией, позволяющей поисковой машине определить информации
Слайд 27ВЫВОДЫ
Поисковая машина - это комплект программ, в основе которого лежит
поисковый робот,
индексатор,
база данных и система выдачи результатов.
Слайд 28ВЫВОДЫ
Каждая ИПС использует свой алгоритм поиска. При этом учитываются статистические
закономерности.
Качество поиска характеризуется параметрами – полнота и качество поиска.
Чем
выше полнота поиска, тем меньше релевантных документов остается не включенными в результаты поиска.
Точность поиска тем выше, чем меньше в результатах поиска нерелевантных документов.
С помощью логических операторов можно очень точно указать поисковой машине, что именно интересует пользователя.
Такой поиск называют сложным.