Разделы презентаций


ПОИСК В ГИПЕРТЕКСТОВЫХ СИСТЕМАХ

Содержание

ОСНОВНЫЕ ОПРЕДЕЛЕНИЯРелевантными называются документы, в наибольшей степени соответствующие потребностям пользователя, проводящего их поиск.Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексацией.База данных поисковой машины, в которой хранится

Слайды и текст этой презентации

Слайд 1ПОИСК В ГИПЕРТЕКСТОВЫХ СИСТЕМАХ

ПОИСК В ГИПЕРТЕКСТОВЫХ СИСТЕМАХ

Слайд 2ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Релевантными называются документы, в наибольшей степени соответствующие потребностям пользователя,

проводящего их поиск.
Процесс загрузки из Сети информации и предварительного анализа

ее поисковой машиной называется индексацией.
База данных поисковой машины, в которой хранится собранная информация называется индексом.
ОСНОВНЫЕ ОПРЕДЕЛЕНИЯРелевантными называются документы, в наибольшей степени соответствующие потребностям пользователя, проводящего их поиск.Процесс загрузки из Сети информации

Слайд 3КАТАЛОГИ И ПОИСКОВЫЕ МАШИНЫ
Поисковые каталоги:
с их помощью можно достаточно

быстро найти несколько сайтов, содержащих информацию по интересующей вас теме;



имеют удобную древовидную структуру;

web – узлы перечисляются в порядке их значимости ( с точки зрения редактора каталога);

возможна сортировка по посещаемости, дате открытия и др.
КАТАЛОГИ И ПОИСКОВЫЕ МАШИНЫ	Поисковые каталоги: с их помощью можно достаточно быстро найти несколько сайтов, содержащих информацию по

Слайд 4НЕДОСТАТКИ КАТАЛОГОВ
Необъективность «ранжирования» сайтов.

В каталоги попадают далеко не все сайты.

Обновление

каталогов происходит достаточно медленно.

НЕДОСТАТКИ КАТАЛОГОВНеобъективность «ранжирования» сайтов.В каталоги попадают далеко не все сайты.Обновление каталогов происходит достаточно медленно.

Слайд 5ПОИСКОВЫЕ МАШИНЫ
Это комплекс программ, которые:

обеспечивают оперативное обновление информации о

тысячах Web- узлов Интернет;

проводят индексацию Web- страниц и документов, т.е.

заносят в базу данных поисковой машины информацию о них.

ПОИСКОВЫЕ МАШИНЫ	Это комплекс программ, которые: обеспечивают оперативное обновление информации о тысячах Web- узлов Интернет;проводят индексацию Web- страниц

Слайд 6ПРЕИМУЩЕСТВА ПОИСКОВЫХ МАШИН
Малое количество в результатах поиска устаревших ссылок.
Намного большее

количество Web- узлов, по которым производится поиск.
Более высокая скорость поиска.
Поисковая

машина выдает сразу адреса конкретных документов.
Высокая релевантность поиска.


ПРЕИМУЩЕСТВА ПОИСКОВЫХ МАШИНМалое количество в результатах поиска устаревших ссылок.Намного большее количество Web- узлов, по которым производится поиск.Более

Слайд 7НЕДОСТАТКИ ПОИСКОВЫХ МАШИН
Ограниченная область поиска
Относительная сложность использования
Менее наглядная форма представления

результатов запроса

НЕДОСТАТКИ ПОИСКОВЫХ МАШИНОграниченная область поискаОтносительная сложность использованияМенее наглядная форма представления результатов запроса

Слайд 8РЕЙТИНГИ И ПОРТАЛЫ
Рейтинги- сайты, с помощью которых очень быстро можно

найти адреса наиболее посещаемых сайтов по интересующей теме.

Порталы – сайты,

содержащие новости, развлечения, почтовые ящики и т. д.

РЕЙТИНГИ И ПОРТАЛЫРейтинги- сайты, с помощью которых очень быстро можно найти адреса наиболее посещаемых сайтов по интересующей

Слайд 9КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ. СОСТАВ «ПОИСКОВИКА»
Spider («паук») –программа, которая загружает в

поисковую машину Web – страницы.
Crawler («червяк») – программа, способная найти

на Web – странице все ссылки на другие страницы.
Indexer (индексатор) – программа, которая разбирает страницу на составные части и анализирует их.

КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ. СОСТАВ «ПОИСКОВИКА»Spider («паук») –программа, которая загружает в поисковую машину Web – страницы.Crawler («червяк»)

Слайд 10КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ. СОСТАВ «ПОИСКОВИКА
Database (база данных) – хранилище всех

данных, которые поисковая система загружает и анализирует
Search Engine Results Engine

(система выдачи результатов поиска) решает, какие страницы удовлетворяет запросу пользователя и в какой степени.
КАК РАБОТАЮТ ПОИСКОВЫЕ МАШИНЫ. СОСТАВ «ПОИСКОВИКАDatabase (база данных) – хранилище всех данных, которые поисковая система загружает и

Слайд 11ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Релевантными называются документы, в наибольшей степени соответствующие потребностям пользователя,

проводящего их поиск.
Процесс загрузки из Сети информации и предварительного анализа

ее поисковой машиной называется индексацией, а сама база данных поисковой машины, в которой хранится собранная информация называется индексом.
ОСНОВНЫЕ ОПРЕДЕЛЕНИЯРелевантными называются документы, в наибольшей степени соответствующие потребностям пользователя, проводящего их поиск.Процесс загрузки из Сети информации

Слайд 12ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
Алгоритм поиска – метод, руководствуясь которым поисковая машина принимает

решение, включать или не включать ссылку на страницу либо документ

в результате поиска.
ОСНОВНЫЕ ОПРЕДЕЛЕНИЯАлгоритм поиска – метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на

Слайд 13ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:
Присутствует

ли ключевое слово в заголовке документа?

Присутствует ли ключевое слово в

имени домена или в адресе страницы?

Встречается ли ключевое слово в подзаголовке документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?

Как часто ключевое слово встречается на странице?
ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:Присутствует ли ключевое слово в заголовке документа?Присутствует ли

Слайд 14ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:
Встречаются

ли ключевые слова в описаниях страниц, выполненных их разработчиком, и

среди ключевых слов, указанных разработчиком страниц?

На какие Web–узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?

Какие Web –узлы имеют ссылку на анализируемый сайт? Каков текст ссылки?

На какие еще страницы данного сайта содержит ссылки анализируемая страница?
ОСНОВНЫЕ ЭТАПЫ АЛГОРИТМА ПОИСКА – ЭТО ОТВЕТЫ НА СЛЕДУЮЩИЕ ВОПРОСЫ:Встречаются ли ключевые слова в описаниях страниц, выполненных

Слайд 15АЛГОРИТМЫ ПОИСКА
ЗАКОНЫ ЗИПФА (1949 г.)
Длинные слова встречаются в тексте реже,

чем короткие – закономерность!

АЛГОРИТМЫ ПОИСКАЗАКОНЫ ЗИПФА (1949 г.)Длинные слова встречаются в тексте реже, чем короткие – закономерность!

Слайд 16ПЕРВЫЙ ЗАКОН ЗИПФА
Связывает частоту появления того или иного слова в

каком-то тексте (она называется частота вхождения слова) с рангом этой

частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице.
Частоте вхождения тех, что встречаются чуть реже, - ранг 2 и т. д.
Если умножить вероятность обнаружения слова в тексте на ранг частоты его вхождения, то получившаяся величина приблизительно постоянна.

ПЕРВЫЙ ЗАКОН ЗИПФАСвязывает частоту появления того или иного слова в каком-то тексте (она называется частота вхождения слова)

Слайд 17ПЕРВЫЙ ЗАКОН ЗИПФА
В математике такая зависимость отображается гиперболой.
Например, если наиболее

распространенное слово встречается в тексте 100 раз, то следующее по

распространенности слово встретится не 99 и не 90, а примерно 50 раз.
Значение вышеупомянутой постоянной в различных языках различно, но внутри одной языковой группы она остается неизменной.
Для английского текста постоянная Зипфа равна 0,1, для русского языка примерно 0,06-0,07.
ПЕРВЫЙ ЗАКОН ЗИПФАВ математике такая зависимость отображается гиперболой.Например, если наиболее распространенное слово встречается в тексте 100 раз,

Слайд 18ВТОРОЙ ЗАКОН ЗИПФА
Частота и количество слов, входящих в текст с

этой частой, связаны между собой.

Если построить график зависимости частоты

вхождения слова от количества слов, входящих в текст с данной частотой, то получавшаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов.
ВТОРОЙ ЗАКОН ЗИПФАЧастота и количество слов, входящих в текст с этой частой, связаны между собой. Если построить

Слайд 19АНАЛИЗ ГРАФИКА ЗАВИСИМОСТИ РАНГА ОТ ЧАСТОТЫ
Наиболее значимые для текста слова

лежат в средней части диаграммы.

Чтобы сузить диапазон значимых слов, создается

словарь «бесполезных» слов (стоп-слов).

АНАЛИЗ ГРАФИКА ЗАВИСИМОСТИ РАНГА ОТ ЧАСТОТЫНаиболее значимые для текста слова лежат в средней части диаграммы.Чтобы сузить диапазон

Слайд 20ИНВЕРСНАЯ ЧАСТОТА ТЕРМИНА
Значение этого параметра тем меньше, чем чаще слово

встречается в документах базы данных.
На его основе вычисляется весовой коэффициент,

отражающий значимость термина.
Весовые коэффициенты слов вычисляются с учетом местоположения термина внутри документа, взаимного расположения терминов и морфологических особенностей.
В качестве терминов могут выступать словосочетания. Например: «математический анализ».

ИНВЕРСНАЯ ЧАСТОТА ТЕРМИНАЗначение этого параметра тем меньше, чем чаще слово встречается в документах базы данных.На его основе

Слайд 21ПОЛНОТА И ТОЧНОСТЬ ПОИСКА. РЕЛЕВАНТНОСТЬ
Релевантным называется документ, имеющий отношение к

сделанному запросу.
Релевантность – смысловое соответствие между информационным запросом и полученным

сообщением.
Релевантность – мера соответствия результатов поиска задаче, поставленной в запросе.
Релевантность – соответствие ответа вопросу с учетом таких понятий, как полнота и точность поиска.
ПОЛНОТА И ТОЧНОСТЬ ПОИСКА. РЕЛЕВАНТНОСТЬ Релевантным называется документ, имеющий отношение к сделанному запросу.Релевантность – смысловое соответствие между

Слайд 22ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИ
Реальная потребность – неосознанная истинная информационная потребность пользователя,

возникающая при поиске некой новой информации исследователем, про которую он

сам толком ничего не знает.
Осознанная потребность – то, как пользователь понимает стоящую перед ним неосознанную проблему.
ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИРеальная потребность – неосознанная истинная информационная потребность пользователя, возникающая при поиске некой новой информации исследователем,

Слайд 23ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИ
Выраженная потребность – то, как пользователь описывает свою

потребность средствами естественного языка.
Формализованная потребность – представление выраженной потребности средствами

языка запросов поисковой системы.
ВИДЫ ИНФОРМАЦИОННОЙ ПОТРЕБНОСТИВыраженная потребность – то, как пользователь описывает свою потребность средствами естественного языка.Формализованная потребность – представление

Слайд 24РЕЛЕВАНТНЫЙ ДОКУМЕНТ
Это документ, который имеет отношение к сделанному пользователем запросу

и содержит необходимую пользователю информацию или какую-то ее часть.

РЕЛЕВАНТНЫЙ ДОКУМЕНТЭто документ, который имеет отношение к сделанному пользователем запросу и содержит необходимую пользователю информацию или какую-то

Слайд 25КОЭФФИЦИЕНТЫ ПОЛНОТЫ И ТОЧНОСТИ
Коэффициентом полноты поиска (или просто полнотой поиска)

называют
отношение количества полученных релевантных результатов к общему количеству существующих

в поисковом массиве документов, релевантных данному запросу.
Коэффициент точности поиска -
это отношение количества релевантных результатов к общему числу документов, ссылки на которые содержатся в ответе ИПС.
КОЭФФИЦИЕНТЫ ПОЛНОТЫ И ТОЧНОСТИКоэффициентом полноты поиска (или просто полнотой поиска) называют	 отношение количества полученных релевантных результатов к

Слайд 26Основные принципы создания поисковых алгоритмов
Web- страницы и размещаемые на них

документы создают с помощью языка HTML

Особые элементы HTML- документа –дескрипторы

позволяют придать должную форму тексту (разбить его на абзацы, снабдить заголовками и т. д.) и разместить на Web- странице любую другую информацию

С помощью гиперссылок устанавливаются связи между страницами

Дескрипторы позволяют снабдить страницу метаинформацией, позволяющей поисковой машине определить информации

Основные принципы создания поисковых алгоритмовWeb- страницы и размещаемые на них документы создают с помощью языка HTMLОсобые элементы

Слайд 27ВЫВОДЫ
Поисковая машина - это комплект программ, в основе которого лежит

поисковый робот,
индексатор,
база данных и система выдачи результатов.

ВЫВОДЫПоисковая машина - это комплект программ, в основе которого лежит поисковый робот, индексатор, база данных и система

Слайд 28ВЫВОДЫ
Каждая ИПС использует свой алгоритм поиска. При этом учитываются статистические

закономерности.
Качество поиска характеризуется параметрами – полнота и качество поиска.
Чем

выше полнота поиска, тем меньше релевантных документов остается не включенными в результаты поиска.
Точность поиска тем выше, чем меньше в результатах поиска нерелевантных документов.
С помощью логических операторов можно очень точно указать поисковой машине, что именно интересует пользователя.
Такой поиск называют сложным.

ВЫВОДЫКаждая ИПС использует свой алгоритм поиска. При этом учитываются статистические закономерности.Качество поиска характеризуется параметрами – полнота и

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика