Слайд 1Лекция № 1
Поисковые системы Internet
Слайд 2ОСНОВНЫЕ ПОНЯТИЯ WORLD WIDE WEB
Сегодня Интернет используется как источник разносторонней
информации по различным областям знаний.
Большинство документов, доступных на серверах
Интернета, имеют гипертекстовый формат.
Службу Интернета, управляющую передачей таких документов, называют World Wide Web (Web, WWW). Этим же термином, или средой WWW называют обширную совокупность Web-документов, между которыми существуют гипертекстовые связи.
Среда WWW не имеет централизованной структуры. Она пополняется теми, кто желает разместить в Интернете свои материалы, и может рассматриваться как информационное пространство.
Слайд 3ОСНОВНЫЕ ПОНЯТИЯ WORLD WIDE WEB
Как правило, документы WWW хранятся на
постоянно подключенных к Интернету компьютерах — Web-серверах.
Обычно на Web-сервере
размещают не отдельный документ, а группу взаимосвязанных документов. Такая группа представляет собой Web-узел (жаргонный термин — Web-сайт). Размещение подготовленных материалов на Web-узле называется Web-изданием или Web-публикацией.
Слайд 4ОСНОВНЫЕ ПОНЯТИЯ WORLD WIDE WEB
Web-страница.
Отдельный документ World Wide Web
называют Web-страницей. Обычно это комбинированный документ, который может содержать текст,
графические иллюстрации, мультимедийные и другие вставные объекты.
Для создания Web-страниц используется язык HTML (HyperText Markup Language — язык разметки гипертекста), который при помощи вставленных в документ тегов описывает логическую структуру документа, управляет форматированием текста и размещением вставленных объектов.
Интерактивные Web-узлы получают информацию от пользователя через формы и генерируют запрошенную Web-страницу с помощью специальных программ (сценариев CGI), динамического HTML и других средств.
Слайд 5ОСНОВНЫЕ ПОНЯТИЯ WORLD WIDE WEB
Гиперссылки.
Отличительной особенностью среды World Wide
Web является наличие средств перехода от одного документа к другому,
тематически с ним связанному, без явного указания адреса. Связь между документами осуществляется при помощи гипертекстовых ссылок (или просто гиперссылок).
Гипертекстовая ссылка — это выделенный фрагмент документа (текст или иллюстрация), с которым ассоциирован адрес другого Web-документа.
При использовании гиперссылки (обычно для этого требуется навести на нее указатель мыши и один раз щелкнуть) происходит переход по гиперссылке — открытие Web-страницы, на которую указывает ссылка.
Механизм гиперссылок позволяет организовать тематическое путешествие по World Wide Web без использования (и даже знания) адресов конкретных страниц.
Слайд 6ОСНОВНЫЕ ПОНЯТИЯ WORLD WIDE WEB
Средства просмотра Web.
Документы Интернета предназначены
для отображения в электронной форме, причем автор документа не знает,
каковы возможности компьютера, на котором документ будет отображаться.
Поэтому язык HTML обеспечивает не столько форматирование документа, сколько описание его логической структуры.
Форматирование и отображение документа на конкретном компьютере производится специальной программой — браузером (от английского слова browser).
Слайд 7 Гипертекст и Теги
Web-страницы в отличие от текстовых документов оформлены
без привязки к конкретному носителю.
Например, оформление документа, напечатанного на
бумаге, привязано к параметрам печатного листа, который имеет определенную ширину, высоту и размеры полей.
Электронные Web-документы предназначены для просмотра на экране компьютера, причем заранее не известно, на каком. Не известны ни размеры экрана, ни параметры цветового и графического разрешения, не известна даже операционная система, с которой работает компьютер клиента.
Web-документы не имеют «жесткого» форматирования. Оформление выполняется непосредственно во время их воспроизведения на компьютере клиента и происходит оно в соответствии с настройками программы, выполняющей просмотр.
Слайд 8
Основные функции браузеров
установление связи с Web-сервером, на котором хранится документ;
загрузка всех компонентов комбинированного документа;
интерпретация тегов языка HTML, форматирование и
отображение Web-страницы в соответствии с возможностями компьютера, на котором браузер работает;
предоставление средств для отображения мультимедийных и других объектов, входящих в состав Web-страниц, а также механизма расширения, позволяющего настраивать программу на работу с новыми типами объектов;
обеспечение автоматизации поиска Web-страниц и упрощение доступа к Web-страницам, посещавшимся ранее.
предоставление доступа к встроенным или автономным средствам для работы с другими службами Интернета.
Слайд 9
Программное обеспечение WEB серверов
Apache — свободное программное обеспечение - многие
годы является лидером по распространенности во Всемирной паутине в силу
своей надежности, гибкости, масштабируемости и безопасности.
IIS (Internet Information Services) —набор серверов для нескольких служб Интернета, разработанный Майкрософт и распространяемый с серверными операционными системами семейства Windows.
Google Web Server (GWS) — разработка компании Google на основе веб-сервера Apache. GWS оптимизирован для выполнения приложений сервиса Google Applications.
nginx [engine x] — это HTTP-сервер, совмещенный с кэширующим прокси-сервером. Разработан И. Сысоевым для компании Рамблер. Осенью 2004 года вышел первый публично доступный релиз, сейчас nginx используется на 9-12% веб-серверов.
Слайд 10Браузеры - программное обеспечение доступа к WEB серверам
Браузер, веб-обозреватель (web-browser)
— клиентское приложение для доступа к веб-серверам по протоколу HTTP
и просмотра веб-страниц. Существует большое число программ-браузеров, но наибольшей популярностью пользуются следующие:
Internet Explorer (IE) — браузер, разработанный компанией Майкрософт и тесно интегрированный c ОС Windows. Платформозависим (поддержка сторонних ОС прекращена, начиная с версии 5).
Firefox — свободный кроссплатформенный браузер, разрабатываемый Mozilla Foundation.
Safari — браузер, разработаный корпорацией Apple и входящий в состав операционной системы Mac OS X. Бесплатно распространяется для операционных систем семейства Microsoft Windows. В браузере используется уникальный по производительности интерпретатор JavaScript.
Слайд 11Браузеры - программное обеспечение доступа к WEB серверам
Chrome — кроссплатформенный
браузер, разрабатываемый компанией Google. В отличие от многих других браузеров,
в Chrome каждая вкладка является отдельным процессом. В случае если процесс обработки содержимого вкладки зависнет, его можно будет завершить без риска потери данных других вкладок. Еще одна особенность — интеллектуальная адресная строка (Omnibox). К возможности автозаполнения она добавляет поисковые функции с учетом популярности сайта, релевантности и пользовательских предпочтений (истории переходов).
Opera — кроссплатформенный многофункциональный веб-браузер.
Отличительными особенностями Opera долгое время являлись многостраничный интерфейс и возможность масштабирования веб-страниц целиком. В Opera интегрированы возможности почтового/новостного клиента, адресной книги, клиента сети BitTorrent, агрегатора RSS, клиента IRC, менеджера закачек, WAP-браузера, а также поддержка виджетов — графические модулей, работающих вне окна браузера. Специальные редакции, Opera Mobile и Opera Mini, существенно опережают прочие браузеры по числу установок на мобильные телефоны.
Слайд 12 Поиск информации в Интернет
Для поиска информации, доступной в Интернет
необходимо на странице поисковой системы заполнить форму, детализирующую информацию, которая
пользователю необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.
Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования.
В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке.
Различные поисковые системы используют различные алгоритмы ранжирования.
Слайд 131.4. Поиск информации в Интернет
Основные принципы определения релевантности следующие:
Количество
слов запроса в текстовом содержимом документа (т.е. в html-коде).
Тэги,
в которых эти слова располагаются.
Местоположение искомых слов в документе.
Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются всеми поисковыми системами.
Слайд 141.4. Поиск информации в Интернет
Наиболее развитые поисковые системы (например AltaVista,
HotBot) используют также дополнительные принципы определения релевантности.
Время - как
долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
Слайд 151.4. Поиск информации в Интернет
База данных сформирована и поисковик выводит
ранжированный подобным образом список документов с HTML и возвращает его
пользователю, сделавшему запрос.
Различные поисковые механизмы также выбирают различные способы показа полученного списка
некоторые показывают только ссылки;
другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе;
третьи показывают заголовок документа вместе со ccылкой.
Когда пользователь щелкает на ссылке к одному из документов, который его интересует, этот документ запрашивается у того сервера, на котором он находится.
Слайд 16 Проблемы поиска информации в WWW
Основные протоколы, используемые в Сети
Интернет, не обеспечены достаточными встроенными функциями поиска, не говоря уже
о миллионах серверов, находящихся в ней.
Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска.
То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP.
Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела своих функциональных возможностей, не говоря уже о пределе их эффективности.
Можно сказать, что нужную информацию невозможно получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени.
Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.
.
Слайд 17 Поисковые системы
Поисковые cистемы обычно состоят из трех компонент:
агент
(паук или кроулер) - перемещается по Сети и собирает информацию;
база данных - содержит всю информацию, собираемую агентами;
поисковый механизм - пользователи используют как интерфейс для взаимодействия с базой данных.
Слайд 18 Как работают механизмы поиска
Cредства поиска и структурирования -
агенты, пауки, кроулеры и роботы - используются для сбора информации
о документах, находящихся в Сети Интернет.
Эти специальные программы занимаются
поиском страниц в Сети,
извлечением гипертекстовых ссылок на этих страницах,
автоматически индексируют информацию,
найденную информацию используют для построения базы данных доступа к информации.
Слайд 19Как работают механизмы поиска
Каждый поисковый механизм - агент, паук,
кроулер или робот - имеет собственный набор правил, определяющих, как
именно cобирать документы.
Существуют следующие правила:
«найти все» – агент следует за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее.
«найти только текст» - агент игнорирует ссылки, ведущие к графическим и звуковым файлам, файлам мультипликации;
«найти самое популярное» – агент просматривает прежде всего наиболее популярные страницы.
Слайд 20 Агенты
Агенты - самые "интеллектуальные" из поисковых средств.
Они могут
искать cайты специфической тематики и возвращать списки cайтов, отсортированных по
их посещаемости;
делать больше, чем просто искать - могут выполнять транзакции (формализованные запросы) по заданию пользователя;
могут быть запрограммированы для извлечения информации из уже существующих баз данных;
обрабатывать содержание документов, находить и индексировать не только страницы, но и другие виды ресурсов.
Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
Слайд 21Пауки
Пауки - осуществляют общий поиск информации в Сети.
Пауки сообщают
о содержании найденного документа, индексируют его и извлекают итоговую информацию.
Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Кроулеры просматривают заголовки и возвращают только первую ссылку.
Кроулеры
Слайд 22Сравнительный обзор поисковых систем.
Yahoo.
Данная система появилась в Сети одной
из первых, и сегодня Yahoo сотрудничает со многими производителями средств
информационного поиска, а на различных ее серверах используется различное программное обеспечение.
Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR.
При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова.
Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе.
Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
.
Слайд 23 Сравнительный обзор поисковых систем.
Lycos.
Как и большинство систем,
Lycos дает возможность применять как простой запрос, так и сложный
метод поиска.
В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него stop-слова, и только после этого приступает к его выполнению.
Почти сразу выдается список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости.
Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.
Lycos относится к системе с языком запросов типа "Like this" , но намечается его расширение и на другие способы организации поисковых предписаний.
Слайд 24Сравнительный обзор поисковых систем. AltaVista.
Индексирование в этой системе осуществляется
при помощи робота. При этом робот имеет следующие приоритеты:
слова
содержащиеся в теге имеют высший приоритет; ключевые фразы в тэгах;
ключевые фразы, находящиеся в начале странички;
ключевые фразы в ALT - ссылках
ключевые фразы по количеству вхождений\присутствию слов\фраз;
Если тэгов на странице нет, робот использует первые 30 слов, которые индексирует и показывает вместо описания.
AltaVista имеет возможность расширенного поиска. Здесь реализован поиск по ключевым фразам, при этом система имеет довольно большой фразеологический словарь. Имеется возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа.
AltaVista - система с расширенным булевым поиском.
Слайд 25Сравнительный обзор поисковых систем.
Яндекс.
Яндекс – российская ИТ-компания, владеющая одноимённой
системой поиска в сети и интернет-порталом.
Поисковая машина Яндекса позволяет искать
документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.
Яндекс индексирует веб-страницы в формате HTML, документы в форматах PDF, RTF, двоичных форматах Word, Excel, PowerPoint, Flash, RSS (блоги и форумы).
Яндекс значительно превосходит другие поисковые машины в алгоритмах семантического анализа языковых конструкций.
А также
Если по запросу найдено много ссылок, страница результатов предлагает ограничить диапазон поиска – по региону (т.е. по диапазону IP) или по дате.
Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации).
Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.
Слайд 26Сравнительный обзор поисковых систем. Rambler.
Rambler Media Group – интернет-холдинг,
включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета,
информационный интернет-портал.
Rambler создан в 1996 году.
Поисковая машина понимает и различает слова русского, английского и украинского языков. Настройки языка поиска: любой, русский, английский, украинский, казахский, белорусский, татарский, французский, немецкий. Учитывается морфология.
По умолчанию поиск ведётся по всем формам слова. По умолчанию результаты ранжируются по релевантности и группируются по сайтам.
Рамблер обладает расширенными инструментами и сервисами:
Internet Explorer – последняя версия с дополнениями от Рамблера;
Ассистент – Rambler в твоем браузере;
Карты – наши пробки точнее;
Словари – перевод английских и немецких слов;
Инвентарь βeta – клавиатура, калькулятор, транслитератор;
Мой Rambler – интернет на одной странице.
Слайд 27Сравнительный обзор поисковых систем. Google.
Google – крупнейшая поисковая система,
принадлежащая корпорации Google Inc. Первая по популярности (79.65%), обрабатывает 41
млрд. 345 млн. запросов в месяц, индексирует более 25 млд. веб-страниц, может находить информацию на 191 языке.
Поддерживает поиск в документах форматов: PDF, RTF, PostScript, Word, Excel, PowerPoint и других.
Синтаксис запросов – интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д.
Википоиск – поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настоящий момент, в настройках поиска осталась настройка для включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.
Голосовой поиск – в 2010 г. компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.
Слайд 28Сравнительный обзор поисковых систем.
WAIS.
WAIS является одной из наиболее изощренных
поисковых систем Internet.
В ней не реализованы лишь поиск по
нечетким множествам и вероятностный поиск.
В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности.
Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.
Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.
Слайд 29Поисковые роботы
За последние годы Всемирная паутина стала настолько популярной, что
сейчас Интернет является одним из основных средств публикации информации. Когда
размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной.
Эта проблема побудила разработчиков на создание автоматизированной навигации по Сети, названной "роботами".
Веб-робот - это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается.
Роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.
Слайд 30Использование поисковых роботов
Роботы могут использоваться для выполнения множества полезных
задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или
зазеркаливания страниц. Рассмотрим эти задачи подробнее.
1. Статистический Анализ
Первый робот был создан для того, чтобы обнаружить и посчитать количество веб-серверов в Сети.
Другие статистические вычисления могут включать среднее число документов, приходящихся на один сервер в Сети, пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и т.д.
Слайд 31Использование поисковых роботов
2. Обслуживание гипертекстов
Одной из главных трудностей
в поддержании гипертекстовой структуры является то, что ссылки на другие
страницы могут становиться " мертвыми ссылками" в случае, когда страница переносится на другой сервер или cовсем удаляется. На сегодняшний день не существует общего механизма, который смог бы уведомить обслуживающий персонал сервера, на котором содержится документ со ссылками на подобную страницу, о том, что она изменилась или вообще удалена. Данная проблема решается вручную. В действительности авторы документов обнаруживают, что их документы содержат мертвые ссылки лишь тогда, когда их извещают непосредственно, или, что бывает очень редко.
Робот типа MOMSPIDER - проверяет ссылки, обеспечивая автоматическое обслуживание гипертекстовой структуры - проверяя соответствующий HTML-документ на соответствие принятым правилам, регулярные модернизации, и т.д.
В настоящее время гипертекстовая проверка в большинстве поисковиков не используется.
Слайд 32Использование поисковых роботов
3. Зазеркаливание
Зазеркаливание - механизм поддержания FTP
архивов.
Зеркало рекурсивно копирует полное дерево каталогов по FTP, и
затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам.
В Сети Интернет зазеркаливание может быть осуществлено с помощью робота, однако в настоящее время никаких сложных средств для этого не существует.
Существует несколько роботов, которые восстанавливают поддерево страниц и сохраняют его на локальном сервере, но они не имеют средств для обновления именно тех страниц, которые изменились.
Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением сложных кэширующих серверов, которые предлагают выборочную модернизацию
Однако, ожидается, что cредства зазеркаливания в будущем будут развиваться должным образом.
Слайд 33Использование поисковых роботов
4 Исследование ресурсов
Наиболее важное применение роботов
- использование их при исследовании ресурсов. Там, где люди не
могут справиться с огромным количеством информации, возможность переложить всю работу на компьютер выглядит довольно привлекательно.
Существует несколько роботов, которые собирают информацию в большей части Интернет и передают полученные результаты базе данных.
Это означает, что пользователь, который ранее полагался исключительно на ручную навигацию в Сети, теперь может объединить поиск с просмотром страниц для нахождения нужной ему информации. Велика вероятность того, что в результате этого поиска будет найдено немало ссылок на страницы, которые, в свою очередь, могут ссылаться на предмет его поиска.
Второе преимущество состоит в том, что эти базы данных могут автоматически обновляться за определенный период времени так, чтобы мертвые ссылки в базе данных были обнаружены и удалены, в отличие от обслуживания документов вручную, когда проверка часто является спонтанной и не полной.
Слайд 34Использование поисковых роботов
Комбинированное использование
Простой робот может выполнять
более чем одну из вышеупомянутых задач. Например робот RBSE Spider
выполняет статистический анализ запрошенных документов и обеспечивает ведение базы данных ресурсов.
Однако, подобное комбинированное использование встречается, в настоящее время, весьма редко.
Слайд 35 Повышение затрат и потенциальные опасности при использовании поисковых роботов
Использование роботов может дорого обойтись, особенно в случае, когда они
используются удаленно в Интернете. В этом разделе мы увидим, что роботы могут быть опасны, так как они предъявляют слишком высокие требования к Сети.
Слайд 36Сетевой ресурс и загрузка сервера
Роботы требуют значительной пропускной способности
канала сервера:
роботы работают непрерывно в течение длительных периодов времени, часто
даже в течение месяцев;
чтобы ускорить операции, многие роботы делают параллельные запросы страниц с сервера, ведущие в последствии к повышенному использованию пропускной способности канала сервера;
даже удаленные части Сети могут чувствовать сетевую нагрузку на ресурс, если робот делает большое количество запросов за короткий промежуток времени. Это может привести к временной нехватке пропускной способности сервера для других пользователей, особенно на серверах с низкой пропускной способностью, поскольку Интернет не имеет никаких cредств для балансирования нагрузки в зависимости от используемого протокола.
Слайд 371.6.2.1 Сетевой ресурс и загрузка сервера
4. Традиционно Интернет воспринимался
как "свободный", поскольку индивидуальные пользователи не должны были платить за
его использование. Однако теперь, когда роботы становятся повседневностью, это поставлено под сомнение. Сейчас только корпоративные пользователи платят за издержки, связанные с использованием Сети. Многие компании считают, что услуги (потенциальным) клиентам стоят оплаченных денег, а страницы, автоматически переданные роботам - нет.
5. Помимо предъявления требований к Сети, робот также предъявляет дополнительные требования к самому серверу. В зависимости от частоты, с которой он запрашивает документы с сервера, это может привести к значительной загрузке всего сервера и снижению скорости доступа других пользователей, обращающихся к серверу. К тому же, если главный компьютер используется также для других целей, это может быть вообще неприемлемо.
Все это показывает, что нужно избегать ситуаций с одновременным запросом страниц. К сожалению, даже современные браузеры (например, Netscape) не решают эту проблему, параллельно запрашивая изображения, находящиеся в документе.
Сетевой протокол HTTP оказался неэффективным для параллельной передачи даных и сейчас разрабатываются новые протоколы Интернета.
Слайд 38Клиент-серверная архитектура WWW