Слайд 2ИСТ ВЬЮ ПАБЛИКЕЙШНС
Полнотекстовый поиск
Язык запросов
Примеры сложных запросов
Понятие релевантности
Обработка результатов
поиска
Слайд 3Полнотекстовый поиск
П.П. – особый вид поиска, при котором поиск необходимых
документов производится по всем текстам документов.
П.П. позволяет находить документы, не
имеющие тематического или временного соответствия, основываясь только на словах, присутствующих в документах.
Слайд 4Полнотекстовый поиск
Поисковое выражение (запрос) –
это слово или группа слов,
связанных логическими операторами, удовлетворяющая грамматике поискового языка запроса
Слайд 5Подход к полнотекстовому поиску
Поисковое выражение =
Предмет поиска + Предметная
область
Примеры:
Пушкин И (письма ИЛИ переписка)
пожар И редакция
ураган И Дубна
Слайд 6Подход к полнотекстовому поиску
Предмет поиска:
Тема >> Событие >> Документ
Слайд 7ИСТ ВЬЮ ПАБЛИКЕЙШНС
Язык запросов
Слайд 8Язык запросов
Язык запросов – свод грамматических и логических правил для
формирования корректного поискового выражения
Требования к языку запросов:
Поддержка базовых типов запросов
Использование
негласных стандартов в синтаксисе
Поиск по всем словоформам (за исключением фразового запроса)
Нечувствительность к регистру
Слайд 9Язык запросов
Базовые типы запросов:
логические запросы
фразовые запросы
регулярные выражения (шаблоны)
запрос
на близость
запрос по полям
запрос на неточное совпадение
Слайд 10Язык запросов
Понятие морфологии слова и поиск по всем словоформам:
Слово белка
(маленький пушистый зверек) имеет следующую морфологическую группу: бе'лка, бе'лки, бе'лки,
бе'лок, бе'лке, бе'лкам, бе'лку бе'лок, бе'лкой, бе'лкою, бе'лками, бе'лке, бе'лках
Слово белок (органическое соединение): бело'к, белки', белка', белко'в, белку', белка'м, бело'к, белки', белко'м, белка'ми, белке', белка'х
Например на словах белка, белку происходит их пересечение. Поэтому запросу белка будет соответствовать и слово белков !!!
Слайд 11Язык запросов
Понятие морфологии слова и поиск по всем словоформам:
Запросу белка
будут удовлетворять документы со словами: белкой, белкою, белки, белками, белок,
белком …
Запросу жил будут удовлетворять документы со словами: жить, живет, жила, жилами, жилою …
Запросу ребенок будут удовлетворять документы со словами: ребенка, ребенку, дети, детьми, детей …
Слайд 12Поисковый интерфейс
Виды поиска
Форма простого поиска - предназначена для ввода одиночного
поискового выражения
Форма расширенного поиска - позволяет формировать поисковые выражения для
полей: АВТОР, НАЗВАНИЕ, ВСЯ СТАТЬЯ
Слайд 15Результат простого поиска. Статьи
Слайд 16Проведение расширенного поиска
Поля
Слайд 18Логические операторы
Логический оператор И
Связывает слова запроса.
Результат поиска - только документы,
содержащие все слова запроса.
Пример запроса:
Путин(А) И Дума(В)
А
В
А
И
В
Слайд 19Логические операторы
Логический оператор ИЛИ
Связывает слова запроса.
Результат поиска – документы, содержащие
хотя бы одно из слов запроса.
Пример запроса:
Путин(А) ИЛИ Дума(В)
А
В
А
И
В
Слайд 20Логические операторы
Логический оператор НЕ
Связывает слова запроса.
Результат поиска – документы, содержащие
одно (А) но не другое (В) из слов запроса.
Пример запроса:
Путин(А)
НЕ Дума(В)
А
В
А
И
В
Слайд 21Логические запросы
Логические запросы
Операторы: И, ИЛИ, НЕ
* Поиск по базе «Общественные
и гуманитарные издания»
Культура И Испанский
2180
Культура И (Испанский ИЛИ Испания) 5012
Культура НЕ Язык И (Испанский ИЛИ Испания) 1142
Проблема:
Слова в тексте могут быть расположены
далеко друг от друга
Слайд 23Агрегация запросов
Комбинация логических запросов:
(дерево или осина) и (промышленность или производство)
Будут
найдены документы:
1) …в спичечном производстве осину очень часто называют "спичечным"
деревом…
2) …обработка древесины и производство изделий из дерева…
3) …дерево-обрабатывающей промышленности…
Слайд 24Агрегация запросов
Приоритетность логических операторов:
слово1 и слово2 или слово3 =(равносильно) =
(слово1
и слово2) или слово3
Примеры:
естествознание и культура или
культурология
Спартак и восстание
не война
Палестина не Израиль не Арафат
Слайд 25Специальные символы
Оператор шаблона слов *
- сложные
слова
редкие фамилии/имена
географические названия
если пользователь неуверен в правильности написания ключевого
слова
Например:
Испан* - все слова с корнем испан - Испания, испанка …
Мон*зация - монетаризация, монетизация …
Шевар*адзе - Шеварднадзе
Слайд 26Специальные символы
Оператор шаблона слов ?
- используется, когда
неизвестно какой
символ стоит в конкретной позиции,
но точно известно что один
Например:
к?нк?ст?доры - конкистадоры
к?ли?а - калифа, калина, кулича …
Слайд 27Специальные символы
Фразовый запрос ", "
используется, когда необходимо найти документы, содержащие
фразу именно в той форме, в какой она указана в
запросе
Например, сравним:
*Поиск по базе «Общественные и гуманитарные издания»
"Испанская культура" 5
испанская И культура 2180
Проблема:
При фразовом запросе не учитывается морфология
Слайд 28Специальные символы
Оператор близости слов /
Используется для ограничения количества
слов текста, которые могут быть между ключевыми словами
Например:
Испанская /5 культура
средние /0 века
Путин /3 Дума
Слайд 30Специальные символы
Запрос на неточное совпадение:
~ (тильда)
Используется, когда мы сомневаемся в правильном написании
слова или
предполагаем, что в этом слове автором
могла быть допущена ошибка
Например:
Сальмунори ~ И корейский
Сальмунори неправильно
Правильно САМУЛЬНОРИ
Слайд 32ИСТ ВЬЮ ПАБЛИКЕЙШНС
Сложные запросы и нестандартные ситуации
Слайд 33Примеры комплексных запросов
(Колмогоров НЕ Василий) И (матем* или (выдающийся ИЛИ
знаменитый ИЛИ известный) /0 академик)
К?нк?ст?доры И испан* /0 колонии И
(XVI ИЛИ XV)
(Монетизация ИЛИ Монетаризация) И (замена /1 льгот) ИЛИ (денежные /0 (выплаты ИЛИ компенсации))
Слайд 35Нестандартные ситуации
(гайдар И аркадий) НЕ эконом*
франц* И "нога"
грач НЕ пти*
пивовар
НЕ пиво НЕ пивной (нельзя НЕ пив*)
“ВКП(б)” ИЛИ (Всесоюзная /0
Коммунистическая /0 Партия /0 Большевиков)
Сухово?Кобылин*
Слайд 36Внимание
Подводные камни под операцией скопировать-вставить или copy-paste!!!
Есть разные кавычки "
",‘ ’, “ ”, «»
Есть два разных символа -, –
Символ - равен логическому оператору НЕ
Слайд 37ИСТ ВЬЮ ПАБЛИКЕЙШНС
Понятие релевантности и работа с результатами поиска
Слайд 38Результаты поиска
Определение: совокупность документов, удовлетворяющих запросу, расположенных в порядке соответствия
запросу (релевантности) называется результатами поиска
Слайд 39Результаты поиска
(релевантность = балл = ранг = score ) –
есть величина соответствия запросу, вычисляется математически, основываясь на различных критериях
Критерии
соответствия запросу:
Количество слов в документе
Близость слов (для логических операторов И, ИЛИ)
Значимость полей
Количество найденных слов (оператор ИЛИ)
Слайд 41Результаты поиска
Возможности работы с результатами поиска:
Поиск в найденном
Сортировка результатов
Просмотр списка
результатов с цитатами
Перемещение в найденном документе по цитатам
Выбор группы документов
для отдельного просмотра/печати/сохранения
Слайд 45Результат поиска. Перемещение по тексту
вниз
вверх
Слайд 48ИСТ ВЬЮ ПАБЛИКЕЙШНС
Базы данных
Статистическая база данных – статистические ежегодники,
сборники, аналитические отчеты, бюллетени России и стран СНГ