Разделы презентаций


Оценка эффективности технологий систематизации и поиска электронной научной

Содержание

RCDL’2011, Воронеж, 19-22 октября 2011 г. Создание информационно-аналитической системы для поддержки научной, аналитической и управленческой деятельности по природным ресурсам и окружающей среде Карелии необходимо для координации и проведения

Слайды и текст этой презентации

Слайд 1Оценка эффективности технологий систематизации и поиска электронной научной информации в

ИАС «Природные ресурсы Карелии»
© Вдовицын В.Т., Лебедев В.А.

Институт прикладных математических

исследований
Карельского научного центра РАН
г. Петрозаводск

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС «Природные ресурсы Карелии»© Вдовицын В.Т., Лебедев

Слайд 2
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Создание

информационно-аналитической системы для поддержки научной, аналитической и управленческой деятельности по

природным ресурсам и окружающей среде Карелии необходимо для координации и проведения междисциплинарных научных исследований, выполняемых институтами КарНЦ РАН в рамках задач инвентаризации природных ресурсов, при оценке состояния окружающей среды и экологических последствий планируемых и проводимых на территории Карелии и сопредельных регионов мероприятий в сфере промышленности, лесного, сельского и рыбного хозяйства.

Для достижения поставленной цели на наш взгляд следует в первую очередь обеспечить автоматизированный сбор, систематизацию и эффективный доступ ученых и специалистов к необходимой научной информации.

Система разрабатывается с применением современных ГИС и Веб-технологий, а также методов онтологического моделирования и включает разнообразную научную информацию по природным ресурсам Карелии, полученную в результате проведения многолетних исследований в КарНЦ РАН.

RCDL’2011, Воронеж, 19-22 октября 2011 г.   Создание информационно-аналитической системы для поддержки научной, аналитической и

Слайд 3
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Архитектура ИАС «Природные ресурсы

Карелии»

RCDL’2011, Воронеж, 19-22 октября 2011 г.Архитектура ИАС «Природные ресурсы Карелии»

Слайд 4Технологии систематизации и поиска электронных публикаций

RCDL’2011, Воронеж, 19-22 октября

2011 г.
Проблема рационального использования огромных хранилищ электронной информации в интересах

науки, образования, разработки и развития высокотехнологичных производств остается актуальной.

Традиционные методы информационного поиска, основанные на использовании ключевых слов, обладают рядом недостатков, связанных, например, с многозначностью (polysemous) используемых в запросе терминов, а также недостаточным знанием пользователями терминологии самой предметной области.

Одним из перспективных направлений исследований и разработок в плане повышения эффективности информационного поиска является применение методов онтологического моделирования (ontology-based information retrieval). Такие системы информационного поиска учитывают смысловое содержание терминов запроса, используют онтологии, как для индексации информационных ресурсов, так и для организации семантического поиска.

Технологии систематизации и поиска электронных публикаций RCDL’2011, Воронеж, 19-22 октября 2011 г.Проблема рационального использования огромных хранилищ электронной

Слайд 5
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Процедура систематизации включает предметизацию

и индексацию электронных публикаций.

Предметизация публикации осуществляется на основе анализа

ее названия и ключевых слов. В результате выполняется предварительное отнесение публикации к соответствующим рубрикам ГРНТИ.

На этапе индексации текст публикации, с целью выявления имеющейся в их составе терминологии, сопоставляется с фрагментом таксономии терминов, отнесенном к соответствующей рубрике ГРНТИ. При этом происходит уточнение предметизации и формирование индекса публикации.
RCDL’2011, Воронеж, 19-22 октября 2011 г.Процедура систематизации включает предметизацию и индексацию электронных публикаций. Предметизация публикации осуществляется

Слайд 6Фрагменты таксономий терминов:
по экологии растений; по водным объектам


RCDL’2011,

Воронеж, 19-22 октября 2011 г.
термины в таксономии связаны типами отношений

классификации (род-вид), агрегации (часть-целое) и синонимии. Два первых типа формируют иерархическую структуру таксономии. Синонимия терминов образует отдельную таблицу, записи которой - синонимические гнезда по отношению к доминантному термину.
Фрагменты таксономий терминов: по экологии растений; по водным объектам RCDL’2011, Воронеж, 19-22 октября 2011 г.термины в таксономии

Слайд 7
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Нами выделены следующие типы

научных публикаций:
описание результатов экспериментов, наблюдений, мониторинга и технологий;
обобщенное описание

объектов исследований, разработок;
состояние, проблемы и перспективы научных дисциплин, междисциплинарных исследований (общие вопросы по дисциплинам, наукам).
Для каждого типа публикаций разработана обобщенная схема логического условия: < объект эксперимента> AND (<объект его целое> OR <объект его часть> OR <действующий фактор> OR <действие> OR <результат>) AND <границы, ограничения>;
<объект описания> AND (<тема> OR <пусто>);
<дисциплина> AND (<характеристика> OR <пусто>)
RCDL’2011, Воронеж, 19-22 октября 2011 г.Нами выделены следующие типы научных публикаций:описание результатов экспериментов, наблюдений, мониторинга и

Слайд 8
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Пример логического условия предметизации,

представленный в виде правила-продукции ЭС

IF (фитогеография OR фитоценология

OR геоботаника OR растительность OR сообщество OR фитоценоз OR ценофлора)

THEN рубрика ГРНТИ – 34.29.35. Растительность. Фитоценологии;
RCDL’2011, Воронеж, 19-22 октября 2011 г.Пример логического условия предметизации, представленный в виде правила-продукции ЭС  IF

Слайд 9
RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 10RCDL’2011, Воронеж, 19-22 октября 2011 г.

для публикации находим первую по

порядку рубрику ГРНТИ, к которой она отнесена на этапе предметизации;
выделяем

соответствующий фрагмент онтологии для этой рубрики; осуществляем подготовку текста публикации и фрагмента онтологии для индексирования (переводим в текстовый формат, удаляем из текста слова, не несущие смысловую нагрузку);
3. последовательно сравниваем слова текста публикации с терминами выделенного фрагмента онтологии (включая синонимы терминов) и формируем совокупность терминов онтологии, входящих в текст публикации.

В результате индексации массива публикаций формируется база
индексов, которая используется для поиска данных по запросам.

Индекс представляет собой ряд строк (ветвей таксономии), начиная с названия рубрики (корня) и включая все термины таксономии вплоть до найденного термина

на этапе индексации - для каждой публикации и рубрики ГРНТИ осуществляем следующие действия:

RCDL’2011, Воронеж, 19-22 октября 2011 г.для публикации находим первую по порядку рубрику ГРНТИ, к которой она отнесена

Слайд 11
RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 12
RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 13RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 14RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 15RCDL’2011, Воронеж, 19-22 октября 2011 г.
Выбор терминов из таксономии
и

формирование запроса пользователем

RCDL’2011, Воронеж, 19-22 октября 2011 г.Выбор терминов из таксономии и формирование запроса пользователем

Слайд 16Выбор терминов из таксономии
и автоматическое формирование запроса
RCDL’2011, Воронеж, 19-22

октября 2011 г.

Выбор терминов из таксономии и автоматическое формирование запросаRCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 17RCDL’2011, Воронеж, 19-22 октября 2011 г.

RCDL’2011, Воронеж, 19-22 октября 2011 г.

Слайд 18RCDL’2011, Воронеж, 19-22 октября 2011 г.
В настоящее время ранжирование документов

в отклике на запрос будет выполняется по следующим правилам.

Первый

ранг назначается документам, в которых полный набор терминов запроса встречается в его заголовке и аннотации.

Далее определяется встречаемость набора терминов запроса в тексте документов и вычисляется отношение этого числа к числу страниц текста.

Если это отношение не меньше половины, то документу присваивается второй ранг, а если это отношение меньше 0.5 – третий ранг.

После чего выполняется упорядочивание документов отклика в соответствии с назначенными рангами.
RCDL’2011, Воронеж, 19-22 октября 2011 г.В настоящее время ранжирование документов в отклике на запрос будет выполняется по

Слайд 19RCDL’2011, Воронеж, 19-22 октября 2011 г.
Эффективность поиска характеризуют, в частности,

следующие показатели:
ПОЛНОТА означает, что найдены все релевантные запросу публикации, имеющиеся

в массиве (Однако, сплошной просмотр всех публикаций в массиве приводит к существенному увеличению времени поиска; для уменьшения этого времени целесообразно систематизировать массив публикаций так, чтобы поиск выполнялся только в определенной части массива)

ТОЧНОСТЬ означает, что в отклике на запрос присутствуют именно те публикации, которые соответствуют указанным в запросе требованиям пользователя, и в нем отсутствуют публикации из других предметных областей (одним из главных средств борьбы за точность поиска также является систематизация публикаций).

ПЕРТИНЕНТНОСТЬ означает, что отобранные релевантные запросу публикации соответствуют информационным потребностям пользователя, его специальности, области интересов и, в идеальном случае, не содержат публикации из других предметных областей.

RCDL’2011, Воронеж, 19-22 октября 2011 г.Эффективность поиска характеризуют, в частности, следующие показатели:ПОЛНОТА означает, что найдены все релевантные

Слайд 20
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Для измерения эффективности методов

информационного поиска
тестовую коллекцию документов (1000 научных публикаций в

области биологических наук);
тестовое множество информационных потребностей пользователя, выражаемых в виде запросов (выбрали 7 запросов);
набор бинарных оценок для каждого найденного документа, характеризующих релевантность или нерелевантность данных документов к запросам (привлекли экспертов).

Для исследования качества предлагаемых методов систематизации и поиска информации в ИАС использовались традиционные метрики: полнота – r = a/(a+c); точность – p = a/(a+b) (где: a – найденные релевантные документы, b – найденные нерелевантные документы, c – ненайденные релевантные документы); пертинентность – P = a1/(a+b), где: a1 – количество пертинентных документов, (a+b) – общее количество документов в отклике на запрос.

RCDL’2011, Воронеж, 19-22 октября 2011 г.Для измерения эффективности методов информационного поиска  тестовую коллекцию документов (1000

Слайд 21
RCDL’2011, Воронеж, 19-22 октября 2011 г.
Результаты проведенных экспериментов сведены

в следующей таблице.

RCDL’2011, Воронеж, 19-22 октября 2011 г.Результаты проведенных экспериментов сведены в следующей таблице.

Слайд 22Перспективность предлагаемого подхода обусловлена
следующими причинами

RCDL’2011, Воронеж, 19-22 октября

2011 г.
1. массив электронных публикаций, в котором осуществляется поиск, предварительно

систематизирован по предметному рубрикатору (в нашем случае по ГРНТИ) – уменьшается время поиска

2. индекс каждой публикации автоматически формируется с использованием таксономии терминов и на наш взгляд более детально характеризует ее содержание по сравнению со списком ключевых слов (пользователь, как правило, указывает в запросе 2-3 ключевых слова, не всегда владеет терминологией предметной области; в нашем случае система АВТОМАТИЧЕСКИ вставляет в запрос «связанные» в рамках онтологии дополнительные ключевые слова)

3. в системе предусмотрена возможность (с использованием таксономии терминов) автоматического уточнения смысла многозначных терминов запроса (например, полисемия терминов устраняется в процессе построения запроса за счет «отсечения» других предметных областей).

Перспективность предлагаемого подхода обусловлена следующими причинами RCDL’2011, Воронеж, 19-22 октября 2011 г.1. массив электронных публикаций, в котором

Слайд 23RCDL’2011, Воронеж, 19-22 октября 2011 г.
По запросу «лекарственные AND растения»

сформирована выборка релевантных статей
ПРИМЕР

RCDL’2011, Воронеж, 19-22 октября 2011 г.По запросу «лекарственные AND растения» сформирована выборка релевантных статей ПРИМЕР

Слайд 24ПРИМЕР (продолжение)

RCDL’2011, Воронеж, 19-22 октября 2011 г.
Тексты некоторых статей не

содержат термина «лекарственные», например, статья «Василек луговой». Однако, там содержатся

термины «желчегонное», «противовоспалительное», «ревматизм»
ПРИМЕР (продолжение)RCDL’2011, Воронеж, 19-22 октября 2011 г.Тексты некоторых статей не содержат термина «лекарственные», например, статья «Василек луговой».

Слайд 25ПРИМЕР (продолжение)

RCDL’2011, Воронеж, 19-22 октября 2011 г.
В результате индексирования в

индекс статьи включены термины предыдущих уровней таксономии, в частности, термин

«лекарственное»
ПРИМЕР (продолжение)RCDL’2011, Воронеж, 19-22 октября 2011 г.В результате индексирования в индекс статьи включены термины предыдущих уровней таксономии,

Слайд 26Ontology-based Information Retrieval. Henrik Bulkov Styltsvig, A diss.
… Roskilde

University … Degree of Doctor of Philosophy. 2006.
RCDL’2011, Воронеж,

19-22 октября 2011 г.

Наиболее близкими по теме наших исследований являются подходы, представленные в работах:

Hans-Michael Muller, Eimear E. Kenny, Paul W. Sternber Textpresso: An ontology-based information retrieval and extraction system for biological literature / PLoS Biology 2 (11) (2004).

Д.Е. Пальчунов Решение задачи поиска информации на основе онтологий //Бизнес информатика № 1–2008 г. С. 3–13. и др.

Добров Б.В., Лукашевич Н.В. и др. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска //Труды Седьмой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2005, Ярославль, Россия, 2005 С. 70–79.

Ontology-based Information Retrieval. Henrik Bulkov Styltsvig, A diss. … Roskilde University … Degree of Doctor of Philosophy.

Слайд 27Некоторые перспективные направления
дальнейших исследований и разработок
RCDL’2011, Воронеж, 19-22 октября

2011 г.
Оценить зависимость показателей качества поиска от «полноты» онтологии и

логических условий предметизации.

Для пополнения хранилищ информации в ИАС предполагается разработать сервис автоматического поиска тематической научной информации в сети Интернет, основанный на применении технологии web crawling, с систематизацией найденной научной информации и пополнением информационных хранилищ системы.

Исследовать возможности технологии систематизации и поиска для решения проблемы интеграции информационной компоненты ИАС с ГИС-компонентой системы (в текстах научных публикаций часто встречаются географические названия …).

Некоторые перспективные направления дальнейших исследований и разработокRCDL’2011, Воронеж, 19-22 октября 2011 г.Оценить зависимость показателей качества поиска от

Слайд 28
{ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ ИНДЕКС]
____________________________________________________________________
ГЕОГРАФИЧЕСКИЙ

ИНДЕКС формируется по разработанной технологии систематизации и поиска электронных публикаций

с использованием ОНТОЛОГИИ ГЕОГРАФИЧЕСКИХ НАЗВАНИЙ РЕГИОНА

! ПРИМЕР онтологии географических названий
!
! Республика Карелия
! Петрозаводск
! Районы
! …
! Кемский
! Города
! Кемь
! Поселки
! Юма
! Шомба
! …
! Реки
! Кемь
! Шомба
! …
! Озера
! Болота

{ИНДЕКС публикации} :: [содержательный индекс] &  [ГЕОГРАФИЧЕСКИЙ ИНДЕКС]____________________________________________________________________ГЕОГРАФИЧЕСКИЙ ИНДЕКС формируется по разработанной технологии систематизации и

Слайд 29
ГИС-клиент: выделяет на карте интересующую его область (например, в

виде прямоугольника);

СИСТЕМА: осуществляет обратное геокодирование (запрос всех имен объектов по

заданным координатам с использованием ТЕЗАУРУСА ГЕОГРАФИЧЕСКИХ НАИМЕНОВАНИЙ);
поиск ПО ГЕОГРАФИЧЕСКИМ ИНДЕКСАМ тех публикаций, в которых присутствуют соответствующие имена объектов;
обращение к поисковой машине ИАС, формирование запроса с автоматическим ДОБАВЛЕНИЕМ дизъюнкции соответствующих имен объектов.

ЭБ-клиент: с помощью поисковой машины ИАС находит по запросу ряд публикаций;
Для каждой публикации СИСТЕМА может (по ГЕОГРАФИЧЕСКОМУ ИНДЕКСУ и с использованием ТЕЗАУРУСА ГЕОГРАФИЧЕСКИХ НАИМЕНОВАНИЙ) автоматически указать соответствующий участок КАРТЫ.
ГИС-клиент: выделяет на карте интересующую его область (например, в виде прямоугольника);СИСТЕМА: осуществляет обратное геокодирование (запрос всех

Слайд 30RCDL’2011, Воронеж, 19-22 октября 2011 г.
Авторы благодарны за помощь в

разработке и реализации программного обеспечения
ИАС «Природные ресурсы Карелии»
Н.Б. Луговой,

В.Г. Старковой, М.В. Гушкалову
Демонстрационный прототип системы представлен в сети Интернет – http://ias.krc.karelia.ru
Работа частично поддержана грантами РФФИ № 08-07-00085а, № 09-07-12074 офи_м, а также - the projekt CoReLib saported by the Swedish Institude by grant № 00760-2010

СПАСИБО ЗА ВНИМАНИЕ

RCDL’2011, Воронеж, 19-22 октября 2011 г.Авторы благодарны за помощь в разработке и реализации программного обеспечения ИАС «Природные

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика