Слайд 1Тезаурусы эпохи Интернет: эволюция взглядов,
области применения
и расширение категорий
пользователей
Гендина Н. И., доктор пед. наук, профессор Кемеровского государственного университета
культуры и искусств
Слайд 2План
1. Тезаурусы эпохи Интернета
2. Области применения тезаурусов
3. Основные категории
пользователей тезаурусов
Слайд 3Список литературы
Большаков И. А. Многофункциональный словарь-тезаурус для автоматизированной подготовки русских
текстов / И. А. Большаков // НТИ. Сер. 2.– 1994.
- №1 – С. 11–23.
ГОСТ 7.25–2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – Взамен ГОСТ 7.25-80 ; введ. 2002-07-01. – Москва : ИПК Изд-во стандартов, 2001. – 16 с.
ГОСТ 7.24–2007. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению / Межгос. совет по стандартизации, метрологии и сертификации. – Взамен ГОСТ 7.24-90 ; введ. 2008-07-01. – Москва : Стандартинформ, 2008. – 7 с.
Жмайло С. В. К вопросу об определении тезауруса / С. В. Жмайло // НТИ. Сер. 1. – 2003. – №12. – С. 20–25.
Жмайло С. В. К разработке современных информационно-поисковых тезаурусов / С. В. Жмайло // НТИ. Сер. 1. –2004. – №1. – С.23 – 31.
Слайд 4Попытка переоценки роли ИПТ
в 90-е гг. ХХ в.
Ошибочные
суждения:
Быстродействие и значительные объемы памяти современных компьютеров позволят
обеспечить приемлемое качество информационного поиска за счет использования естественного языка (ключевых слов), следовательно, можно отказаться от ИПТ, т. е. обойтись без ИПЯ с контролируемой лексикой.
Разработка и ведение ИПТ в эпоху Интернета и полнотекстовых
баз данных являются излишним, дорогостоящим и не оправдывающим себя процессом с точки зрения эффективности информационного поиска.
Ложный вывод: совершенствование работы современных АИС можно обеспечить за счет мощи и быстродействия компьютеров,
не прибегая к разработке лингвистических средств, включая ИПТ.
Слайд 5Удвоение объемов информации
в истории человечества
До 1800 г. – каждые
50 лет
С 1950 г. – каждые 10 лет
С 1970 г.
– каждые 5 лет
С 2000 г. – ежегодно
Прогноз на 2020 г. – каждые 72 дня
по данным Gartner Group: KPMG Knowledge
Management Resource Report, 1998.
And Knowledge Management Scenario:
Trends and Directions for 1998-2003, 1999.
Слайд 6 295 эксзабайт: ученые подсчитали объем хранимой человечеством информации
295 эксзабайт
– это тот объем информации, который получается, если сложить все
"флешки", компакт-диски, снабженные чипами кредитные карты, устаревшие видеокассеты и другие накопители информации (По данным, опубликованным учеными из Южнокалифорнийского университета (США) в журнале Science).
Согласно оценке специалистов, именно такое количество информации человечество может хранить в настоящий момент.
295 эксзабайт – это число в котором после 295 стоит целых 18 нулей.
Эта цифра эта постоянно растет: общие показатели ёмкости компьютерных накопителей увеличиваются на 58% ежегодно. Человечество транслирует около 1,9 зеттабайт информации в виде телевизионного вещания, передачи данных систем глобального позиционирования GPS и т. п.
1 зеттабайт – это 1000 экзабайт.
По материалам CNET News (11.02. 2011)
Источник: DailyComm
Слайд 7Повышение точности поиска в сверхбольших массивах информации – главная проблема
XXI века
Объем World Wide Web в 2000 г. -
около 1,2 млрд вебстраниц, причем ежегодно это число удваивается.
Объем выдач на запрос в Интернете – примерно 10-20 тыс. документов, из которых реально пользователь просматривает только три-четыре эшелона.
Точность словарного информационного поиска в Интернете составляет в среднем лишь 10 %, причем ни одна из известных поисковых машин не обеспечивает полноту поиска.
При поиске в базах данных объемом в миллионы документов проблема точности выходит на первый план.
Слайд 8Тезаурус как лингвистическое средство обеспечения точности информационного поиска в Интернет
Экспериментально
доказано, что применение ИПТ, обеспечивающих использование парадигматических (иерархических и синонимических)
отношений между лексическими единицами, ... позволило увеличить точность информационного поиска в Интернете в 3,3 раза.
Жмайло, С. В. Об исследовании эффективности поиска
научно-технической информации в сети Интернет [Текст] /
С. В. Жмайло // НТИ. Сер.2.
– 2006. – №7. – С.21 – 27.
Слайд 9Отличия современных ИПТ от ИПТ «доинтернетовской» эпохи
Расширение и детализация
системы понятий, необходимых для описания предметной области, включая расширение синонимических
рядов: включение не только существительных
и именных групп, а также прилагательных, глаголов, глагольных групп. Особое место отводится многословным синонимам.
Конкретизация и детализация парадигматических отношений между дескрипторами.
Изменение структуры: в ИПТ могут не выделяться дескрипторы,
и все лексические единицы ИПТ считаются дескрипторами.
Слайд 10Информационные услуги, предоставляемые тезаурусом
Подобрать синоним. Например: «мозговой штурм» – «брейншторминг».
Найти
или проверить антоним. Например: «импорт» – «экспорт».
Найти гипероним – слово
с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Например, слово «дерево» – это гипероним по отношению к словам «дуб, ясень, береза».
Найти гипонимы – слова, выражающие видовые, нижестоящие понятия. Например, слово «бульдог» – гипоним по отношению к слову «собака».
Найти холоним, т. е. слово, обозначающее объект, который включает в себя другое. Например, у лестницы есть ступеньки. «Лестница» – холоним для слова «ступенька». Холонимы отражают отношение «множество – часть множества»: «волк – стая волков», «корова – стадо коров», но «лев – семейство, полчище, прайд».
Найти мероним – слово, обозначающее объект, являющийся частью для другого. Например, слово «монитор» – это мероним для слова «компьютер».
Найти любые устойчиво сочетающиеся слова для данного существительного, глагола, прилагательного или наречия.
Слайд 11Назначение тезауруса
1. В русскоязычной среде:
1.1. Для деловых людей, которые составляют
контракты, отчеты, письма и желают строго выдерживать деловой стиль;
1.2. Для
научно-технических специалистов, которые компонуют, создают или редактируют отчеты, статьи, пособия или книги и желают избежать «суконного» технического языка;
1.3. Для начинающих журналистов, желающих освоить богатство русского языка в своих публикациях и проверить нормативность собственного языка и языка своих коллег;
1.4. Для учащихся и студентов, особенно, если русский язык для них не является родным.
2. В иноязычной среде:
2.1. Для студентов университетов с русским или славянским отделением;
2.2. Для профессиональных переводчиков и учителей русского языка;
2.3. Для деловых людей в «ближнем зарубежье», желающих сохранить достаточно высокий уровень грамотности своей русскоязычной переписки.
Большаков, И.А. Многофункциональный словарь-тезаурус для автоматизированной подготовки русских текстов / И. А. Большаков // НТИ. Сер. 2. – 1994. – №1. –
С. 11 – 23
Слайд 12КроссЛексика – большой электронный словарь сочетаний и смысловых связей русских
слов
Новый словарный ресурс – комбинаторный словарь КроссЛексика, по объему и
структуре не имеющий аналогов ни для одного языка.
Содержит словник из 185 тыс. титулов, 1,75 млн словосочетаний,
2 млн смысловых связей между словами, английские переводы титулов, их морфопарадигмы.
Предназначается для широкого круга пользователей.
Работает в диалоге (редактирование текстов, обучение языку)
и доступен из программ парсинга, разрешения омонимии, обнаружения/исправления смысловых ошибок, стеганографии.
http://www.dialog-21.ru/dialog2009/materials/html/08.htm
Слайд 13Проект RussNet – электронный тезаурус типа Принстонского WordNet, EuroWordNet
и
других подобных ресурсов.
Время и место создания – 1999 г., Кафедра
математической лингвистики Филологического факультета Санкт-Петербургского государственного университета.
Цель – построение лексико-семантического ресурса, отражающего организацию лексической системы русского языка в целом (в противоположность терминологическим или частным словарям); покрывающего ядро общеупотребительной лексики русского языка; фиксирующего все семантические, семантико-грамматические и семантико-деривационные отношений, характерные для русского языка.
Структура – тезаурус состоит из 4 взаимосвязанных файлов, содержащих слова основных частей речи: существительные, глаголы, прилагательные и наречия.
Базовой единицей RussNet является синонимический ряд (синсет), объединяющий слова со сходным значением.
Синсеты связаны различными парадигматическими и синтагматическими отношениями.
Текущий объем – включает ~15 тыс. лексико-семантических вариантов (ЛСВ), организованных в ~5500 синсетов, из них 1300 существительных, 1900 глаголов, 1100 прилагательных, 200 наречий.
Проект RussNet
Слайд 14Общественно-политический тезаурус университетской информационной системы «Россия» (УИС «РОССИЯ)
УИС РОССИЯ (http://www.cir.ru)
– это база электронных ресурсов для исследований и образования в
области экономики, социологии, политологии, международных отношений и других гуманитарных наук. С 2000 г. открыта для коллективного доступа университетов, вузов, научных институтов РФ и специалистов.
Разработчик УИС “РОССИЯ” – НИВЦ МГУ им. М. В. Ломоносова и АНО Центр информационных исследований.
Начало разработки – 1994 г.
Предметная область – проблемы современного общества
Терминологический состав:
экономика, финансы, оборона, законодательство, научная политика, спорт,
искусство, военные конфликты и др.
Типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения.
Объем – 29 тыс. понятий, 70 тыс. терминов, 105 тыс. отношений между понятиями.
Назначение – автоматическая обработка текстов общественно-политической области.
Слайд 15Тезаурус для автоматического концептуального индексирования
УИС «Россия»: отличительные особенности
Возрастание количества
понятий
Возрастание количества отношений между понятиями
Введение новых типов отношений, обладающих
различными логическими свойствами
Слайд 16Фрагмент тезауруса УИС «Россия»: Лес: части
БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)
ГРУППА ЛЕСА
ЗАРОСЛЬ (ЗАРОСЛЕВЫЙ)
ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ
КУЛЬТУРА)
ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)
ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ;
ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА;
ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ;
ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ;
ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)
ОПУШКА (ОПУШЕЧНЫЙ)
ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)
ПОДРОСТ (МОЛОДНЯК)
ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)
СУХОСТОЙ (СУХОСТОЙНЫЙ)
Слайд 17Фрагмент тезауруса УИС «Россия»: Лес: зависимые понятия
ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР
В ЛЕСУ)
ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)
ЛЕСОВЛАДЕНИЕ
ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;
ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Слайд 18Функции парадигматических отношений в тезаурусе для автоматического индексирования
Расширение запроса
Вывод
рубрики по встретившимся в тексте терминам
Разрешение многозначности
Установление лексической связности в
тексте для более качественного выявления понятий основной темы текста
Слайд 19Автоматическая обработка текстов
на основе общественно-политического тезауруса УИС «Россия»
Концептуальное
индексирование
Ранжированный информационный поиск
- Тестирование (методика TREC): значительное увеличение
полноты
при сохранении точности поиска.
- Интегральная оценка: средняя точность поиска по терминам
в 1.4 раза выше.
Автоматическая рубрикация текстов
- 10 различных рубрикаторов
- количество рубрик от 35 до 3000
- рубрика как сложный запрос
Автоматическое аннотирование текстов
Слайд 20Области применения ИПТ
в информационной технологии
Поиск в информационно-поисковых системах.
Ручное индексирование
документов и запросов в информационно-поисковых системах (так называемый контролирующий словарь).
Автоматическое
индексирование текстов в системах автоматической обработки текстов.
Уточнение информационных запросов, составление и оптимизация поисковых предписаний в Интернете и других сетях.
Реферирование, аннотирование, редактирование, анализ терминологического состава документов.
Составление предметных и систематических указателей к различным документам и информационным массивам.
Слайд 21Использование ИПТ в исследованиях
по искусственному интеллекту
Извлечение знаний из текстов
Компьютерный анализ документов: реферирование, классификация, поиск
Машинный перевод
Модели общения;
коммуникация, диалог и речевой акт
Слайд 22Применение тезаурусов
в системе образования
Тезаурус по педагогике и образованию
ЮНЕСКО
Полонский В. М. Русско-китайский лексикон по образованию и педагогике
Полонский В.
М. Тезаурус информационно-поисковый по народному образованию и педагогике
1. Использование тезауруса как терминологического словаря
Слайд 23Применение тезаурусов
в системе образования
2. Использование тезаурусов при изучении
иностранных языков
Слайд 24Применение тезаурусов
в системе образования
3. Использование тезаурусов для овладения
понятийно-терминологическим аппаратом различных учебных дисциплин
Слайд 25Применение тезаурусов
в системе образования
4. Использование тезаурусов при обучении
по новым специальностям, когда отсутствуют учебники и учебные пособия.
Например,
при изучении основ нанотехнологии полезным является «Словарь нанотехнологических и связанных с нанотехнологиями терминов – РОСНАНО».
Слайд 29Использование тезаурусов
в журналистике
Слайд 30Применение тезаурусов в философия, культурологии, социологии
Слайд 31Применение ассоциативных словарей (тезаурусов) в философии, культурологии, социологии
Ассоциативные словари позволяют
ответить на вопрос, какие устойчивые ассоциации, т. е. ассоциативные нормы,
возникают у людей на то или иное слово или слово-стимул. Они наглядно демонстрирует все то, что стоит в обыденном сознании человека за словом.
Ассоциативный словарь может показать, с каких точек зрения рассматриваются людьми предметы и из каких образов составляются соответствующие картины мира.
Русский ассоциативный словарь. Кн. 1. Прямой словарь: от стимула к реакции. Ассоциативный тезаурус современного русского языка. Ч. I / Ю. Н. Караулов, Ю. А. Сорокин, Е. Ф. Тарасов, Н. В. Уфимцева, Г. А. Черкасова. – Москва : "Помовский и партнеры", 1994. – 224 с.
Слайд 32Фрагмент ассоциативного тезауруса
НЕБО: голубое 201; синее 36; земля 27; солнце,
чистое 14, облака 13; в клеточку, высокое 8; облако, ясное
7; самолет, светлое 6; безоблачное, голубой, и земля, над головой, хмурое 5; в клетку, звездное, звезды, синева 4; белое, в звездах, голубизна, мир, мирное, огромное, синий, темное 3; бездонное, в крапинку, высоко, затянуло, лазурное, летать, мечта, низкое, парашют, пасмурное, потемнело, простор, пространство, свод, тучи 2; алое, Аустерлица, багровое, бегемот, без конца, безграничное, бесконечное, в ночи, в облаках, внизу, вода, воздух, вопрос, высокое и родное, глубокое, голубое с облаками, голубь, далеко, далекое, душа, жимолость, житель, жуткое, звезда, Зевс, зеленое, интересный, космос, красиво, красота, крест, купол, летнее, Луна, любовь, малиновое, море, над нами, наоборот, не больно, не поступит, небосвод, НЛО, ноготь, ночь; оглянитесь, люди; окно, осенью, очистилось, парение, пасмурная, полет, прозрачное, птицы, пустота, путь, пятна, радость, разное, разукрашено голубой пастелью, рыбалка, с овчинку, свет, седьмое, серебристое, серое, синь, созвездие, спутник, становится ближе, тошнота, туман, туча, упало, Франции, хлеба, хорошая погода, яркое 1; 521+122+1+78.
Слайд 33Ассоциативные словари как основа межкультурных и междисциплинарных исследований
Уфимцева, Н.В. Русские:
Опыт еще одного самопознания / Н.В.Уфимцева // Этнокультурная специфика языкового
сознания. — Москва : Ин-т языкознания РАН, 1996. – 139-162.
Слайд 34Применение тезаурусов в психологии
и психиатрии
Тезаурус личностных черт
Общительный
Слайд 35Применение тезаурусов в психологии
и психиатрии
ТЕЗАЛ
ТЕЗАУРУС ЛИЧНОСТНЫХ ЧЕРТ
НАЗНАЧЕНИЕ И
СФЕРА ПРИМЕНЕНИЯ
ТЕЗАЛ (ТЕЗаурус Автоматизированный Личностный) – многофункциональная экспертная система,
предназначенная для автоматизации процессов сбора и интерпретации информации о личностных чертах, интеграции тестовых данных и экспертных оценок.
ТЕЗАЛ – инструментарий, который может быть полезен как разработчикам в области психодиагностики, так и специалистам-практикам в области оценки персонала.
ТЕЗАЛ позволяет описывать психологический портрет человека, выбирая из тезауруса существительные и прилагательные, соответствующие его личностным качествам. Портрет может быть представлен как в виде классического словесного портрета, так и в виде психологического профиля бизнес-компетенций.
http://www.ht.ru/tests/bank/annrtf/tezal.php
Слайд 36Применение тезаурусов в психологии
и психиатрии
Менделевич В. Д. Терминологические основы феноменологической
диагностики
(тезаурус психолого-психиатрических синонимов)
Глава 2. ТЕЗАУРУС ПСИХОЛОГО-ПСИХИАТРИЧЕСКИХ СИНОНИМОВ
ТЕЗАУРУС ФЕНОМЕНОВ
И СИМПТОМОВ ЭМОЦИОНАЛЬНОЙ СФЕРЫ
Переживания с оттенком повышения настроения
Переживания с оттенком понижения настроения и тревожностью
Переживания с оттенком понижения настроения и тоскливостью
Переживания с оттенком понижения настроения и гневливостью
Переживания с пониженным настроением и чувством субъективного внутреннего дискомфорта
Эмоциональные состояния с оттенком снижения уровня эмоционального реагирования
Эмоциональные состояния с оттенком нейтрального эмоционального реагирования
Переживания со склонностью к смене (колебаниям) настроения и противоречивости
ТЕЗАУРУС ЭКСПРЕССИВНЫХ ФЕНОМЕНОВ И СИМПТОМОВ
Мимические феномены
Феномены жестикуляции, движений, позы, походки и внешности
Возбуждение
Ступор (заторможенность)
Слайд 37ТЕЗАУРУС ФЕНОМЕНОВ И СИМПТОМОВ, ОТРАЖАЮЩИХ ОСОБЕННОСТИ ДЕЙСТВИЙ, ПОВЕДЕНИЯ И ВЛЕЧЕНИЙ
Феномены, отражающие особенности действий
Поведенческие феномены
Феномены, отражающие особенности влечений
ТЕЗАУРУС
РЕЧЕВЫХ И МЫСЛИТЕЛЬНЫХ ФЕНОМЕНОВ И СИМПТОМОВ
Голосовые феномены
Феномены устной речи
Феномены письменной речи
Мыслительные феномены
ТЕЗАУРУС ФЕНОМЕНОВ И СИМПТОМОВ (РАССТРОЙСТВ) ВОСПРИЯТИЯ И ОЩУЩЕНИЙ
Феномены, связанные с чувствительностью и ощущениями
Феномены восприятия
ТЕЗАУРУС МНЕСТИЧЕСКИХ ФЕНОМЕНОВ И СИМПТОМОВ
ТЕЗАУРУС ФЕНОМЕНОВ И СИМПТОМОВ, СВЯЗАННЫХ С ПРОЦЕССОМ ВНИМАНИЯ
ТЕЗАУРУС ФЕНОМЕНОВ И СИМПТОМОВ, СВЯЗАННЫХ С ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТЬЮ И СПОСОБНОСТЯМИ
ТЕЗАУРУС ФЕНОМЕНОВ И СИМПТОМОВ (РАССТРОЙСТВ) СОЗНАНИЯ И САМОСОЗНАНИЯ
ТЕЗАУРУС ИНДИВИДУАЛЬНО-ПСИХОЛОГИЧЕСКИХ СВОЙСТВ, ХАРАКТЕРОЛОГИЧЕСКИХ И ЛИЧНОСТНЫХ РАССТРОЙСТВ
Применение тезаурусов в психологии
и психиатрии
Слайд 38Применение тезаурусов в психологии
и психиатрии
Переживания с оттенком понижения настроения
и тревожностью
Характеристика: доминирует ожидание какой-то трагедии, неприятностей, двигательное беспокойство и
повышенная активность, невозможность сосредоточиться на какой-либо деятельности, избегание ситуаций, способных вызвать подобные эмоциональные переживания.
Синонимический ряд:
Беспокойство, боязнь, взволнованность, волнение, замешательство, испуг, иступление, напряженность, настороженность, недоумение, растерянность, смущение, тревога, паника, страх, ужас, фрустрация
Ажитация, возбуждение, раптус, фобия
Арахнофобия - навязчивый страх - боязнь пауков
Аутофобия - навязчивый страх - боязнь одиночества
Аэрофобия - навязчивый страх - боязнь сквозняков
Бактериофобия - навязчивый страх - боязнь заражения микробами
Гипенгиофобия - навязчивый страх - боязнь ответственности
Демофобия - навязчивый страх - боязнь толпы
Ксенофобия - навязчивый страх - боязнь незнакомых лиц, чужих людей
Фармакофобия - навязчивый страх - боязнь употреблять лекарственные средства
Тезаурус психолого-психиатрических синонимов
Слайд 39Применение тезаурусов в криминалистике
Овладение современной криминалистической терминологией.
Использование «Тезауруса личностных черт»,
«Тезауруса синонимов» и др. при создании словесных портретов – системы
описания внешности человека в целях его розыска и идентификации по внешним признакам.
Использование ассоциативных тезаурусов при проведении судебно-автороведческих и фоноскопических экспертиз.
Слайд 41Категории пользователей тезаурусов
Пользователи, работающие со словом профессионально: лингвисты, писатели, поэты,
журналисты, переводчики, редакторы и целый ряд иных специалистов.
Непрофессиональные пользователи: школьники,
студенты, аспиранты, учителя, преподаватели, бизнесмены, специалисты различных областей знания и многие другие.