Слайд 1Лекция 6. Компьютерная терминография и компьютерный перевод
Слайд 2План
1. Компьютерная терминография
1.1. Понятие компьютерной терминографии. Термин как основной объект
терминографии.
1.2. Терминологические банки данных.
2. Машинный перевод
2.1 Понятие перевода и машинного
перевода.
2.2 Классификация и примеры систем МП.
2.3 Этапы осуществления полностью автоматизированного МП.
2.4 Параметры оценки систем МП.
2.5 Проблемы МП.
Слайд 31.1. Понятие компьютерной терминографии. Термин как основной объект терминографии.
Одним из
перспективных направлений компьютерной лексикографиии прикладной лингвистики в целом является работа
над электронными терминологическими словарями и банками данных.
Построением специальных терминологических словарей занимается терминография, представляющая собой особый раздел лексикографии.
В то же время терминография тесно связана с терминоведением - наукой о терминах. Соответственно, компьютерная терминография - это наука о составлении электронных терминологических словарей.
Принципы компьютерной терминографии в общем и целом те же, что и рассмотренные выше принципы компьютерной лексикографии.
Их отличия связаны только с основным объектом словарного описания: в лексикографии это обычное слово или другие языковые единицы (морфема, словосочетание, предложение и т.п.), а в терминографии - термин.
Слайд 4Термин - это слово (словосочетание) метаязыка науки или области практической
деятельности человека, имеющее четкое и (по возможности) однозначное определение, требующее
специальных знаний из соответствующей профессиональной сферы. Так, слово «Интернет» для обычного человека высту-пает общеупотребительным, а знакомство с соответствующим понятием ограни-чивается теми манипуляциями, которые человек производит с Интернетом (выбор провайдера услуг, тарифа, настройка подключения и некоторые другие).
Слайд 51.2. Терминологические банки данных.
Современные компьютерные технологии позволяют обрабатывать и сохранять
большие массивы терминов по различным областям знания.
Такие массивы терминов называются
терминологическими базами (банка-ми) данных (ТБД). По количеству задействованных в базе данных языков разли-чаются переводческие (многоязычные) и информационно-нормативные (одно-язычные) ТБД.
Кроме того, термины определенной предметной области собираются и описываются в словарях специальных терминов. Эти словари могут быть де-скриптивными и нормативными, общими и частными, толковыми и переводны-ми, алфавитными и тезаурусными.
Большинство электронных терминологических словарей носит дескриптивный характер и представляет термины отдельной отрасли знания. При этом востребованы и толковые (одноязычные), и переводные (двуязычные или много-язычные) словари.
Слайд 6При описании термина важными оказываются следующие его свойства, сопоставимые с
отдельными зонами словарной статьи:
1) семантика: связь термина с обозначаемым понятием;
2)
словоизменение: особенности образования морфологических форм тер-мина;
3) словообразование: включение термина в словообразовательное гнездо, установление связей между однокоренными словами (ср. прилагательные ком-муникативный и коммуникационный, относящиеся к разным значениям термина «коммуникация»);
4) синтаксические связи: управление, сочетаемость с другими терминами и
нетерминами;
5) парадигматические связи в терминосистеме: синонимы, антонимы, ги-перо-гипонимические связи, пересечения значения, терминологические ряды;
6) произношение;
7) примеры использования в контексте;
8) происхождение;
9) переводные эквиваленты.
Слайд 72.1 Понятие перевода и машинного перевода.
Вопросы машинного перевода составляют одну
из центральных областей использования информационных технологий в лингвистике.
Это обусловлено не
только тем, что в машинном переводе как в фокусе концентрируются все проблемы компьютерной лингвистики - от способов анализа содержания до синтеза словоформы, предложения и целого текста, но и постоянно возрастающей практической потребностью современного общества в переводе значительного количества текстов различной функциональной направленности.
Слайд 8Услуги переводчиков обходятся в миллиарды долларов.
Кроме того, что работа переводчика-человека
достаточно дорогая, она к тому же весьма медленная. Так, нормой
научно-технического перевода считается время 10 дней на авторский лист (24 страницы машинописного текста). Система машинного перевода позволяет получить перевод сотен авторских листов за 1 час.
Кроме того, появляются новые области применения машинного перевода, например, тексты Интернета. По подсчетам исследователей, в Интернете встро-енными системами перевода (SYSTRAN, TRADOS и ESTeam Translator) и сетевыми онлайновыми словарями ежедневно выполняется 1 млн запросов на пере-вод текстов в различных форматах.
Все вышесказанное свидетельствует об актуальности обращения к пробле-ме машинного перевода, который хотя и уступает по качеству переводу, осу-ществляемому человеком, но даже на сегодняшнем этапе развития позволяет преодолевать языковые барьеры, а кроме того, продолжает оставаться интерес-ной научной проблемой компьютерной лингвистики в целом.
Слайд 9Чтобы определить понятие машинного перевода, обратимся сначала к не-которым общим
понятиям теории перевода. Перевод обычно понимается как деятельность, «в результате
которой некоторый текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность». При этом отмечается многозначность понятия перевода: это одновременно и процесс передачи содержания текста на одном языке средствами другого языка, и результат переводческой деятельности.
Слайд 102.2 Классификация и примеры систем МП.
Машинный (или автоматический) перевод (МП)
- выполняемое компьюте-ром действие по преобразованию текста на одном естественном
языке в эквива-лентный по содержанию текст на другом языке, а также результат такого дей-ствия.
Слайд 11К числу наиболее распространенных в России систем МП относятся:
Stylus -
система МП, включающая множество словарей по разным пред-метным областям;
Universal Translator—
многоязычная система МП;
Socrat - система, позволяющая сканировать документы, переводить их содержимое и проверять орфографию;
Polyglossum - многоязычная система МП с широким набором предметных словарей;
Promt - многоязычная система МП, содержащая множество словарей по разным предметным областям;
Web TranSite- система для перевода веб-страниц
Слайд 12С точки зрения роли человека в процессе выполнения МП различают
сле-дующие его виды:
МАНТ (Machine-assisted human translation) - перевод, осуществляемый человеком
с использованием компьютера;
НАМТ (Human-assisted machine translation) - машинный перевод при участии человека;
FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод.
Слайд 13В первом случае человек использует компьютерные инструменты, направ-ленные на ускорение
и упрощение процесса перевода, но собственно перевод текста выполняет сам
человек. Вспомогательными системами компьютерной поддержки перевода здесь выступают электронные словари, терминологические базы данных.
Второй тип систем МП является своего рода промежуточным: здесь оди-наково важно участие в процессе перевода и человека, и машины. В машину вводятся электронные словари, морфологические справочники и задается опре-деленный алгоритм выполнения задачи перевода. Роль человека здесь сводится к выбору предлагаемых машиной решений и редактированию текста перевода.
Слайд 14По мере усложнения систем МП и включения в них новых
этапов автома-тического анализа и синтеза текста выделяют три поколения таких
систем
П-системы - системы прямого перевода (direct systems);
Т-системы - системы с синтаксическим преобразованием исходного тек-ста (от англ. transfer - преобразование);
И-системы - системы с семантическим и прагматическим анализом (interlingua - язык-посредник).
Слайд 152.3 Этапы осуществления полностью автоматизированного МП.
В целом схема машинного перевода
включает следующие этапы:
ввод в компьютер текста на ИЯ,
его морфологический анализ,
т.е. определения части речи и морфологических характеристик каждого слова,
синтаксический анализ каждого предложения текста ИЯ (поиск основных членов предложения и определение типов синтаксических связей между ними, выражаемых в виде дерева зависимостей или дерева непосредственных составляющих),
семантический анализ каждого предложения ИЯ, в результате которого создается семантическое представление этого предложения, независимое от типа языка (общее и для ИЯ, и для ПЯ),
синтаксический синтез предложений ПЯ (создание предложений правильной синтаксической структуры, соответствующей правилам ПЯ и типу синтаксической структуры предложения на ИЯ,
морфологический синтез каждого слова в составе отдельных предложений текста ПЯ (постановка слов ПЯ в нужных морфологических формах);
вывод текста на ПЯ.
Слайд 162.4 Параметры оценки систем МП.
Сравнение и оценка систем МП осуществляется
по следующим парамет-рам (Framework for the Evaluation of Machine Translation,
FEMTI):
характеристики программного обеспечения: надежность системы, удоб-ство использования, скорость работы, возможность обновлений, эффективность, мобильность и т.п.;
характеристики пользователя и задач перевода: особенности пользовате-ля, автора и текста, а также назначение перевода;
особенности системы МП: стратегия построения системы, лингвистиче-ские ресурсы и т.п.;
специфика выходного текста: точность, целостность, стиль и т.п., а также наличие ошибок любого характера.
Слайд 172.5 Проблемы МП
Отдельные трудности процесса МП связаны с необходимостью определения
анафорических связей в текстовом целом (anaphorare solution), снятия омонимии на
разных уровнях, а также с необходимостью привлечения в процесс перевода экстралингвистических знаний.
Слайд 18Необходимость включения экстралингвистической инф
МП иллюстрируется, к примеру, следующими фразами:
Председатель Центральной
избирательной комиссии назначается президентом Российской Федерации.
Согласно задумкам американских ученых, сразу
после старта вражеские ракеты будут уничтожать авиационные лазеры и мобильные комплексы малых противоракет.
Слайд 19Лингвистическим обеспечением таких систем выступают словари слов и словосочетаний с
соответствующими признаками для ИЯ и ПЯ; морфологиче-ские таблицы суффиксов и
окончаний для ИЯ и ПЯ; базы грамматических пра-вил и др. К программному обеспечению относятся программы выполнения пере-вода, ведения словарей, формирования базы правил и т.д. Информационное обеспечение представляет база экстралингвистических знаний о предметной области.