Promt
-
Upload
nlpseminar -
Category
Documents
-
view
1.093 -
download
6
Transcript of Promt
Автоматический переводчик
ПроМТ
Уфлянд Елена
ООО «ПроМТ»
www.translate.ru
2 составляющие автоматического переводчика:
• Программа
• Словарь
• Программа использует информацию из словаря при обработке текста
1.ПРОГРАММА
Типы систем перевода
• TRANSFER • INTERLINGUA
Система типа
TRANSFER
Предложение на языке входа
Структура для языка входа
Структура для языка выхода
Предложение на языке выхода
анализ
TRANSFER
синтез
Система типа
INTERLINGUA
Предложение на языке входа
Метаструктура для языка входа ==
Метаструктура для языка выхода
Предложение на языке выхода
анализ
синтез
Основная проблема – разработка метаязыка
• ПроМТ – система типа TRANSFER, НО:
• вместо последовательного TRANSFER’a
• – • иерархически взаимосвязанные
TRANSFER’ы для разных единиц перевода
Уровни, выделяемые в системе:
1. Уровень лексических единиц2. Уровень групп3. Уровень простых предложений4. Уровень сложных предложений
• Процессы связаны и взаимодействуют иерархически
• Для алгоритмов разных уровней используются разные формальные методы
TRANSFER на морфологическом уровне
• входная морф. инф. выходная морф. инф.
TRANSFER на уровне групп
• Основа – формальные сетевые грамматики
• При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков
TRANSFER на уровне предложений
• Основа – фреймовые предикатные структуры
• Глагол – главный элемент• Валентности глагола
определяют заполнение фрейма
• Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов
• + Анализ сложных предложений
– в случае формирования согласования времен и правильного перевода союзов.
• Задача системы -- получение результата при
произвольных входных данных• (в том числе и для текстов, которые не являются
правильными для грамматики, с которой работает система)
• Процесс перевода – процесс с "объектно-ориентированной" организацией, основанной на
иерархии обрабатываемых компонентов
предложения
• Гарантирует устойчивость системы.
2.СЛОВАРЬ
3 уровня словарей:
Генеральный словарь • Состоит из более 130000 статей, постоянно
пополняется и совершенствуется
Специализированные словари• Около 50 шт., различные тематики (бизнес,
компьютеры, юридический, по нефти и газу и т.д.)
Пользовательские словари• Вспомогательные, открыты для редактирования
пользователю
• Словарные статья содержит информацию о слове на языке входа:
парадигма слова на входном языке и слов-переводов на выходном языке,
грамматические характеристики слова на входном языке и слов-переводов на выходном языке (род для существительного, переходность для глагола и т.п.),
Семантика слова на входном языке и слов-переводов на выходном языке ,
информация о сочетаемости с другими словами
• Статья – это набор признаков, с помощью которых кодируется эта информация.
• Программа использует эти признаки при анализе текста.
Морфологическое описание
• Практически уникальное по полноте
• 800 типов словоизменений для русского языка• 300 типов словоизменений для немецкого и французского
языков• 250 типов словоизменений для английского языка
• Множество окончаний для каждого языка хранится в виде древесных структур: эффективный способ хранения и морфологического анализа.
разработана экспертная система для создателя словаря (почти полная автоматизация процедуры выделения основы и определения типа словоизменения при заведении новых слов)
Активные• Отбираются самые частотные• Не более 2х одновременно, если нет специальных
ограничений• Учитываются в процессе перевода
Неактивные• Прочие переводы• Хранятся в словаре, но в процессе перевода не
учитываются
Переводы
Признаки
Собственно признаки • Содержат информацию обо всем слове целиком или о
слове, как об определенной части речи
Модификаторы• Содержат информацию о конкретном переводе слова
• Все признаки используются программой для интерпретации предложений в тексте.
Вид статьи в словаре
Примеры использования признаков
• Table (перевод этого существительного после предлога at = за + N (тв. падеж)
• The boy writes a letter at his table• * Мальчик пишет письмо в своем столе.
• Мальчик пишет письмо за своим столом.
• Tea (семантика «вещество»)• I'd like some tea• * Я хотел бы некоторый чай.
• Я хотел бы немного чая.
• Teacher (женский род для перевода «учительница»)• Mary is my first teacher.• * Мэри – мой первый учитель.
• Мэри – моя первая учительница.
Статьи:
Однословные Обороты (фразеологизированные или частотные
словосочетания)
Примеры:
• ice age
• * Ледяной возраст• Ледниковый период
• cover point
• Have I covered your point?
• * Я покрыл Ваш пункт?• Я ответил на Ваш вопрос?
3.Проблема снятия
«омонимии»
• Проблема особенно актуальна для перевода с английского языка
• Для ее разрешения используются:
Информация из словаря (признаки)
Прочая информация: О тематике текста (подключение специализированного
словаря)
О типе текста (подключение правил перевода для разных типов текстов)
О языковом варианте текста (подключение правил перевода для BrE/AmE)
Примеры использования признаков
1. Terminal (для перевода «неизлечимо больной» – «одушевленный» субъект; для существительного – высокая вероятность числа в постпозиции)
• terminal phase• предельная фаза• terminal patient
• неизлечимо больной пациент
• terminal 1• терминал 1
2. Leave (для разных переводов – разная семантика объекта : «одушевленный/местность»)
• He has left me forever
• Он оставил меня навсегда• He has left Moscow forever• Он уехал из Москвы навсегда
Пример использования специализированных тематических
словарей
• Bay (переводы в генеральном словаре – «бухта», «гнедой», в специализированном словаре «Кулинария» – «лавр», «лавровый»)
• bay soup• * гнедой суп
• лавровый суп
• add some bay• * добавьте некоторый залив• добавьте немного лавра
Пример использования правил перевода для различных типов документов
• Снятие «омонимии» глагол/существительное при обработке текстов рецептов
• Place cracked wheat in bowl• * Место раздробило пшеницу в миске• Поместите дробленую пшеницу в миску
Пример использования правил перевода для BrE и AmE
• Public school (разные переводы в BrE и AmE)• In the USA and Canada a public school is elementary or secondary school,
that is administered by state and local officials. • В США и Канаде государственная школа - начальная или средняя
школа, которой управляют государственные официальные лица и местные государственные служащие.
• In England, Wales, Northern Ireland and some other countries a public school is private or 'independent', fee-paying school.
• В Англии, Уэльсе, Северной Ирландии и некоторых других странах частная школа - частная или 'независимая', платная школа.
4.Тестирование
изменений
• Важной особенность системы ПроМТ является возможность
тестирования любых вносимых изменений (как в словарь, так и в программу).
• Тестирование производится на репрезентативной, пополняемой базе текстов.
В базе представлены тексты• самых различных тематик (политика, медицина, техника и т.д.)
• следующих жанров: публицистика, научно-популярные и научные статьи.
• Размер базы – около 18 Мб• Источник текстов для базы – Интернет.
ВСЕ.
Спасибо, что пришли…… без помидоров.
8)