Promt

30
Автоматический переводчик ПроМТ Уфлянд Елена ООО «ПроМТ» www.translate.ru

Transcript of Promt

Page 1: Promt

Автоматический переводчик

ПроМТ

Уфлянд Елена

ООО «ПроМТ»

www.translate.ru

Page 2: Promt

2 составляющие автоматического переводчика:

• Программа

• Словарь

• Программа использует информацию из словаря при обработке текста

Page 3: Promt

1.ПРОГРАММА

Page 4: Promt

Типы систем перевода

• TRANSFER • INTERLINGUA

Page 5: Promt

Система типа

TRANSFER

Предложение на языке входа

Структура для языка входа

Структура для языка выхода

Предложение на языке выхода

анализ

TRANSFER

синтез

Page 6: Promt

Система типа

INTERLINGUA

Предложение на языке входа

Метаструктура для языка входа ==

Метаструктура для языка выхода

Предложение на языке выхода

анализ

синтез

Основная проблема – разработка метаязыка

Page 7: Promt

• ПроМТ – система типа TRANSFER, НО:

• вместо последовательного TRANSFER’a

• – • иерархически взаимосвязанные

TRANSFER’ы для разных единиц перевода

Page 8: Promt

Уровни, выделяемые в системе:

1. Уровень лексических единиц2. Уровень групп3. Уровень простых предложений4. Уровень сложных предложений

• Процессы связаны и взаимодействуют иерархически

• Для алгоритмов разных уровней используются разные формальные методы

Page 9: Promt

TRANSFER на морфологическом уровне

• входная морф. инф. выходная морф. инф.

TRANSFER на уровне групп

• Основа – формальные сетевые грамматики

• При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков

TRANSFER на уровне предложений

• Основа – фреймовые предикатные структуры

• Глагол – главный элемент• Валентности глагола

определяют заполнение фрейма

• Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов

• + Анализ сложных предложений

– в случае формирования согласования времен и правильного перевода союзов.

Page 10: Promt

• Задача системы -- получение результата при

произвольных входных данных• (в том числе и для текстов, которые не являются

правильными для грамматики, с которой работает система)

• Процесс перевода – процесс с "объектно-ориентированной" организацией, основанной на

иерархии обрабатываемых компонентов

предложения

• Гарантирует устойчивость системы.

Page 11: Promt

2.СЛОВАРЬ

Page 12: Promt

3 уровня словарей:

Генеральный словарь • Состоит из более 130000 статей, постоянно

пополняется и совершенствуется

Специализированные словари• Около 50 шт., различные тематики (бизнес,

компьютеры, юридический, по нефти и газу и т.д.)

Пользовательские словари• Вспомогательные, открыты для редактирования

пользователю

Page 13: Promt

• Словарные статья содержит информацию о слове на языке входа:

парадигма слова на входном языке и слов-переводов на выходном языке,

грамматические характеристики слова на входном языке и слов-переводов на выходном языке (род для существительного, переходность для глагола и т.п.),

Семантика слова на входном языке и слов-переводов на выходном языке ,

информация о сочетаемости с другими словами

• Статья – это набор признаков, с помощью которых кодируется эта информация.

• Программа использует эти признаки при анализе текста.

Page 14: Promt

Морфологическое описание

• Практически уникальное по полноте

• 800 типов словоизменений для русского языка• 300 типов словоизменений для немецкого и французского

языков• 250 типов словоизменений для английского языка

• Множество окончаний для каждого языка хранится в виде древесных структур: эффективный способ хранения и морфологического анализа.

разработана экспертная система для создателя словаря (почти полная автоматизация процедуры выделения основы и определения типа словоизменения при заведении новых слов)

Page 15: Promt

Активные• Отбираются самые частотные• Не более 2х одновременно, если нет специальных

ограничений• Учитываются в процессе перевода

Неактивные• Прочие переводы• Хранятся в словаре, но в процессе перевода не

учитываются

Переводы

Page 16: Promt

Признаки

Собственно признаки • Содержат информацию обо всем слове целиком или о

слове, как об определенной части речи

Модификаторы• Содержат информацию о конкретном переводе слова

• Все признаки используются программой для интерпретации предложений в тексте.

Page 17: Promt

Вид статьи в словаре

Page 18: Promt
Page 19: Promt
Page 20: Promt

Примеры использования признаков

• Table (перевод этого существительного после предлога at = за + N (тв. падеж)

• The boy writes a letter at his table• * Мальчик пишет письмо в своем столе.

• Мальчик пишет письмо за своим столом.

• Tea (семантика «вещество»)• I'd like some tea• * Я хотел бы некоторый чай.

• Я хотел бы немного чая.

• Teacher (женский род для перевода «учительница»)• Mary is my first teacher.• * Мэри – мой первый учитель.

• Мэри – моя первая учительница.

Page 21: Promt

Статьи:

Однословные Обороты (фразеологизированные или частотные

словосочетания)

Примеры:

• ice age

• * Ледяной возраст• Ледниковый период

• cover point

• Have I covered your point?

• * Я покрыл Ваш пункт?• Я ответил на Ваш вопрос?

Page 22: Promt

3.Проблема снятия

«омонимии»

Page 23: Promt

• Проблема особенно актуальна для перевода с английского языка

• Для ее разрешения используются:

Информация из словаря (признаки)

Прочая информация: О тематике текста (подключение специализированного

словаря)

О типе текста (подключение правил перевода для разных типов текстов)

О языковом варианте текста (подключение правил перевода для BrE/AmE)

Page 24: Promt

Примеры использования признаков

1. Terminal (для перевода «неизлечимо больной» – «одушевленный» субъект; для существительного – высокая вероятность числа в постпозиции)

• terminal phase• предельная фаза• terminal patient

• неизлечимо больной пациент

• terminal 1• терминал 1

2. Leave (для разных переводов – разная семантика объекта : «одушевленный/местность»)

• He has left me forever

• Он оставил меня навсегда• He has left Moscow forever• Он уехал из Москвы навсегда

Page 25: Promt

Пример использования специализированных тематических

словарей

• Bay (переводы в генеральном словаре – «бухта», «гнедой», в специализированном словаре «Кулинария» – «лавр», «лавровый»)

• bay soup• * гнедой суп

• лавровый суп

• add some bay• * добавьте некоторый залив• добавьте немного лавра

Page 26: Promt

Пример использования правил перевода для различных типов документов

• Снятие «омонимии» глагол/существительное при обработке текстов рецептов

• Place cracked wheat in bowl• * Место раздробило пшеницу в миске• Поместите дробленую пшеницу в миску

Page 27: Promt

Пример использования правил перевода для BrE и AmE

• Public school (разные переводы в BrE и AmE)• In the USA and Canada a public school is elementary or secondary school,

that is administered by state and local officials. • В США и Канаде государственная школа - начальная или средняя

школа, которой управляют государственные официальные лица и местные государственные служащие.

• In England, Wales, Northern Ireland and some other countries a public school is private or 'independent', fee-paying school.

• В Англии, Уэльсе, Северной Ирландии и некоторых других странах частная школа - частная или 'независимая', платная школа.

Page 28: Promt

4.Тестирование

изменений

Page 29: Promt

• Важной особенность системы ПроМТ является возможность

тестирования любых вносимых изменений (как в словарь, так и в программу).

• Тестирование производится на репрезентативной, пополняемой базе текстов.

В базе представлены тексты• самых различных тематик (политика, медицина, техника и т.д.)

• следующих жанров: публицистика, научно-популярные и научные статьи.

• Размер базы – около 18 Мб• Источник текстов для базы – Интернет.

Page 30: Promt

ВСЕ.

Спасибо, что пришли…… без помидоров.

8)