Ag Systran 2008 04 26
-
Upload
nlpseminar -
Category
Documents
-
view
730 -
download
1
description
Transcript of Ag Systran 2008 04 26
О чем, собственно, речь
Машинный переводБылое и думы
Опыт работы над системой машинного перевода в компании SYSTRAN
(2004-2006)
Alexandre [email protected]
Планчик
1. Немного истории2. Компания SYSTRAN3. Система SYSTRAN4. Опыт разработки (былое)5. Актуальное (думы)
Немного истории
1. 1947 – Warren Weaver, Andrew Booth, Norbert Wiener:
"I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.''
Немного истории
2. 1954 – Georgetown experimentсловарь порядка 200 слов6 грамматических правил60 русских предложений
Как следствие возникновение многих исследовательских групп, ориентированных на создание машинного перевода
Немного истории
3. 1966 – Доклад ALPACYohoshua Bar-Hillel: “John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.” (1959)Как следствие свертывание большинства исследовательских групп, ориентированных на создание машинного перевода
Немного истории
4. 1968 – Образование SYSTRANDr. Peter Toma, California1. Поддержка системы, разработанной в недрах United States Department of Defense2. Работа для/с Еврокомиссией*. Проект Союз-Апполон (1973)тишина до 1986 года…(Gachot, французская компания)
Компания SYSTRAN
SYSTRAN = PROMTin the world in Russia
4. Более 90% рынка5. Доход в 2007 году ~13 млн евро6. Акции торгуются на бирже
Компания SYSTRAN
Штаб-квартира в ПарижеGrande Arche de la Défense
Компания SYSTRAN
Филиал в Сан-ДиегоCalifornia
Компания SYSTRAN
ОрганизацияЧисленность -- порядка 100 человек
(50 в Париже, 50 в Сан-Диего)
5. R&D и директорат в Париже6. Продажи и маркетинг в Сан-Диего
Гендиректор Dimitris Sabatakakishttp://www.systran.fr/http://www.systran.ru/
Компания SYSTRAN
Заказчики2. Большие корпорации (70%)3. Интернет-компании (28%)4. Обычные пользователи (2%)
1. Ford, General Motors, Oracle, Symantec, Gaumont, DaimlerChrysler, Cisco
2. aol, yahoo, altavista, babelfish, -google, +windows
Компания SYSTRAN
Классификация систем машинного перевода
4. Классический (MT, LMT), Systran, Promt5. Тranslation Memory (TM), ассоциативная
память, Promt, Trados6. Статистический (SMT), Google
SYSTRAN – это Голиаф классического подхода, это тысячи человеко-лет.
Система SYSTRAN
Переводчик в разных видах
3. Серверные решения, много десятков тысяч евро, контракты на много лет
4. Настольные решения (Windows, Linux, Unix), стоимость от 80 евро до 1000
5. Мобильные решения (PocketPC, wap) до сих пор не выпущены
Система SYSTRAN
Команда R&D
3. Руководитель: Jean Senellart4. Соотношение лингвистов и
программистов 3 к 15. Порядка 10 млн строк кода только в
программах SYSTRAN, а словари никто и не считал.
6. Число программистов, работающих над ядром… 5 включая руководителя.
Система SYSTRAN
Языковые пары
3. Качественный перевод: англо-франко-английский, англо-немецко-английский, немецко-франко-немецкий, русско-английский
4. Средний перевод: европейские языки5. Восточные языки: арабский, японский,
китайский, корейский6. Экзотика: урду, хинди
А вообще, 52 пары
Система SYSTRAN
Гы-гы-гы или оценка качества перевода
Ээээ… нууу… ээээ… так сказать…
Скажем так, для больших объемовтекста это очень круто, когда можно примерно понять, о чем идет речь.
Система SYSTRAN
Оценка качества перевода (серьезная версия)
BLEU, NIST
Система SYSTRAN показывает хорошие результаты относительно других
переводчиков, а по основным парам перевода она является лидером.
Система SYSTRAN
Опыт работы или«здраствуйте, кажетсь,
у вас есть ошuбка»
5. Работа над ядром системы6. Работа над лингвистическими
движками7. Ответственный за RU-EN-RU8. Разработка RU-FR-RU9. Разработка независимого трансфера10. Всякое, разное, прочее
Система SYSTRAN
Архитектура
3. Ядро системы (С++)4. Лингвистические движки (С)5. Оболочка (С++)
7. Лингвистические ресурсы8. Внутренние инструменты (perl)
Система SYSTRAN
Лингвистический движок (теория)
4. Модуль анализа5. Модуль трансфера6. Модуль синтеза
8. Лингвистические ресурсы
Система SYSTRAN
Лингвистический движок (жизнь)
4. Модули разбиваются над сабмодули: лексический, снятия омонимии etc.
5. Модули не независимы: анализ связан с трансфером и синтезом.
6. Нет четкого разделения между морфологией, синтаксисом и семантикой
7. Нет четкого разделения между кодом и ресурсами
8. Процесс перевода построен на использовании индексов (более 120 индексов)
Система SYSTRAN
Лингвистический движок (код)
4. Движки были написаны в цифровом коде в 60 годах
5. В 70-80 их переписали в ассемблере6. В начале 90 их переписали в
ассемблероподобном СИ.7. В середине 90 разобрались с некоторыми
техническими моментами (использование Unicode, современные библиотеки).
8. С тех пор их боятся, и никто не трогает9. Код необычайно уязвим.
Система SYSTRAN
В чем проблема 2. Сложность задачи3. Организация работы4. Бизнес-подход5. Невозможность решить задачу
академически
Система SYSTRAN
Как сделать лучше
3. Централизованное решение (а-ля multitran.ru)
4. Объединение статистики и классики
Система SYSTRAN
GALE (new DARPA project)Global Autonomous Language Exploitation
Полное разрешение проблемы распознавания речи и
автоматического перевода
1 млрд долларов на 10 лет