Вариативность орфографий в идише и проблема их...

1
Вариативность орфографий в идише и проблема их автоматической транслитерации 1. Постановка проблемы. Парсер корпуса идиша работает только с одной орфографией; она считается нормативной, но является конструктом; огромное количество текстов (XIX-XX вв.) написано в других орфографиях; эти тексты пока невозможно включить в корпус; необходим орфографический нормализатор. Помимо этого, у пользователя должна быть возможность посмотреть выдачу корпуса и в латинице. Соответственно, наш нормализатор должен обладать также функциями транслитератора. Таким образом, такая программа должна уметь: уметь нормализовать орфографию показывать в выдаче корпуса исходный вариант в оригинальной орфографии, но при этом правильно размеченный выдавать транслитерированный в латиницу вариант - как оригинальный, так и нормализованный 2. Ход работы Обзор орфографических традиций свидетельствует об отсутствии чётких правил внутри каждой из них. Исчисление возможных отклонений от нормативной орфографии: единицы какого уровня имеют вариативность - только буквы? морфемы? слова? Что должна знать программа? Нужна ли морфология? Какие модули должны подключаться к программе? Создание нормализатора Создание транслитератора Подключение их к процессу обработки текстов для корпуса. 3. Орфография идиша и проблемы нормализации Идиш пользуется еврейским квадратным письмом, в основном слова записываются фонетически. Где наблюдается вариативность? Исключения из фонетического принципа записи – заимствования из семитских языков (записываются консонантным письмом): ררר- mir - [mir] VS רר- kl - [kol] В некоторых издательских практиках такие слова записываются фонетически Наличие или отсутствие конечных вариантов для некоторых букв: רררVS ררר- in В некоторых издательских практиках конечные буквы игнорируются. Некоторые фонемы на письме обозначаются сочетанием нескольких букв: רר[v] = uu רר ,[oy] = ui, רר[ey] = ii Для различения таких букв в разных орфографических традициях используется либо диакритика (как в нормативной), либо «немые» буквы ר- a ר ,- h Произношение некоторых морфем отошло от их традиционного написания, как следствие, в некоторых орфографиях они записываются в соответствии с современным произношением: ר רר- bay - [ba] → ר רר- ba רררר- oyf - [uf] → ררר- uf В некоторых орфографиях отсутствует диакритика. Поэтому некоторые графемы становятся неразличимы: ר ר רa/o ר →a, o ר ר/רp/f ר →p, f И некоторые другие 4. Технология и тестирование Алфавит со всеми вариантами букв Проблемные морфемы, буквосочетания и слова с вариантами модуль для заимствований из семитских языков n-граммы, HMM для букв без диакритики точность - 98% для текстов в нормативной орфографии(2% - заимствования из семитских языков), 94-97% для текстов в других орфографиях полнота - 100% Данное научное исследование (№ п 14-05-0074) выполнено при поддержке Программы «Научный фонд НИУ ВШЭ» в 2013- 2014 г. Кирьянов Д.П., Орехов Б.В., Панова Т.А.

description

Вариативность орфографий в идише и проблема их автоматической транслитерации. Кирьянов Д.П., Орехов Б.В., Панова Т.А. 1. Постановка проблемы. Парсер корпуса идиша работает только с одной орфографией; она считается нормативной, но является конструктом; - PowerPoint PPT Presentation

Transcript of Вариативность орфографий в идише и проблема их...

Page 1: Вариативность орфографий в идише и проблема их автоматической транслитерации

Вариативность орфографий в идише ипроблема их автоматической

транслитерации

1. .Постановка проблемы

• ;Парсер корпуса идиша работает только с одной орфографией

• , ;она считается нормативной но является конструктом

• (XIX-XX .) огромное количество текстов вв написано в других;орфографиях

• ;эти тексты пока невозможно включить в корпус

• .необходим орфографический нормализатор

, Помимо этого у пользователя должна быть возможность посмотреть . , выдачу корпуса и в латинице Соответственно наш нормализатор . , должен обладать такжефункциями транслитератора Таким образом

:такая программа должна уметь

• уметь нормализовать орфографию

• показывать в выдаче корпуса исходный вариант в оригинальной, орфографии но при этом правильно размеченный

• - выдавать транслитерированный в латиницу вариант как, оригинальный так и нормализованный

2. Ход работы

• Обзор орфографических традиций свидетельствует об отсутствии .чётких правил внутри каждой из них

• : Исчисление возможных отклонений от нормативной орфографии - ? единицы какого уровня имеют вариативность только буквы? ?морфемы слова

• ? ? Что должна знать программа Нужна ли морфология Какие ?модули должны подключаться к программе

• Создание нормализатора

• Создание транслитератора

• . Подключение их к процессу обработки текстов для корпуса

3. Орфографияидишаипроблемынормализации

, Идишпользуется еврейским квадратным письмом в основном слова . ?записываются фонетически Где наблюдается вариативность

• – Исключения из фонетического принципа записи заимствования ( ):из семитских языков записываются консонантным письмом

�ל  mir - [mir]  VS - מיר kl - [kol] - כ

В некоторых издательских практиках такие слова записываютсяфонетически

• :Наличие или отсутствие конечных вариантов для некоторых букв

in - אינ VS אין В некоторых издательских практиках конечные буквы

.игнорируются

• Некоторые фонемы на письме обозначаются сочетанием :нескольких букв

ii = [ey] יי ,ui = [oy] וי ,uu = [v] וו

Для различения таких букв в разных орфографических традициях ( ), « » используется либо диакритика как в нормативной либо немые

 буквы h - ה ,a - א• Произношение некоторых морфем отошло от их традиционного

, , написания как следствие в некоторых орфографиях они :записываются в соответствии с современным произношением

  →  bay - [ba] - בײ ba - בא�

uf - אוף  → oyf - [uf] - אויף

• . В некоторых орфографиях отсутствует диакритика Поэтому :некоторые графемы становятся неразличимы

א�/ a, o א → a/o א�

פ�/ p, f פ → p/f פ�

• Инекоторые другие

4. Технологияи тестирование

• Алфавит со всеми вариантами букв

• , Проблемные морфемы буквосочетания и слова с вариантами

• модуль для заимствований из семитских языков

• n- , HMM граммы для букв без диакритики

• - 98% (2% - точность для текстов в нормативной орфографии ), 94-97% заимствования из семитских языков для текстов в других

орфографиях

• - 100%полнота

  Данное научное исследование(№ 14-05-0074)п

выполнено при поддержке « Программы НаучныйфондНИУ»  2013- 2014 .ВШЭ в г

. ., . ., . .КирьяновДП ОреховБВ Панова Т А