АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ...

8
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет

description

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет. Особенности китайского языка. Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于 2 公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落 。. - PowerPoint PPT Presentation

Transcript of АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ...

Page 1: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.

ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Загибалов Тарас Евгеньевич

Красноярский госуниверситет

Page 2: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Особенности китайского языка

1. Отсутствие словоделения

现场的调查官员称,爆炸的威力相当于 2公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落。

Page 3: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Особенности китайского языка2. Невозможность однозначной сегментации текста на слова.

• [1a] da-xue | sheng-huo | hen | you-qu• университет | жизнь | очень | интересная• Университетская жизнь очень интаересна.• [1b] da-xue-sheng | huo | bu | xia-qu | le• студент | жить | не | далее |

(фразовая частица)• Студенты больше не могут жить.• [2a] ge-ren | de | li-liang• отдельный человек | DE (атр.)| сила• сила одного человека• [2b] san | ge | ren |de | li-liang• три | сч. частица | человек | DE (атр.) | сила• сила трёх человек

• (примеры взяты из «On Chinese parsing without using a separate word segmenter» Wei Li.)

Page 4: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Особенности китайского языка

3. Несловарная лексика.

哭跑 (孩子哭跑了客人。) kupao («плакать» + «бежать»)

|haizi |kupao |le |keren.

|ребёнок |так плакал, что разбежались | ПСВ | гости

(пример взят из Антонян К.В. «Единицы словаря и единицы текста в современном китайском

языке»)

Page 5: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Особенности китайского языка

4. Глагольно-объектные конструкции.• 1. 睡觉 shuijiao («спать»), букв.: «спать +

сон», (в словарях зафиксировано как слово);• 2. (觉)睡得很好 (jiao) shuide henhao, букв.:

(сон) спать+показатель наречия) + очень хорошо.

• 3. 睡了三个小时的觉 shuile sange xiaoshide jiao («спал три часа»), букв.: «спать+ПСВ + три часа+ DE (атр.) сон»);

• 4. 睡懒觉 shui lanjiao («валяться в постели»), букв.: «спать ленивый сон»;

Page 6: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Особенности китайского языка

• Имена собственные (десемантизация знака)

普京 pujing Путин

(«везде» + «столица»)

马来西亚 malaixiya – Малазия

(«лошадь»+«приходить»+«запад»+«азия»)

Page 7: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Базовые единицы китайского языка

• ЦЗЫ (логограмма, слогомофема)

• ЦЗЫЦЗУ (сочетание ЦЗЫ, слогоморфемная ситнагма)

• «Слово – лишь частный, к тому же не самый распространённый, случай слогоморфемной синтагмы» (В.Б.Касевич. «Семантика. Синтаксис. Морфология»)

Page 8: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Предлагаемые решения

• Для анализа крупных массивов информации за базовую единицу анализа можно взять ЦЗЫ.

• Для лексико-синтаксического анализа (parsing) за основу также берётся ЦЗЫ, на основе анализа которых возможно выделение ЦЗЫЦЗУ (On Chinese parsing without

using a separate word segmenter» Wei Li.)