Background

1
p Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi (Graduate School of Informatics, Kyoto University) Background Features Parallel Sentence Extraction System Experiments 3 1 2 4 Bas +N 80 85 90 95 100 Precision Recall F-measure 50 100 150 200 34 35 36 37 38 • Classification results with WF • Extraction results (#extracted sentences [unit: k]) • MT results (BLEU-4) Classi fier Parallel sentences Parallel sentence candidates Zh-Ja Wikipedia Filter Article pairs Inter- language link Common Chinese characters Seed parallel corpus (1) (2) (3) . . . Bilingu al diction ary Common Chinese characters filtering Novel featur es Classi fier Filte r Cartes ian produc t Non-parallel sentence pairs Filtered non-parallel sentence pairs Positi ve instan ces Negati ve instan ces Bilingu al diction ary Seed parallel corpus Common Chinese characters • Parallel sentence classifier • Overview • Chinese character features (+CC) • Non-CC word features (+Non-CC) • Content word features (+Con) Zh: Ja : ... 日日日 日日日日日日日日日日日日日 日日日日日 一, 1 1 2 43 部部部部 部部部部 部部部部部部部部 ,, 日日日日日日日日日 日日 日日日日 日日日日 、、。 部部部部部部部部部部部 部部部 部部部部部部 部部部 部部 部部部部部 ,、、、 部部部... ... 日日日日1 1 2 43 日日日 日日日日日日日日日日日日日部部 部部部部 部部部部部 部部部 部部部部部部部部 部部部 ()、。、 部部部部部 部部部部 一、、 日日日日日日日日 日日日日 、、 日日日日日日日日日日日部部部 部部部部部 、、 部部部部部部部部部部部 部部部部部部 部部 (一 )。 ... • Chinese-Japanese Wikipedia • Lack of Chinese-Japanese parallel corpora for SMT Corpora Language Domain Europarl European Politic NIST Zh-En, Arab- En News BTEC Asian-En Travel NTCIR Zh-En, Ja-En Patent ASPEC Ja-En, Zh-Ja Science • Parallel sentence candidate filtering – WF: dictionary-based word overlap (Baseline) – CCF: common Chinese character (cognate) overlap – WF and CCF: logical conjunction of WF and CCF – WF or CCF: logical disjunction of WF and CCF 部部部部部部部部部部部 部部部部 部部部部 、、。 部部部部部部部部 部部部部 部部部部部部部部部部部部 、、。 Zh: Ja: c YY / /部/ / / 部部 / / 部 / 部部 / 部部 / / 部部 / / 部部 / 部部部 / 部部 / 部部 / / 部部部 / / 部部 / / 部部 / 部部 / 部部部部 / 部 / / 部部部部部 部/ / 部部 / / 部部 / / 部部 / 部部 / Zh: Ja: • Baseline features – General features: sentence length, word overlap – Word alignment features 部部部 部部部部部部部部部部部部部 部部部部部 一, 1部1部2部43 部部部部部1 部 1 部 2 部 43 部 部部部部部部部部部部部部部部部部部 )。 Zh: Ja: # The resource is freely available at: http://orchid.kuee.kyoto-u.ac.jp/~chu/ resource/wiki_zh_ja.tgz # http://orchid.kuee.kyoto- u.ac.jp/ASPEC/

description

. Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa , Sadao Kurohashi (Graduate School of Informatics, Kyoto University). Common Chinese characters. Common Chinese characters. Background. Features. Baseline features - PowerPoint PPT Presentation

Transcript of Background

Page 1: Background

p

Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi

(Graduate School of Informatics, Kyoto University)

Background Features

Parallel Sentence Extraction System Experiments

31

2 4

Baseline +CC +Non–CC +Con80

85

90

95

100

PrecisionRecallF-measure

Baselin

e (WF)

+CC (WF)

+Non-CC (WF)

+Con (WF)

+Con (CCF)

+Con (WF a

nd ...

+Con (WF o

r ...

50

100

150

200

3435363738

• Classification results with WF

• Extraction results (#extracted sentences [unit: k])

• MT results (BLEU-4)

Classifier

Parallel sentencesParallel sentence

candidates Zh-Ja Wikipedia

Filter

Article pairs

Inter-language link

CommonChinesecharacters

Seed parallel corpus

(1) (2) (3)

...

Bilingual dictionary

Common Chinese characters filtering

Novel features

ClassifierFilter

Cartesian product

Non-parallel sentence pairs

Filtered non-parallel sentence pairs

Positive instances

Negativeinstances

Bilingual dictionary

Seed parallel corpus

CommonChinesecharacters

• Parallel sentence classifier

• Overview

• Chinese character features (+CC)

• Non-CC word features (+Non-CC)

• Content word features (+Con)

Zh: Ja:...日本的一级行政区划单位为都道府县,全国划分为 1都、 1道、 2府、 43县。部份市因人口较多,在当地影响较大,而被指定为政令指定都市、中核市、特例市。都道府县下的行政区划为市町村,此外还有郡、支厅、区、特别区等行政单位。...

...都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。但し、地域区分(地方区分)には、揺れが見られる。また、一部の市は、行政上、別途政令指定都市、中核市、特例市に定められている。他にも、市町村や、町村をまとめた郡がある(全国市町村一覧参照)。...

• Chinese-Japanese Wikipedia

• Lack of Chinese-Japanese parallel corpora for SMTCorpora Language DomainEuroparl European PoliticNIST Zh-En, Arab-En NewsBTEC Asian-En TravelNTCIR Zh-En, Ja-En PatentASPEC Ja-En, Zh-Ja Science

• Parallel sentence candidate filtering– WF: dictionary-based word overlap (Baseline)– CCF: common Chinese character (cognate) overlap – WF and CCF: logical conjunction of WF and CCF– WF or CCF: logical disjunction of WF and CCF

而被指定为政令指定都市、中核市、特例市。

別途政令指定都市、中核市、特例市に定められている。

Zh:

Ja: c

YY /的 /尸体 /, /和 /活着 /的 /黑 /猩猩 /相比 /, /皮肤 / 的 /颜色 /看起来 /稍微 /明朗 /一些 /。つぎに /, /配線 /に /使用 /する /パターン /幅 /や /クリアランス /の /設定 /の /方法 /を /説明 /した/。

Zh:

Ja:

• Baseline features– General features: sentence length, word overlap– Word alignment features

日本的一级行政区划单位为都道府县,全国划分为1都、 1道、 2府、 43县。

都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。

Zh:

Ja:

# The resource is freely available at: http://orchid.kuee.kyoto-u.ac.jp/~chu/resource/wiki_zh_ja.tgz

# http://orchid.kuee.kyoto-u.ac.jp/ASPEC/