Background

Post on 31-Dec-2015

35 views 3 download

description

. Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa , Sadao Kurohashi (Graduate School of Informatics, Kyoto University). Common Chinese characters. Common Chinese characters. Background. Features. Baseline features - PowerPoint PPT Presentation

Transcript of Background

p

Constructing a Chinese-Japanese Parallel Corpus from Wikipedia Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi

(Graduate School of Informatics, Kyoto University)

Background Features

Parallel Sentence Extraction System Experiments

31

2 4

Baseline +CC +Non–CC +Con80

85

90

95

100

PrecisionRecallF-measure

Baselin

e (WF)

+CC (WF)

+Non-CC (WF)

+Con (WF)

+Con (CCF)

+Con (WF a

nd ...

+Con (WF o

r ...

50

100

150

200

3435363738

• Classification results with WF

• Extraction results (#extracted sentences [unit: k])

• MT results (BLEU-4)

Classifier

Parallel sentencesParallel sentence

candidates Zh-Ja Wikipedia

Filter

Article pairs

Inter-language link

CommonChinesecharacters

Seed parallel corpus

(1) (2) (3)

...

Bilingual dictionary

Common Chinese characters filtering

Novel features

ClassifierFilter

Cartesian product

Non-parallel sentence pairs

Filtered non-parallel sentence pairs

Positive instances

Negativeinstances

Bilingual dictionary

Seed parallel corpus

CommonChinesecharacters

• Parallel sentence classifier

• Overview

• Chinese character features (+CC)

• Non-CC word features (+Non-CC)

• Content word features (+Con)

Zh: Ja:...日本的一级行政区划单位为都道府县,全国划分为 1都、 1道、 2府、 43县。部份市因人口较多,在当地影响较大,而被指定为政令指定都市、中核市、特例市。都道府县下的行政区划为市町村,此外还有郡、支厅、区、特别区等行政单位。...

...都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。但し、地域区分(地方区分)には、揺れが見られる。また、一部の市は、行政上、別途政令指定都市、中核市、特例市に定められている。他にも、市町村や、町村をまとめた郡がある(全国市町村一覧参照)。...

• Chinese-Japanese Wikipedia

• Lack of Chinese-Japanese parallel corpora for SMTCorpora Language DomainEuroparl European PoliticNIST Zh-En, Arab-En NewsBTEC Asian-En TravelNTCIR Zh-En, Ja-En PatentASPEC Ja-En, Zh-Ja Science

• Parallel sentence candidate filtering– WF: dictionary-based word overlap (Baseline)– CCF: common Chinese character (cognate) overlap – WF and CCF: logical conjunction of WF and CCF– WF or CCF: logical disjunction of WF and CCF

而被指定为政令指定都市、中核市、特例市。

別途政令指定都市、中核市、特例市に定められている。

Zh:

Ja: c

YY /的 /尸体 /, /和 /活着 /的 /黑 /猩猩 /相比 /, /皮肤 / 的 /颜色 /看起来 /稍微 /明朗 /一些 /。つぎに /, /配線 /に /使用 /する /パターン /幅 /や /クリアランス /の /設定 /の /方法 /を /説明 /した/。

Zh:

Ja:

• Baseline features– General features: sentence length, word overlap– Word alignment features

日本的一级行政区划单位为都道府县,全国划分为1都、 1道、 2府、 43县。

都道府県( 1都 1道 2府 43県)という広域行政区画から構成される。

Zh:

Ja:

# The resource is freely available at: http://orchid.kuee.kyoto-u.ac.jp/~chu/resource/wiki_zh_ja.tgz

# http://orchid.kuee.kyoto-u.ac.jp/ASPEC/