Scan Translation: A Service for Active Multi …...特集...

9
特集 16 富士ゼロックス テクニカルレポート No.23 2014 多言語コミュニケーションを活性化する スキャン翻訳 Scan Translation: A Service for Active Multi-Language Communication 近年、経済・文化活動の両面でグローバル化が進み、 多くのビジネスシーンで母国語以外の文書を活用す るシーンが増加している。インターネット上ではさま ざまな言語の文章を機械的に翻訳するサービスが提 供され、広く活用されている。しかし、冊子や配布物 等の紙文書や、文字コード情報を持たない電子文書に おいては、翻訳したい文章をキーボードで入力する必 要があり、使いやすいサービスであるとは言い難い。 このような背景から、富士ゼロックスでは『スキャ ン翻訳サービス』と呼ぶクラウドサービスを提供して いる。本サービスは、紙/電子文書をシームレス、か つレイアウトを保持して翻訳できる特徴を持つ。 本稿では、スキャン翻訳サービスの特徴的な機能を 実現するソフトウェア技術を中心に、同サービスがも たらす業務の効率化や、1つの文書を共有することに よる「母国語が異なる人同士」のコミュニケーション 支援について紹介する。 Abstract Along with accelerated economic and cultural globalization in recent years, documents written in languages other than the readers’ native one are increasingly being used in various business scenes. To support this practice, many machine translation services that translate various languages are being offered and used. However, in order to use such services for printed materials such as booklets and handouts or for digital documents that lack text code information, users must undertake the cumbersome task of typing in the text to be translated. To address this situation, Fuji Xerox is offering a cloud service called Scan Translation Service. This service can translate paper and digital documents “seamlessly” without changing the document layout. This paper introduces the software technology that enables the main features of Scan Translation Service, as well as the effects that this service has on streamlining the workflow and supporting communication between people that speak different languages by sharing one document. 執筆者 加藤 雅弘(Masahiro Kato藤井 晃一(Koichi Fujii研究技術開発本部 インキュベーションセンター Incubation Center, Research & Technology Group

Transcript of Scan Translation: A Service for Active Multi …...特集...

Page 1: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

16 富士ゼロックス テクニカルレポート No.23 2014

多言語コミュニケーションを活性化する スキャン翻訳 Scan Translation: A Service for Active Multi-Language Communication 要 旨

近年、経済・文化活動の両面でグローバル化が進み、

多くのビジネスシーンで母国語以外の文書を活用す

るシーンが増加している。インターネット上ではさま

ざまな言語の文章を機械的に翻訳するサービスが提

供され、広く活用されている。しかし、冊子や配布物

等の紙文書や、文字コード情報を持たない電子文書に

おいては、翻訳したい文章をキーボードで入力する必

要があり、使いやすいサービスであるとは言い難い。

このような背景から、富士ゼロックスでは『スキャ

ン翻訳サービス』と呼ぶクラウドサービスを提供して

いる。本サービスは、紙/電子文書をシームレス、か

つレイアウトを保持して翻訳できる特徴を持つ。

本稿では、スキャン翻訳サービスの特徴的な機能を

実現するソフトウェア技術を中心に、同サービスがも

たらす業務の効率化や、1つの文書を共有することに

よる「母国語が異なる人同士」のコミュニケーション

支援について紹介する。

Abstract

Along with accelerated economic and cultural globalization in recent years, documents written in languages other than the readers’ native one are increasingly being used in various business scenes. To support this practice, many machine translation services that translate various languages are being offered and used. However, in order to use such services for printed materials such as booklets and handouts or for digital documents that lack text code information, users must undertake the cumbersome task of typing in the text to be translated. To address this situation, Fuji Xerox is offering a cloud service called Scan Translation Service. This service can translate paper and digital documents “seamlessly” without changing the document layout. This paper introduces the software technology that enables the main features of Scan Translation Service, as well as the effects that this service has on streamlining the workflow and supporting communication between people that speak different languages by sharing one document.

執筆者 加藤 雅弘(Masahiro Kato) 藤井 晃一(Koichi Fujii) 研究技術開発本部 インキュベーションセンター (Incubation Center, Research & Technology Group)

Page 2: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

富士ゼロックス テクニカルレポート No.23 2014 17

1. はじめに

コンピューターで自然言語を翻訳する機械翻

訳技術は、1950年代から本格化な研究開発が

開始された。1990年代中頃にはパーソナルコ

ンピューター(以降、PCと称す)向けに応用さ

れた翻訳ソフトウェア(以降、SWと称す)が1

万円を切る価格で発売されるまでになった。し

かし同じ頃、インターネットが急速に普及し始

め、それに伴いさまざまな言語で記述された情

報がグローバル、かつ大量に流通するように

なった。翻訳に対するニーズも高まり、インター

ネット上のWebサイトにおいて無料で利用可

能な機械翻訳サービスは、その手軽さ・気軽さ

もあって人気コンテンツとなった。現在では大

手ポータルサイトを中心に、多くのWebサイト

でさまざまな言語間で翻訳が可能なサービスが

提供されている1), 2)。これらは、翻訳したい文

章がコンピューターで扱える文字コード情報と

して表現されている場合には非常に有効なツー

ルである。

一方、我々の身の回りには、そのままでは既

存の機械翻訳技術を利用できない(文字コード

情報を持たない)情報が多量に存在する。冊子

や配布物などの紙文書は勿論であるが、電子情

報として流通している文書(以降、電子文書と

称す)であっても、ディスプレイ上への表示や

紙上への印刷などの行為を通じて、人が目にし

て理解することを目的として作成されるものも

多い。そのため、電子文書であっても必ずしも

コンピューターにとって理解しやすいとはかぎ

らない(ここでの理解とは、文章や表、図といっ

た文書の内容を解釈して翻訳等の情報処理を行

うという意味である)。このような文書に対して

既存の機械翻訳サービスを利用するには、翻訳

対象文章のキーボード入力が必要となる。しか

し、本作業は利用者の利便性を低下させる。さ

らに、利用者が知識を持たない言語に対しては、

本作業は困難を伴うものとなる。

富士ゼロックスでは、長年にわたりコミュニ

ケーションに関わる研究開発を実施しており、

その中でも重要な役割を果たす文書を対象とし

た多様な技術を保有する。スキャン翻訳サービ

スは、これらの技術に基づいたサービスである。

紙/電子を問わず文書を機械翻訳する技術と、

オフィスのインフラとして広く普及している複

合機を連携させることにより、利用者の『文書

を翻訳する』行為に対する障壁を軽減すること

を狙いとしている。具体的には、日々の業務に

おいて外国語文書を扱うシーンでの効率化や、

外国語文書に基づくコミュニケーションの活性

化へ貢献することを目指している。

本稿では、現在多くの企業において顕在化し

つつある、日々の業務で外国語文書を扱うとき

の課題、その課題解決に貢献するスキャン翻訳

サービスの概要、同サービスを実現するソフト

ウェア技術、そして同サービスを活用すること

による効果について紹介する。

2. 外国語文書を扱うビジネス環境で

の課題

2.1 日々の業務において外国語文書を扱

うビジネス環境での課題

経済、文化活動両面でのグローバル化の進展

に疑う余地はなく、また、中国を始めとするア

ジア各国の近年の著しい経済成長などもあり、

日本国内においても海外に事業機会を見出す企

業が増えている3)。海外の企業とビジネスを行

ううえでは、多くの場合、コミュニケーション

は英語が中心となるが、場合によっては現地の

言語も多く使われている。

長年にわたって海外企業との取り引き経験を

持つ大企業においては、社内における体制やプ

ロセス、文化が整っている。一方、日本以外に

市場を求め、海外とのビジネスを始める企業や、

大企業のような専任のリソースを割くことが困

難な中小企業においては、業務を滞りなく遂行

するために試行錯誤を繰り返している企業も少

なくない。

海外企業とのコミュニケーションを進めるう

えで大きなウェートを占める文書によるコミュ

ニケーションにおいて、外国語文書は外部の翻

訳会社に翻訳を依頼するという解決策もある。

しかし、多くのシーンでは費用と時間(納期)

を鑑みて利用に適さないという声を聞く。この

ような企業における課題は、以下のように整理

できる。

Page 3: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

18 富士ゼロックス テクニカルレポート No.23 2014

外国語文書というだけで、言語スキルを持つ

特定のメンバーに業務が集中してしまう。

言語スキルを持つメンバーが翻訳専任でない

場合、他業務との兼ね合いで業務が滞る。

言語スキルを持つメンバーが席を外す期間が

長いと、業務そのものが止まってしまう。

英語であれば、ある程度のスキルを持ったメ

ンバーが社内にいる可能性が高いが、その他

の外国語に関しては、スキルを持つメンバー

が見当たらず、概要の把握すら困難な場合が

ある。

また、比較的社内の体制が整っている企業に

おいても、各個人が自身の業務を進めるうえで

把握しておいた方がよいと判断する外国語文書

については、それが数百ページに及ぶもので

あっても自身が時間を捻出して読み込まざるを

得ないことが多い(個人の理解が主な目的であ

る場合、組織から費用や人的リソースが提供さ

れることは少ない)。結果として、海外とのコ

ミュニケーション不足や必要な情報の欠落が発

生し、ビジネス機会の損失を招く恐れがある。

2.2 文書に基づくコミュニケーション

複数名が同じ文書を見ながら会話をすること

は、ビジネスにかぎらず非常に基本的なコミュ

ニケーションのスタイルである。しかし、母国

語が異なる人同士がこのスタイルでコミュニ

ケーションを取ろうとすると、文書で使われる

言語は会話の参加者全員が理解できる言語であ

る必要がある。多くの場合、いずれかの参加者

の母国語であるか、または英語で記載された文

書が使われるが、言語スキルは個々の参加者で

異なる。したがって、文書で使われている言語

と参加者の言語スキルの組み合わせによっては、

円滑なコミュニケーションが難しいことがある。

3. スキャン翻訳サービス

3.1 スキャン翻訳サービスの概要

既述の課題解決に貢献するために、富士ゼ

ロックスではスキャン翻訳サービスを市場に展

開している。スキャン翻訳サービスは、富士ゼ

ロックスの複合機やPCから、インターネットを

通して利用するクラウド型の文書翻訳サービス

である。初期費用が不要な月額課金型のサービ

スであり、システム導入の初期コストやシステ

ム管理コストが不要で、契約後すぐに利用を開

始できる。

本サービスを利用すれば、これまでの翻訳

サービスとは異なり、複合機でコピーするよう

な手軽さで紙文書をスキャンし、その文書のレ

イアウトが保たれた翻訳文書を入手できる。ま

た、PCからはWebブラウザーを経由して電子

文書(DocuWorks形式、PDF形式)を翻訳す

ることができる。どちらの方法で本サービスを

利用しても、翻訳文書は複合機から印刷、およ

びPDF形式の文書としてPCへのダウンロード

が可能である(図1)。

原稿(原文)言語

日本語

英語

中国語

(簡体字)

中国語

(繁体字)

韓国語

翻訳(訳文)言語

日本語 ○ ○*1 ○*1 ○*1

英語 ○ ○*1 ○*1 ○*1

中国語(簡体字)

○*1 ○*1

中国語(繁体文字)

○*1 ○*1

韓国語 ○*1 ○*1

*1 ユーザー辞書および専門辞書、単語翻訳(ルビ)

は使用できません。

User dictionary, Special dictionary, and Word

Translation (ruby style) are not available.

D H C _ P

D H C _ P

D H C _ P

DWD H C _ P

PDF

D H C _ P

プリント

D H C _ Pクラウドサービス

ダウンロード

D H C _ Pa D H C _ Pあ

言語① 言語②

アップロード

スキャンD H C _ P

D H C _ P

D H C _ P

図1 スキャン翻訳サービスの概要

System outline of Scan Translation Service

表1 スキャン翻訳サービスの翻訳言語 Languages supported by the Service

Page 4: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

富士ゼロックス テクニカルレポート No.23 2014 19

3.2 スキャン翻訳サービスの提供機能

スキャン翻訳サービスは主に以下①~⑥の機

能を備える。

① 紙文書を翻訳する機能

複合機のスキャン機能を利用して紙文書の翻

訳を行うことができる。対象言語は表1のと

おりである。

② 電子文書を翻訳する機能

DocuWorks/PDF形式の電子文書をWebブ

ラウザーでアップロードして翻訳を行うこと

ができる。対象言語は紙文書と同様である。

③ 翻訳文書を複合機でプリントする機能

翻訳結果を複合機から呼び出してプリントす

ることができる。

④ 翻訳文書をPCにダウンロードする機能

翻訳結果をPDF形式の電子文書としてPC上

にダウンロードすることができる。

⑤ ユーザー辞書の編集機能

翻訳時に利用するユーザー辞書の登録を行う

ことができる(現在は、日英/英日翻訳のみ)。

ユーザー辞書を登録するにより、固有名詞など

で発生しやすい誤訳を低減することができる。

⑥ サービスの利用管理機能

お客様において設定していただく管理者ユー

ザーは、Webブラウザー上で以下の操作を行

うことができる。

ユーザーの登録

管理者権限の付与

グループの登録

サービスの利用状況集計

また、ドキュメント共有を支援する富士ゼ

ロックスのクラウドサービス「Working Folder」

とも連携できるため、Working Folderに格納

された文書(DocuWorks/PDF形式のみ)を、

簡単な操作でクラウド上から直接翻訳すること

が可能である4)(図2)。

3.3 スキャン翻訳を実現する技術

ここでは、スキャン翻訳サービスの特徴的な

機能である文書翻訳に直接関連する技術に焦点

を当てて紹介する。クラウド上のシステムでは、

入力された文書に対して大きく文書解析処理、

文字抽出処理、翻訳処理、および翻訳配置処理

という4つの文書処理を実施している(図3)。

3.3.1 文書解析処理および文字抽出処理

原文書のレイアウトを保持した翻訳文書を生

成すること、および紙/電子を問わず簡単な操

作で翻訳文書を生成することは、これまでに述

べた外国語文書を扱うシーンにおける課題解決

に必要不可欠な機能である。

文書解析処理および文字抽出処理は、上記機

能を実現するうえでキーとなる処理であり、ス

キャン翻訳サービスにおいて核となる処理であ

る。これらは、原稿画像を扱う「画像処理系統」

と、アプリケーションSWから作成された電子

文書の情報を解析する「コード処理系統」の大

きく2つの処理系から構成されている(図4)。

画像処理系統は、スキャン文書に対する解析

図2 Working Folderとの連携

Connection with Working Folder

文書入力

①富士山②富士山は美しい山です。

①Mt. Fuji②Mt. Fuji is a beautiful mountain.

富士山

富士山は美しい

山です。

Mt. Fuji

Mt. Fuji is a

beautiful mountain.

文書解析

富士山は美しい

山です。

Mt. Fuji is a beautiful

mountain.

富士山Mt. Fuji

翻訳配置(置換え)

文字抽出

翻訳

翻訳配置(ルビ)

図3 クラウド上の文書処理概要 Outline of document processing on the cloud system

Page 5: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

20 富士ゼロックス テクニカルレポート No.23 2014

や光学的文字認識処理(以降、OCR*2処理と称

す)を行うだけでなく、電子文書に対しても文

書構造を解析する役割を持つ。ひとくちに「電

子文書」といっても保有する情報の粒度はさま

ざまであり、構造情報まで備えるものは多くな

い。このためスキャン翻訳サービスでは、電子

/紙を問わず文書の全てのページを画像化し、

これら画像の幾何特徴に基づいて原稿レイアウ

トや表構造等の文書構造を解析している。

複合機からスキャンされた紙文書、またはPC

からアップロードされた電子文書の中で画像か

ら生成されたものに対しては、傾き補正や解像

度変換等の前処理を施したうえで領域解析処理

を行う5)。領域解析処理では、大局的および局

所的の両面から画像特徴を解析し、文字領域、

写真領域、表領域、図領域といった領域属性を

判定する6)。文字領域および表領域については、

さらに文字列の並びを解析することで個々の文

章領域を特定し、縦書き領域であるのか横書き

領域であるのかを判定する7)。

領域解析処理において、文字領域および表領

域と判定された領域に対しては、文字認識率の

*2 Optical Character Recognition

向上に寄与する文字/罫線分離処理や線分の輪

郭補正処理等の後処理を行う8)。文字/罫線分

離処理は、文字列と表罫線やアンダーラインが

接触している場合にこれらを分離し、文字認識

処理を的確に機能させる効果がある。

画像処理系統では、文字抽出の手段として

OCR処理を用いる。また、文書で使われている

文字色を判定しておくことで、翻訳文書を生成

するときに翻訳文を原文と近い色で表現するこ

とが可能となる(置き換え翻訳のみ)。取得した

文字コード情報や文字色情報はレイアウト情報

と統合し、翻訳処理、ならびに翻訳配置処理に

利用する。

一方、コード処理系統では電子文書を構成す

るコードを解釈し、翻訳に必要な文字コード情

報の他、翻訳文書の生成に必要な文字の色や大

きさ等の個々の文字情報を取得する。並行して、

文字コード情報を持つ文字要素を画像化し、画

像処理系統の解析結果を参照しながら領域解析

処理(この場合は文章領域の特定のみ)を行う

ことでレイアウト情報を取得する。

ただし既述のとおり、電子文書であっても人

が目にして理解できることのみを目的として作

成されたものは、文字を画像として描画するた

テキストA

テキストB

セル1 セル3

セル2 セル4

テキストC

画像から生成

アプリSWから生成

紙文書

テキストA (イメージ)

テキストB (コード)

セル1 セル3

セル2 セル4

テキストC (イメージ)

テキストA (イメージ)

テキストC (イメージ)

テキストA (イメージ)

テキストC (イメージ)

テキストA

テキストB

セル1 セル3

セル2 セル4

テキストC

テキストAテキストB

セル1 セル3セル2 セル4

テキストC

前処理

補正画像

生成画像

テキストB (コード)

セル1 セル3

セル2 セル4

文字コードを

持たない要素の画像化処理 文章領域

文字

写真 図

領域属性

文章領域

電子文書

背景画像

領域解析処理

領域属性

背景生成処理

文章領域

背景生成処理

背景画像

テキストA(イメージ), …

文字情報

D H C _ P

テキストB (コード)

セル1 セル3

セル2 セル4

個々の文字情報(文字コード/色/位置/サイズ 等)

複合機

PC

レイアウト情報

文字情報

D H C _ P

文字

写真 図

後処理文字色

判定処理

レイアウト情報

テキストA

テキストB

セル1 セル3

セル2 セル4

テキストC

テキストA,テキストB, …

生成画像

文字コードを持つ要素の画像化処理

レイアウト情報

OCR処理

主に画像が処理対象となるフロー

主にデータが処理対象となるフロー

画像処理系統

コード処理系統

領域解析処理

図4 文書解析処理および文字抽出処理の概要 Outline of document analysis and text extraction

Page 6: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

富士ゼロックス テクニカルレポート No.23 2014 21

めの情報のみを有し、機械翻訳を利用するうえ

で必要な文字コード情報が欠落している場合が

ある。これは、その目的に直接寄与しない付帯

的な情報を最小限に留め、文書ファイルの容量

をコンパクトに保とうとする電子文書生成SW

の工夫や、電子文書生成SWを呼び出すアプリ

ケーションSWが文字コード情報を出力しない

等、いくつかの要因があるためである。事実、

インターネット上に流通しているPDF文書の

中には、広く販売されている翻訳SWでは翻訳

できないものも少なくない。

スキャン翻訳サービスは、これまでに述べた

ように画像処理系統とコード処理系統の2つの

処理系を密に連携させている。電子文書におい

て人の目には文字が記載されているにもかかわ

らず文字コード情報を抽出できない文字につい

ては、画像処理系統で処理を行うことで、翻訳

に必要な文字コード情報を取得している。最終

的に、画像処理系統で得られた情報とコード処

理系統で得られた情報とを統合する。

このような仕組みを用いることで、スキャン

翻訳サービスでは紙/電子を問わず多様な文書

の翻訳に対応している。

3.3.2 翻訳処理

スキャン翻訳サービスは、パートナー企業の

優れた機械翻訳技術と富士ゼロックスの文書処

理技術とを組み合わせることにより、これまで

機械翻訳では良好な翻訳結果を得ることが難し

かった文書領域に対しても、原文のレイアウト

を保持した翻訳文書生成を可能としている。

既述のとおり、機械翻訳処理は(情報欠落な

くデジタル化された文章が表現された)文字

コード情報が入力されることを前提としている。

想定されている利用方法では、文章の区切りは

句点や改行コードで判断すればよいため、複数

の文章が入力されたとしても個々の文章を適切

に翻訳することができる。

これに対し、文書翻訳では機械翻訳処理に入

力する情報を、文章の区切りが明確に判断でき

るように予め整形しておく必要がある。たとえ

ば、スキャンされた原文の文章が箇条書き表記

されている場合には、翻訳処理を呼び出す側が

項目間の区切り位置を明確化しないと、複数の

項目が1つの文章と解釈されて翻訳されてしま

い誤訳となることがある。これは、箇条書き文

章では文章末尾の句点が省略されているケース

が多く、また、スキャン文書では改行コードの

挿入される位置が文章末尾であるとはかぎらな

いためである。

画像処理系統で文字情報を抽出するOCR処

理は、文章区切りを判定する機能を持たないた

め(OCRが改行を出力できるケースは、見た目

上の各行末のみである)、スキャン翻訳サービス

ではレイアウト情報と文字情報に基づき、下記

の文章段落特徴を総合的に判断して箇条書きの

各項目境界を判定し、翻訳を実施している。

文章領域の行揃え(左揃え、中央寄せ、右

揃え)

各行のインデント状況

各行における行頭文字/記号の有無

このように、文書の翻訳では単純に機械翻訳

技術を導入すればよいというわけではなく、翻

訳処理を有効に機能させるために文章の構造を

的確に把握することが重要な要素となる。

3.3.3 翻訳配置処理

人が文書を目にして理解を進めるときには、

文書のレイアウトが非常に大きな役割を果たす。

それは、レイアウトそのものが情報を整理する

手段であるとともに、文書の読み手の視線を的

確に誘導する効果を持っているからである。

このような観点から、スキャン翻訳サービス

では翻訳文書において原文書のレイアウトを再

現することに重点を置いており、「置き換え翻訳」

と呼ぶ原文を翻訳文で置き換えた形式と、「ルビ

風翻訳」と呼ぶ原文に翻訳文をルビのように配

置する形式の2つの形式で翻訳文を配置してい

る(図5)。

翻訳文は、翻訳元の言語と翻訳先の言語との

組み合わせにより、原文と比べて長くも短くも

なる。このためスキャン翻訳サービスでは、原

文と翻訳文の文字量を比較し、翻訳文の文字サ

イズ/長体割合や行数を調整することで原文文

書のレイアウトを維持している。

置き換え翻訳では、翻訳文書において原文の

文字サイズと文字色を再現している。これによ

り、目を通すべき箇所が明らかな文書などは、

Page 7: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

22 富士ゼロックス テクニカルレポート No.23 2014

原文文書 翻訳文書(置き換え翻訳)

翻訳文書(単語翻訳)翻訳文書(ルビ風翻訳)

レイアウトを頼りにその部分だけに目を通すと

いった読み方ができる。ページ数が多い文書で

あれば、レイアウトによって重要なページを

ピックアップできるため、その効用は大きい。

一方、ルビ風翻訳では、視線の移動量を最小

限に留めながら原文と対比させて翻訳文に目を

通すことができる。紙文書の翻訳では、OCR誤

り等に起因する誤訳の発生を完全に回避するこ

とは困難であるが9)、ルビ風翻訳であれば必要

に応じて原文に目を移せるため、安心感を持っ

て翻訳文を読み進めることができる。

また、母国語が異なる複数名が同じ文書を見

ながらコミュニケーションを取りたいという

シーンでも、ルビ風翻訳は適している。

さらに日英/英日翻訳に限り、文章訳ではな

く単語訳を原文のルビのように配置する単語翻

訳機能を利用することができる。諸外国の言語

の中でも英語スキルを持つビジネスパーソンは

多いため、英語文書を読み進めるときは原文を

読み進めて意味がわからない単語のみ対訳を知

りたい、というニーズは少なくない。単語翻訳

はこのような用途に適した形式であるといえる。

ただし、「this」や「and」といった基礎的な英

単語に対しても対訳を出力してしまうと読み難

い文書になってしまうことから、おおむね中学

校で習う基礎的な英単語に対しては対訳を生成

しないことで、利便性と読みやすさとのバラン

スを保っている。

4. スキャン翻訳サービスが提供する

価値

一般的に、機械翻訳処理は人による翻訳に比

べて翻訳品質が粗くなる反面、非常に短期間で

翻訳結果が得られるという利点がある。スキャ

ン翻訳サービスが提供する最大の価値は、電子

および紙文書の双方に対して、簡単な操作で原

文書のレイアウトを保った翻訳文書を提供する

ことにより、利用者がこの機械翻訳の利点を日

常のさまざまなビジネスシーンで容易に享受で

きる点にある。

一例として、社内における外国企業との関わ

りが深い部門を調査した結果、業務に付随して

大量の外国語文書を入手し、その内容を理解し

て次のアクションを起こすというシーンが、少

なからず発生することがわかった。しかも多く

場合で、入手した文書のうちアクションを起こ

すために深い理解が必要なページは限られてい

る。仮に入手した文書が100ページに及ぶ場合、

重要なページを選択することなく文書全体に対

して人手による翻訳を依頼した場合、翻訳結果

を得るまでに多額の費用と2週間から1か月も

の時間を要してしまい、その間のアクションは

停滞してしまう(図6)。

一方、このようなシーンでスキャン翻訳サー

ビスを活用すると、文書を入手してから約2時

間後には、文書全体の概要が把握可能な品質の

図5 翻訳文の配置例(実サービスによる処理結果) Layout of translated sentences

Page 8: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

富士ゼロックス テクニカルレポート No.23 2014 23

原文文書(例:100ページ)

複合機/PC

訳文文書(10ページ前後)

約2 時間

訳文文書(100ページ)

翻訳(翻訳者)

翻訳(翻訳者)スキャン翻訳 選別(担当者)

約30分

翻訳文書(100ページ)

翻訳文書(10ページ前後)

約2 日D H C _ P

D H C _ P

約2週間~1か月

この段階で、文書の概要把握が可能

正確な翻訳が必要なページだけを抽出 スキャン翻訳

サービス導入後

従来の文書翻訳

翻訳文書を入手することができる。文書の概要

が把握できるだけでも、次のアクションが起こ

せるケースは少なくない。クラウド型のサービ

スのため、コストも低く抑えることができる。

文書の概要を把握した段階で、次のアクショ

ンを起こすために、内容の詳細把握が必要と判

断した場合は、費用をかけてでも人手による翻

訳をすべきページを抽出し、翻訳を依頼するこ

ともできる。スキャン翻訳サービスによる翻訳

文書は原文書のレイアウトを保持しているため、

たとえ100ページであっても、この重要なペー

ジの抽出作業は、本文書に関連する担当者が実

施すれば30分程度で実施できる。そして仮に重

要なページが文書全体の1割程度であった場合、

この例では約10ページに対して人手による翻

訳を実施すればよく、文書を入手してから約3

日で文書内容の把握、および次のアクションの

決定までを完了することができる。

ビジネス上のコミュニケーションは何よりス

ピードが求められるが、それがグローバルに展

開するものであれば尚更である。外国語文書を

入手したビジネスパーソンにとって、翻訳品質、

時間、費用のバランスから状況に応じて翻訳手

段を選択できることは、これまでにない価値で

あるといえる。

5. おわりに

スキャン翻訳サービスは、「外国語の文書の内

容をすぐに把握したい」、「母国語が異なる人同

士のコミュニケーションを円滑にしたい」とい

う場面に効果を発揮する、複合機およびPCから

利用可能な富士ゼロックス独自のクラウドサー

ビスである。

複合機から紙文書を翻訳する場合、スキャン

に関する細かな設定は必要なく、非常にシンプ

ルな操作で利用することができる。PCから電子

文書を翻訳する場合、Webブラウザーがあれば

利用可能であり、専用のソフトウェアをインス

トールする必要もない。

富士ゼロックスでは今後もスキャン翻訳サー

ビスの翻訳精度向上、より多くの言語への対応、

ならびにユーザビリティーの向上を図り、多言

語コミュニケーションの活性化に貢献していく。

6. 商標について

PDFは、Adobe Systems Incorporated(ア

ドビ システムズ社)の登録商標です。

その他、掲載されている会社名、製品名は、

各社の登録商標または商標です。

7. 参考文献

1) http://www.aamt.info

/localportal/japan/history.html

[日本の機械翻訳の歴史 (アジア太平洋機

械翻訳協会)]

2) 黒橋禎夫, 荒牧英治, “機械翻訳の現状と課

題 ”, 情 報 の 科 学 と 技 術 Vol.55, No.8,

pp.326-330 (2005).

図6 スキャン翻訳サービス導入による文書翻訳の効率化 Streamlining the translation process using Scan Translation Service

Page 9: Scan Translation: A Service for Active Multi …...特集 多言語コミュニケーションを活性化する 16 富士ゼロックス テクニカルレポート No.23 2014 スキャン翻訳

特集

多言語コミュニケーションを活性化するスキャン翻訳

24 富士ゼロックス テクニカルレポート No.23 2014

3) http://www.jetro.go.jp/jfile/report

/07001317/ja_foreign_operation.pdf

[2012年度日本企業の海外事業展開に関

するアンケート調査 (日本貿易振興機構)]

4) 大塚透, 林良太郎, 横山俊治, 市川岳大, 岩

崎康彦,“ クラウド型文書共有サービス

「Working Folder」”, 富士ゼロックス テ

ク ニ カ ル レ ポ ー ト , No.22, pp4-13

(2013).

5) T. Breuel, “The OCRopus Open Source

OCR System”. Proceedings IS&T/SPIE

20th Annual Symposium 2008,

Vol.6815 (2008).

6) A. Antonacopoulos, S. Pletschacher,

D. Bridson, and C. Papadopoulos,

“ICDAR 2009 Page Segmentation

Competition”, International Conference

on Document Analysis and Recognition

2009, pp.1370–1374 (2009).

7) 石谷康人, “データ駆動型処理と概念駆動型

処理の相互作用による文書画像レイアウト

解 析 ”, 情 報 処 理 学 会 論 文 誌 , Vol.42,

No.11, pp.2711-2723 (2001).

8) 嶋好博, 新庄広, 丸川勝美, 中島和樹, “帳票

画像からの下線抽出の一手法”, 情報科学

技術フォーラム一般講演論文集 2002(3),

pp.169-170 (2002).

9) D. Lopresti, “Optical Character

Recognition Errors and Their Effects

on Natural Language Processing”,

International Journal on Document

Analysis and Recognition (IJDAR),

Vol.12, Issue 3, pp.141-151 (2009).

筆者紹介

加藤 雅弘 研究技術開発本部 インキュベーションセンターに所属

専門分野:画像情報工学

藤井 晃一 研究技術開発本部 インキュベーションセンターに所属

専門分野:画像情報工学