音声認識技術の動向と字幕制作システムの地域局展開 ·...

01解説

音声認識技術の動向と�字幕制作システムの�地域局展開佐藤庄衛

「人にやさしい放送」は障害者や高齢者を含むすべての人が好みの手段で楽しむことができる放送であり，字幕放送はその一端を支える放送サービ

スである。NHKでは，この字幕放送を拡充するために，放送音声を自動認識する技術の研究開発を進めている。近年，音声認識技術は，深層学習の導入により，明瞭性の低い音声を含む情報番組の音声の認識も可能となってきた。本稿では，このような音声認識の進展をもたらした技術を解説するとともに，地域局発の番組に字幕を付与するために必要とされている技術についても解説する。

１．はじめに障害者や高齢者を含むすべての人が好みの手段で楽しめる「人にやさしい放送」１）を実

現するための技術の研究は，当所の重要な研究テーマの１つである。視聴環境や身体的なハンディキャップにより，放送で伝えられる情報の一部が得られない方々へ向けて，代替の情報保障手段を提供する技術の研究開発を進めている。このような代替手段の１つである字幕放送は，番組のナレーションやセリフなど，テレビ番組の音声で伝えられる情報の代替文字を，必要に応じて画面上に表示して伝える放送であり，聴覚に障害のある方や，テレビの音声の聞き取りが容易ではないと感じる高齢者の方な々どへの情報保障手段である。この字幕放送の拡充を目的として，音声認識技術の研究開発を進めている。

NHKでは，2000年に生放送のニュース番組において，音声認識を用いた字幕放送を世界に先駆けて開始した。それ以降，ニュース以外の生放送番組も含め，さまざまな番組の字幕制作に音声認識を利用している２）。現在は，総務省が策定した「視聴覚障害者向け放送普及行政の指針」３）に従い，2017年までに生放送も含め100%＊１の番組に字幕を付与するという目標の達成を目指して，字幕放送の拡充に取り組むとともに，地域局が発信する番組の字幕の拡充にも取り組んでいる。

本稿では，近年の音声認識の進展をもたらした技術を解説するとともに，地域局発の番組に字幕を付与するために必要とされている技術についても解説する。

＊１字幕付与の対象となる放送番組は，「７時から24時までの間に放送される番組のうち，次に掲げる放送番組を除くすべての放送番組」とされている。・技術的に字幕を付すことができない放送番組（例えば現時点では，複数人が同時に会話を行う生放送番組）・外国語の番組・大部分が器楽演奏の音楽番組・権利処理上の理由等により字幕を付すことができない放送番組

4 NHK技研 R&D ■ No.161 2017. 1

２．音声認識を用いた字幕制作の現状と課題２．１　字幕制作の現状

2006年以降，NHKはすべての事前収録番組に人手で字幕を付与している。事前収録番組では，表示するタイミングや位置，話者ごとの文字の色などを適切に調整した字幕を人手で用意することができる。一方，生放送のニュース番組，情報番組，スポーツ中継などでは，このような事前字幕を用意できない。そのため，放送番組の音声を即座に文字に変換して字幕を制作する手段が必要になる。NHKが字幕を付与する生放送番組には，特殊な高速入力キーボードを用いるスピードワープロや通常のキーボードを利用して人手で字幕を付与する番組と，音声認識を利用して字幕を付与する番組とがある。これらの字幕制作手段を，番組の話題や出演者の発話スタイルによる音声認識の難易度に合わせて使い分けている。

２．２　音声認識の利用方法とその課題字幕制作における音声認識の利用方法には，番組音声を直接認識する方法と，字幕制

作者が番組音声を明瞭に復唱した音声を認識する方法がある。情報番組などでは，背景雑音の混入や複数話者による会話などにより音声認識が難しくなるため，復唱者の音声を認識して必要な認識精度を確保している４）〜６）。現在，ニュース番組などでは，番組音声の直接認識を基本としながらも，認識精度の低下が見込まれるインタビューなどの部分では認識に復唱音声も利用できるハイブリッド方式が利用されている。

これらの字幕制作システムでは，音声認識の誤りを人手で修正して正確な字幕を付与している。これまでに，人手による認識誤りの修正を可能とするために，効率の良い修正が可能な操作性のよいインターフェースを開発した。また，字幕制作者の協力を得て，番組制作過程で得られる情報を使って字幕制作システムを番組に高度にチューニングし，字幕制作に必要な認識精度を確保してきた。ニュース番組用には，最新のニュース原稿を常に言語モデル＊２に反映させる仕組みが導入されている。しかし，突発的に起こる災害報道では緊急性が高いため，話題とする災害に関する情報が記載された原稿を入手できず，認識精度が低下するという課題があった。本特集号の報告「災害報道字幕制作のための音声認識」では，この課題に対する解決法を提案し，ニュースなどの字幕制作で実際に有用であった例を紹介している。

２．３　地域局の現状と課題前述のハイブリッド方式の字幕制作システムは，少人数でニュース番組に字幕を付与で

きるため，NHKの本部（東京）だけでなく，大阪局，名古屋局，福岡局，仙台局にも導入され，それぞれの地域に向けて放送されるニュース番組にも字幕が付与されるようになった。しかし，情報番組に字幕を付与する場合には，番組の出演者の発話を字幕制作者が復唱しなければ認識できない場面が多く，専門の復唱者の要員確保が難しい地域放送局では情報番組の字幕を拡充していくことは難しい。したがって，情報番組を復唱なしで直接認識できるシステムの実現が望まれている。

さらに，上述の字幕制作システムでは，音声認識の誤りを修正する要員が必要である。しかし地域局によっては，専門の復唱者の確保が難しいだけでなく，番組本番中に認識誤りを修正する要員の確保が難しい場合もある。一方，このような地域局においては，本番前にはある程度の人的余裕が見込まれるため，この余裕をニュースの読み原稿の事前確認と字幕表示用の文章整形に割り当てて，この原稿を字幕とする字幕制作システムを

＊２認識すべき単語のリストや，単語と単語のつながりやすさを与えるモデル。

5NHK技研 R&D ■ No.161 2017. 1

開発した。このシステムにおいては，番組音声を直接認識し，その認識結果から上記の読み原稿のどの部分が読まれているかを精度よく推定する。そして，推定された読み原稿の文字列を字幕とする７）。このシステムは，放送中にニュース項目の変更や，原稿の読み飛ばしや言いかえが起こっても頑健に原稿を推定できるアルゴリズムを採用している。さらに，時事の進展により放送中に原稿の一部が差し替えられても，このアルゴリズムによる推定を止めることなく最新の原稿から字幕を送出できるように構築されている。この字幕制作システムは，広島，松山，札幌の各地域放送局に導入されており（１図），各局の発信するニュース番組に字幕を付与している。このシステムにおいても，情報番組に字幕を付与する場合には，番組音声を直接認識した場合の認識精度が不足することにより，原稿の推定精度が低下するという課題が残されている。

２図　DNNにより実現した入力音声から音素の事後確率を求める音響モデルの例

１図　音声認識結果から原稿を推定して字幕を制作するシステム��（広島放送局）

音素の事後確率

周波数分布

スペクトラム

音声波形

④ニューラルネットワーク

③ニューラルネットワーク

②フレーム切り出し

①周波数分析

深層ニューラルネットワーク部

出力

中間層（５～８層）

出力層

入力層

時間

入力

6 NHK技研 R&D ■ No.161 2017. 1

３図　従来の音響モデルとDNNによる音響モデルの比較

３．音声認識技術の最近の動向３．１　深層ニューラルネットワークの導入による音声認識の進展

2010年代に入ってから，音声認識技術は深層ニューラルネットワーク（DNN : Deep Neural Network）＊３の導入により大きく進展した８）。２図はDNNにより実現した入力音声から音素＊４の事後確率を求める音響モデル＊５の例である。２図の深層ニューラルネットワーク部に示すとおり，従来のニューラルネットワークの中間層が１〜２層であったのに対して，DNNでは５〜８層など多数の中間層を有する。これまで，こうした多層のニューラルネットワークの学習＊６には多くの課題があるとされてきたが，それらの課題が解決されたため，DNNは音声認識や画像認識をはじめとするさまざまな応用で利用できるようになった。解決された課題の１つは，学習時に教師＊７とする信号の情報が層を伝搬する過程で消失するため，深い層のパラメーターを学習することが困難となり，多層にできないという点である。この問題を解決するために，学習手順の工夫やニューラルネットワーク内で使用する関数の工夫が提案され，多層のニューラルネットワークを学習できるようになった。また，高速に学習できるオンライン学習アルゴリズムの導入や，大量の演算を並列に実行可能なGPU（Graphics Processing Unit）などの計算機アーキテクチャーを利用できるようになり，大規模なニューラルネットワークも学習可能となった。

音声認識にDNNを用いる場合，DNNは入力信号の特徴を捉えてその信号を分類する識別器として機能する。２図の例では，入力音声波形の各部分がどの音素であったかを識別する音響モデルとして機能する。具体的には，入力音声波形を周波数分析して得られた瞬時パワースペクトル（各時刻のスペクトル）を入力として，出力層に各音素に対応するニューロン（各音素の事後確率が出力される変数）を並べ，入力スペクトルがそれぞれの音素である確率を出力する。

３．２　従来の音響モデルとDNNによる音響モデルの比較従来の音響モデルとDNNによる音響モデルを比較すると，３図に示すとおり，従来法で

はフレーム切り出しの後に行っていた特徴量抽出＊８がDNNでは不要になっている。従来

＊３脳内で行われている信号処理の一部を計算機上で実現したモデルをニューラルネットワークと呼ぶ。DNNは，このニューラルネットワークを多層に配置したものである。＊４さまざまな母音や子音などの，音声の最小単位。＊５入力音声がどの音素であったかを与えるモデル。＊６ニューラルネットワークで所望の動作を実現するために，その動作に関するデータから，ニューラルネットワークのパラメーターを決めること。＊７ニューラルネットワークに学習させたい所望の動作を「教師」と呼ぶ。

DNN音響モデル

音声波形

HMMHMM

音素の時間伸縮


フレーム切り出しフレーム切り出し

（a）従来の音響モデル（b）DNNによる音響モデル

DCT　回帰係数判別分析　識別モデル


音素の時間伸縮

時間

音声波形

特徴量抽出

GMM音響モデル

時間

入力

認識結果

＊８効率良く頑健に音声を認識するために，音声信号をそのまま認識するのではなく，音声信号中の認識に必要な特徴だけを絞り出す演算。音声の周波数分布の大まかな形状を取り出すDCT（DiscreteCosineTransform），音声の瞬時的な特徴だけでなく時系列情報を付与する回帰係数，混同しやすい音素の特徴を重点的に学習できるようにする判別分析や識別モデルなどの演算がある。

7NHK技研 R&D ■ No.161 2017. 1

の音響モデルでは，各音素で観測される特徴量の複雑な形状の分布を複数のガウス分布で近似する混合ガウス分布モデル（GMM : Gaussian Mixture Model）を用い，この分布モデルでの識別能力が高まるように特徴量を抽出するさまざまな手法が提案され，この特徴量抽出手法も研究対象であった。一方DNNは，それが有する高い識別能力に加え，音素を識別する＊９ために必要な特徴を抽出して学習する能力も備えているため，人手で最適化してきた特徴量の次元圧縮・拡張や，空間写像演算などの，従来の特徴量抽出で行われてきた工夫は不要となった。DNNでは音素の識別を学習するとともに識別に必要な特徴量も同時に学習・最適化できるので，従来法のように別々に最適化したモデルよりも高い識別能力が期待できる。

３図では，これらのモデルにより得られた音素の事後確率と，毎回異なる時間長で発話される音素とを対応づけるために，時系列の伸縮機能を有する隠れマルコフモデル

（HMM：Hidden Markov Model）＊10を用いている。

３．３　雑音除去自己符号化器による雑音除去前節で述べたDNNの特徴量抽出能力を利用して，情報番組に多いBGM（Background

Music）などの雑音を除去して音声認識の入力を生成するニューラルネットワークを学習することができる（４図）。これには，入力信号と同じ信号を出力する自己符号化器のDNNを利用する。このDNNは，入力信号をさまざまな特徴に分解してそれらを再合成して出力信号を生成する。４図に示す手順で，雑音の無い学習音声に，さまざまな雑音をさまざまな比率で混合したデータを入力として，雑音のない音声を教師信号として学習することにより，雑音除去自己符号化器９）が実現できる。この時，音声認識で使用する時間フレームを複数個結合して入力信号とすれば，長期間の特徴を利用して音声と雑音を分離できるため，より精度よく雑音を除去した信号を生成できるようになる。５図は，当所の実験で，雑音除去自己符号化器による雑音除去効果を確認した結果である。BGMを混合した音

４図　雑音除去自己符号化器の学習

＊９ここでの音素は，“a”，“p”，“b”などの通常の音素に加え，着目する音素の前後の音素も考慮した音素（環境依存音素と呼ぶ）であり，さらに音素内でのスペクトルの時間変化を，音素の始まり，音素の中間，音素の終端の３つの時点におけるモデルで，別々に定義した音素である。

＊10将来の状態が現在の状態だけに依存し，過去の状態には依存しない確率過程（マルコフ過程）を仮定して，観測可能な情報から未知の隠れたパラメーターを推定する手法。

付加雑音さまざまな比率で人工的に雑音を混合した学習データ

認識フレームより長い区間の情報を入力

認識に用いるフレーム長雑音の無い音声を教師にして学習

雑音の無い学習音声

8 NHK技研 R&D ■ No.161 2017. 1

声から横向きの縞しま

に見える音楽成分が除去されていることが確認できる。

３．４　音声認識を構成する各機能のDNNによる置き換えニューラルネットワークによって実現することで，従来の手法よりも高い性能が見込まれ

る機能は上記の例にとどまらない。６図に音声認識を構成する各機能をニューラルネットワークで実現した例を示す。従来は有限の長さの単語連鎖確率しか与えられなかった言語モデルは，再帰構造を有し，時系列を学習できる再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）に置き換えられ，高い性能が得られている10）。さらに，発

６図　ニューラルネットワークに置き換え可能な音声認識の要素技術

５図　雑音除去自己符号化器による雑音除去

混合した音楽成分雑音除去

自己符号化器

時間

（c）雑音が除去された自己符号化器出力

（b）音楽を混合した自己符号化器入力

（a）雑音のない原音声

周波数

時間

周波数

時間

周波数

雑音除去

放送番組から自動生成した学習データ

音声データ発話内容のテキスト

RNN言語モデル次単語の確率

現単語

DNN音響モデル

自然な発話

認識結果

CTC自己符号化器

言語モデル音響モデル

特徴抽出探索


音声

雑音なし音声

雑音あり音声

単語の確率

雑音なし音声

9NHK技研 R&D ■ No.161 2017. 1

声ごとに異なる時間長を有する発話単語の波形と単語を対応づけるために用いられてきた隠れマルコフモデル（HMM）の時系列の伸縮機能は，同様の時系列伸縮機能を有し，連続的な時系列事象にラベルを付与するために考案されたニューラルネットワークであるコネクショニスト時系列分類法（CTC：Connectionist Temporal Classification）11）に置き換えられる。CTCは，大量の学習データを用意できる場合には，従来法よりも高い性能が得られると報告されている。

４．最新技術の導入による放送音声の認識精度改善地域局における音声認識字幕拡大の課題となっている情報番組を対象として，３章で

述べた最新技術の導入による効果を実験・評価した。音声認識の評価対象とした番組は，関東の地域情報番組「ひるまえほっと」の2013年６月３日から７日までの放送分である。BGMなどの背景雑音のある番組音声の2,774発話，31,888単語を直接認識して単語誤り率で評価した。７図に，従来のGMMによる音響モデルとDNNによる音響モデルでの単語誤り率の比

較を示す。７図には，学習音声の分量が1,000時間の場合と1,400時間の場合の単語誤り率をそれぞれ示している。ここで，1,000時間の学習音声の内訳は主にニュース番組であり，「ひるまえほっと」と異なり，主に原稿を読み上げる発話スタイルである。そのためGMMとDNNでは大きな改善が見られていない。一方，1,400時間の学習音声は，上述の1,000時間の学習音声に，認識対象番組と同様の出演者が自由に発言する発話スタイルの番組音声から自動生成した400時間の学習音声を追加したものである。この400時間の学

８図　雑音除去による単語誤り率の改善効果

７図　GMMによる音響モデルとDNNによる音響モデルでの単語誤り率の比較

40

35

30

25

20

15

10

5

0 1,000H

36 35.1

25.2

15.3

放送番組から自動生成した学習データを追加

単語誤り率（％）

GMMDNN

1,400H学習データ時間数

30

25

20

15

10

5

0 雑音除去なし雑音除去あり＋データ追加＋タスク適応化他

28.1

16.6 15.5

9.3

単語誤り率（％）

10 NHK技研 R&D ■ No.161 2017. 1

習音声は，放送番組の音声とその番組に付与された字幕テキストから自動生成した。この場合，学習音声に認識対象と同様の発話スタイルが含まれていたため，DNNの高い識別能力により，明瞭性の低い情報番組における認識精度の改善が確認された。この結果が示すとおり，DNNを利用しても，学習音声から認識対象の発話スタイルの音声の特徴を学習できなければ認識精度の改善は見込めない。当所では，放送番組に見られるさまざまな発話スタイルの学習音声を自動生成するための研究も進めている12）〜14）。８図に，３．３節で述べた雑音除去による単語誤り率の改善効果を示す。対象とした

「ひるまえほっと」は，料理のコーナーなど常時BGMが付与されている音声区間が長い。そのため，雑音によって生じている認識誤りが多く，雑音除去による改善効果が大きい。８図には，この雑音除去に加えて，自動生成した学習音声を約700時間追加した結果

（+データ追加）と，「ひるまえほっと」の音声にDNNを適応化＊11し，大規模な言語モデルを用いて得られた結果（+タスク適応化他）も示している。「+タスク適応化他」の単語誤り率は，現在までに実現できた最小の認識誤り率である。このように，最新技術の導入と当所の研究成果を合わせたことにより，単語誤り率は７図の36％から８図の9.3％にまで削減された。これにより，情報番組のスタジオでの対談では十分な認識精度が見込まれるものの，中継先のゲストの発話などに字幕を付与するためにはさらなる改善が必要である。

５．おわりに本稿では，「人にやさしい放送」を実現するためにNHKが字幕制作に導入してきた音声

認識技術の概要と残されている課題について解説した。また，この課題の解決に関連して，最近の音声認識技術として，深層学習の進展で実現したニューラルネットワークの音声認識への応用を紹介した。さらに，音声認識を構成する各モデルをニューラルネットワークで置き換えることにより，字幕制作において課題となっている音声の単語誤り率を9.3％まで改善できることを示した。

近年，携帯端末の普及に伴う通信ネットワークの充実や，動画投稿サイトやソーシャルネットワークなどの情報源の多様化が進む中で，報道機関にはこれまでより一層正確で迅速な情報の提供が求められている。番組制作においては，意図を正確に伝えるように編集されなければならない。素材音声の「書き起こし」は，取材内容に一覧性を与え，編集結果の客観的な確認に不可欠である。音声認識技術には，この書き起こしを自動化して迅速な番組制作を支えるとともに，従来人手では不可能な大量の素材に対して客観性を与えて情報の正確性を向上させるなど，報道機関に求められている社会的役割を支える技術としての期待も高まっている。

今後も，情報番組の音声認識をはじめとした字幕制作での応用のみならず，音声認識技術の適用可能な範囲を拡大させ，報道機関の役割を果たすために必要な応用も見据えた研究開発を進めていく。

＊11特定の番組を認識するときに認識精度が向上するようにチューニングすること。特定の番組の学習データに重みを付けて学習するなどの手法がある。

11NHK技研 R&D ■ No.161 2017. 1

参考文献

１）伊藤：“高齢者・障害者のメディアアクセスに関する話題－人にやさしい放送を目指した研究開発－，” 電子情報通信学会サイバーワールド第９回研究会，pp.1-6（2008）

２）佐藤：“音声認識を用いた生放送番組への字幕付与，” メディア教育研究，第９巻，第１号，S9-S18（2012）

３）総務省：“「デジタル放送時代の視聴覚障害者向け放送に関する研究会」報告書，” http://www.soumu.go.jp/main_sosiki/kenkyu/digital/（2011）

４） A.Prazak，Z.Loose，J.Trmal，J.V.PsutkaandJ.Psutka：“NovelApproach toLiveCaptioningThroughRe-speaking：TailoringSpeechRecognition toRe-speaker’sNeeds，” PaperPresentedattheMeetingoftheINTERSPEECH（2012）

５） P.Cardinal，G.Boulianne，M.ComeauandM.Boisvert：“Real-TimeCorrectionofClosed-Captions，” Proc.ofACL2007，pp.113-116（2007）

６） M.Marks：“ADistributedLiveSubtitlingSystem，” BBCR&DWhitePaper，WHP070（2003）

７）佐藤，尾上，小林，奥，一木，荒井：“ローカル番組の字幕付与システムの開発，” 情報処理学会研究報告音声言語情報処理，Vol.2014-SLP-103，No.1（2014）

８） G.Hinton,L.Deng,D.Yu,D.Dahl,A.Mohamed,N. Jaitly,A.Senior,V.Vanhoucke,P.Nguyen,T.SainathandB.Kingsbry：“DeepNeuralNetworksforAcousticModelinginSpeechRecognition：TheSharedViewsof FourResearchGroups，” IEEESignalProcessingMagazine，Vol.29，No.6，pp.82-97（2012）

９） P.Vincent,H.Larochelle,Y.BengioandP.Manzagol：“ExtractingandComposingRobustFeatureswithDenoisingAutoencoders，” Proc.ICML（2008）

10） M.Tomas：“StatisticalLanguageModelsBasedonNeuralNetworks，” PhDThesis,BrunoUniversityofTechnology（2012）

11） A.Graves, S. Fernandez, F.Gomez and J. Schmiduber：“Connectionist TemporalClassification：LabelingUnsegmentedDatawith Recurrent Neural Networks，” InternationalConferenceonMachineLearning（2006）

12）奥，尾上，一木，佐藤，小林：“教師ラベルの精度推定に基づく音声言語コーパスの自動構築，” 日本音響学会秋季研究発表会講演論文集，1-Q-1，pp.67-68（2015）

13）伊藤，萩原，一木，尾上，佐藤，小林：“字幕を用いたリスク最小化学習，” 日本音響学会春季研究発表会講演論文集，2-1-10，pp.49-50（2016）

14）萩原，伊藤，一木，尾上，佐藤，小林：“音声言語コーパス構築のための品詞分類による字幕精度推定，”日本音響学会春季研究発表会講演論文集，2-1-9，pp.47-48（2016）

佐さ

藤とう

庄しょう

衛えい

1993年入局。仙台放送局を経て，1995年から放送技術研究所において，音声認識の研究に従事。現在，放送技術研究所ヒューマンインターフェース研究部上級研究員。博士（工学）。

12 NHK技研 R&D ■ No.161 2017. 1

音声認識技術の動向と字幕制作システムの地域局展開 ·...

Documents

Transcript of 音声認識技術の動向と字幕制作システムの地域局展開 ·...

音声認識技術の動向と 字幕制作システムの 地域局展開 ·...

Documents

Transcript of 音声認識技術の動向と 字幕制作システムの 地域局展開 ·...

音声認識技術の動向と字幕制作システムの地域局展開 ·...

Transcript of 音声認識技術の動向と字幕制作システムの地域局展開 ·...