情報理論：楫勇一（かじゆういち）

1

情報理論：楫勇一（かじゆういち）

情報理論：C. E. Shannon によって創始された理論体系情報伝達の効率と限界を議論する手段を与える

デジタル情報処理・通信の発達と二人三脚で発展してきた

離散数学を多用，デジタルシステムと高い親和性画像・音声情報処理，通信・ネットワークの基礎を与える

必ずしも電子計算機やデジタル通信を意識した理論ではない

人工知能，学習理論方面への応用も

Claude E. Shannon1916-2001

情報伝達のモデル

観測対象において，なんらかのイベント e が発生する発生したイベントが，通信路に入力される通信路の出力 e’ から，発生イベント e を推測する

e’ を知ることで，発生イベントに関する知識の量は増える知識量を増加させたものが「情報」である（次回以降，もっと厳密に議論を行う）

2

通信路観測対象

e ?

e’e

モデルの汎用性

情報伝達の多くは，概念上，前スライドのモデルとして表現可能

「イベント」 – 「通信路の出力」：「野球の試合結果」 – 「友人からの速報メール」「プログラムの出力」 – 「ファイルからの読み出しデータ」「明日の天気」 – 「天気予報」「画像データ」 – 「ＪＰＥＧ圧縮データ」「敵軍隊の指令文書」 – 「盗聴で得た暗号文」

「イベント」「通信路」という言葉にとらわれ過ぎる必要はない

3

このモデルの約束事

観測対象の統計的性質は既知であるとする発生するイベントの種類，発生確率はわかっている実際にどのイベントが発生するかは，事前に特定できない

例：コイン投げ ... ２つのイベント「表」「裏」が等確率で発生

通信路は，かならずしも正確でない「入力＝出力」の保証はないケースも多い

誤り，近似 ...

入出力の統計的性質は既知であるとする

4

表

裏

表

裏

0.9

0.90.1

0.1

19.219.018.818.618.418.218.0

19

18

情報伝達における課題

小さなデータ量で，発生イベントを正確に伝えたいどこまでデータ量を削減できる？多少不正確でも良ければ，データ量を減らせるか？

信頼性の低い通信路でも，情報を正確に送りたい誤りの影響を軽減するには？性能改善の限界は？

情報を，できるだけ伝えないようにしたい

上記はすべて，情報理論がターゲットとする課題5

6

本講義の概要

第一部：情報の量を計る情報を計量可能にし，工学的な議論を可能にする

第二部：情報をコンパクトに表現する情報に含まれるムダを削り，情報を圧縮する

第三部：情報を正確に伝える通信途中で発生する誤りを検出し，訂正する

第四部：情報を不正者から隠すいわゆる暗号技術の基礎について学ぶ

7

講義計画

６月３日 ... 試験講義日程の中間付近で，レポート出題予定講義資料 ...http://narayama.naist.jp/~kaji/lecture/

火２６１３２０２７３１１１８２５１

木１８１５２２２９６１３２０２７３

４月

５月

６月

8

第一部：情報の量を計る

目標：情報を計量可能にし，工学的な議論を可能にする

良い自動車を作りたい :

燃費の良い車を ... 距離や燃料を正確に計ることが必要スピードが出る車を ...距離や時間を正確に計ることが必要

正確な計量ができなければ，精度の高い議論はできない

良い情報システムを作るには，情報を正確に計ることが必要⇒ 第一部の具体目標 ... 情報量の概念を導入すること

情報源と通報

情報伝達モデル：「観測対象」で「イベントが発生」イベントを文字，文字列で表現する ... 通報（ message ）と呼ぶ「観測対象」と「イベントを通報に変換する仕組み」をあわせて情報源（ information source ）と呼ぶ

9

観測対象 e

抽象的な「イベント」

変換通報

注意点：何を情報源と考えるかは，問題により異なってくる観測対象は多種多様（⇒ 次スライド）情報源は，情報を発生しているのではない（通報 ≠ 情報）

10

観測対象の分類

連続時間 (continuous-time) vs. 離散時間 (discrete-time)

連続時間：時間的に途切れることなく，イベントが発生し続ける離散時間：決まった時刻に，イベントが一個ずつ発生

アナログ (analog) vs. デジタル (digital)

アナログ：イベントは非可算（連続集合となる）デジタル：イベントは可算（離散集合となる）

４タイプ： {連続時間，離散時間 } × {アナログ，デジタル }

⇒ 情報源の中の変換器で違いを吸収可能：標本化，量子化

11

標本化と量子化

標本化 (sampling) ：連続時間イベントを，離散時間イベントに近似する技法特定の時刻に発生したイベントを抜き出す

量子化 (quantization) ：アナログイベントを，デジタルイベントに近似する技法既定の代表値でもっとも近いものに置換える

12

本講義における「情報源」

離散時間・デジタル的な振舞いをする情報源だけ考えれば良い

情報源は， 1, 2, .... の各時刻に通報を一個発生する通報は，離散集合 M の要素のどれか

通報は | M | 種類 ...| M |元 (| M |-ary) 情報源という

観測対象に関する約束より ...

同一の情報源でも，試行のたびに異なる通報を発生する通報の確率分布が事前にわかっている

13

情報源と確率

コイン投げを行い，表（ H）か裏（ T）かを通報とする情報源：

試行によって，通報の発生系列は異なる時刻 t に発生する通報を，確率変数 Xt によりあらわす時刻 t で通報 a が発生する確率 P(Xt = a) を， PXt(a) と書く結合（同時）確率 P(Xt1=a1, Xt2=a2) を PXt1, Xt2(a1, a2) と書く条件付確率 P(Xt2=a2| Xt1=a1) を PXt2|Xt1(a2 | a1) と書く

時刻 1 2 3 4 5 6 7 8 ...試行１ H T T H T H T H ...試行２ T T H T H T H H ...試行３ H H T H T T H T ...

14

情報源の分類

コイン投げの結果 ...非常に単純な「無記憶」「定常」情報源

発生する通報は，それ以前に発生した通報と無関係どの時刻でも，通報の発生確率は変わらない

世の中には，もっと複雑な情報源もある ... ２種類の分類法

分類法１：記憶があるか，記憶がないか

分類法２：定常か，定常でないか

15

記憶のない情報源

情報源に記憶がない（ memoryless ）：ある時刻の通報が，それ以前の通報とは無関係に選ばれる⇒ 確率 PXt|X1,...,Xt–1(at | a1,..., at–1) の値が a1, ..., at–1 に依存しな

い⇒ 定数 PXt (at) が存在し， PXt|X1,...,Xt–1(at | a1,..., at–1) = PXt (at)

コイン投げは，記憶のない情報源であるM = {H, T}

任意の t, 任意の a1, ..., at–1M ，任意の atM に対し，

PXt|X1,...,Xt–1(at | a1,..., at–1) = PXt (at) = 1/2

16

記憶のない情報源と記憶のある情報源

記憶のない情報源では，

t

itXttXtX aaa

11,...,1 )(P),...,(P

⇒ 確率分布の計算が容易⇒ シンプルで扱いやすい情報源である

記憶のない情報源以外の情報源⇒記憶のある情報源現実世界の多くの情報源は，「記憶のある」情報源

例：英文では，文字 q の次は u の出現確率が著しく高い確率分布の計算も困難で，扱いにくい情報源通報に相関がある分，圧縮できる余地が大きい⇒ 第二部での議論

17

定常情報源

定常（ stationary ）情報源：時刻をシフトしても，通報の確率分布が変わらない情報源⇒ 任意の i に対して PX1,...,Xt (a1,..., at) = PXi,...,Xi+t–1 (a1,..., at)

⇒ t = 1 のときを考えると， PX1(a1) = PXi(a1)... 定常確率 P(a1)

通報の発生確率は，どの時刻でも変化しない

コイン投げは定常情報源定常でない情報源の例 ...

電話での発声：「もしもし」から始まることが多い： PX1( も） > PX2( も )

時刻 1 2 3 4 5 6 7 8 ...試行１ H T T H T H T H ...試行２ T T H T H T H H ...試行３ H H T H T T H T ...

::

18

小休止：ここまでのまとめ

情報源の分類

離散時間アナログ的

離散時間デジタル的

連続時間アナログ的

連続時間デジタル的

標本化

標本化量子化量子化

無記憶有記憶

定常非定常コイン投げ

自然言語

有記憶・定常な情報源無記憶・非定常な情報源

どのようなものがあるか？

19

マルコフ情報源

第二部以降の議論 ... 記憶のない定常情報源が中心となる実用上は，記憶のある情報源も重要

記憶のある情報源の一例として，マルコフ情報源について紹介

m 重マルコフ (m-th order Markov) 情報源：通報の発生確率が，直前 m個より前の通報には依存しない任意の時刻 i, m より大きな任意の n に対し，

PXi|Xi–1, ..., Xi–n(ai | ai–1, ..., ai–n) = PXi|Xi–1, ..., Xi–m(ai | ai–1, ..., ai–m)

記憶のない情報源＝ 0 重マルコフ情報源

20

マルコフ情報源の例

P(0) = q, P(1) = 1 – q である，無記憶定常情報源 S を使って ...

S

R1ビット記憶素子

Xi

直前の通報 Xi–1= 0 なら， R = 0 となっているはず ...S の出力が 0 なら， Xi = 0 ⇒ PXi|Xi–1(0 | 0) = q

S の出力が 1 なら， Xi = 1 ⇒ PXi|Xi–1(1 | 0) = 1 – q

直前の通報 Xi–1= 1 なら， R = 1 となっているはず ...S の出力が 1 なら， Xi = 0 ⇒ PXi|Xi–1(0 | 1) = 1 – q

S の出力が 0 なら， Xi = 1 ⇒ PXi|Xi–1(1 | 1) = q

この情報源は，１重マルコフ情報源（単純マルコフ情報源）

は排他的論理和

21

マルコフ情報源と状態図

n 元 m 重マルコフ情報源直前 m 個の通報により，次の通報が決定情報源の内部に nm 通りの内部状態が存在，と考えられる各状態について，通報の発生確率が定義される

通報の発生にともなって，状態の遷移が起こる

P(0) = qP(1) = 1–q

0P(0) = 1–qP(1) = q

1

前ページの情報源の状態図

0 1

1 / 1–q

0 / 1–q

0 / q 1 / q

少し違う書き方

Xi / 確率

22

状態図による情報源定義

マルコフ情報源 ... 必ず状態図として表現できる状態図は必ず，なんらかのマルコフ情報源と対応するか？⇒ 対応しないこともある

マルコフ情報源は，状態図により表現される情報源の真の部分クラスである

ただし ... あまり厳密に議論する必要なし，というケースも多い状態図により表現される情報源：（一般化（ generalized ））マルコフ情報源と呼ぶことも

23

マルコフ情報源の分類

既約（ irreducible ）マルコフ情報源任意の状態から任意の状態に遷移可能なマルコフ情報源

0

1 2

左は既約でないマルコフ情報源状態 1 からは，状態 0 や 2 に遷移できない

正規（ regular ）マルコフ情報源どの状態からスタートしても，十分な時間が経過した後には，状態確率分布が同じ値に収束する既約マルコフ情報源

24

正規マルコフ情報源の例

0 1

0/0.9 1/0.1

0/0.8 1/0.2

状態 0 から状態 1 へは遷移しにくい状態 1 から状態 0 へは遷移しやすい初期状態が 0 でも 1 でも，十分な時間経過後は状態 0 に居る確率が高い？

これらの確率は，同じ値に収束する

定常確率分布（ stationary prob. dist. ）

時刻0 に居る確率1 に居る確率

11.00.0

20.90.1

30.890.11

40.8890.111

...

...

...

状態 0 からスタート

時刻0 に居る確率1 に居る確率

10.01.0

20.80.2

30.880.12

40.8880.112

...

...

...

状態 1 からスタート

25

定常確率分布の計算法

時刻 t で状態 0 に居る確率： t

時刻 t で状態 1 に居る確率： t

収束時には，以下の式が成り立つ t+1 = 0.9t + 0.8t

t+1 = 0.1t + 0.2t

t+1+ t+1= 1

0 1

0/0.9 1/0.1

0/0.8 1/0.2

t, t が , に収束する場合， t+1=t=, t+1=t= とし， = 0.9 + 0.8 = 0.1 + 0.2

+= 1

この連立方程式を解いて，=8/9, =1/9

26

より一般的な場合の計算法

確率分布ベクトルを w = (w0, ..., wn–1) とする

（ n は状態数， wi は，状態 i に居る確率， w0 + ... + wn–1= 1 ）

状態遷移行列を =(pi,j) とする

（ i 行 j 列目の要素 pi,j は，状態 i から状態 j への遷移確率）

定常確率分布は， w = w ， Σwi=1 の解として与えられる

0 1

2

0.3

0.3

0.4

0.40.6

1.0

（遷移確率のみ表示）

(w0 w1 w2)=(w0 w1 w2)0.3 0.3 0.40.4 0.0 0.60.0 1.0 0.0

w0 + w1 + w2 = 1.0

これを解いてw0 = 40/168, w1 = 70/168, w2 = 58/168

27

正規マルコフ情報源

正規マルコフ情報源：十分な時間経過後は，定常情報源とみなすことができる

0 1

0/0.9 1/0.1

0/0.8 1/0.2

定常確率分布は， w0 = 8/9, w1 = 1/9

0 の定常確率 P(0) = 0.9w0 + 0.8w1 = 0.8891 の定常確率 P(1) = 0.1w0 + 0.2w1 = 0.111

以上の議論を踏まえ，「記憶」が情報量に影響することを示す⇒ 次回講義

28

本日のまとめ

様々なタイプの情報源があることを紹介した自分が扱おうとしている対象がどれに相当するのか，「対象を知る」ことが非常に大切

記憶のある情報源は，一般には複雑で扱いが難しいマルコフ情報源等，適切なモデルにより近似を

次回の講義では ... 情報「量」を導入する

29

練習問題

無記憶・非定常な情報源を一つ例示せよ以下のマルコフ情報源について，状態の定常確率分布を求めよ通報 A, B の定常確率を求めよ

0

1 2

A/0.4 A/0.5 B/0.6

A/0.8 B/0.5

B/0.2

宿題，レポート課題ではありません解答例は次回講義冒頭で

30

情報基礎学講座（関研）講座紹介

本日・明日の４限（ 15:10-- ）， B507 の部屋にて

その他の日時も，随時受付中メイルで連絡 [email protected] まで連絡オフィス B505 まで直接訪問

講義資料 ...http://narayama.naist.jp/~kaji/lecture/

情報理論：楫勇一（かじゆういち）

Documents

Transcript of 情報理論：楫勇一（かじゆういち）

情報理論：楫 勇一（かじ ゆういち）

Documents

Transcript of 情報理論：楫 勇一（かじ ゆういち）

情報理論：楫勇一（かじゆういち）

Transcript of 情報理論：楫勇一（かじゆういち）