レポート 課題

35
レレレレレレ 4/28 レレ5/12 レレレレ http://isw3.naist.jp/~kaji/ lecture/ レレ1: レレレレレレレレレレレレレレレレレレレレレレ レレレレレ レレ2: レレレレレレレレレレレレレレレレレレレレ 1

description

レポート 課題. 4/25 出題, 5/9 提出締切 問題1: を利用 各種エントロピーの定義まで立ち入っての式計算が必要 問題2: (電子シラバスだけでなく )講義ページも参照すべき http ://isw3.naist.jp/~kaji/lecture /. A. 1/0.6. 0/0.4. 0/0.5. 1/0.2. B. C. 0/0.8. 1/0.5. 前回 4/22 の 練習問題. 定常 確率分布を求めよ 010 が出力される確率を求めよ 極限エントロピー を 求めよ. 前回スライドの p.24 ~の情報源と - PowerPoint PPT Presentation

Transcript of レポート 課題

Page 1: レポート 課題

レポート課題

4/28 出題, 5/12 提出締切http://isw3.naist.jp/~kaji/lecture/

問題1:通信路が並列に存在する場合の情報伝達についてを証明せよ

問題2:サイコロ投げに関する相互情報量の計算問題

1

Page 2: レポート 課題

情報源の拡大

: 定常情報源 の 次拡大情報源 ;個の出力記号を,まとめて 1 個のものと解釈する

2

𝑋0 1 0 0 0 1 0 1 𝑋 201 00 01 01𝐷( 𝑋 )={0 ,1 } 𝐷( 𝑋 2)={00 , 01, 10 , 11}

𝐻1(𝑋𝑛)/𝑛

lim𝑛→ ∞

𝐻1( 𝑋𝑛)/𝑛

= の n 次エントロピー = の (極限)エントロピー

前回の積み残し

Page 3: レポート 課題

記憶のない場合

, である定常無記憶情報源

3

01

0.80.2

𝑋𝐻 1(𝑋 )=– 0.8 log 0.8 – 0.2 log 0.2=0.72

00011011

0.640.160.160.04

𝑋 2

定理 : 定常無記憶情報源なら,系 : 定常無記憶情報源なら,

前回の積み残し

Page 4: レポート 課題

記憶のある情報源(マルコフ情報源)の場合

4

定常分布 :

0 0.8·0.9 + 0.2·0.4 = 0.801 0.8·0.1 + 0.2·0.6 = 0.20

00 0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.7201 0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.0810 0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.0811 0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12

2 個同時に予測する難しさ< 1 個ずつ予測する難しさ × 2

𝑠1 𝑠2

0/0.9 1/0.1

0/0.4 1/0.6

前回の積み残し

Page 5: レポート 課題

マルコフ情報源のエントロピー

マルコフ情報源では

定理 : (証明略)次エントロピーは極限エントロピーに

漸近・収束する

どのようにして を計算するか :1. 定常分布を計算2. 状態をバラバラにし,それぞれを無記憶情報源と考

える3. 各状態のエントロピーを計算4. 3 の結果の重み付き平均を計算

5

𝑛

𝐻𝑛(𝑋 )

𝐻 (𝑋 )

前回の積み残し

Page 6: レポート 課題

定常分布 :

計算例

状態 , 状態 ,

6

𝑠1

0/0.9

1/0.1

𝑠2

0/0.4

1/0.6

重み付き平均 = 0.8×0.469 + 0.2×0.971= 0.5694 bit =

1

2

3

4

𝑠1 𝑠2

0/0.9 1/0.1

0/0.4 1/0.6

前回の積み残し

Page 7: レポート 課題

マルコフ情報源の拡大について:まとめ

マルコフ情報源の場合 ...次エントロピーは,に対して単調現象する次エントロピーは,極限エントロピーに収束する

(マルコフ情報源以外の,任意の有記憶情報源でも成り立つ)

マルコフ情報源では,さらに,極限エントロピーの計算は,比較的容易

記憶のある情報源を取り扱う際には,記憶のメカニズムを最大限に活用することが望ましい

7

𝑛

𝐻𝑛(𝑋 )𝐻 (𝑋 )

前回の積み残し

Page 8: レポート 課題

chapter 2:情報をコンパクトに表現する

8

Page 9: レポート 課題

情報源からの記号(列)を,効率よく(コンパクトに)符号化する

情報源符号化データ圧縮

情報源符号化の目的 :通信に適した表現方式への変換情報の中の無駄な部分を整理し,捨て去る

目標とする符号化方式:できるだけ正確に元の情報を復元できることできるだけコンパクトな情報表現を与えること

chapter 2 の目的

9

情報源符号化

0101101

Page 10: レポート 課題

議論の順序

情報源符号化の基礎一意復号可能性瞬時復号可能性

ハフマン符号ハフマン符号の構成法ハフマン符号の拡張

データ圧縮の理論限界

10

今日の目標

Page 11: レポート 課題

用語について

はじめに,情報源の記号ごとに符号化を行う方式を考える

: 情報源が生成する記号の集合 の各記号に対し,上の系列を対応付ける

符号語 : の記号に対応付けられた上の系列符号 : 符号語の集合

2 種類の文字 を使用 ...2 元符号

11

M晴曇雨

C00

010101

符号語は3つ ; 00, 010, 101符号 C = {00, 010, 101}

011 は符号語ではない

Page 12: レポート 課題

符号化と復号

符号化 ... 与えられた記号から,対応する符号語を求めること復号 ... 与えられた符号語から,対応する記号を求めること

12

晴曇雨

00010101

符号化

復号

encode = 符号化decode = 復号

符号語間に,スペース,コンマ等の区切り記号は使わない01000101101 は OK , 010 00 101 101 は NG「区切り記号 = 第 3 の文字」

⇒ 「 3 元」符号を考えることになってしまう

Page 13: レポート 課題

一意復号可能性

符号は,一意に復号可能でないといけない異なる記号が同じ符号語を持つのは,当然NG異なる記号が異なる符号語を持つ,だけでも不十分異なる記号系列は,異なる 0-1 系列に符号化されること

13

a1

a2

a3

a4

C1

00100111

C2

001011111

C3

010110

C4

0101101NGNGOK OK

C4 を使う場合 ...

a1 a3 a1

a4 a2

0110

Page 14: レポート 課題

一意性だけで十分か?

C2 を使って a1, a4, a4, a1 を符号化, 1bit/sec でデータ送信

a1, a4, a4, a1 ⇒ 01111110 ( 8 ビットのデータ)

受信者が,最初の記号を確定できるのはいつか?7秒経過後 ... 0111111 まで受信

次に 0 が来ると, 0 - 111 - 111 - 0 a1, a4, a4, a1

次に 1 が来ると, 01 - 111 - 111 a2, a4, a4

7 秒後でも,最初の記号すら確定できない 受信データのバッファが必要,復号遅延の問題 ... 動画ダウンロードだったら,どうなるか 14

a1

a2

a3

a4

C2

001011111

Page 15: レポート 課題

瞬時復号可能性

実用的なシステムでは,瞬時に復号可能であることが望ましい

「符号語のパターンが出現したら,即時に復号して良い」一意復号可能性の「上位」の性質「瞬時復号可能」ならば「一意復号可能」である

符号 が瞬時復号可能である必要十分条件:任意の系列 に対し,となる符号語が存在するならば, となる他の符号語 が存在しない

15𝑐1𝑠1 𝑐 2𝑠2= ×

Page 16: レポート 課題

語頭条件

符号が瞬時復号可能でないならば, となる系列 と,二つの異なる符号語 , が存在する

16

𝑐1𝑠1

𝑐 2𝑠2

=

はの語頭である,という

a1

a2

a3

a4

C2

001011111

“0” は “ 01” と “ 011” の語頭“01” は “ 011” の語頭

補題 :符号 C が瞬時復号可能である必要十分条件は,他の符号語の語頭となる符号語が存在しないこと(prefix condition, 語頭条件 )

Page 17: レポート 課題

雑談:語頭条件とユーザインタフェース

語頭条件は,情報理論以外でも重要

17

graffiti (ver. 1)

graffiti (ver. 2)

すべて一筆書きでOK

2画の文字が出現語頭条件に反する“3-1” と書いたつもりが “ 3+” に ...

Palm Vx1999発売

Sony Clie PEG-TH552004年発売

Page 18: レポート 課題

語頭条件を確保するには

語頭条件を満たす符号の作り方 :全ての符号語を,同じ長さで設計する ; 等長符号符号語の最後に「特殊パターン」を置く

C = {011, 1011, 01011, 10011} ; “ コンマ符号”... どちらも,(後述する)効率がよくない

木構造を利用して符号語を選ぶ (「符号木」 )2 元符号の場合,次数がの木を利用元符号の場合,次数がの木を利用

18

次数 3 の符号木

Page 19: レポート 課題

符号の構成法(元の場合)

個の符号語を持ち,語頭条件を満たす元符号の作り方

1. 葉を個持つような,次数の木を構成する

2. の各枝に,からの値をラベル付けする兄弟が同じラベルを持つことは禁止

3. 根節点から葉節点まで木をたどり,途中のラベルを連接する 連接の結果得られる系列を符号語とする

19

Page 20: レポート 課題

構成例

個の符号語を持つ元符号を構成する

20

0 1

0

11

0

00

0110

11

0 1

0

11

0

Step 1 Step 2 Step 3

構成された符号は {00, 01, 10, 11}

Page 21: レポート 課題

構成例(続き)

他の構成方法もアリ ;異なる木を使う,異なるラベル付けを行う ...

21

0

10

10

1

0

11

01

0

0

1

1

0

100

1 0

C1={0, 10, 110, 111}

C2={0, 11, 101, 100}

C3={01, 000, 1011, 1010}

どのように作っても,語頭条件は保証される 瞬時復号可能な符号となる

Page 22: レポート 課題

C1 の符号語のほうが, C3 の符号語より短そう ...

符号語の長さ = [1, 2, 3, 3] vs. [2, 3, 4, 4]

もっとコンパクトな瞬時復号可能符号はあるか? たとえば 符号語の長さ = [1, 1, 1, 1]?符号語の長さ = [1, 2, 2, 3]?符号語の長さ = [2, 2, 2, 3]?

「最良な」瞬時復号可能符号

22

0

10

10

1

0

1

1

0

100

1 0C1={0, 10, 110, 111} C3={01, 000, 1011, 1010}

どこに壁がある??

Page 23: レポート 課題

クラフトの不等式

定理 :A) 元符号 ( とする)が瞬時復号可能なら,

(クラフトの不等式)が成り立つ ... 次ページで証明

B) もし なら,瞬時復号可能な 元符号 で となるものが存在する

... 深さ に葉節点を配置していけばよい

23

Page 24: レポート 課題

定理Aパートの証明(の場合)

24

2h

2h− 2 2h− 3 2h− 4

A) 2 元符号 ( とする)が瞬時復号可能なら, (クラフトの不等式)が成り立つ

証明:とし,を示せばよい高さの完全2分木を考える

符号語=深さ の節点,先祖にも子孫にも他の符号語ナシ深さにあるの子孫の数=深さにある節点の総数=

よって

𝑐1

𝑐2

𝑐3

h=4

Page 25: レポート 課題

具体例に戻って考える

できるだけコンパクトな瞬時復号可能な 2 元符号を作りたい

符号語の長さ = [1, 2, 2, 3]?…瞬時復号可能な符号は構成できない

符号語の長さ = [2, 2, 2, 3]?…瞬時復号可能な符号を構成可能 ... 符号木を使え

ば簡単

25

Page 26: レポート 課題

次の段階へ

情報源符号化の基礎一意復号可能性瞬時復号可能性

ハフマン符号ハフマン符号の構成法ハフマン符号の拡張

データ圧縮の理論限界

26

Page 27: レポート 課題

「コンパクトさ」の指標

情報をコンパクトに表現する符号を作りたい

1 個の記号を表現する符号語の長さの期待値を小さくしたい

27

記号 確率 符号語 長さ

平均符号語長

∑𝑖=1

𝑀

𝑝𝑖 𝑙𝑖

=平均符号語長は

ビット(記号)

Page 28: レポート 課題

平均符号語長の計算例

28

記号 確率0.40.30.20.1

010

110111

111110100

00011011

: 0.4×1+ 0.3×2+ 0.2×3+ 0.1×3 = 1.9: 0.4×3+ 0.3×3+ 0.2×2+ 0.1×1 = 2.6: 0.4×2+ 0.3×2+ 0.2×2+ 0.1×2 = 2.0

が最も効率よく(=コンパクトに)情報を表現できる(はず)

Page 29: レポート 課題

ハフマン符号

ハフマンアルゴリズム:平均符号語長の小さな瞬時復号可能符号を作る方法

1. M 個の節点を準備し,各節点に記号の発生確率を付与する (節点 = サイズ 1の木)

2.木が一個になるまで,以下の操作を繰り返すa. 確率最小の木を二個選択 ... T1, T2 とするb. 新しい節点を導入し, T1, T2 を新節点の子とする

(二個の木を一個に併合)c. T1, T2 の確率の和を,併合してできた木の確率とする

29

David Huffman1925-1999

Page 30: レポート 課題

30

0.05D

0.1C

0.25B

0.6A

0.05D

0.1C

0.15

0.25B

0.6A

0.05D

0.1C

0.15

0.25B

0.4

0.6A

1.0

0.05D

0.1C

0.15

0.25B

0.4

0.6A

00

0

11

1

“ 資本の小さな会社の合併劇”

Page 31: レポート 課題

練習問題

「等長符号」と平均符号語長を比べると,ありがたみがわかる 31

ABCDE

確率0.20.10.30.30.1

符号語

Page 32: レポート 課題

符号構成の自由度について

ハフマンアルゴリズムの実行結果は,一意でない可能性も ...

同じ確率を持つ節点が多数存在枝へのラベル付けにも,自由度がある

異なる選択肢を取ると異なるハフマン符号ができあがる,が,

平均符号語長は,どの選択肢を取っても変わらない

32

0.4a1

0.2a2

0.2a3

0.1a4

0.1a5

0.4a1

0.2a2

0.2a3

0.1a4

0.1a5

Page 33: レポート 課題

ここまでのまとめ

情報源符号化の基礎一意復号可能性瞬時復号可能性

ハフマン符号ハフマン符号の構成法ハフマン符号の拡張

データ圧縮の理論限界

33

Page 34: レポート 課題

練習問題

右図に示す記号に対しハフマン符号を構成

し,その平均符号語長を求

めよ

34

ABCDEF

確率0.30.20.20.10.10.1

符号語

Page 35: レポート 課題

レポート課題

4/28 出題, 5/12 提出締切http://isw3.naist.jp/~kaji/lecture/

問題1:通信路が並列に存在する場合の情報伝達についてを証明せよ

問題2:サイコロ投げに関する相互情報量の計算問題

35