章代数的符号ieice-hbkb.org/files/01/01gun_02hen_02.pdf号あるいはq 元巡回符号と呼ぶ1) .巡回符号は,符号化や復号が比較的容易に行える優れた
第 2 章 情報の表現 記号・符号化
-
Upload
meghan-marshall -
Category
Documents
-
view
65 -
download
0
description
Transcript of 第 2 章 情報の表現 記号・符号化
第 2 章
情報の表現記号 符号化・
コンピュータでの数の表現
• 「 0 」と「 1 」の 2 種類の記号を用いたビット列で表現される
• 表現できる数値はコンピュータに依る– 表現できる正の整数、整数
• 16 ビットのシステム: 0 ~ 65535 まで - 32768 ~ 32767 まで• 32 ビットのシステム: 0 ~ 4294967295 まで - 2147483648 ~ 2147483647 まで
3
文字・記号とコード化の種類( 1 バイト文字 = 半角文字 )
■ASCII コード( 1 バイト文字 = 半角文字 )
( American Standard Code for Information Interchange )1963 年にアメリカ規格協会 (ANSI) で定められた文字コード。
7 ビット 128 文字で構成されている。 94 文字がアルファベット・数字・記号等の印刷可能な文字。 34 文字が空白文字と制御記号。 滅多に文字化けしない。
・実際には 7 ビットの先頭に 0 をつけて 8 ビット (1 バイト ) で扱われる。
Def. 1 バイト= 8 ビットそれゆえ、メモリなどの容量を示すのにバイトが使われる。(基本的に文字数をそのまま表すから。)
4
111000117
101000016F111115E111014D110113C110012B101111A1010109100198100087111761106510154100431132102111000
16 進法2 進法10 進法
整数の表現-2進法10進法16進法
グレイ符号
000000000100011000100011000111001010010001100011010111101110010100101101001010001000011001
グレイ符号 構成法は HTML で説明
44,604 = FA3C
A45F = 42,079
10 進法と 16 進法の表記の比較
漢字の JIS コード
6C6F 跫
5F25 潺
5
必要なメモリの容量を見積もってみよう。 1冊200ページからなり、1ページに20行、1行に45文字で 1 冊の日本語の本を収納するのに 計算上、1文字2バイト必要と考えて
200 ページ * 20 行 * 45 文字 * 2 バイト = 360 * 10 の 3 乗 バイト = 360 k Byte ( キロバイト )
のメモリ容量が必要と考えられる。これと同じサイズの本を10万冊蔵書にもつ図書館があるとすれば、その図書館 の本の全体を記録するのに、計算上
36 G Byte ( ギガバイト )
必要だということになる。現在のパソコンのハードディスクの容量が40から60ギガバイト程度だということを考えると、逆に、いかに大きな容量のメモリが身近に使えるようになっているかが分かる。
2.1 情報の表現—その形態• 情報の説明の仕方の違い
– 手続き的表現 <- 手続き的プログラミング言語• 時間をおった手順を説明
– 宣言的表現 <- 関数的プログラミング言語• 対象間の関係や対象の属性を説明
• 情報の表現のされ方の違い– 記号表現 Schnnon 流の情報理論
• 与えられた記号の集合と解釈するための規則体系– パターン表現
• 構成要素間の時空間パターン
・情報(1) ある事柄についての知らせ。(2) 判断を下したり、行動を起こすために必要な知識。 「広辞苑第4版」より・ Information n.
telling; things told; knowledge (COE)
・ Information n. 1.facts provided or learned about something or
someone2.what is conveyed or represented by a particular
arrangement or sequence of things (OED)7
8
情報 (新明解国語辞典(第四判)三省堂)
ある事柄に関して伝達 ( 入手 ) されるデータ ( の内容 ). [通
常は送り手・受け手にとって何らかの意味を持つ ( 形に並ん
でいる ) データを指すが、データの意味内要そのものを指す
こともある。さらに、そのデータをもとにして適切な判断を
下したり行動をとったりするという判断材料としての側面に
重点を置く場合が多い。また、個別のデータが生のままの未
整理段階にとどまっているというニュアンスで用いられる
こともあり、知識に比べて不確実性を包含した用語 ]
• データ (1) 推論の基礎となる事実。(2) ある事柄に関して集めた個々の事実を
広義の記号(=数字、文字、符号、音声など)で表現したもの。
(3) 計算機では計算機で処理できる対象をすべて指す。
プログラムそれ自体もデータであるが、狭義では除外する。
「新明解国語辞典第四版」三省堂より p.868
9
モデルの表現形式の例 (1)
• 表 (table)– こみいった事柄を整理できる–歴史年表 /貸借対照表 / 成績表など– 計算機上の表計算ソフトの利用も一般的
• 図–何らかの目的で描いた 2次元図形–人間の思考 推論を支援・ /拡張する–設計図 /地図など– 広義には絵画 / スケッチなども含める
モデルの表現形式の例 (2)
• グラフ–ノード (node) とエッジ (edge) から構成され
る– ラベル付きグラフ
• ラベル付きのエッジで構成されるグラフ–有向エッジ,弧
• 方向を持つエッジ–道路ネットワーク /組織図 /pert 図 /意味ネッ
トワークなど様々な領域で幅広く用いられる
• 無向グラフ
• 有向グラフ
1
2
3
4
5
6
1
2
3
4
6
5
点(頂点)集合 ={1,2,3,4,5,6}辺(枝)集合
記号表現
• 記号表現– 事物 / 事象 ,心的概念を抽象化したもの
• 記号表現の実際の形式– 図記号 ( ピクトグラム ),数の表現など
• 記号の 2側面以下の言葉は構造主義の用語である–意味するもの ( シニフィアン )–意味されるもの ( シニフィエ )
サービスエリアの図記号
• 抽象化された図形によるデザイン– 瞬時に表示内容を認識できる– ナイフとフォークのように物理的実体に直接関係が
あるものは、記号論では「記号」と呼ばず「シンボル」と呼んで区別する
• 記号の恣意性 これは本来、構造主義の用語である。上のように絵が違う意味を持つということとは、やや違う。
車両通行禁止の標識 ( 日本 )
すべての車両通行禁止 (欧州 )
二輪車以外の車両通行禁止 (欧州 )
ASCII コード a (0110 0001) b (0110 0010), c (0110 0011) これらの8ビットの 0, 1 の列の内、最後の7ビットで文字を表現し、ゆえに、2の7乗つまり128通りあるから、計算機内では余分な 1 ビットを加えて、 8 ビット = 1 バイト (byte) で表現している。 ( 1 byte = ASCII 文字 1 文字 )■ JISコード ( 1 バイト文字 = 半角文字 )
ASCII で表現される文字は、英字、数字、他に ? # などのいくつかの記号である。日本ではこれにカタカナ(半角カナ)を加えて JIS コードとしている。
17
2 バイト文字(全角文字)(日本語の表記) ■ JIS コード:日本語で漢字も含めて扱おうとすると、1
28通りでは足りない。そこで日本では JIS( 日本工業規格 ) によって漢字を表わすコードが定められている。そこでは漢字、ひらがな、カタカナを 16 ビット( 2 バイト)で表わす。 16ビットの列は、2の16乗=65536通りあるので、ひらかな、カタカナと日常に必要とされる程度の漢字をそこに割り当てて、表現できる。 JIS コードを持つ漢字のうち、比較的良く使われる漢字を第一水準 (2965字 ) 、その他を第二水準 (3388 字 ) と区別してある。 例 漢字(全角文字)の JIS コードの例。
JIS コードの 16 ビット列は、通例4けたの16進数の列として表記される。次がその例。左が16進数の4つ組、右がそのビット列。 中 --> 4 3 6 6 = (0100 0011 0110 0110) 村 --> 4 2 3 C = (0100 0010 0011 1100)
18
■Shift JIS コードMicrosoft によって考案された、日本で一番使用されている日本語文字コード。主に MS-DOS 、 Windows 、 Mac OS 、 OS/2 等の OS で広く使用される。パソコンで使われている。半角カナを扱うことが可能。A SCII部分は、 7bit の JIS X 0201 のローマ字で表現しているため、・バックスラッシュ(半角の\)⇒円記号( \ )・ティルダ(~)⇒オーバースコア( ̄)の違いがある。
19
■EUC-JP コード主に UNIX 、 Linux で広く使用される。 情報棟の UNIX サーバでは EUC が使われている。そのため日本語をファイル名に使えない。
■Unicodeすべての文字を16ビット ( 2バイト ) で表現し、1つの文字コード体系で多国語処理を想定した文字コード。2バイト表記の場合、最大 65536 文字の表現の為、漢字圏の言語は全てをサポート出来ない問題がある。Java では Unicode をデフォルトのデータ型としている。情報棟 iMac端末では Shift-Jis を使っている。
第 2 章・補足
ソシュールの言語学
構造主義と記号論
記号の恣意性
21
象徴 (symbole)
意味するもの Signifian シニフィアン、
記号=(シニフィアン、シニフィエ)
実体
実体
ManFerfi男性Hommes
WomanNo女性Damen
対応は恣意的で、物理的必然性がない。それぞれの言語、社会の構造の中でのみ意味を持つ。普通の「言語」こそ、記号論で言う記号の代表例である。
意味されるものSignife シニフィエ、
物理的必然性がある
..
22
ソシュールの言語学・「もの」がありそれに名前を付けただけたものが言語であるという言語観を「名称目録的言語観」「カタログ言語観」という。ソシュールはこれを否定した。・「ことばとは「ものの名前」ではない。」・フランス語の mouton は英語の sheep とほぼ同じだが、料理して卓上に供されたものを英語では mouton と言うように、意味の幅が違う。・言語活動はちょうど星座を見るように、もともとは切れ目の入っていない世界に人為的に切れ目を入れて、まとまりをつけることである。(分節と呼ぶ)・言葉が与えられることによって、はじめて (意識の上での )認識が可能になる。 (個人的に:伝達が可能になる?)
23
記号(言語)の恣意性
「ある言葉が指すものは、世界にある実物ではない。その言葉が世界から勝手に切り取ったものである(分節)。言葉が何を指すかは社会的・文化的に決まっているだけである。自然自身の中にそれを必然とする根拠があるわけではない。こういう特徴をソシュールは言語の「恣意性」と呼んだ。」
Desk
Table机
外来語が入ってくる前には、日本にはデスクもテーブルも存在しなかった!
24
英語
ショナ語(ローデシア)
バッサ語(リベリア)
purple blue greenyell-ow
orange red
cipswuka citema cinena cipswuka
hui ziza
スペクトルごとの色の名前
25
構造主義:
私たちはつねにある時代、ある地域、ある社会集団に属しており、その条件が私たちのものの見方、感じ方、考え方を基本的なところで決定している。だから、私たちは自分が思っているほど自由に、主体的にものを見ているわけではない。むしろ私たちは、ほとんどの場合、自分の社会集団が受け容れたものだけを選択的に「見せられ」「感じさせられ」「考えさせられている」。自分の属する社会集団が無意識的に排除してしまったものは、そもそも私たちの視界に入ることがなく、私たちの思索の主題になることもない。
( 内田樹「寝ながら学べる構造主義」文春新書 )
26
参考文献:ソシュールの言語学と構造主義
田中克彦「言語学とは何か」岩波新書 (1993) ☆☆☆田中克彦「ことばと国家」岩波新書 (1981)内田樹「寝ながら学べる構造主義」 文春新書 (H14) ☆☆☆橋爪大三郎「はじめての構造主義」講談社現代新書 (1988)池上嘉彦「記号論への招待」岩波新書 (1984) (面白くない本 )
贈り物は孤立している。恩恵も感謝も贈り物にかかわりをもたない。
魂は贈り物に感染しない。
( ロラン・バルト「表徴の帝国」ちくま学芸文庫 p.103.) ( 表徴の帝国=記号の
王国=日本 )
アナログ表現とデジタル表現• アナログ表現
– ある情報を連続量 ( アナログ量 ) として表すこと
–無限の精度を必要とするため,データの複製は元のデータの近似にしかならない
• デジタル表現– ある情報を離散的に表すこと ( デジタル量 )
• ある情報に対して一定の間隔の尺度を導入し,その尺度の値に近似して表現する
–複製時にデータが劣化しにくい– 情報コンテンツの著作権保護への問題をもた
らす
28
アナログ表現とディジタル表現の実際
量子化 観測値を離散的に取る 例 気温を 0.1 度単位ではかる標本化 観測の時間間隔を離散的にす
る 例 1時間ごとの気温をはかる
• (左の図 )気温のアナログ表現-観測の標本化• (右の図 )気温のディジタル表現-標本化と観測値の量子化
この絵はまずい
29
量子化と標本化の実際
• 情報の用途によって間隔の詳細度を決める
– コンピュータディスプレイ装置•赤 (R)緑 (G)青 (B) を混色した RGB 形式
を用いている•各々 8 ビット =256 種類の異なる色で表
現• 256×256×256=16,777,216色を表示できる
音楽 CD のデジタル化
人は通常 20Hz から、個人差があるが 15,kHz ないし 20 kHz 程度の音を音として感じることができ、この周波数帯域を可聴域と いう。 . 標本化標本化の基準: 44.1kHz1/44100=0.0000227秒間隔で音の標本化 量子化量子化のために 16 ビットを用いて、音の振幅を 65536(2 の 16 乗 )個の段階に分割している。周波数の対数を 65536 分の一に分けているはずだと思う。(Weber の法則 )
人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化になっている
31
・標本化定理 標本化するときの時間
間隔 を t とすると、 の周波数
まで復元できる 。 をナイキスト
周波数と呼ぶ。
例 上限が 2000Hz の情報を復元するに
は、時間間隔 4000Hz 以上でサンプリン
グ、標本化すれば、元のデータが復元でき
る。
t2
1
t2
1
32
,.....)2,1,0(2/ iWi
)( 2Wi
i fx 時刻
観測値
)2(
))2(sin()(
iWt
iWtxtf
ii
での
から
もとの信号関数が一意に復元できる
標本化定理 f(t) が W以上の周波数成分を持たないとき
エイリアシング
• 対象にナイキスト周波数より高い周波数の周期関数が含まれている場合に,誤った関数が復元される現象をエイリアシングと呼ぶ– (左の図 )オリジナル画像– (右の図 )エイリアシングが生じた例
34
ディジタル符号の圧縮
• ディジタル符号化された情報は圧縮できる利点を持つ
• 可逆圧縮–圧縮したものから元の情報を完全に復元でき
る方法• 非可逆圧縮
–元の情報には復元できない方法–人間の知覚では差異が分からない程度の復元
が可能ならば様々に応用が可能
35
ランレングス圧縮 ( 可逆圧縮 )
• ビット列を値とその繰り返し回数で表す– (例 )32 ビットのビット列
00001100000001111100011111101000– 0 と 1 の繰り返しを数えると
• 4回 (0), 2回 (1), 7回 (0), 5回 (1), 3回 (0), 6回(1), 1回 (0), 1回 (1), 3回 (0) となる
– 繰り返し回数を並べる• 4 2 7 5 3 6 1 1 3
→100 010 111 101 011 110 001 001 011
– 27 ビットに圧縮する事ができる– ファクシミリ通信などで使われている
• 背景の白の部分が多いので,大幅な圧縮が可能
36
JPEG圧縮 (非可逆圧縮 )
• 画像データの圧縮方法 (非可逆圧縮 )• 要求される精度の周波数成分までを符号化する
JPEG では、画像を固定サイズ( 8×8画素)のブロックに分割し、そのブロック単位で、離散コサイン変換 を用いて、空間領域から周波数領域へ変換する(この変換自体では情報量は削減されない)。変換されたデータは、量子化によって情報量を落としてから、ハフマン符号によるエントロピー符号化がなされ圧縮が行われる。( ハフマン符号については後述する)
37
2.4 ディジタル符号化
ハミング距離 二つの記号列
の間の距離を
で定義する
),...,,(),,...,,( 2121 nn yyyyxxxx
の数となるiyxyxd ii :),(
A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0)
B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0)
ハミング距離は3である。
数学上の距離の定義:以下の3つの性質を持つこと0),(),( xydyxd
yxyxd 0),(
),(),(),( zydyxdzxd
[演習 ] ハミング距離が上の3つの公理を満たすことを示せ。
39
分子系統樹のアルゴリズム
• 距離行列法:列の間のハミング距離を使って、系統樹を構築する
Neighbour -Joining法(NJ法、 Saitou&Nei) 、UPGMAなど
• 樹形探索法:2分木を変形しながら、最適解に近づく
最大節約法、最尤法、最小二乗法など
40
A13 こんぎく属:シオン、ヨメナなど AAGTCGTACCAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTCGAAGCCTGCAAAGCAGAACGACCCGTGAACATGTTATAACAACCATGCCATAATGGGTTGAGCGGCAGTTCAATCCTTGTGGCATCGTCGATGTGCATCCTTGATGACCCATTCGGGCCTCTTGGTTGTTGCTTCGACATAACAAAACCCCGGCACGGGATGTGCCAAGGAAATTTAAAGTGAAGAATGGCTTGTTCCATGATGTCCCGTTTGCGGTGCGTTCATGGAGCATGGCTTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGTGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTCGGCCGAGGGCACGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCACCATTCCTTCCTTCGGGAAGTTTGGTTGGGGGCGGATAATGGCCTCCCGTTCCTCACCGAGCGGTTGGCCAAAATAAAAGTCCCCTTTGATGGATGCACGACTAGTGGTGGTTGACAAAACCCGGTATTGTGTCGTGTGTCTTGTCGAAAGGGTGCATCTTAATAGACCCAACGCGTTGTCACGAAGCAACGCATCGACCGGGACCCCAGGTAGGGnGGGG
A26 AAGTCGTACCAAGGTTTCGTAGGTGAACCTGCGGAAGGATCATTGTCGAACCCTGCAAAGCAGAACGACCCGCGAACATGTTAAAACAACCATGCCAGGATGTGTCGAGCATCCGTTCGATCGTTCTGGCACACCGTTGATGTGCCTGCCTAGTTGGCCCAACGGGTCATCTTGGTGGTCGCTTTGACGTAACAAAACCCAGGCACGGGATGTGCCAAGGAACTTTAAATTGAAGAATTGCCCGTCCCATGAAGTCCCGTTCGCGGTGTGCTCATGGGGTGTGGCGTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGTGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTTGGCTGAGGGCACGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCCACCATTTCCTTTGGGATGCTTGGCTGGGAGCGGATATTGGCCTCCCGTTATAACCGAGCGGTTGGCCAAAATAAAAGCACCTCTTGACGGGCGCAAGACTATTGGTGAGAAAACCATGAAATTTGTTGCGTGTCTCGTCAAAAGGTTGCCGAATTGACCCAACGCGTTGTCTTCTGATGACGCTTCGTCTGCGAACCCCAGGTAGGGGGGG
41
• ハミング距離を数える前にアラインメント(立て揃え)をする
GCCTAGTTGGCCCAATGGGTCA
CCTTCATG - - CCCATTCGGGCC
CCTTGAT - GACCCATTCGGGCC
GCCTAGTTGGCCCAACGGGTCA
CCTTGATGA - CCCATTGGGGCC
CCTTGAT - - GCCCATTTGGGCC
CCTTGAT - - GCCCATTTGGGCC
CCTTGAT - - GCCCATTCGGGCC
パリティ• パリティ検査
–冗長なビットを追加することで符号の誤り検出や訂正を行う
– n ビットの符号 (x1-x2-x3-…-xn) に付加ビット y を追加して 1 となるビットが偶数になるようにする• x1+x2+x3+….+xn+y≡0(mod 2)
• パリティ:元の符号で 1 となるビットの個数が偶数個か奇数個かを表す
• 単一パリティ検査符号:ビットを 1 つ追加してパリティを検査できるようにした符号
43
2.5.3 パリティ(パリティビットの付加) p.34n ビットの符号列
に常に
となるビット y を加える通信中に誤りが起これば、誤りがあることが検出できる
nxxxx 21 )10( またはix
01 yxx n)2(mod
ハミング距離と誤り検出 訂正・• 符号の 1 つのビットが反転すると,反転前後の符号のハミング距離は 1 となる
• 2 つの符号に関して,–誤り検出に必要な符号間のハミング距離: 2以上
–誤り訂正に必要な符号間のハミング距離: 3以上
• 一般に t個までの誤りに関して–誤り検出に必要な符号間のハミング距離:
t+1以上–誤り訂正に必要な符号間のハミング距離:
2t+1以上
000
100010
001
110
011101
111
000
101
011
110
00
10
01
11000
001100
010
0
101011110111
1
誤り検出
誤り訂正
符号の誤り検出 訂正・• A, B という情報を相手に伝えたい場合にノイ
ズによりビットが 1 つ反転しうると仮定すると…– A:0,B:1 として符号化
• 受け手側では誤りを検出する事ができない– A:00,B:11 として符号化
• 受信する可能性のある符号は 4通り• 誤りを検出できる: 01,10 は誤りが生じたと分かる
– A:000,B:111 として符号化• 受信する可能性のある符号は 8通り• 誤り検出と訂正ができる
– 001,010,100 は A を伝送しようとして誤ったもの– 110,101,011 は B を伝送しようとして誤ったもの
おとこ [男 ] (1) 人間のうち、雄としての性器官・性機能を持つほう (2)一人前に成熟した男性。 {狭義では、弱いものをかばう、積極的な行動性を持った人を指す }
おんな [女 ] (1) 人間のうち、雌としての性器官・性機能を持つほう (2) 一人前に成熟した女性。 { やさしい心根や優柔不断や決断力の乏しさがからまり存する一方で、強い粘りと包容力を持つ }
ほうよう [抱擁 ] おおらかで、自分と反対意見を持つ人、自分の悪口を言う人などと、承知の上で付き合うこと。
(赤瀬川源平「新解さんの謎」文藝春秋、平成八年)
特定の異性に特別な愛情を抱いて、二人だけで一緒にいたい、できるなら合体したいという気持ちを持ちながら、それが常にはかなえられないでひどく心を苦しめる・まれにかなえられて歓喜する状態
・ 恋愛
・ おそかれはやかれ「ーー 一度は死ぬのだ」
・ 凡人自らを高める努力を怠ったり功名心を持ち合わせなかったりして他に対する影響力が皆無のまま一生を終える人。[ マイホーム主義から脱することの出来ない大多数の庶民の意にも用いられる ]