【mixbeat4-4】統計表現20111016

42
4 mixbeat4 期生 WS - 統計表現のウラ・オモテ - 201 1 .1 0.1 6 t&t mixbeat そのグラフは本当に正しい?

Transcript of 【mixbeat4-4】統計表現20111016

Page 1: 【mixbeat4-4】統計表現20111016

第 4 回 mixbeat4期生WS

-統計表現のウラ・オモテ -

201 1 .10.16

t&t  mixbeat

そのグラフは本当に正しい?

Page 2: 【mixbeat4-4】統計表現20111016

2

こんなグラフを見たことありませんか?

Page 3: 【mixbeat4-4】統計表現20111016

3t&t  mixbeat

どこがおかしい?

Page 4: 【mixbeat4-4】統計表現20111016

4t&t  mixbeat

2chで横軸が月ごとに等間隔化されたら

Page 5: 【mixbeat4-4】統計表現20111016

5t&t  mixbeat

グラフ以外にも ニュースの見出し、企業のリリース文、他社の提案資料の図表の中に

「データから本当にこの結論が言える?」

「そもそもデータは信用に足る?」・・・

なんて思ったことはありませんか?

Page 6: 【mixbeat4-4】統計表現20111016

統計表現とは

6t&t  mixbeat

一定の結論やその補足を導くために

統計データやそれらの比較によって

グラフや文字、図表を作成すること

定義

Page 7: 【mixbeat4-4】統計表現20111016

統計表現とは

7t&t  mixbeat

前述したグラフのように統計表現は恣意的に一定の結論を導くことが可能

かつ 日常のニュース誌面など日常的な情報として接する機会が多い身近な問題

実際に統計表現を行うプロセスをなぞりながら

結論を誘導するテクニック ( トリック ) を学ぶことで

統計表現を疑い、判断するリテラシーを養う

午前中の目的

Page 8: 【mixbeat4-4】統計表現20111016

統計表現の基本プロセス

8t&t  mixbeat

( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )

( 2) 編集 ( 統計処理、比較分析、抽出など )

( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )

※一方通行ではなく、特に編集と作成は相互に行き来しながら、成果物がつくられていく。

Page 9: 【mixbeat4-4】統計表現20111016

統計表現の基本プロセス

9t&t  mixbeat

( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )

( 2) 編集 ( 統計処理、比較分析、抽出など )

( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )

Page 10: 【mixbeat4-4】統計表現20111016

調査について

10t&t  mixbeat

point

誰のどのようにで調べたものを使うか

※1 次データの入手のための手法については内容が膨大になるので今回は割愛します m(_ _ )m

・どんな主体がやっているのか、信頼に足るのか (ポジショントーク )

・時期 (最新性、外部影響 (震災など影響の大きい出来事の前後か ))

・対象 (母集団の適切性、ランダム性 (作為性 )、 n数、回収率、重みづけ )

・方法 (市場調査、 I R 情報など )

Page 11: 【mixbeat4-4】統計表現20111016

調査について 方法

11t&t  mixbeat

記録データ

財務 生産 顧客・販売

調査データ

質問型 観察型実験型

Page 12: 【mixbeat4-4】統計表現20111016

調査について 対象

12t&t  mixbeat

サントリー黒烏龍 花王ヘルシア

n数は?

調査対象: 12 名調査対象:軽度肥満(平均 BMI 26、平均腹部全脂肪面積 320cm2 )健常男女 80名

調査対象:肥満(平均 BMI 27)の健常男性 109 名女性 1 17 名

■ 脂肪コントロール?飲料

/調査結果で導いている内容は?/調査対象者の質は?

Page 13: 【mixbeat4-4】統計表現20111016

統計表現の基本プロセス

13t&t  mixbeat

( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )

( 2) 編集 ( 統計処理、比較分析、抽出など )

( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )

Page 14: 【mixbeat4-4】統計表現20111016

編集について

14t&t  mixbeat

point

キーメッセージのためにどの数字をどう加工するか

これらの中身は複数組み合わせられて、複雑に利用されるため分けきれないものを無理やり分割してる部分があります

・抽出 ( “ ”どの範囲を見せるか、 その他に何を含めるか )

・比較 (比較するに適した内容か )

・変化率・指数 (割合 )(差を大きく見せる錯覚として活用されていないか )

・均化 (比較が可能なように単位がそろっているか )

・平均 (適切な対象から作成されているか )※その他統計処理 (分散など )は今回は割愛します

・言葉 (使われている言葉の定義が曖昧ではないか )

Page 15: 【mixbeat4-4】統計表現20111016

15t&t  mixbeat

編集について 抽出

0

2 3 4

2010

(期 )

2 3 4 (期 )13 4 21

2009 2010 201 1

0

元のデータは

なぜその箇所を選んでいるのか?

■ とある企業の期別売上

Page 16: 【mixbeat4-4】統計表現20111016

16t&t  mixbeat

編集について 抽出

元のデータは

■ 英国の犯罪統計 ( 出典 : The Times,2005)

なぜその箇所を選んでいるのか?

Page 17: 【mixbeat4-4】統計表現20111016

17t&t  mixbeat

編集について 比較■ 中国の乗用車販売の伸び率 ( by McKinsey Quarterly,2004)

2000 2003 2007(予測 )

606

1 ,978

4,088

単位: 1000台

累積伸び率: 20%

定量的に比較できる内容かどうか

Page 18: 【mixbeat4-4】統計表現20111016

18t&t  mixbeat

編集について 変化率・指数 ( 割合 )

■A 市と B 市の卵の価格違い

変化率や指数を採用することで見え方が大きく変わる

200

150

100

50

※※

※ ※

※ ※

※A

B

15

10

5

B

A

90

100

110

120

130

A

B

※※※ ※

※※

A . 基礎データ(絶対値) B . 変化率 C. 指数

Page 19: 【mixbeat4-4】統計表現20111016

19t&t  mixbeat

■Google+ のトラフィック

http://www.forbes.com/sites/timworstall/2011/10/09/google-plus-traffic-down-60/

一般公開直後: 1200%のトラフィックの向上

現状: 480%程度の向上に落ち着く

事実

記事内容

60%のトラフィックダウン

” ”何を指している 率 か

編集について 変化率・指数 ( 割合 )

増加率が 1200% 480→ %の減少

Page 20: 【mixbeat4-4】統計表現20111016

20t&t  mixbeat

ちょっと余談ですが・・・

■2つ以上の割合を平均する計算方法

( 例 ) 10%と 14%の平均の計算方法は・・・?

(10% + 14% )/2= 1 2 %×もとの数値まで戻って 10% =30/300、 14% =28/200

(30+ 28)/(300+ 200)= 1 1 .6%

編集について 変化率・指数 ( 割合 )

Page 21: 【mixbeat4-4】統計表現20111016

21t&t  mixbeat

編集について 均化■ 全国のコンビニ数量比較

  セブン ローソン ファミマ 人口(万人 )

面積(平方 km)

人口密度(万人 /平方 km)

東京 1721 1255 1405 1 ,266 2,103 6,019.97

神奈川 922 664 592 883 2,416 3,654.80

大阪 575 954 704 881 1 ,898 4,641 .73

愛知 583 446 433 731 5,1 16 1 ,428.85

埼玉 880 374 426 707 3,767 1 ,876.83

千葉 770 351 347 607 5,082 1 ,194.41

北海道 831 518 44 560 83,457 67.10

兵庫 389 541 297 559 8,396 665.79

福岡 674 339 316 505 4,845 1 ,042.31

静岡 484 173 196 380 7,329 518.49

目的に合わせてデータを都合よく編集できる 人口当たり? / 面積当たり?

Page 22: 【mixbeat4-4】統計表現20111016

22t&t  mixbeat

編集について 平均

平均を使うのが正しい場面か注意( 平均が活きるのは主に正規分布のとき )

■ 勤労世帯の貯蓄額 ( 総務省「家計調査」 2008)

20%

15%

5%

10%

200万円 1000万円 2000万円 3000万円 4000万円

最頻値 200万円未満

中央値 750 万円

平均値 1250万円

平均1250万円

Page 23: 【mixbeat4-4】統計表現20111016

23t&t  mixbeat

編集について 平均■ ユーロ非採用国のほうが経済は好調? ( 出典: I ndependent on Sunday 2005)

GDP 年次成長率

4

3

2

1

0

2002 2003 2004 2005

スウェーデン ( 瑞 )

英国

ユーロ通貨国

平均といいながら、ユーロ通貨国とほぼ同程度の成長率だった都合の悪いデンマーク ( 瑞、英につぐ第 3の非採用国 ) を比較対象に入れていない

何と比べるべき平均なのか注意

Page 24: 【mixbeat4-4】統計表現20111016

24t&t  mixbeat

作業中 編集について 言葉■2003年の生産性の国際比較 ( 出典:英国財務省 Pre-Budget Report2004)

※ 英国を 100とした場合の指数

労働者 1人当たり生産性 1時間当たり生産性 労働人口 1人当たり生産性

80

90

100

110

120

130

米国 仏国 独国

都合よく見えて雰囲気でなんとなく意味のわかる新語の創作

Page 25: 【mixbeat4-4】統計表現20111016

統計表現の基本プロセス

25t&t  mixbeat

( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )

( 2) 編集 ( 統計処理、比較分析、抽出など )

( 3) 作成 ( 表現 ( 内容、強調 )、補足など )

Page 26: 【mixbeat4-4】統計表現20111016

26

の前にちょっと休憩

Page 27: 【mixbeat4-4】統計表現20111016

明日から使える?データ

27t&t  mixbeat

Q .右の写真の男性と付き合いたい?(米国女性 98人に聞いた )

出典:オクラホマ大学スティルウォーター校のメリッサ・バークリー

■ 実験 ( 1)

パターン X :「彼には彼女はいません」とした場合 パターン Y:「彼には彼女がいます」とした場合

相手のいる男の方がモテる

Page 28: 【mixbeat4-4】統計表現20111016

明日から使える?データ

28t&t  mixbeat

Q .エコノミスト年間購読プラン、どれにする?(米国人 100人に聞いた )

■ 実験 ( 2)

パターン X : 3プランを用意 パターン Y: (B ブランを除く )2 プランを用意

余計な選択肢に注意

プラン A:ウェブ版 59ドルプラン B :印刷版  1 25 ドルプラン C:ウェブ&印刷版  1 25 ドル

プラン A:ウェブ版 59ドルプラン C:ウェブ&印刷版  1 25 ドル

A: 16人、 B : 0人、 C: 84

人A: 68人、 C: 32 人

Page 29: 【mixbeat4-4】統計表現20111016

29

閑話休題でした

Page 30: 【mixbeat4-4】統計表現20111016

作成について

30t&t  mixbeat

point

最も的確に伝えるためにどんな表現とどんな補足をするか

・補足 (加える説明内容は表現物を反映しているか )

・表現選択 (使われているグラフや絵図などは内容に対して適切か )

・強調 (フォントや色使い、グラフの足切りなどによってデータの内容がごまかされていないか)

Page 31: 【mixbeat4-4】統計表現20111016

あらわすもの

作成について 棒グラフ

利用する視覚効果

トリックポイント

差異、順位、絶対値、 (積み上げ式にすると )構成比

・単位やその圧縮による欺瞞・根本の 0を隠す・長さ、幅、面積、体積、何でデータを表すのか・目盛の不均一 /一部カット /複数使用・不適切なデータ項目・長さのごまかし・積み上げ式にして上部データを隠ぺい・不要な絵などのオブジェクト挿入

長さ (目盛 )、面積

■ 性教育を受けている子供たちの平均年齢 ( 出典: Mackay,A tlas of Human Sexual Behavior,2000)

国名

1 1 .3 1 1 .4 1 1 .5 1 1 .7 1 1 .9 12.0 12.5 12.7 12.9 13.0 13.5

31t&t  mixbeat

Page 32: 【mixbeat4-4】統計表現20111016

あらわすもの

作成について 線グラフ

利用する視覚効果

トリックポイント

推移、系列変化、乖離、順位、絶対値

・単位やその圧縮による欺瞞・根本の 0を隠す・目盛(区切り値)の不均一 /一部カット /複数使用・積み上げ式の面グラフにして上部データを隠す・不要な絵などのオブジェクト挿入

目盛、角度

32t&t  mixbeat

■ 英「 GDP に対する税率の比率」 ( 出典: The Times2005)  ※政権交代による税率の変化

労働党政権

Page 33: 【mixbeat4-4】統計表現20111016

あらわすもの

作成について 散布図グラフ

利用する視覚効果

トリックポイント

データ項目の差異、相関性やまとまり

・単位やその圧縮による欺瞞・根本の 0を隠す・目盛(区切り値)の不均一 /一部カット /複数使用・恣意的な傾向線の挿入・不要な絵などのオブジェクト挿入・バブル図にするとバブルのサイズのごまかしが効く

目盛、まとまり具合、傾向線 (角度 )

33t&t  mixbeat

■ どんなかたちでも補助線は引けてしまう

Page 34: 【mixbeat4-4】統計表現20111016

あらわすもの

作成について 円グラフ

利用する視覚効果

トリックポイント

シェア、差異、順位、絶対値

・ドーナツグラフにして中心角を消したり、直線性を弱める・斜めに描いて角度や切片の外周を変える・立体効果を使って、切片の面積の印象を変える・母データのサイズの違う円グラフ同士の比較

面積、切片の外周、中心角度、直線性

34t&t  mixbeat

■ 円グラフの比較

東京

53%神奈川

29%

大阪

18%

東京

44%

神奈川

23%

大阪

33%

セブンイレブン数 ローソン数

Page 35: 【mixbeat4-4】統計表現20111016

35t&t  mixbeat

作成について  3次元グラフ■3次元グラフ ( 出典:ニコラス・ストレイジ「グラフで 9割だまされる」ランダムハウス講談社 )

角度や遠近法で印象を変更可能

Page 36: 【mixbeat4-4】統計表現20111016

36t&t  mixbeat

作成について 絵グラフ■ 絵グラフ ( 出典:ニコラス・ストレイジ「グラフで 9割だまされる」ランダムハウス講談社 )  ※観光客数

印象操作が自由自在

Page 37: 【mixbeat4-4】統計表現20111016

37t&t  mixbeat

作成について 絵図■ 世界の平均バストサイズ ( Average Breast Cup Size in the World)

基準が曖昧 ( アンダー無視 )・データの出所不明

Page 38: 【mixbeat4-4】統計表現20111016

38t&t  mixbeat

■ ある新聞記事 ( 出典:上田尚一「統計グラフのウラ・オモテ」 )

数字が何を指すか注意

2000年

実施数: 16教育委員会

指導力不足教員: 65人

2003年

実施数: 52教育委員会

指導力不足教員: 481人

2003年と比べて

前年の数字がないのに 66.4%?

作成について 補足

Page 39: 【mixbeat4-4】統計表現20111016

39

おしまい

Page 40: 【mixbeat4-4】統計表現20111016

40t&t  mixbeat

参考文献

上田 尚一 「統計グラフのウラ・オモテ 」

ブルーバックス

ニコラス・ストレンジ「グラフで 9 割だまされる情報リテラシーを鍛える 84のプレゼン」武田ランダムハウスジャパン

ドナ・ウォン「ウォールストリート・ジャーナル式図解表現のルール」かんき出版

Page 41: 【mixbeat4-4】統計表現20111016

41

おしまいおつかれさまです

休憩 10分  11時 20分までに戻ってきてください。

Page 42: 【mixbeat4-4】統計表現20111016

42

ワーク ( 1)

お手元の雑誌の中でさっき話したようなちょっとしたテクニックを探してみて下さい

時間: 5分

見つけたものは発表してもらいます。