7 散らばりの統計量 - PRE-STEP(3)統計データ全体で散らばりを表現する 距離で散らばりを表現する際の問題は,中心からの距離は統計データの
【mixbeat4-4】統計表現20111016
-
Upload
tanji-takumi -
Category
Documents
-
view
847 -
download
0
Transcript of 【mixbeat4-4】統計表現20111016
第 4 回 mixbeat4期生WS
-統計表現のウラ・オモテ -
201 1 .10.16
t&t mixbeat
そのグラフは本当に正しい?
2
こんなグラフを見たことありませんか?
3t&t mixbeat
どこがおかしい?
4t&t mixbeat
2chで横軸が月ごとに等間隔化されたら
5t&t mixbeat
グラフ以外にも ニュースの見出し、企業のリリース文、他社の提案資料の図表の中に
「データから本当にこの結論が言える?」
「そもそもデータは信用に足る?」・・・
なんて思ったことはありませんか?
統計表現とは
6t&t mixbeat
一定の結論やその補足を導くために
統計データやそれらの比較によって
グラフや文字、図表を作成すること
定義
統計表現とは
7t&t mixbeat
前述したグラフのように統計表現は恣意的に一定の結論を導くことが可能
かつ 日常のニュース誌面など日常的な情報として接する機会が多い身近な問題
実際に統計表現を行うプロセスをなぞりながら
結論を誘導するテクニック ( トリック ) を学ぶことで
統計表現を疑い、判断するリテラシーを養う
午前中の目的
統計表現の基本プロセス
8t&t mixbeat
( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )
( 2) 編集 ( 統計処理、比較分析、抽出など )
( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )
※一方通行ではなく、特に編集と作成は相互に行き来しながら、成果物がつくられていく。
統計表現の基本プロセス
9t&t mixbeat
( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )
( 2) 編集 ( 統計処理、比較分析、抽出など )
( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )
調査について
10t&t mixbeat
point
誰のどのようにで調べたものを使うか
※1 次データの入手のための手法については内容が膨大になるので今回は割愛します m(_ _ )m
・どんな主体がやっているのか、信頼に足るのか (ポジショントーク )
・時期 (最新性、外部影響 (震災など影響の大きい出来事の前後か ))
・対象 (母集団の適切性、ランダム性 (作為性 )、 n数、回収率、重みづけ )
・方法 (市場調査、 I R 情報など )
調査について 方法
11t&t mixbeat
記録データ
財務 生産 顧客・販売
調査データ
質問型 観察型実験型
調査について 対象
12t&t mixbeat
サントリー黒烏龍 花王ヘルシア
n数は?
調査対象: 12 名調査対象:軽度肥満(平均 BMI 26、平均腹部全脂肪面積 320cm2 )健常男女 80名
調査対象:肥満(平均 BMI 27)の健常男性 109 名女性 1 17 名
■ 脂肪コントロール?飲料
/調査結果で導いている内容は?/調査対象者の質は?
統計表現の基本プロセス
13t&t mixbeat
( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )
( 2) 編集 ( 統計処理、比較分析、抽出など )
( 3) 作成 ( 表現 ( 内容、強調 ) 、補足など )
編集について
14t&t mixbeat
point
キーメッセージのためにどの数字をどう加工するか
これらの中身は複数組み合わせられて、複雑に利用されるため分けきれないものを無理やり分割してる部分があります
・抽出 ( “ ”どの範囲を見せるか、 その他に何を含めるか )
・比較 (比較するに適した内容か )
・変化率・指数 (割合 )(差を大きく見せる錯覚として活用されていないか )
・均化 (比較が可能なように単位がそろっているか )
・平均 (適切な対象から作成されているか )※その他統計処理 (分散など )は今回は割愛します
・言葉 (使われている言葉の定義が曖昧ではないか )
15t&t mixbeat
編集について 抽出
0
2 3 4
2010
(期 )
2 3 4 (期 )13 4 21
2009 2010 201 1
0
元のデータは
なぜその箇所を選んでいるのか?
■ とある企業の期別売上
16t&t mixbeat
編集について 抽出
元のデータは
■ 英国の犯罪統計 ( 出典 : The Times,2005)
なぜその箇所を選んでいるのか?
17t&t mixbeat
編集について 比較■ 中国の乗用車販売の伸び率 ( by McKinsey Quarterly,2004)
2000 2003 2007(予測 )
606
1 ,978
4,088
単位: 1000台
累積伸び率: 20%
定量的に比較できる内容かどうか
18t&t mixbeat
編集について 変化率・指数 ( 割合 )
■A 市と B 市の卵の価格違い
変化率や指数を採用することで見え方が大きく変わる
200
150
100
50
※
※※
※ ※
※ ※
※A
B
15
10
5
B
A
※
※
※
※
※
※
90
100
110
120
130
A
B
※※※ ※
※※
※
A . 基礎データ(絶対値) B . 変化率 C. 指数
19t&t mixbeat
■Google+ のトラフィック
http://www.forbes.com/sites/timworstall/2011/10/09/google-plus-traffic-down-60/
一般公開直後: 1200%のトラフィックの向上
現状: 480%程度の向上に落ち着く
事実
記事内容
60%のトラフィックダウン
” ”何を指している 率 か
編集について 変化率・指数 ( 割合 )
増加率が 1200% 480→ %の減少
20t&t mixbeat
ちょっと余談ですが・・・
■2つ以上の割合を平均する計算方法
( 例 ) 10%と 14%の平均の計算方法は・・・?
(10% + 14% )/2= 1 2 %×もとの数値まで戻って 10% =30/300、 14% =28/200
(30+ 28)/(300+ 200)= 1 1 .6%
編集について 変化率・指数 ( 割合 )
21t&t mixbeat
編集について 均化■ 全国のコンビニ数量比較
セブン ローソン ファミマ 人口(万人 )
面積(平方 km)
人口密度(万人 /平方 km)
東京 1721 1255 1405 1 ,266 2,103 6,019.97
神奈川 922 664 592 883 2,416 3,654.80
大阪 575 954 704 881 1 ,898 4,641 .73
愛知 583 446 433 731 5,1 16 1 ,428.85
埼玉 880 374 426 707 3,767 1 ,876.83
千葉 770 351 347 607 5,082 1 ,194.41
北海道 831 518 44 560 83,457 67.10
兵庫 389 541 297 559 8,396 665.79
福岡 674 339 316 505 4,845 1 ,042.31
静岡 484 173 196 380 7,329 518.49
目的に合わせてデータを都合よく編集できる 人口当たり? / 面積当たり?
22t&t mixbeat
編集について 平均
平均を使うのが正しい場面か注意( 平均が活きるのは主に正規分布のとき )
■ 勤労世帯の貯蓄額 ( 総務省「家計調査」 2008)
20%
15%
5%
10%
200万円 1000万円 2000万円 3000万円 4000万円
最頻値 200万円未満
中央値 750 万円
平均値 1250万円
平均1250万円
23t&t mixbeat
編集について 平均■ ユーロ非採用国のほうが経済は好調? ( 出典: I ndependent on Sunday 2005)
GDP 年次成長率
4
3
2
1
0
2002 2003 2004 2005
スウェーデン ( 瑞 )
英国
ユーロ通貨国
平均といいながら、ユーロ通貨国とほぼ同程度の成長率だった都合の悪いデンマーク ( 瑞、英につぐ第 3の非採用国 ) を比較対象に入れていない
何と比べるべき平均なのか注意
24t&t mixbeat
作業中 編集について 言葉■2003年の生産性の国際比較 ( 出典:英国財務省 Pre-Budget Report2004)
※ 英国を 100とした場合の指数
労働者 1人当たり生産性 1時間当たり生産性 労働人口 1人当たり生産性
80
90
100
110
120
130
米国 仏国 独国
都合よく見えて雰囲気でなんとなく意味のわかる新語の創作
統計表現の基本プロセス
25t&t mixbeat
( 1) 調査 ( 入手 ( 1次データ、 2次データ )、内容判断 )
( 2) 編集 ( 統計処理、比較分析、抽出など )
( 3) 作成 ( 表現 ( 内容、強調 )、補足など )
26
の前にちょっと休憩
明日から使える?データ
27t&t mixbeat
Q .右の写真の男性と付き合いたい?(米国女性 98人に聞いた )
出典:オクラホマ大学スティルウォーター校のメリッサ・バークリー
■ 実験 ( 1)
パターン X :「彼には彼女はいません」とした場合 パターン Y:「彼には彼女がいます」とした場合
相手のいる男の方がモテる
明日から使える?データ
28t&t mixbeat
Q .エコノミスト年間購読プラン、どれにする?(米国人 100人に聞いた )
■ 実験 ( 2)
パターン X : 3プランを用意 パターン Y: (B ブランを除く )2 プランを用意
余計な選択肢に注意
プラン A:ウェブ版 59ドルプラン B :印刷版 1 25 ドルプラン C:ウェブ&印刷版 1 25 ドル
プラン A:ウェブ版 59ドルプラン C:ウェブ&印刷版 1 25 ドル
A: 16人、 B : 0人、 C: 84
人A: 68人、 C: 32 人
29
閑話休題でした
作成について
30t&t mixbeat
point
最も的確に伝えるためにどんな表現とどんな補足をするか
・補足 (加える説明内容は表現物を反映しているか )
・表現選択 (使われているグラフや絵図などは内容に対して適切か )
・強調 (フォントや色使い、グラフの足切りなどによってデータの内容がごまかされていないか)
あらわすもの
作成について 棒グラフ
利用する視覚効果
トリックポイント
差異、順位、絶対値、 (積み上げ式にすると )構成比
・単位やその圧縮による欺瞞・根本の 0を隠す・長さ、幅、面積、体積、何でデータを表すのか・目盛の不均一 /一部カット /複数使用・不適切なデータ項目・長さのごまかし・積み上げ式にして上部データを隠ぺい・不要な絵などのオブジェクト挿入
長さ (目盛 )、面積
■ 性教育を受けている子供たちの平均年齢 ( 出典: Mackay,A tlas of Human Sexual Behavior,2000)
国名
1 1 .3 1 1 .4 1 1 .5 1 1 .7 1 1 .9 12.0 12.5 12.7 12.9 13.0 13.5
31t&t mixbeat
あらわすもの
作成について 線グラフ
利用する視覚効果
トリックポイント
推移、系列変化、乖離、順位、絶対値
・単位やその圧縮による欺瞞・根本の 0を隠す・目盛(区切り値)の不均一 /一部カット /複数使用・積み上げ式の面グラフにして上部データを隠す・不要な絵などのオブジェクト挿入
目盛、角度
32t&t mixbeat
■ 英「 GDP に対する税率の比率」 ( 出典: The Times2005) ※政権交代による税率の変化
労働党政権
あらわすもの
作成について 散布図グラフ
利用する視覚効果
トリックポイント
データ項目の差異、相関性やまとまり
・単位やその圧縮による欺瞞・根本の 0を隠す・目盛(区切り値)の不均一 /一部カット /複数使用・恣意的な傾向線の挿入・不要な絵などのオブジェクト挿入・バブル図にするとバブルのサイズのごまかしが効く
目盛、まとまり具合、傾向線 (角度 )
33t&t mixbeat
■ どんなかたちでも補助線は引けてしまう
あらわすもの
作成について 円グラフ
利用する視覚効果
トリックポイント
シェア、差異、順位、絶対値
・ドーナツグラフにして中心角を消したり、直線性を弱める・斜めに描いて角度や切片の外周を変える・立体効果を使って、切片の面積の印象を変える・母データのサイズの違う円グラフ同士の比較
面積、切片の外周、中心角度、直線性
34t&t mixbeat
■ 円グラフの比較
東京
53%神奈川
29%
大阪
18%
東京
44%
神奈川
23%
大阪
33%
セブンイレブン数 ローソン数
35t&t mixbeat
作成について 3次元グラフ■3次元グラフ ( 出典:ニコラス・ストレイジ「グラフで 9割だまされる」ランダムハウス講談社 )
角度や遠近法で印象を変更可能
36t&t mixbeat
作成について 絵グラフ■ 絵グラフ ( 出典:ニコラス・ストレイジ「グラフで 9割だまされる」ランダムハウス講談社 ) ※観光客数
印象操作が自由自在
37t&t mixbeat
作成について 絵図■ 世界の平均バストサイズ ( Average Breast Cup Size in the World)
基準が曖昧 ( アンダー無視 )・データの出所不明
38t&t mixbeat
■ ある新聞記事 ( 出典:上田尚一「統計グラフのウラ・オモテ」 )
数字が何を指すか注意
2000年
実施数: 16教育委員会
指導力不足教員: 65人
2003年
実施数: 52教育委員会
指導力不足教員: 481人
2003年と比べて
前年の数字がないのに 66.4%?
作成について 補足
39
おしまい
40t&t mixbeat
参考文献
上田 尚一 「統計グラフのウラ・オモテ 」
ブルーバックス
ニコラス・ストレンジ「グラフで 9 割だまされる情報リテラシーを鍛える 84のプレゼン」武田ランダムハウスジャパン
ドナ・ウォン「ウォールストリート・ジャーナル式図解表現のルール」かんき出版
41
おしまいおつかれさまです
休憩 10分 11時 20分までに戻ってきてください。
42
ワーク ( 1)
お手元の雑誌の中でさっき話したようなちょっとしたテクニックを探してみて下さい
時間: 5分
見つけたものは発表してもらいます。