第7章 その他の解析手法 - sns.dousoukai.eng.mie-u...

26
2-7-1-1 第7章 その他の解析手法 7.1 工程平均の変化を検出(累積和管理図) 問題設定 ある製造工程で測定収集された管理特性A(参照値(目標値),100)について,毎日部品を 3 個ランダムに 抽出し測定しました.微妙に工程平均が変化したと思われる採取データを検出したいと考えます.データ No.21 までは X R 管理図を用いた工程管理で異常は検出されませんでしたが,今回追加された No.22 のデ ータからは,累積和管理図でどのように判断できるか解析してみます. なお,アクションするための基準(処置レベル)として標準偏差を 0.1773 とします. 関連手法の説明(概要) ① 累積和管理図とは シューハート管理図では,プロット点は群ごとのサンプル情報にもとづいて計算され,それをもとに管理図が 描かれます.これに対して,累積和管理図の特性は,工程平均が段階的に微少に変化した場合には個々の点だ けではなく,それまでの点の持つ情報を利用したほうが変化を早く検出できるので,各群のデータと参照値(デ ータの平均値など)との差を求め,その累積を管理図上にプロットすることにより,プロットの傾斜の変化か ら工程平均の変化を識別可能としています.プロットが管理限界線と比較しVマスクで判断します.つまり, 各群のプロットに対してV字型の直線を引き,それ以前の群のプロットがこの線の外側にある場合に,その群 は工程平均が変化したと判断するものです. 本事例の解析ストーリー 使用する StatWorks の主な機能 ②<データ収集> ②-1:データ収集 ③<累積和管理図> ③-1:手法の選択 ③-2:パラメータの設定 ③-3:累積和管理図 7.1 工程平均の変化を検出(累積和管理図)

Transcript of 第7章 その他の解析手法 - sns.dousoukai.eng.mie-u...

2-7-1-1

その他の解析手法

PART

第7章

第7章 その他の解析手法

7.1 工程平均の変化を検出(累積和管理図)

問題設定

ある製造工程で測定収集された管理特性A(参照値(目標値),100)について,毎日部品を3個ランダムに

抽出し測定しました.微妙に工程平均が変化したと思われる採取データを検出したいと考えます.データ

No.21まではX R 管理図を用いた工程管理で異常は検出されませんでしたが,今回追加されたNo.22のデ

ータからは,累積和管理図でどのように判断できるか解析してみます.

なお,アクションするための基準(処置レベル)として標準偏差を0.1773とします.

関連手法の説明(概要)

① 累積和管理図とは シューハート管理図では,プロット点は群ごとのサンプル情報にもとづいて計算され,それをもとに管理図が

描かれます.これに対して,累積和管理図の特性は,工程平均が段階的に微少に変化した場合には個々の点だ

けではなく,それまでの点の持つ情報を利用したほうが変化を早く検出できるので,各群のデータと参照値(デ

ータの平均値など)との差を求め,その累積を管理図上にプロットすることにより,プロットの傾斜の変化か

ら工程平均の変化を識別可能としています.プロットが管理限界線と比較しVマスクで判断します.つまり,

各群のプロットに対してV字型の直線を引き,それ以前の群のプロットがこの線の外側にある場合に,その群

は工程平均が変化したと判断するものです.

本事例の解析ストーリー

使用するStatWorksの主な機能

②<データ収集>

②-1:データ収集

③<累積和管理図>

③-1:手法の選択

③-2:パラメータの設定

③-3:累積和管理図

②データ収集

①問題の設定

③累積和管理図

④対策の検討

7.1 工程平均の変化を検出(累積和管理図)

2-7-1-2

データの収集

製造ラインから毎日部品をランダムに3 個収集し,測定した結果を3 変数×22 サンプルのデータ表として

作りました.1ヶ月間なので,群の数は22個と若干少ないですが,分析することにしました.

データ表 No データ No データ

1 99.08 99.9 100.44 12 100.14 99.91 100.63

2 99.9 99.97 100.32 13 100.34 99.73 100.15

3 100.12 99.89 99.88 14 100.26 100.07 100.07

4 99.67 99.61 100.51 15 100.32 99.87 100.26

5 100.34 99.93 99.98 16 99.88 100.15 100.42

6 100.06 100.26 100.65 17 100.08 100.08 100.35

7 99.83 100.47 100.06 18 100.44 100.39 99.85

8 100.05 99.56 99.88 19 100.11 100.21 100.14

9 99.64 100.4 100.17 20 100.51 99.38 99.97

10 100.15 100.07 100.08 21 100.06 100.25 100.65

11 100.07 100.03 100.41 22 100.25 100.03 100.83

7.1.1 累積和管理図

手順1 データはサンプルデータに格納されているので,

ファイルを読み込みます.

メニューから[手法選択]-[工程分析]-

[CUSUM(累積和管理図)]を選択します.

手順2 「管理図の選択」画面が表示されます.今回はX の累積和

管理図を描くため,「X の累積和管理図」のボタンをクリック

します.

7.1 工程平均の変化を検出(累積和管理図)

2-7-1-3

その他の解析手法

PART

第7章

手順3 [変数指定]ダイアログでは,量

的変数(データ1,データ2,デー

タ3)の3つを指定して,「選択」

ボタンをクリックします.「次へ進

む」ボタンをクリックします.

手順4 次に累積和管理図を描くためのパラメータ

を入力します.

初期設定では,データから X 管理図の

CL,LCL,UCL が計算されています.参照値μ0は

平均値(100.108),標準偏差σは平均値デー

タの標準偏差/群の大きさの平方根(0.177),

処置レベルと参照値の差μ1-μ0 はσと同じ

(0.177)を算出し,初期値とします.

ここでは,参照値(目標値)として100を入

力し,その他は初期値を用います.通常,μ0

には特性値の目標値(公称値,安定状態の平均

値など),μ1 には水準値(ある値以下あるい

は以上になったら,工程平均が変化したとして

処置すると判断される値)などを入力します.

7.1 工程平均の変化を検出(累積和管理図)

2-7-1-4

手順5 X 管理図と累積和管理図が

表示されます.V マスク外のデ

ータがあることがわかります.

ツールボタン[管理図計算表]をクリックすると,管理図計算表が表示されます.

7.1 工程平均の変化を検出(累積和管理図)

2-7-1-5

その他の解析手法

PART

第7章

X 管理図では異常値が出ていませんが,累積和管理図(CUSUM)でVマスク外のデータがあること

がわかります.

21群まではVマスク外に出ることはなかったのか,22群のデータから過去の実績を見ると9群から

工程平均がわずかに変化していたことがわかります.4群,5群,9群,10群のプロットが着色されて

います.したがって,22群のデータをプロットすることで,工程平均の変化,異常が4群から始まっ

ており,9,10群のデータは管理限界線外にあることもわかりました.

これは,X R 管理図だけではわからなかったことですが,このようにX R 管理図と比べて累積

和管理図は,連や傾向あるいは工程平均にずれが生じた場合,本活動ラインの立ち上げ時期など,そ

の変化を早期に発見でき,是正のためのアクションを速やかにできるという特長をもっています.

管理計算表の表示において,Vマスク限界あるいは管理限界を越えた群番号が着色され,数値を確認

することもできます.黄色に色付けられている値は,累積和管理図において異常だと判断された値で

す.

7.1 工程平均の変化を検出(累積和管理図)

2-7-2-1

その他の解析手法

PART

第7章

7.2 部内旅行案の評価(コンジョイント分析)

問題設定

J社S部では,年中行事である「春の部内旅行」の計画をたてるために,部員全員に対していくつかの旅行

案を検討してもらうことにしました.「勢い」や「雰囲気」で決めてもよかったのですが,今回は統計手法を

利用して案の絞り込みを行うことにしました.

関連手法の説明

①コンジョイント分析とは 顧客に好まれる,あるいは購入したいと思われる商品のコンセプト(本事例は部内旅行案)の良し悪しを選

択するために

・商品の好き嫌い

・企画提案の良し悪し

を評価し,そしてそれを構成する個別の要因の効果などを推定することで,意思決定をします.

本事例の解析ストーリー

使用するStatWorksの主な機能

②企画案・評価項目の提示

②-1:プロファイル登録

②-2:直交表の選択

③パネラーの決定

③-1:パネラーの数および属性の決定

③-2:パネラーへの聞き取り調査

③-3:パネラーにカードを見せて好みを聞く

③-4:アンケート調査資料を作成(ワークシート)

④効用値分析(コンジョイント分析)

②企画案・評価項目の提示

③パネラーの決定

①問題の設定

④コンジョイント分析

⑤企画案の決定と評価

7.2 部内旅行案の評価(コンジョイント分析)

2-7-2-2

データの収集

部内旅行で取り上げる企画案,プロファイル属性と水準そして回答者(パネラー)の属性と水準について以

下の通りとします. データ表

プロファイル属性 プロファイル水準

(2水準)

パネラー属性 パネラー水準

日程 2日,3日 性別 男性,女性

イベント 観光,スポーツ 年代 20代,30代,40代,50

移動手段 鉄道,自動車

宿泊 個室,相部屋

これらの組み合わせの中から,実験計画(L8直交表)のように8つの旅行案(プロファイル)を作成し,回答

者(パネラー)に対し,アンケート(行きたい順に番号をつけてもらう方法)を行うことにしました.

比較対象させる旅行案(プロファイル)※直交表を利用

旅行案 日程 イベント 移動手段 宿泊 カード情報

1 2日 観光 鉄道 個室 1111

2 2日 観光 自動車 相部屋 1122

3 2日 スポーツ 鉄道 相部屋 1212

4 2日 スポーツ 自動車 個室 1221

5 3日 観光 鉄道 相部屋 2112

6 3日 観光 自動車 相部屋 2121

7 3日 スポーツ 鉄道 個室 2211

8 3日 スポーツ 自動車 相部屋 2222

なお,本システム上でこれらのコンジョイント分析のための準備を行うには,メニューから[実験計画

法]-[コンジョイント分析のための準備]で,まずプロファイル登録を行います.ここでは企画案についてプロ

ファイル属性と水準を選び,直交表としてL8を選択し,わりつけを行います.またパネラー(回答者)入力で

は,パネラーの属性と水準をダイアログ上で入力します.

7.2.1 コンジョイント分析

手順1 ここでは,プロファイル登録およびパネラー属性登録

がすでに完了しており,さらに商品コンセプトカードを

もとにパネラーに好みを聞いたデータが収集されている

ものとします. パ ネ

ラー カード1 カード2 … カード8 性別 年代

田中 4 1 3 男性 40代

伊藤 1 7 6 男性 30代

松本 2 5 6 男性 20代

サンプルデータを読み込みます.

メニューから[手法選択]-[実験計画法]-[コン

ジョイント分析]を選択します.

7.2 部内旅行案の評価(コンジョイント分析)

2-7-2-3

その他の解析手法

PART

第7章

手順2 「カード1」~「カード8」の全て

の量的変数と「性別」「年代」のパネ

ラー属性の質的変数を選択して回答

結果の「選択」ボタンをクリックしま

す.さらに,「パネラー」,「カード

情報」のサンプルを選択してパネラー

名称/カード情報の「選択」ボタンを

クリックします.「次へ進む」ボタン

をクリックします.

手順3 「部分効用値」,「部分効果値グラ

フ」, 「レーダーチャート」,「予測

値」等の画面(タブウィンドウ)が表

示されます.

寄与率あるいは範囲から,一番数字が大きい属性(企画ポイント)がどうなっているかを確認します.1

番目に「宿泊」,2 番目に「イベント」の寄与率が大きく,部内旅行の要素として重視されていることがわ

かります.一方,「日程」や「移動手段」は部内旅行の効用値として小さいことがわかります.

7.2 部内旅行案の評価(コンジョイント分析)

2-7-2-4

手順4 さらに,パネラー属性によって

違いがあるのかどうかを確認しま

す.性別や年代別に比較ができま

す.

ツールボタン「層ごとの統計量」

をクリックすると,男性の場合は,

宿泊の寄与率が一番高く(0.565),

女性の場合は移動手段の寄与率が

一番高い(0.733)ことがわかりま

す.

年代別でも確認をしてみます.

20代は「イベント」が高い(0.913)

ですが,30代,40代,50代は「宿泊」

の関心興味が高く(0.895,0.909,

0.780)が高いことがわかります.年

長者は,ゆっくり旅行を楽しみたい

という考えが強いように思えます.

7.2 部内旅行案の評価(コンジョイント分析)

2-7-2-5

その他の解析手法

PART

第7章

手順5 「部分効用値」では企画案の関心項目

ごとに「部分効用値グラフ」をみること

ができます.

<全体>

この部分効用値グラフに,「質的変数」

から「性別」を選択すれば,性別の違い

による部分効用値(好みの差)がわかり

ます.

<性別>

また,質的変数を「年代」に変更する

と,年代の違いによる部分効用値グラフ

を比較することができます.

<年代>

7.2 部内旅行案の評価(コンジョイント分析)

2-7-2-6

「予測」タブをクリックすると,効

用値の予測値の一覧が表示されます.

部内旅行企画案の中では旅行企画案3(<日程-2 日>,<イベント-スポーツ>,<移動手段-鉄道>,<

宿泊-相部屋>の人気が最も高いことがわかりました.

せっかくの部内旅行の機会なのだから,スポーツをしたり一緒の部屋で交流して過ごしたいということ

が,今回の結果となったようです.

なお,年代別では「50 代がイベントより観光」を希望する傾向が強く,「女性は鉄道より自動車で行きた

い」という思いが強そうです.

さて,幹事である貴方はこの結果をどう判断し,次の部内旅行を企画しますか?

7.2 部内旅行案の評価(コンジョイント分析)

2-7-3-1

その他の解析手法

PART

第7章

7.3 打撃成績による打者の分類1(階層的クラスター分析)

問題設定

2010年のプロ野球(パシフィックリーグ)の打撃成績(ただし,規定打席に達した選手のみ)の公式記録

のデータをもとに,活躍した選手がどのように類似しているのか,傾向を解析してみます.

関連手法の説明(概要)

①階層的クラスター分析とは クラスター分析とは,対象となるデータ群を統計的に類似しているもの同士に分類するための方法の総称で

す.

階層型分類法は擬集型と分岐型に分けることができます.擬集型分類法である階層的クラスター分析は,分類

対象間あるいはクラスター間を非類似度(あるいは類似度)で併合を繰り返すことによってデンドログラムを

作成する,階層的分類です.

本事例の解析ストーリー

使用するStatWorksの主な機能

③<階層的クラスター分析>

③-1:クラスター化法の設定

③-2:デンドログラムの表示

③-3:一様性推移グラフ

②データ収集

③階層的クラスター分析

①問題の設定

④対策の検討

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-2

データの収集

2010年のプロ野球(パシフィックリーグ)の選手の打撃成績(ただし,規定打席に達した選手のみ)の公式

記録のデータは以下のとおりです.

データ表 NO. 選手名 チーム名 ポジショ

打率 試合数 打席数 打数 ・

伴殺打

1 西岡 ロッテ 2遊間 346 144 692 596 ・・ 8

2 田中 日本ハム 2遊間 335 143 662 576 ・・ 6

3 今江 ロッテ 3塁 331 140 596 531 ・・ 10

4 カブレラ オリックス ファースト 331 112 481 408 ・・ 14

5 多村 ソフトバンク 外野 324 140 559 513 ・・ 11

6 鉄平 楽天 外野 318 127 555 481 ・・ 3

7 川崎 ソフトバンク 2遊間 316 144 662 602 ・・ 6

8 嶋 楽天 キャッチャー 315 127 485 422 ・・ 15

9 中島 西武 2遊間 314 130 579 503 ・・ 20

10 小谷野 日本ハム 3塁 311 144 614 569 ・・ 17

: : : : : : : : ・・ :

30 ブラウン 西武 指名打者 241 118 479 424 ・・ 11

NO 変数名 内容説明

1 選手 選手の名前

2 チーム名 プロ野球選手が所属している球団名

3 ポジション 各選手のポジション

4 打率 安打数/打数 ※注1

5 試合数 出場した試合数

6 打席数 打席に立った回数

7 打数 安打を放つがアウトになった打席数

8 安打 安打の数

9 二塁打 二塁打の数

10 三塁打 三塁打の数

11 本塁打 本塁打(ホームラン)の数

12 塁打数 安打を放って踏んだベースの数

13 打点 自分が打ったことで入った得点(相手チームの失策を除く)

14 得点 ホームベース

15 三振 三振の数

16 四球 フォアボールの数

17 死球 デッドボールの数

18 犠打 送りバントの成功数

19 犠飛 犠牲フライの数

20 盗塁 盗塁の数

21 出塁率 塁に出る割合(相手チームの失策を除く) ※注1

22 長打率 長打を打つ場合(=塁打数/打数) ※注1

23 得点圏打率 走者が二塁や三塁にいる打席における打率 ※注1

24 併殺打 自分が打ったことでアウトが2つカウントされた回数

※注1 打率,出塁率,長打率,得点圏打率は1000倍している.

※本データは,「個人打撃成績(規定打席以上) http://bis.npb.or.jp/2010/stats/bat_p.html」を参照し,

独自にデータを入力したものです.

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-3

その他の解析手法

PART

第7章

7.3.1 階層的クラスター分析データの収集

本来ならば予備解析をし,データの吟味をする必要がありますが,転記ミスや異常値がないことを確認した上

で,解析に使う変数を選択したことにします.

手順1 サンプルデータを読み込みます.

メニューから[手法選択]-[多変量解析]-

[階層的クラスター分析]を選択します.

手順2 量的変数の「打率」,「安打」,

「二塁打」,「三塁打」,「本塁打」,

「打点」,「得点」,「盗塁」を選

択して,「選択」ボタンをクリッ

クします.

サンプル名としては「選手」が

自動的に選択されています.

「次へ進む」ボタンをクリック

します.

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-4

手順3 クラスター化法は一般的な方法である「ウォ

ード法」,類似係数として「平方ユークリッド距

離」を選択し,「次へ進む」ボタンをクリック

します.

クラスター化法の「ウォード法」とは,クラスター間の距離をその2つのクラスターが結合

したときのクラスター内平方和の増分としたものです.

例えば,1 変数でクラスターAは1,2,3の値をもつサンプルで構成され,クラスターB

は7,8,9の値をもつサンプルで構成されているとします.

結合前のそれぞれのクラスター内平方和は,

(1-2)2+(2-2)2+(3-2)2=2

(7-8)2+(8-8)2+(9-8)2=2

であり,その和は4です.

ここで,クラスターAとクラスターBが結合したとすると,結合後のクラスター内平方和

は,

(1-5)2+(2-5)2+(3-5)2+(7-5)2+(8-5)2+(9-5)2=58

となりますので,結合によるクラスター内平方和の増分は 58-4=54 であり,これがこの 2 つ

のクラスターの距離となります.

手順4 デンドログラムが表示されます.

切断レベルを 20.5 とすると,5 つの

グループに分類されます.

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-5

その他の解析手法

PART

第7章

「全体/詳細」と「統計

量の有無」をクリックし,

選手名や統計量を表示さ

せます.

選手名がデンドログラム

の下部に表示されます.

ツールボタン「連関図」

を用いて,デンドログラ

ムのグルーピングを確認

してみます.

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-6

連関図 では,クラス

ターで層別したヒスト

グラムなどが表示され

ます.

・クラスター1:打率,安打ともによく,塁にもよく出る選手

(西岡(ロッテ),田中(日本ハム),川崎(ソフトバンク),糸井(日本ハム),聖澤

(楽天),鉄平(楽天),坂口)(オリックス))

・クラスター2:盗塁が上手く,足の速い選手

(本多(ソフトバンク),片岡(西武))

・クラスター3:打率が高く,二塁打数,本塁打数,打点が多い選手

(今江(ロッテ),栗山(西武),後藤(オリックス),稲葉(日本ハム),小谷野(日

本ハム),井口(ロッテ),カブレラ(オリックス),多村(ソフトバンク),中島(西

武))

・クラスター4:今シーズン規定打席に到達した選手の中では安打数が少なかった選手

(嶋(楽天),森本(日本ハム),長谷川(ソフトバンク))

・クラスター5:クラスター3と対照的な位置関係にあり,今シーズン打率が低かった選手

(小久保(ソフトバンク),中村(楽天),大松(ロッテ),金(ロッテ),オーディス

(ソフトバンク),サブロー(ロッテ),ブラウン(西武),松田(ソフトバンク))

クラスター1,3と

クラスター4,5で

対照的な傾向

クラスター1,3と

クラスター4,5で

対照的な傾向

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-3-7

その他の解析手法

PART

第7章

≪一様性推移プロット≫

ツールボタン[一様性推移]を

クリックします.

どの程度のクラスター数が妥当

なのか,確認をします.

今回は,クラスター数をいくつ

にしたらよいかという事前情報が

ないため,横軸にクラスター数,縦

軸にクラスター数決定のために役

立つ指標をとったグラフを描きま

す.急激に変化する前のクラスタ

ー数などを参考とします.

・擬集型階層的方法では,まず1つ1つのサンプルがクラスターであるとして出発します.まず,最短のクラ

スター同士を結合し,クラスター数が1つずつ減少していき,最終的には,すべてのサンプルを含む1クラス

ターができあがります.クラスター数が減少していく方向(右から左)に見ていくと,妥当なクラスター数

がわかります.

・平方重相関(RSQ)では,回帰分析の通常の寄与率と同じように,クラスター数が多ければ多いほど,値が大

きくなります.したがって,絶対的な数値だけをみても意味がありません.

クラスター数が5までは微減であるが,クラスター数が4になると少しずつ減少し,3になるとさらに激減

していることが読み取れます.

・擬似F統計量(PSF)もクラスター数が5でややとがりを迎えているようであるため,クラスター数として

5が妥当ではないかと推察されます.

7.3 打撃成績による打者の分類1(階層的クラスター分析)

2-7-4-1

その他の解析手法

PART

第7章

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

問題設定

2010年のプロ野球(パシフィックリーグ)の打撃成績(ただし規定打席に達した選手のみ)の公式記録のデ

ータをもとに非階層的クラスター分析を行い,階層的クラスター分析とは別の観点から選手の特徴を見てみま

す.

関連手法の説明(概要)

① 非階層的クラスター分析(k-means法)とは ある一定のルールにもとづいてクラスター化する方法は,階層的分類法(デンドログラムによって集団の系統

発生的な構造を探る)と非階層的分類法とに大きく分かれます.特にk-means法によるクラスタリングは,非階

層的分類法に属する分割最適型の代表的な手法といわれています.

なお,適用できるデータは量的データに限られています.

本事例の解析ストーリー

使用するStatWorksの主な機能

②<データ収集>

②-1:データ収集

③<非階層的クラスター分析(k-means法)>

③-1:初期クラスターの配置

③-2:クラスタリング結果

③-3:平均値グラフ

②データ収集

分析(k-menas

法)

③非階層的クラスター

①問題の設定

④対策の検討

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

2-7-4-2

データの収集

2010年のプロ野球(パシフィックリーグ)の選手の打撃成績(ただし規定打席に達した選手のみ)の公式記

録のデータは以下のとおりです.

データ表 NO. 選手名 チーム名 ポジショ

打率 試合数 打席数 打数 ・

伴殺打

1 西岡 ロッテ 2遊間 346 144 692 596 ・・ 8

2 田中 日本ハム 2遊間 335 143 662 576 ・・ 6

3 今江 ロッテ 3塁 331 140 596 531 ・・ 10

4 カブレラ オリックス ファースト 331 112 481 408 ・・ 14

5 多村 ソフトバンク 外野 324 140 559 513 ・・ 11

6 鉄平 楽天 外野 318 127 555 481 ・・ 3

7 川崎 ソフトバンク 2遊間 316 144 662 602 ・・ 6

8 嶋 楽天 キャッチャー 315 127 485 422 ・・ 15

9 中島 西武 2遊間 314 130 579 503 ・・ 20

10 小谷野 日本ハム 3塁 311 144 614 569 ・・ 17

: : : : : : : : ・・ :

30 ブラウン 西武 指名打者 241 118 479 424 ・・ 11

NO 変数名 内容説明

1 選手 選手の名前

2 チーム名 プロ野球選手が所属している球団名

3 ポジション 各選手のポジション

4 打率 安打数/打数 ※注1

5 試合数 出場した試合数

6 打席数 打席に立った回数

7 打数 安打を放つがアウトになった打席数

8 安打 安打の数

9 二塁打 二塁打の数

10 三塁打 三塁打の数

11 本塁打 本塁打(ホームラン)の数

12 塁打数 安打を放って踏んだベースの数

13 打点 自分が打ったことで入った得点(相手チームの失策を除く)

14 得点 ホームベース

15 三振 三振の数

16 四球 フォアボールの数

17 死球 デッドボールの数

18 犠打 送りバントの成功数

19 犠飛 犠牲フライの数

20 盗塁 盗塁の数

21 出塁率 塁に出る割合(相手チームの失策を除く) ※注1

22 長打率 長打を打つ場合(=塁打数/打数) ※注1

23 得点圏打率 走者が二塁や三塁にいる打席における打率 ※注1

24 併殺打 自分が打ったことでアウトが2つカウントされた回数

※注1:打率,出塁率,長打率,得点圏打率は1000倍している.

※本データは,「個人打撃成績(規定打席以上) http://bis.npb.or.jp/2010/stats/bat_p.html」を参照し,

独自にデータを入力したものです.

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

2-7-4-3

その他の解析手法

PART

第7章

7.4.1 非階層的クラスター(k-means法)分析

手順1 サンプルデータを読み込みます.

メニューから[手法選択]-[多変量解析]-[非

階層的クラスター分析(k-menas 法)]を選択し

ます.

手順2 量的変数の「打率」,「安打」,

「二塁打」,「三塁打」,「本塁打」,

「打点」,「得点」,「盗塁」を選

択して,「選択」ボタンをクリッ

クします.

サンプル名としては「選手」が

自動的に選択されています.

「次へ進む」ボタンをクリック

します.

試行回数を「3」回とします.

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

2-7-4-4

手順3 初期クラスター配置の仕方を指定します.

ここではランダム配置をもとにクラスター数を5と

し,3回試行します.

設定後[OK]ボタンをクリックします.

9 手順4 クラスタリングされた結

果が表示されます(試行1,

試行2,試行3).

各クラスにどの選手がク

ラス分けされているかを確

認できます.

3 回のランダム配置でお

こなった結果,クラスター

No.が異なっていることが

わかります.

解釈がしやすいように試行

1,試行2,試行3につい

てソートしてみることもで

きます.

9 手順5 「クラスター統計量」をク

リックし,「平均値一覧」を

表示します.クラスターごと

の各項目について平均値を確

認してみます.

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

2-7-4-5

その他の解析手法

PART

第7章

また,平均値グラフも表示し,

数値とあわせて比較します.

「平均値グラフ」を選択しま

す.

オプションで試行番号を変更

すると,3 回の試行による平

均値グラフが表示され,それ

らを比較することができます.

試行での各クラスターの代表的選手と特徴を示します.

・クラスター1: 今シーズン打率や安打,得点をなかなか稼げなかった選手である.しかし,本塁打や打点が

比較多いので,選手をホームに帰すことができ,チャンスを作れば強い選手かもしれない.

選手名 松田(ソフトバンク),ブラウン(西武)

・クラスター2:二塁打,打点が多い選手である.

選手名 小谷野(ロッテ),井口(ロッテ)

・クラスター3:三塁打や盗塁が上手な足の速い選手である.

選手名 坂口(オリックス),本多(ソフトバンク),片岡(西武)

・クラスター4:規定打席に到達した選手の中では,打率が低く安打が少なかった選手である.全体的に今シ

ーズンは力を発揮できなかった選手でもある.

選手名 嶋(楽天),森本(日本ハム),長谷川(ソフトバンク)

・クラスター5:クラスター1と対照的で,打率や安打,得点を稼げる選手である.

選手名 西岡(ロッテ),田中(日本ハム).

7.4 打撃成績による打者の分類2(非階層的クラスター分析(k-means法))

2-7-5-1

その他の解析手法

PART

第7章

7.5 広告投入量と売上との時差相関(時系列分析)

問題設定

A社は新製品に対して,広告宣伝と売上の関係がどうなっているのかを検討しています.広告投入量と売

上高の週ごとのデータを入手し,広告投入量と売上高の関係を調べて報告することにしました.

関連手法の説明(概要)

①時系列分析とは 横軸(X 軸)を時点変化を示す時間軸とし,縦軸(Y軸)に分析対象としている変数の値を対応させ,時間軸

上における変化のパターンを解釈します.ここでは主に時差相関分析を行います.

本事例の解析ストーリー

データの収集

過去に行った新製品の週ごとの売上高と広告投入量の42週にわたるデータを入手しました.

データ表 NO. 売上高 広告投入量

1 6 7

2 10 8

3 7 27

4 10 12

5 11 15

6 8 20

7 9 4

8 11 54

9 8 137

10 11 160

: : :

42 18 10

②データ収集

①問題の設定

相互相関係数

③時系列分析

④対策の検討

7.5 広告投入量と売上との時差相関(時系列分析)

2-7-5-2

7.5.1 時系列分析

手順1 サンプルデータを読み込みます.

メニューから[手法選択]-[時系列解析]

-[時系列グラフ]を選択します.

手順2 「売上高」,「広告投入量」

を選択して,解析対象の「選

択」ボタンをクリックします.

「次へ進む」ボタンをクリッ

クします.

売上高と広告投入量の時系

列グラフが表示されます.

ここでは,売上高を固定した場合の広告投入量の相互相関を探ることにします.

7.5 広告投入量と売上との時差相関(時系列分析)

2-7-5-3

その他の解析手法

PART

第7章

手順3 ツールボタンの「ラグ」をクリ

ックします.

手順4 売上高を固定した相互相関から,最も相関が高くなる広告投

入の時期を確認します.

「相互相関から・・」を選択します.

「相互相関係数の一覧」が表示されます.

n=2のときに,相関係数が最大となっています.

したがって広告投入から2日後に売上高のピークを迎えていることが確認されます.

7.5 広告投入量と売上との時差相関(時系列分析)