潜在クラス分析

潜在クラス分析理論とMplusによる実装

統計数理研究所リスク解析戦略研究センター特任助教竹林由武

15/11/29 北村メンタルヘルス学術振興財団第1回精神科診断学セミナー匠ソホラ6階セミナールーム: 9:30-‐16:30

u1� u2�

C�

u3� u4�

e1� e2� e3� e4� A B C Ditem

cond

ition

al p

roba

bilit

y (r

espo

nse

2)

Class

class 1:

class 2:

class 3:

class 4:

発表の構成 2

理論

書き方

実装

潜在クラス分析とは？

研究を始める前に知っておきたい論文執筆上のチェックポイント

Mplusによる潜在クラス分析の実施出力結果の解釈

発表の構成 3

理論

書き方

実装




観測変数間の関係を、未観測の変数を導入して説明するモデル

潜在変数モデル 4

X1 X2 X3

潜在変数

e1 e2 e3

直接測定不能な変数 e.g., 知能, 性格, うつ病

直接測定可能な変数 e.g., 知能検査の項目, 　　性格検査の項目, うつ病

観測変数間の関係を、未観測の変数を導入して説明


X1 X2 X3

潜在変数

e1 e2 e3

X1 X2 X3

Y1 Y2 Y3 Y1 1.0 Y2 0.6 1.0 Y3 0.7 0.6 1.0

潜在変数の得点の変化が X1-‐X3の観測変数の変化を説明


潜在変数潜在変数潜在変数

X1 X2 X3

X1 X2 X3

%

e1 e2 e3

観測変数を従属変数とし潜在変数を独立変数とする回帰モデル従属変数 = b*独立変数 + 誤差

観測変数間の関係は、潜在変数と観測変数の関係に置き変わるので、観測変数間は互いに独立


X1 X2 X3

潜在変数

e1 e2 e3

X1 X2 X3

Y1 Y2 Y3 Y1 1.0 Y2 0.6 1.0 Y3 0.7 0.6 1.0

局所独立の仮定

潜在クラスモデル 8

症状 A

症状 B

症状 C

潜在変数

e1 e2 e3

局所独立性の仮定

症状 A

症状 B

症状 C

潜在変数

e1 e2 e3

局所独立局所非独立

潜在変数で観測変数が説明される場合に、観測変数間の関連はゼロと仮定


U1 U2 U3

C

e1 e2 e3

潜在変数連続質的

観測変数

連続因子分析潜在プロフィール分析質的項目反応理論潜在クラス分析

潜在クラス分析観測変数・潜在変数ともに質的変数の潜在変数モデル

質的な潜在変数モデル 10

質的な潜在変数モデルの目的　　個人を異質な部分集団に分類

潜在する部分母集団 = 潜在クラス

Density Curves

Data

Density

20 30 40 50 60 70 80

0.00

0.01

0.02

0.03

0.04

成人の体重

例) 成人の体重の分布ピークは二つ. 2つの集団が混在. 緑：女性赤：男性母集団：成人部分母集団：性別 (男性, 女性)

確率

密度

潜在クラス分析の適用 11

基本的 •  精神疾患の疾患分類 •  特定の精神疾患のサブタイプ分類

発展的 (他の分析モデルとの組み合わせ) •  サブタイプの予測・サブタイプによる予測 •  治療反応性の予測

適用例 12

事例 ① 患者：トラウマ経験を有する退役軍人492名デザイン：横断研究測定指標：DSM-IVのPTSDと乖離の現有症状結果：3クラス抽出　　　PTSD軽症群, PTSD重症群, 　　　PTSDと乖離併発群　　　併発群がPTSD症状より重篤 Wolf, E. J., Miller, M. W., Reardon, A. F., Ryabchenko, K. A., CasNllo, D., & Freund, R. (2012). A latent class analysis of dissociaNon and posTraumaNc stress disorder: Evidence for a dissociaNve subtype. Archives of General Psychiatry, 69(7), 698-‐705.

適用例 13

事例 ② 患者：臨床試験に参加するうつ病患者2239名デザイン：横断研究測定指標：QUIDS (うつの症状評価) 結果：４クラス抽出　　　軽症群, 中等症群, 　　　重症で過食群　　　重症で不眠群 Ulbricht, C. M., Rothschild, A. J., & Lapane, K. L. (2015). The associaNon between latent depression subtypes and remission a]er treatment with citalopram: A latent class analysis with distal outcome. Journal of affecNve disorders, 188, 270-‐277.

GAD, SADが重度群に関連クラスと他の指標との関連

因子分析モデル→潜在クラスモデル 14

2つの観測変数 (連続変数)が相関

抑うつ気分

快の欠落

未観測の要因 (連続変数)が2変数の相関を説明

抑うつ気分

快の欠落

抑うつ状態

潜在変数/因子 (構成概念)

因子分析モデル 15

4つの観測変数が相関

Y1 抑うつ気分

Y2 快の欠落

Y3 睡眠不足

Y4 体重低下

Y1 Y2 Y3 Y4

Y1 1.0

Y2 0.6 1.0

Y3 0.7 0.6 1.0

Y4 0.5 0.6 0.5 1.0


観測変数の相関を潜在変数が説明

抑うつ気分

快の欠落

抑うつ状態

睡眠不足体重低下

e1 e2 e3 e4

Y1 Y2 Y3 Y4

Y1 1.0

Y2 0.6 1.0

Y3 0.7 0.6 1.0

Y4 0.5 0.6 0.5 1.0

因子得点


推定された因子得点(潜在変数)は連続変数, 正規分布

!

e1 e2 e3 e4


因子得点(潜在変数)と観測変数の関係 F e1 e2 e3 e4

1.2 -‐0.4 0.2 -‐1.5 -‐1.4

3.3 0.8 -‐0.2 -‐0.1 0.9

・・

・・

・・

・・

・・

0.7 0.3 0.2 -‐0.4 1.5

Y1 Y2 Y3 Y4

0.8 1.4 -‐0.3 -‐0.2

4.1 3.1 3.2 4.2

・・

・・

・・

・・

1.0 0.9 0.3 2.2

因子得点 (構成概念)の得点が高い→各観測変数の得点が高い

因子得点観測変数

因子分析 vs 潜在クラス分析 19

ID 観測変数

A B C D E F 1 4 4 4 2 2 2

2 4 4 4 2 2 2

3 4 4 4 2 2 2

4 3 3 3 1 1 1

5 3 3 3 1 1 1

6 3 3 3 1 1 1

f1 f2

c1

c2

因子分析モデル似通った応答パターンの観測変数をまとめる

潜在クラスモデル似通った応答パターンの個人をまとめる

item centered approach

Person centered

Approach


ID 観測変数

A B C D E F 1 4 4 4 2 2 2

2 4 4 4 2 2 2

3 4 4 4 2 2 2

4 3 3 3 1 1 1

5 3 3 3 1 1 1

6 3 3 3 1 1 1

f1 f2

c1

c2

因子分析モデル似通った回答パターンの観測変数をまとめる

潜在クラスモデル似通った回答パターンの個人をまとめる


Person centered

Approach


2つの観測変数 (2値変数)が相関抑うつ気分

(あり、なし)

快の欠落 (あり、なし)

未観測の要因 (カテゴリ変数)が 2変数の相関を説明

抑うつ気分

(あり、なし)

快の欠落 (あり、なし)

クラス (1, 2)

潜在変数/因子 (構成概念)


観測変数はカテゴリカル潜在変数もカテゴリカル

!

e1 e2 e3 e4

因子得点 → 所属確率の高いクラス

１２

潜在プロフィール分析は、観測変数が連続変数という違いだけで、分析の目的は、潜在クラス分析と同様

潜在クラスモデルの推定 24

個人を応答 (回答)パターンに基づいて分類

症状 A

症状 B

症状 C

Class 1

e1 e2 e3

症状 D

e3

0.80 0.80 0.80 0.80

症状 A

症状 B

症状 C

Class 2

e1 e2 e3

症状 D

e3

0.75 0.75 0.25 0.25

パス係数：条件付き応答確率

例) クラス1の所属するという条件の下で、症状Aに「あり」と回答する確率が80%


個人を応答パターンに基づいて分類

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

項目 1 項目 2 項目 3 項目 4

Class 1 Class 2 はい (1)

いいえ (0)

不眠抑うつ楽しみ体重

Class 1 　重症

Class 2 　気分優勢

40% 60%

クラスの構成割合条件付き応答確率

クラスの解釈

分析のイメージの足がかり 26

調査対象：青年2087名測定指標：非行項目5つ「あり」「なし」

「あり」の応答率親に嘘つく .57 騒音等 .49 器物破損 .17 万引き .24 窃盗 < $50 .20 集団抗争 .19

分析のイメージの足がかり 27

疑問：非行行為で特定のパターンを示す　　　するサブグループが存在するか？

潜在クラス分析を実施

どのような推定結果が得られるか？

適用例 28

事例: 推定されたパラメータ潜在クラス

クラス 1 非行なし軽度群

2 言語的敵対群

3 万引き群

4 全般的非行群

メンバー構成割合

.49 .26 .18 .06

あり回答の条件つき確率親に嘘 .33 .81 .78 .89 騒音等 .20 .82 .62 1.00 器物破損 .01 .25 .25 .89 万引き .03 .02 .92 .88 窃盗 < $50 .00 .03 .73 .88 集団抗争 .04 .31 .24 .64

適用例 29

クラスメンバーの構成割合 (probabilities of membership)

0

0.1

0.2

0.3

0.4

0.5

0.6

潜在クラス1 潜在クラス2 潜在クラス3 潜在クラス4

構成割合合計すると1になる

サブグループ (クラス)のサイズを把握

適用例 30

条件付き応答確率 (conditional response probability)

各クラスの特徴を把握

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

項目１項目２項目３項目４項目５項目６

クラス1 (49%) クラス2 (26%) クラス3 (18%) クラス4 (6%)


P(Xvi =1) = π cπ icc=1

C

∑簡単のため、1項目の潜在クラスモデル

π cc=1

C

∑

π ic = p(Xvi =1|C = c)

=個人が一つのクラスに所属する確率の合計 =1

= 個人が特定のクラス(c)の下で、　項目iに対して1に回答する確率

π c = 個人が特定のクラスに所属する確率 ※1人が複数のクラスのいずれか1つに所属するという制約の下

P(Xvi =1)簡単のため、1項目の潜在クラスモデル

=ある個人(v)が項目iで１に回答する確率クラスサイズパラメータ (クラスの構成比)

条件つき応答確率


条件つき応答確率

うつ病健常

クラス構成比 .10 .90 抑うつ気分　あり .80 .30

　なし .20 .70 不眠　あり .80 .30

　なし .20 .70

π c

π ic

P(Xvi =1,1) = π cπ icc=1

C

∑πc1=うつ病群のクラス構成比 = 0.10 πi1c1 = うつ群下でのありあり確率 = (.80 * .80) = .64 πc1πi1c1 = .10 * 0.64 = 0.064

ありありパターンの確率

πc2=健常群の = 0.90 πi1c2 = 健常群下 = (.30 * .30) = .0.09 πc2πi1c2 = .90 * 0.004 = 0.081

= .0.081+ 0.064 = 0.145 π cπ icc=1

C

∑


うつ病健常

潜在クラスの割合 .10 .90

抑うつ気分　あり .80 .30 　なし .20 .70

不眠　あり .80 .30 　なし .20 .70

うつ群のなしなし確率= (.20 * .20)*.10 = .004 健常群のなしなし確率= (.70 * .70)*.90 = .441 うつ病群のありあり確率+健常群のありあり確率 = .445

なしなしパターンの割合


うつ病健常


抑うつ気分　あり .80 .30 　なし .20 .70

不眠　あり .80 .30 　なし .20 .70

うつ群のありあり確率= (.20 * .80)*.10 = .016 健常群のありあり確率= (.70 * .30)*.90 = .189 うつ病群のありあり確率+健常群のありあり確率 = .205

なしありパターンの割合

ありなしはありなしと同確率


うつ病健常


抑うつ気分　あり .80 .30 　なし .20 .70

不眠　あり .80 .30 　なし .20 .70

全回答パターン, 4パターン, [あり, あり], [なしなし], [なし,あり][あり, あり]

ありありパターンの割合=.145 なしなしパターンの割合= .445 ありなしパターンの割合 =.205 なしありパターンの割合=.205

計1


症状A 症状B 症状C 症状D パターン度数

1 1 0 0 15 0 1 1 1 14 1 0 0 0 11 1 0 1 1 8 0 1 0 0 23 ・・・・

1 1 1 1 9

潜在クラス分析のデータ構造


症状A 症状B 症状C 症状D 潜在クラス

nijkl パターン度数

1 1 0 0 2 9

0 1 1 1 1 6

1 0 0 0 2 3

1 0 1 1 1 11 0 1 0 0 2 8

・・・・

1 1 1 1 1 9

潜在クラスの推定をし、クラスサイズパラメータ条件付き応答確率を推定

潜在クラスの推定 38

症状A 症状B 症状C 症状D 潜在クラス

nijkl パターン度数

1 1 0 0 ? 9

0 1 1 1 ? 6

1 0 0 0 ? 3

1 0 1 1 ? 11 0 1 0 0 ? 8

・・・・・・

1 1 1 1 ? 9

潜在クラスは未知欠測値として扱いEMアルゴリズムにより最尤推定

パラメータの推定 39

EMアルゴリズムによる最尤推定法

-‐ 解の初期値依存性が高い -‐ 局所最適化の問題 -‐ 収束基準の影響

分析実行時に、セッティングに配慮デフォルト設定だとMplusでもうまくいかない

潜在クラス分析

• 3つのステップ ① 最適なクラス数を決定 ② 分類の正確性を評価 ③ クラスの解釈

40

最終的なクラス数の決定は③まで含めて複合的に判断

クラス数の選定 41

　クラス数を1から順位増加させ、最適なモデルを　尤度比検定、情報量基準から判断する　尤度比検定　　Vuong-Lo-Mendell-Rubin LIikelihood Ratio Test (VLMR) 　　Adjusted Lo-Mendell-Rubin Ratio Test (ALMR) 　　　　　Bootstrapped Likelihood Ratio Test (BLRT) 　　情報量基準　　AIC, BICなど

Nylund, K. L., Asparouhov, T., & Muthén, B. O. (2007). Deciding on the number of classes in latent class analysis and growth mixture modeling: A Monte Carlo simulaNon study. Structural equaNon modeling, 14(4), 535-‐569.

　　　あるクラス数 (K)のモデルとK-1のクラスのモデルで、尤度比検定　　　有意差が認められなくなったらK-1クラスのモデルを採択

推奨：BLRT, BIC

記載例

•  方法の節 In order to determine the optimal number of classes, different number of latent classes was modeled starting from 1 (e.g., only one class of cannabis users), then 2, and so on until we reach an optimal solution. Different criteria were used to select the most appropriate model (59). These criteria included the following information criteria: deviance, the Akaike information criterion (AIC) (60), the Bayesian information criterion (BIC), and the sample-size adjusted Bayesian information criterion (SSBIC) (61), to compare the relative fit of solutions. Better fitting solutions are reflected in lower values on the indices. We also considered likelihood ratio tests, including the Vuong‒Lo‒Mendell‒Rubin and Lo‒Mendell‒Rubin adjusted likelihood ratio tests ‒ ALRTs (62). ALRT tests are adequate for non-nested mixture models and test the significance of the difference in fit between two models with a one class difference. We also considered the recommended Bootstrapped Likelihood Ratio Test [BLRT; (63)]. The criterion for significance was α < 0.05. We also relied on entropy, which is indicative of the degree of homogeneity within and independence between classes (60).

42

記載例

•  結果の節

43

分類の正確性

•  事後所属確率クラスの所属メンバーが各クラスに所属する確率　

・(相対) エントロピー (entropy)

44

範囲：　0-1 高.80, 中.60, 低.40 (Clark, 2010)

.70以上正確 (Nagin, 2005)

1 2 3 1 .76 .15 .09 2 .06 .91 .03 3 .04 .04 .92

EN(k) = − Pik lnPikK=1

K

∑i=1

N

∑ REN(k) =1− EN(k)N • ln(K )

解釈: 記載例 45

-‐  潜在クラスの構成、条件付き応答確率 (表)

Tsai, J., Harpaz-‐Rotem, I., Pilver, C. E., Wolf, E. J., Hoff, R. A., Levy, K. N., ... & Pietrzak, R. H. (2014). Latent class analysis of personality disorders in adults with posTraumaNc stress disorder: results from the NaNonal Epidemiologic Survey on Alcohol and Related CondiNons. The Journal of clinical psychiatry, 75(3), 276-‐284.

解釈：記載例

•  記載例 (図)

46

Tsai, J., Harpaz-‐Rotem, I., Pilver, C. E., Wolf, E. J., Hoff, R. A., Levy, K. N., ... & Pietrzak, R. H. (2014). Latent class analysis of personality disorders in adults with posTraumaNc stress disorder: results from the NaNonal Epidemiologic Survey on Alcohol and Related CondiNons. The Journal of clinical psychiatry, 75(3), 276-‐284.

横軸に項目縦軸に条件付き応答確率クラスごと線プロット

PTSDの人格障害並存パターン

解釈 47

•  記載例 (図)

横軸にクラス縦軸に条件付き応答確率項目ごとバープロット

薬物依存と感情(うつ不安)障害の並存パターン

Salom, C. L., BeTs, K. S., Williams, G. M., Najman, J. M., & AlaN, R. (2015). Predictors of comorbid polysubstance use and mental health disorders in young adults—a latent class analysis. AddicNon.

共変量を含む潜在クラス分析 48

症状 A

症状 B

症状 C

潜在クラス

e1 e2 e3

共変量

クラス数が2値：ロジスティック回帰クラス数が3値以上：多項目ロジスティック回帰

回帰モデル的に共変量を投入

共変量の得点が上がると、特定のクラスの所属確率が上がる、というように、回帰モデルと同様の解釈が可能であるため、解釈が容易

記載例

•  方法の節

49

Next, covariates including gender, exposure type, and funcNoning, were regressed on class membership in a mulNnomial logisNc regression simultaneously to assess if subjects within class differ significantly on these characterisNcs (condiNonal model).

Galatzer-‐Levy, I. R., Nickerson, A., Litz, B. T., & Marmar, C. R. (2013). PaTerns of lifeNme PTSD comorbidity: A latent class analysis. Depression and anxiety, 30(5), 489-‐496.

共変量からクラスを予測する多項ロジスティック回帰を、潜在クラス分析モデルに含み同時に検討

記載例 50

Compared to the low comorbidity class, the substance dependent class and the depressed–anxious class were significantly more likely to have been physically abused by a partner (substance dependent: Est = 2.24, SE = 0.54,P ≤ .001; depressed–anxious: Est = 1.49, SE = 0.50,P ≤ .01). Interestingly, the substance dependent class was significantly more likely to report physical abuse by a parent compared to the depressed–anxious class (Est =1.95, SE = 0.89, P ≤ .05). Both the substance depen-dent and the depressed–anxious classes reported greaterPTSD severity than the low comorbidity class. Thesetwo classes were also more likely to report having beenbeaten by a parent compared to the low comorbidity class(substance dependent: Est = 0.89, SE = 0.37, P ≤ .05;depressed–anxious: Est = 0.65, SE = 0.29, P ≤ .05), butnot greater frequency or interference with daily life (seeTable 3).


結果の節

発表の構成 51

理論

書き方

実装




論文報告上のポイント 52

統計的手法を用いた論文を査読する際の要点を解説記載事項を踏まえて論文執筆→採択率UP!!

第13章: 潜在クラス分析 Karen M. Samuelsen C. Mitchell. Dayton

Samuelsen, K. M. & Dayton, C. M. (2010). Latent Class Analysis. The reviewer’s guide to quanNtaNve methods in the social sciences. Routledge.

記載事項 53

-  観測 (顕在変数) -  共変量 -  標本抽出とサンプルサイズ -  使用したソフトウェア -  モデルの収束判断と識別 -  Boundary value閾値 -  潜在クラス、構成割合の適切性 -  クラスのメンバーシップ

記載事項 54

観測変数　どのようなカテゴリを用いたか明記 -  2値のカテゴリ変数 -  3値以上のカテゴリ変数　　2値に加工した場合も明記

-  順序カテゴリ変数

•  記載例 (2値の場合)

55

A structured diagnosNc interview was conducted using the World Mental Health Survey IniNaNve version of the World Health OrganizaNon Composite InternaNonal DiagnosNc Interview (WMH-‐CIDI), from which DSM-‐IV Axis I Diagnoses[18 ] and age of onset were derived. ・・・中略・・・ All diagnoses were dummy coded (0 = absent; 1 = present) for study of paTerns of comorbidity among respondents using LCA.


どのようにコーディングを行った明記する

記載事項 56

共変量 1) 共変量として回帰モデル的に入れる 2) grouping variableとして扱う　 (多母集団同時分析的) 2が主流標本サイズが小さい場合には、共変量を投入した方が良い推定結果が得られるため、積極的に含んだ方が良い ※共変量を含む合理性がなければ、無理に入れない。

記載事項 57

標本抽出法理想：標的母集団を代表する無作為抽出標本現実：複雑な調査デザイン　- クラスターの存在、サンプリングの偏り　 → デザインを無視して解析→バイアス大複雑な調査デザインの場合に補正をかける　- サンプリングによる重み付け推定　- Jackknife法の標準誤差による推定　　MplusではTYPE=COMPLEXオプションで指定 PaTerson, B. H., Dayton, C. M., & Graubard, B. I. (2002). Latent class analysis of complex sample survey data: applicaNon to dietary data. Journal of the American StaNsNcal AssociaNon, 97(459), 721-‐741.

標本抽出

•  記載例

58

Sampling weights and other variables that account for the complex survey design of NaHonal Psychiatric Morbidity Survey 2000 were used in all analyses to enhance the reliability and validity of the parameter esNmates, standard error and model fit calculaNons.

代表的な調査データでは、 sampling weightが既出なので、それを使用

Bebbington, P. E., McBride, O., Steel, C., Kuipers, E., Radovanovič, M., Brugha, T., ... & Freeman, D. (2013). The structure of paranoia in the general populaNon. The BriNsh Journal of Psychiatry, 202(6), 419-‐427.

記載事項 59

例数 500以上は必要 (Finch & Bronk, 2014) 500も取れない場合の工夫 (Wurpts & Geiser, 2014) - クラスとの関連が強い共変量を投入 - 良質なindicatorを使用 (負荷が高い) - indicator数を増やす (6以上)

　　※ 標本サイズが100以下だと工夫しても　　　安定しない Finch W. H., Bronk K. C. (2011). ConducNng confirmatory latent class analysis using Mplus. Struct. Equ. Modeling 18, 132–151 10.1080/10705511.2011.532732

Wurpts, I. C., & Geiser, C. (2014). Is adding more indicators to a latent class analysis beneficial or detrimental? Results of a Monte-‐Carlo study. FronNers in psychology, 5.

標本サイズ 60

Wurpts, I. C., & Geiser, C. (2014). Is adding more indicators to a latent class analysis beneficial or detrimental? Results of a Monte-‐Carlo study. FronNers in psychology, 5.

indicator数6以上、indicatorの質高、関連の強い共変量を含む場合、バイアス小

標本サイズ

•  記載例

61

多くの論文は、大規模調査の2次データ解析。標本サイズが大きく2次データの解析なので、例数設計に関する記載がほとんどない。

記載事項 62

使用したソフトウェア　ソフトウェア名とバージョンを明記ソフトウェアによってデフォルト設定が違う -‐ 標準誤差の算出 -‐ 初期値の設定 -‐ 局所非独立の場合の対処 -‐ 最尤推定かベイズ推定か

使用ソフトウェア 63

初期値設定の問題潜在クラス分析の推定、EMアルゴリズムを使用 EMアルゴリズムによる推定は初期値依存性が高い初期値によって、局所最適化が起こる可能性あり複数の初期値をランダムに設定し、複数の推定結果で、一貫している結果を採用 (Mplusはデフォルト)

記載事項 64

-  モデルの収束と識別最尤推定の収束基準を明示 (Mplusは0.000001) 　- 最適化がlocalかglobalかに影響する

推定されたパラメータの分散共分散行列を明示 - モデルの識別性の判断根拠　　 (負の値が入ってなければ良い)

※ 現状の論文では報告されていることは稀だが、報告されていると望ましい

記載事項 65

-  Boundary value適合度条件付き応答確率の境界値が0または1に近接する項目が多い場合、モデルが過剰適合している可能性

-  潜在クラス、構成割合の適切性極めて小さいサイズのクラスが抽出された場合、それが妥当か

-  クラスのメンバーシップ理論、先行研究と照らして、妥当または解釈可能なクラス分類か？

発表の構成 66

理論

書き方

実装




Mplusによる潜在クラス分析 67

最強の構造方程式モデリングのソフトウェア

日本語の解説書 (国内唯一) ・ソフトの入手法やダウンロード法も解説あり・潜在クラス分析の章 (第１4章混合分布モデル)の執筆担当

ホームページから、マニュアル、サンプルコード、サンプルデータなど入手可能

hTps://www.statmodel.com/

サンプルデータ 68

UCLA大の潜在クラス分析解説ページから入手

hTp://www.ats.ucla.edu/stat/mplus/dae/lca1.htm

lca1.dat クリック!

ページをスクロールして後半にデータのリンク

サンプルデータ 69

UCLA大の潜在クラス分析解説ページから入手

hTp://www.ats.ucla.edu/stat/mplus/dae/lca1.htm

lca1.dat：・飲酒行動に関する仮想データ・ 1000名の成人・飲酒行動9項目を2値で回答 (「いいえ(0)」, 「はい(1)」)

1. お酒を飲むのが好きである 2. 度数の強いお酒を飲む

3. 朝，二日酔いがあった 4. 仕事中にお酒を飲んだ

5. 酔っぱらうためにお酒を飲む 6. お酒の味が好きだ

7. 眠りにつくためにお酒を飲む 8. 飲酒に対人関係が支障をうける

9. 頻繁にバーに行く

データ構造 70

lca1.dat：コンマ区切りのテキストファイル　　　　　　変数名は入れない　　　　　　(スクリプトであとから指定)

Mplusの初期画面 71

このフィールドに分析コードを記入していく

スクリプト：基本設定 72

Title:

Data:

Variables:

Analysis:

タイトルを設定(任意)

使用するデータファイル名を指定

解析に使用する変数を設定

解析方法を指定


Title:

FicNtous Latent Class Analysis.

Data:

File is lca1.dat ;

　　　　　!スクリプト( .inp)と同じフォルダに

! タイトルを設定(任意)

! 使用するデータファイル名を指定

! の後の文はコメントアウトされる (分析から無視される)


Variable:

names = id item1-‐item9;

auxiliary = id;

usevariables = item1-‐item9;

categorical = item1-‐item9;

classes = c(2);

! 使用する変数を設定

! データに含まれる全変数にラベルづけ

! 解析には含まれないが、出力データセットに含めたい変数指定

! 解析使用する変数指定

! カテゴリ変数であることを指定

! 潜在クラス数を指定


Analysis:

Type=mixture;

Starts = 500 50;

sNteraNon 50;

lrtbootstrap =500;

lrtstarts = 50 20 50 20;

! 分析の設定

! 混合分布モデルを行う際に指定

! 初期値を指定

! 収束までの反復回数

! ブートストラップ尤度比検定の初期値

! ブートスラップの反復回数

Tips •  局所最適化のチェック - 最大尤度の安定性　複数の初期値で出てきた最大尤度が安定してるか - 条件付き応答確率　推定値が極値となっている場合 (0 or 1) 　Mplusでは閾値として算出される (-15 or 15) 　※これは、余計にクラスが抽出されている　　場合にも起こる

76

Tips •  局所最適化への対処

-  十分な数のランダム初期値を設定 (500以上推奨) (Mplusのデフォルトはstarts = 10 2) -  十分な数の初期最適化の反復回数　 (Mplusのデフォルトはstiteration = 10) -  小さなクラスを選好する -  収束基準を厳しくする (Mplusのデフォルトは、convergence = 0.000001) -  異なるソフトウェア・データで再現性をチェック (Rだと、LCAはpoLCA, LPAはMclust)

77

スクリプト：出力設定 78

Plot: type is plot3; series is item1 (1) item2 (2) item3 (3) 　　　　　　 item4 (4) item5 (5) item6 (6) item7 (7) item8 (8) item9 (9); Output: tech11 tech14;

! プロットの設定

! 条件付き応答確率のプロット

! VLMR, BLRTの結果を出力

スクリプト：出力設定 79

Savedata: file is lca1_save.txt ; save is cprob; format is free;

! データの保存

! 条件付き応答確率を保存

! 任意のファイル名

便利コマンド

ANALYSISコマンドでoptseedオプションを指定すると、2回目以降同じ解析をする際に、反復計算の大半が省略され高速化 ANALYSIS: optseed = 120506;

80

RANDOM STARTS RESULTS RANKED FROM THE BEST TO THE WORST LOGLIKELIHOOD VALUES Final stage loglikelihood values at local maxima, seeds, and iniNal stage start numbers: -‐4251.208 120506 45

81

コードが書けたら、「File」→「Save as」で任意の名前と場所に保存

RUNボタンを押し、解析実行.

分析実行中… 82

MS-‐DOSのwindowが出てきたら無事分析実行エラーの場合、.outファイルがすぐに出てくる。エラーメッセージに基づいて対処。

潜在クラス分析の実行には、反復計算のアルゴリズムを多用するので、出力が得られるまでに時間がかかる。

出力の見方：まずは適合度 83

相対指標情報量基準

絶対指標尤度比検定

モデル適合度

出力の見方 84

相対指標尤度比検定によるモデル比較

クラス数を増やしても有意じゃなくなるところまで、クラス数を増やして分析を繰り返す

出力の見方 85

相対指標尤度比検定によるモデル比較

クラス数を増やしても有意じゃなくなるところまで、クラス数を増やして分析を繰り返す

出力の見方：次に分類精度 86

各クラスメンバーの、各クラスへの所属確率

Entoropy

クラスサイズパラメータ

出力の見方 87

条件付き応答確率

出力の見方 88

条件付き応答確率 (プロット)

「View graph」を押し、 “Sample propoNon and esNmated Probability”を選択しView をクリック

出力の見方 89


“plot esNmated only」を選択し、完了をクリック

どの選択肢の応答確率を提示するか選択し、OK!!

出力の見方 90


閾値のチェック 91

閾値が-15または15になっていなければOK

共変量を含むモデル

MODEL: %OVERALL% 　c on age gender;

92

MODELコマンドで、共変量が潜在クラスに回帰することを指定

参考図書 93

入門・理論的解析のノウハウ日本語

TAKE HOME MESSAGE 94

•  LCA、母集団に潜在する部分母集団の存在を項目群への反応パターンから検出

•  BICかBLRTでクラス数を判断

•  entropy、所属確率から分類精度を判断

•  条件付き応答確率のパターンプロットで、各クラスの特徴を解釈・記述

潜在クラス分析

Science

Transcript of 潜在クラス分析