統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能...

514
Base SAS ® 9.4 プロシジャガイド 統計プロシジャ 第四版

Transcript of 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能...

Page 1: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

Base SAS® 9.4

プロシジャガイド統計プロシジャ第四版

Page 2: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

The correct bibliographic citation for this manual is as follows: SAS Institute Inc. 2015. Base SAS® 9.4 Procedures Guide:

Base SAS® 9.4 Procedures Guide: Statistical Procedures, Fourth EditionCopyright © 2015, SAS Institute Inc., Cary, NC, USA

All Rights Reserved. Produced in the United States of America.

For a hard-copy book: No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in any form or by any means, electronic, mechanical, photocopying, or otherwise, without the prior written permission of the publisher, SAS Institute Inc.

For a web download or e-book: Your use of this publication shall be governed by the terms established by the vendor at the time you acquire this publication.

The scanning, uploading, and distribution of this book via the Internet or any other means without the permission of the publisher is illegal and punishable by law. Please purchase only authorized electronic editions and do not participate in or encourage electronic piracy of copyrighted materials. Your support of others’ rights is appreciated.U.S. Government License Rights; Restricted Rights: The Software and its documentation is commercial computer software developed at private expense and is provided with RESTRICTED RIGHTS to the United States Government. Use, duplication, or disclosure of the Software by the United States Government is subject to the license terms of this Agreement pursuant to, as applicable, FAR 12.212, DFAR 227.7202-1(a), DFAR 227.7202-3(a), and DFAR 227.7202-4, and, to the extent required under U.S. federal law, the minimum restricted rights as set out in FAR 52.227-19 (DEC 2007). If FAR 52.227-19 is applicable, this provision serves as notice under clause (c) thereof and no other notice is required to be affixed to the Software or documentation. The Government’ s rights in Software and documentation shall be only those set forth in this Agreement.SAS Institute Inc., SAS Campus Drive, Cary, NC 27513-2414

July 2015

SAS® and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration.

Other brand and product names are trademarks of their respective companies.

Page 3: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

目次第 1 章 Base SAS 9.4統計プロシジャの新機能. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1第 2 章 CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3第 3 章 FREQプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63第 4 章 UNIVARIATEプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

Page 4: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

iv

Page 5: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

第 1章Base SAS 9.4統計プロシジャの新機能

概要Base SAS 9.4のメンテナンスリリース3には、CORR、FREQ、およびUNIVARIATE統計プロシジャに対する拡張が含まれています。

CORRプロシジャの拡張• 新しいOUTPLC=オプションは、ポリコリック相関統計量を含む出力データセットを作成します。• 新しいOUTPLS=オプションは、ポリシリアル相関統計量を含む出力データセットを作成します。

FREQプロシジャの拡張• 相対リスクでは、尤度比信頼限界とWald信頼限界を使用できます。(相対リスクの信頼限界を要求するには、

RELRISK(CL=)オプションを指定します )。これらの信頼限界は、相対リスクプロットに表示できます。• オッズ比では、正確なmid-p信頼限界、尤度比信頼限界、Wald信頼限界を使用できます。(オッズ比の信頼限界を要求するには、OR(CL=) オプションを指定します )。これらの信頼限界は、オッズ比プロットに表示できます。

• リスク差の等価性検定では、スコア (Farrington-Manning)およびHauck-Anderson手法が使用できます。これらを要求するには、TABLESステートメントでRISKDIFFオプションを使用します。等価性検定では、リスク差にヌル値を指定できます。

• McNemar の検定で不一致の比率にヌル値を指定するには、AGREE(MNULLRATIO=) オプションを使用します。

• 相対リスクに関しては、非劣性、同等性、等価性の検定が使用できます。検定手法には、スコア (Farrington-Manning)、Wald、Wald modified、尤度比があります。これらの検定および検定手法を指定するには、TABLESステートメントの RELRISKオプションを使用します。

• 二項比率の信頼限界として、Blaker、正確なmid-p、尤度比、ロジットが使用可能になりました。(BINOMIAL(CL=)オプションで二項比率の信頼限界を要求できます。)

• 新しいOR(CL=SCORE)オプションでは、オッズ比にスコア信頼限界を提供します。新しい RELRISK(CL=SCORE)オプションでは、 相対リスクにスコア信頼限界を提供します。スコア信頼限界は、オッズ比と相対リスクプロットに示すことができます。

• RISKDIFF(COMMON)オプションは、Mantel-Haenszel、層化Newcombe、および共通リスク (比率 )差の要約スコア推定値を提供します。共通リスク (比率 )差は、リスク差プロットに示すことができます。

• EXACTステートメントのMIDPオプションは、正確検定のmid p値を生成します。• モザイクプロットの新しい COLORSTAT=オプションは、Pearson残差または標準化残差の値にしたがってタイルを色分けします。二元度数プロットのSCALE=GROUPPERCENTオプションは、(全体のパーセンテージではなく ) 行または列のパーセンテージを示します。CLDISPLAY=SERIFARROW および

Page 6: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

2 第 1章 : Base SAS 9.4統計プロシジャの新機能

CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差バーを制御できるようになりました。

• CROSSLIST(PEARSONRES)オプションでは、CROSSLIST表に Pearson残差を表示します。

UNIVARIATEプロシジャの拡張• HISTOGRAMステートメントがOVERLAYオプションをサポートするようになり、他の水準のCLASS変数に関連付けられたヒストグラムを重ね合わせて単一プロットにします。

• Johnson 分布パラメータの最尤推定が改良されました。HISTOGRAMステートメントにSUオプションを指定して、Johnson 分布を調整できます。FITMETHOD=MLEサブオプションを指定して最尤推定量を要求でき、新しい OPTBOUNDRANGE=、 OPTMAXITER=、OPTMAXSTARTS=、OPTPRINT、OPTSEED=、OPTTOLERANCE=サブオプションを指定して、推定を実行するオプティマイザを制御可能です。

• 析変数の幾何平均が計算されるようになりました。INSETステートメントにGEOMEANキーワードを指定して、 幾何平均をグラフに示すか、OUTPUT ステートメントで出力データセットに含めます。幾何平均は、OUTTABLE=データセットの _GEOMEAN_変数にも保存されます。

SUSU

Page 7: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

第 2章CORRプロシジャ

目次概要 : CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4入門ガイド : CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5構文 : CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8

PROC CORRステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8BYステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16FREQステートメント. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16IDステートメント. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16PARTIALステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16VARステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17WEIGHTステートメント. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17WITHステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

詳細 : CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18Pearsonの積率相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18Spearmanの順位相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19Kendallの Tau-b相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20Hoeffding従属係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21偏相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22Fisherの z変換. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24ポリシリアル相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27Cronbachのアルファ係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .29信頼楕円と予測楕円 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30欠損値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31In-Database計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32出力テーブル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33ODSテーブル名 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34ODS Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36

例 : CORRプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36例 2.1 種類の連関性の統計量を計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36例 2.2 変数の 2つの組み合わせの相関を計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41例 2.3 Fisherの z変換を使用した分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .45例 2.4 Fisherの z変換の応用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46例 2.5 ポリシリアル相関の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49

Page 8: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

4 第 2章 : CORRプロシジャ

例 2.6 Cronbachのアルファ係数の計算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51例 2.7 出力データセットへの相関の保存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53例 2.8 散布図の作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55例 2.9 偏相関の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59

リファレンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62

概要 : CORRプロシジャ

CORRプロシジャは、Pearsonの相関係数、3つのノンパラメトリックな相関統計量、ポリシリアル相関、およびこれらの統計量に関連する確率を計算します。相関統計量には次のものがあります。

• Pearsonの積率相関• Spearmanの順位相関 • Kendallの Tau-b相関係数 • Hoeffdingの従属統計量、D

• Pearson、Spearman、および Kendallの偏相関係数 • ポリコリック相関 • ポリシリアル相関

Pearsonの積率相関は、2つの変数間の線形関係のパラメトリックな統計量です。Spearmanの順位相関は、データ値の順位に基づいて計算される連関性のノンパラメトリックな統計量です。KendallのTau-bは、ペアのオブザベーション内の一致と不一致の数に基づく連関性のノンパラメトリックな統計量です。Hoeffdingの従属統計量は、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。偏相関は、他の変数による影響を補正した上で2つの変数間の相関を測定するものです。

ポリシリアル相関は、1つの変数のみが直接測定される場合に、2変量正規分布を使用して2つの連続変数の相関を測定します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します。

相関の関連する種類であるポリコリック相関は、2変量正規分布を使用して、2つの非観測変数間の相関を計算します。2つの非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる2つの観測順序変数を介して取得します。

1セットの分析変数のみを指定した場合、デフォルトの相関分析では、分析変数ごとの記述統計量と、同変数のペアワイズ処理されたPearson相関統計量が計算されます。また、信頼性を推定するためのCronbachのα係数も計算できます。

2セットの分析変数を指定した場合、デフォルトの相関分析では、分析変数ごとの記述統計量と、2セットの変数間のペアワイズ処理されたPearson相関統計量が計算されます。

Pearson相関やSpearman相関では、Fisherのz変換を使用することにより、指定の帰無仮説 : の下でのその信頼限界とp値を導びけます。これらの統計量では、片側対立仮説または両側対立仮説を使用します。

2つの変数間の関係が非線形である場合、または外れ値が存在する場合、この相関係数は関係の強度を誤って推定することがあります。データをプロットすることにより、線形関係を検証し、潜在的な外れ値を特定できます。ODS Graphicsを有効にすると、ODS (Output Delivery System)を介して散布図と散布図行列を作成できます。また、散布図には、信頼楕円や予測楕円を追加できます。詳細は、「信頼楕円と予測楕円」(30ページ)のセクションを参照してください。

相関統計量をSASデータセットに保存し、その他の統計およびレポート作成プロシジャで使用することができます。

H0 ρ ρ0=

Page 9: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : CORRプロシジャ 5

入門ガイド : CORRプロシジャ

次のステートメントは、複数の欠損値を含むように変更されたデータセットFitnessを作成します。*----------------- Data on Physical Fitness -----------------*

| These measurements were made on men involved in a physical |

| fitness course at N.C.State University. |

| The variables are Age (years), Weight (kg), |

| Runtime (time to run 1.5 miles in minutes), and |

| Oxygen (oxygen intake, ml per kg body weight per minute) |

| Certain values were changed to missing for the analysis. | *------------------------------------------------------------*;

data Fitness; input Age Weight Oxygen RunTime @@; datalines;

44 89.47 44.609 11.37 40 75.07 45.313 10.07 44 85.84 54.297 8.65 42 68.15 59.571 8.17 38 89.02 49.874 . 47 77.45 44.811 11.63 40 75.98 45.681 11.95 43 81.19 49.091 10.85 44 81.42 39.442 13.08 38 81.87 60.055 8.63 44 73.03 50.541 10.13 45 87.66 37.388 14.03 45 66.45 44.754 11.12 47 79.15 47.273 10.60 54 83.12 51.855 10.33 49 81.42 49.156 8.95 51 69.63 40.836 10.95 51 77.91 46.672 10.00 48 91.63 46.774 10.25 49 73.37 . 10.08 57 73.37 39.407 12.63 54 79.38 46.080 11.17 52 76.32 45.441 9.63 50 70.87 54.625 8.92 51 67.25 45.118 11.08 54 91.63 39.203 12.88 51 73.71 45.790 10.47 57 59.08 50.545 9.93 49 76.32 . . 48 61.24 47.920 11.50 52 82.78 47.467 10.50 ;

次のステートメントは、CORRプロシジャを呼び出し、相関分析を要求します。ods graphics on;

proc corr data=Fitness plots=matrix(histogram);

run;

図2.1の表"Simple Statistics"に、分析変数の単変量統計量を示します。

図 2.1 Univariate Statistics

The CORR Procedure

4 Variables: Age Weight Oxygen RunTime

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

Age 31 47.67742 5.21144 1478 38.00000 57.00000

Weight 31 77.44452 8.32857 2401 59.08000 91.63000

Oxygen 29 47.22721 5.47718 1370 37.38800 60.05500

RunTime 29 10.67414 1.39194 29 309.55000 8.17000 14.03000

Page 10: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

6 第 2章 : CORRプロシジャ

デフォルトでは、他のステートメントでリストされていないすべての変数が分析に使用されます。変数の値が欠損値でないオブザベーションを使用して、その変数の単変量統計量が導びかれます。

図2.2の表”Pearson Correlation Coefficients”には、相関がゼロの帰無仮説の下のp値と、各変数ペアの値が欠損値以外であるオブザベーションの数が表示されます。

図 2.2 Pearson Correlation Coefficients

デフォルトでは、Pearson相関統計量は、分析変数の各ペアの値が欠損値でないオブザベーションから計算されます。図2.2は、RuntimeとOxygen間の相関が–0.86843であること(p値が0.0001未満で有意)を示しています。これは、上記の2変数間に逆線形の関係があることを意味します。Runtime (1.5マイルを走るのにかかる時間(分単位))が増加すると、Oxygen (体重1kg当たりの毎分の酸素摂取量(ml単位))は減少します。

PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、図2.3に示すような、分析変数の対称行列プロットを表示します。また、これらの分析変数のヒストグラムが、行列プロットの対角線上に表示されます。2変数OxygenおよびRuntime間の逆線形関係も、このプロット内に表示されます。

ODS Graphicsを有効にした上で、PLOTS=オプションを指定してグラフを作成する必要があります。ODSGraphicsの詳細については、SAS/STAT 14.1 User's GuideのChapter 21: Using the Output DeliverySystem を参照してください。

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Age Weight Oxygen RunTime

Age 1.00000

31

–0.233540.2061

31

–0.314740.0963

29

0.144780.4536

29

Weight –0.233540.2061

31

1.00000

31

–0.153580.4264

29

0.200720.2965

29

Oxygen –0.314740.0963

29

–0.153580.4264

29

1.00000

29

–0.86843<.0001

28

RunTime 0.144780.4536

29

0.200720.2965

29

–0.86843<.0001

28

1.00000

29

Page 11: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : CORRプロシジャ 7

図 2.3 対象行列プロット

Page 12: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

8 第 2章 : CORRプロシジャ

構文 : CORRプロシジャ

CORRプロシジャでは次のステートメントを使用できます。 PROC CORR <options>;

BY variables ;FREQ variable;

ID variables;

PARTIAL variables;VAR variables;

WEIGHT variable;WITH variables;

BYステートメントは、独立した相関分析を行うグループを指定します。

FREQステートメントは、オブザベーション内の他の値の出現頻度を表す変数を指定します。

IDステートメントは、1つ以上のチップ変数を指定して、散布図と散布図行列のオブザベーションを識別します。

PARTIALステートメントは、Pearson、Spearman、またはKendallの偏相関係数を計算するときに、影響を除外したい変数(コントロール変数)を指定します。

VARステートメントは、分析対象とする数値変数およびそれらの変数の相関行列内での順番をリスト出力します。VAPステートメントを省略すると、他のステートメント内でリストされていないすべての数値変数が使用されます。

WEIGHTステートメントは、Pearsonの積率相関係数を計算する際に、各オブザベーションに重みを与える変数を指定します。

WITHステートメントは、相関の計算に使用する数値変数をリスト出力します。

PROC CORRステートメントは、CORRプロシジャの唯一の必須ステートメントです。このセクションの残りの部分では、CORRプロシジャで始まる各ステートメントの構文についての詳細情報を示します。PROC CPRRステートメント以外のステートメントは、アルファベット順に並べられています。

PROC CORRステートメントPROC CORR <options>;

表2.1に、PROC CORRステートメントで使用できるオプションとその概要を示します。

表 2.1 PROC CORRオプションの概要

オプション ABC 説明

データセット

DATA= 入力データセットを指定

OUTH= HoeffdingのD統計量を含む出力データセットを指定

OUTK= Kendall相関統計量を含む出力データセットを指定

OUTP= Pearson相関統計量を含む出力データセットを指定

Page 13: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : CORRプロシジャ 9

PROC CORRステートメントでは、次のオプションを使用できます。オプションの説明はアルファベット順に示されています。

OUTPLC= ポリコリック相関統計量を含む出力データセットを指定

OUTPLS= ポリシリアル相関統計量を含む出力データセットを指定

OUTS= Spearman相関統計量を含む出力データセットを指定

統計解析

EXCLNPWGT 重み値が正でないオブザベーションを分析から除外

FISHER Fisherのz変換を使用して相関統計量を要求

HOEFFDING Hoeffdingの従属統計量Dを要求

KENDALL KendallのTau-bを要求

NOMISS 欠損値があるオブザベーションを分析から除外

PEARSON Pearsonの積率相関を要求

POLYCHORIC ポリコリック相関を要求

POLYSERIAL ポリシリアル相関を要求

SPEARMAN Spearmanの順位相関を要求

Pearson相関統計量

ALPHA Cronbachのアルファ係数を計算

COV 共分散を計算

CSSCP 修正済み平方和と交差積を計算

FISHER Fisherのz変換に基づいて相関統計量を計算

SINGULAR= 特異性の基準を指定

SSCP 平方和と交差積を計算

VARDEF= 分散の計算のための分母を指定

ODS出力グラフィックス

PLOTS=MATRIX 散布図行列を表示

PLOTS=SCATTER 変数ペアの散布図を表示

出力

BEST= 指定された数の順書相関係数を表示

NOCORR Pearson相関を非表示

NOPRINT すべての出力を非表示

NOPROB p値を非表示

NOSIMPLE 記述統計量を非表示

RANK 順序相関係数を表示

表 2.1 PROC CORRオプションの概要(続き)

オプション ABC 説明

Page 14: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

10 第 2章 : CORRプロシジャ

ALPHA

Cronbachの α係数 (信頼性係数 )を計算し表示します。CORRプロシジャは、元データの値を用いたものと標準化した値 (平均0、分数1に標準化した値 )を用いたものの2種類の信頼性係数を算出します。各 VARステートメントの変数に対して、1変数とそれ以外の変数の合計との相関を計算します。また、1変数を除いた時の α係数を計算します。

WITHステートメントが指定されている場合、ALPHAオプションは無効です。ALPHAオプションを指定すると、Pearson相関も表示されます。OUTP=オプションを指定すると、出力データセットには、Cronbach の α 係数を示すオブザベーションも含まれます。PARTIAL ステートメントを使用すると、CORRプロシジャは影響を除外した後の変数に対して Cronbachの α係数を計算します。詳細は、偏相関のセクションを参照してください。

BEST=n

上位 n個の相関係数を、 の変数ごとに表示します。相関係数は、絶対値の大きさで降順に並べられます。このオプションを指定しない場合、CORR プロシジャは、変数名を行と列のラベルとした表形式で相関を表示します。

HOEFFDINGオプションを指定すると、CORRプロシジャは降順にD統計量を表示します。COV

分散および共分散行列を表示します。COV オプションを指定すると、Pearson 相関も表示されます。OUTP= オプションを指定すると、出力データセットには、変数 _TYPE_ の値が COV である共分散行列が含まれます。PARTIAL ステートメントを使用すると、CORR プロシジャは偏共分散行列を計算します。

CSSCP

修正済み平方和と交差積を表示します。CSSCPオプションを指定すると、Pearson相関も表示されます。OUTP= オプションを指定すると、出力データセットには、変数 _TYPE_ の値が CSSCP であるCSSCP行列が含まれます。PARTIALステートメントを使用すると、CORRプロシジャは CSSCP行列と偏 CSSCP行列の両方を表示し、出力データセットには偏 CSSCP行列が含まれます。

DATA=SAS-data-set

CORR プロシジャで分析対象とする SAS データセットを指定します。デフォルトでは、このプロシジャは最後に作成された SASデータセットを使用します。

EXCLNPWGT

EXCLNPWGTS

欠損値があるオブザベーションを分析から除外します。デフォルトでは、CORR プロシジャは重みが負のオブザベーションを重みが 0のものと同様に扱い、オブザベーションの総数に加えます。

FISHER <(fisher-options)>

指定の帰無仮説 : の下で、信頼限界と p値を要求します。相関係数の計算には Fisherの z変換を使用します。これらの相関には、Pearson相関と Spearman相関が含まれます。

fisher-optionsには次のオプションを指定できます。ALPHA=

相関の信頼限界の水準 % を指定します。ALPHA= オプションの値は 0 から 1 までの範囲内でなければなりません。デフォルト値はALPHA=0.05です。

n 1≥

H0 ρ ρ0=

α

100 1 α–( )

Page 15: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : CORRプロシジャ 11

BIASADJ=YES | NO

信頼限界の計算時にバイアス調整を使用するかどうかを指定します。BIASADJ=YES オプションを指定すると、バイアス調整を使用した新しい相関推定値が生成されます。デフォルト値はBIASADJ=YESです。

RHO0=

帰無仮説 の値 : を指定します。ここで、–1 < < 1です。デフォルト値は RHO0=0です。

TYPE=LOWER | UPPER | TWOSIDED

信頼限界の種類を指定します。TYPE=LOWERオプションは、対立仮説 : に対する片側仮説 : の検定の下側信頼限界を要求し、TYPE=UPPERオプションは、対立仮説 : に対する片側仮説 : の検定の上側信頼限界を要求し、デフォルトの TYPE=TWOSIDEDオプションは、仮説 : の検定の両側信頼限界を要求します。

HOEFFDING

HoeffdingのD統計量の表を要求します。このD統計量では、独立性が大きな正数値でのみ示されるように、通常の公式の結果を 30倍にして、値の範囲を –0.5から 1までの間としています。WEIGHTステートメントまたは PARTIAL ステートメントを使用する場合、HOEFFDING オプションは無効となります。

KENDALL

2つのオブザベーション間の一致および不一致の数に基づいて、Kendallの Tau-b係数を求めます。Kendallの Tau-bの範囲は、–1から 1までです。

WEIGHTステートメントを使用する場合、KENDALLオプションは無効となります。PARTIALステートメントを使用する場合、Kendallの偏 Tau-bの有意確率は取得できません。

NOCORR

Pearson相関を表示しません。OUTP=オプションを指定すると、データセットの種類は CORRのままになります。データセットの種類を COV、CSSCP、SSCPのいずれかに変更するには、TYPE=データセットオプションを使用します。

NOMISS

欠損値があるオブザベーションを分析から除外します。除外しない場合は、CORR プロシジャは変数のすべての非欠損変数の対を使用して相関統計量を計算します。NOMISS オプションを使用すると、計算効率が向上します。

NOPRINT

すべての表示出力 (ODS Graphicsによる出力を含む )を抑制します。出力データセットのみを作成する場合は、NOPRINTオプションを使用します。

NOPROB

各相関係数の有意確率の表示を抑制します。NOSIMPLE

各変数の要約記述統計量の表示を抑制します。ただし、出力データセットを要求する場合は、出力データセットには、変数の要約記述統計量が含まれます。

OUTH=output-data-set

HoeffdingのD統計量を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTH=オプションを指定すると、HoeffdingのD統計量が表示されます。

ρ0

ρ0 H0 ρ ρ0= ρ0

H1 ρ ρ0>H0 ρ ρ0≤ H1 ρ ρ0<

H0 ρ ρ0≥H0 ρ ρ0=

Page 16: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

12 第 2章 : CORRプロシジャ

OUTK=output-data-set

Kendallの相関統計量を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTK=オプションを指定すると、Kendallの相関統計量が表示されます。

OUTP=output-data-setOUT=output-data-set

Pearson の相関統計量を含む出力データセットを作成します。このデータセットには、平均、標準偏差、およびオブザベーション数も含まれます。_TYPE_ 変数の値は、CORR です。OUTP= オプションを指定すると、Pearson 相関も表示されます。ALPHA オプションを指定する場合は、出力データセットには、Cronbachの α係数を示す 6つのオブザベーションも含まれます。

OUTPLC=output-data-set

ポリコリック相関統計量を含む出力データセットを作成します。(2 つの観測 2 値変数間のポリコリック相関は、テトラコリック相関とも呼ばれます。) このデータセットには、平均、標準偏差、およびオブザベーション数も含まれます。_TYPE_変数の値は、CORRです。

OUTPLS=output-data-set

ポリシリアル相関統計量を含む出力データセットを作成します。出力データセットの内容は、OUTPLC=で指定したデータセットの内容と同様になります。

OUTS=SAS-data-set

Spearmanの相関係数を含む出力データセットを作成します。出力データセットの内容は、OUTP=で指定したデータセットの内容と同様になります。OUTS=オプションを指定すると、Spearmanの相関係数が表示されます。

PEARSON

Pearsonの積率相関を求めます。相関係数の範囲は –1から 1までです。HOEFFDING、KENDALL、SPEARMAN、POLYCHORIC、POLYSERIAL、OUTH=、OUTK=、OUTS= オプションを指定しない場合、CORR プロシジャはデフォルトで Pearson の積率相関を生成します。それ以外の場合、Pearson 相関を生成するには、PEARSON、ALPHA、COV、CSSCP、SSCP、OUT= オプションのいずれかを指定する必要があります。散布図または散布図行列を要求する場合にも、Pearson相関が表示されます。

PLOTS <( MAXPOINTS=NONE | n )> = plot-request

PLOTS <( MAXPOINTS=NONE | n )> = ( plot-request <…plot-request> )

ODS (Output Delivery System)を介して統計グラフを要求します。

プロットを要求する前に、ODS Graphicsを有効にする必要があります。例えば、次のようになります。ods graphics on;

proc corr data=Fitness plots=matrix(histogram);

run;

ODS Graphicsを有効化 /無効化する方法については、SAS/STAT 14.1 User's Guideの Chapter 21:Statistical Graphics Using ODSの "Enabling and Disabling ODS Graphics" セクションを参照してください。

グローバルなプロットオプションであるMAXPOINTS=は、処理が必要な点が n個を超える要素を含む図を表示しないように指定します。デフォルト値はMAXPOINTS=5000です。この制限を無視するには、MAXPOINTS=NONEを指定します。プロット要求オプションには次のものがあります。

Page 17: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : CORRプロシジャ 13

ALL

すべての適切なプロットを生成します。MATRIX <(matrix-options)>

変数の散布図を要求します。WITHステートメントが指定されていない場合、VARリストに指定された変数による対称行列プロットが表示されます。それ以外の場合、縦列に WITH 変数を表示し横列に VAR変数を表示する矩形行列プロットが表示されます。

NONE

すべてのプロットの表示を抑制します。SCATTER <(scatter-options)>

変数ペアの散布図を要求します。WITHステートメントが指定されていない場合、VARリストに指定された利用可能な変数ペアごとの散布図が表示されます。それ以外の場合、1つはWITHリスト内の変数、もう 1つは VARリスト内の変数からなる、利用可能な変数ペアごとの散布図が表示されます。

散布図または散布図行列を要求すると、Pearson相関も表示されます。

matrix-optionsには次のオプションを指定できます。HIST | HISTOGRAM

VARリスト内の変数 (VARステートメントで指定したもの )によるヒストグラムを対称行列プロットで表示します。

NVAR=ALL | n

行列プロットに表示する VAR リスト内の変数の最大数を指定します。ここでは、n > 0 です。NVAR=ALLオプションは、VARリスト内のすべての変数を使用するよう指定します。デフォルトでは、NVAR=5になります。

NWITH=ALL | n

行列プロットに表示するWITH リスト内の変数 (WITH ステートメントで指定するもの ) の最大数を指定します。ここでは、n > 0です。NWITH=ALLオプションは、WITHリスト内のすべての変数を使用するよう指定します。デフォルトでは、NWITH=5になります。

作成された VARリストまたはWITHリスト内の変数の最大数が 10より大きい場合、同リスト内の最初の 10個の変数のみが散布図行列内に表示されます。

scatter-optionsには次のオプションを指定できます。ALPHA=α

散布図に表示する信頼楕円または予測楕円の α値を指定します。ここで、0 < α < 1です。指定された α値ごとに、(1–α)の信頼楕円または予測楕円が生成されます。デフォルトは α = 0.05です。

ELLIPSE=PREDICTION | CONFIDENCE | NONE

新しいオブザベーションの予測楕円を要求する (ELLIPSE=PREDICTION)か、平均の信頼楕円を要求する (ELLIPSE=CONFIDENCE)か、または散布図で楕円を作成しない (ELLIPSE=NONE)よう指定します。デフォルト値は ELLIPSE=PREDICTIONです。

NOINSET

散布図で要約情報に関するデフォルトのインセットを表示しません。インセットテーブルには、オブザベーションの数と相関が含まれます。

Page 18: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

14 第 2章 : CORRプロシジャ

NVAR=ALL | n

プロットに表示する VARリスト内の変数 (VARステートメントで指定したもの )の最大数を指定します。ここでは、n > 0 です。NVAR=ALL オプションは、VAR リスト内のすべての変数を使用するよう指定します。デフォルトでは、NVAR=5になります。

NWITH=ALL | n

プロットに表示するWITH リスト内の変数 (WITH ステートメントで指定するもの ) の最大数を指定します。ここでは、n > 0です。NWITH=ALLオプションは、WITHリスト内のすべての変数を使用するよう指定します。デフォルトでは、NWITH=5になります。

作成された VARリストまたはWITHリスト内の変数の最大数が 10より大きい場合、同リスト内の最初の 10個の変数のみがプロット内に表示されます。

POLYCHORIC <(options)>

ポリコリック相関係数を求めます。(2 つの観測 2 値変数間のポリコリック相関は、テトラコリック相関とも呼ばれます。) ポリコリック相関は、2 変量正規分布を使用して、2 つの非観測変数間の相関を計算します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します。WEIGHT ステートメントを指定する場合は、POLYCHORICオプションは使用できません。

ポリコリック相関を計算する場合、次の optionsを指定できます。CONVERGE=p

収束基準を指定します。値 pは 0から 1までの範囲内でなければなりません。各パラメータ (順序変数のカテゴリを定義する非観測の連続変数の相関およびしきい値 )の反復ステップ間のパラメータ推定値の絶対的な変化が p未満である場合、その反復は収束すると見なされます。デフォルトは CONVERGE=0.0001です。

MAXITER=number

最大反復回数を指定します。反復回数が numberを超えた時点で、反復は停止します。デフォルトはMAXITER=200です。

NGROUPS=ALL | n

個々の順序変数で許可されるグループの最大数を指定します。ここで、n > 1です。NGROUPS=ALLオプションは、個々の順序変数で無制限の数のグループを許可します。それ以外の場合、グループの数が nに指定された数を超えると、影響を受ける変数ペアに関してはポリコリック相関が計算されなくなります。デフォルト値はNGROUPS=20です。

POLYSERIAL <(options)>

ポリシリアル相関係数を求めます。 ポリシリアル相関は、1つの変数が観測され 1つの変数が非観測である場合に、2変量正規分布を使用して 2つの連続変数の相関を測定します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します。WEIGHTステートメントを指定する場合は、POLYSERIALオプションは使用できません。

ポリシリアル相関を計算する場合、次の optionsを指定できます。CONVERGE=p

収束基準を指定します。値 pは 0から 1までの範囲内でなければなりません。各パラメータ (順序変数のカテゴリを定義する非観測の連続変数の相関およびしきい値 )の反復ステップ間のパラメータ推定値の絶対的な変化が p未満である場合、その反復は収束すると見なされます。デフォルトは CONVERGE=0.0001です。

Page 19: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : CORRプロシジャ 15

MAXITER=number

最大反復回数を指定します。反復回数が numberを超えた時点で、反復は停止します。デフォルトはMAXITER=200です。

NGROUPS=ALL | n

個々の順序変数で許可されるグループの最大数を指定します。ここで、n > 1です。NGROUPS=ALLオプションは、個々の順序変数で無制限の数のグループを許可します。それ以外の場合、グループの数が nに指定された数を超えると、影響を受ける変数ペアに関してはポリシリアル相関が計算されなくなります。デフォルト値はNGROUPS=20です。

ORDINAL=WITH | VAR

順序変数のリストを指定します。ORDINAL=WITH オプションは、順序変数が WITH ステートメントで、連続変数が VAR ステートメントでそれぞれ提供されることを指定します。ORDINAL=VARオプションは、順序変数がVARステートメントで、連続変数がWITHステートメントでそれぞれ提供されることを指定します。デフォルト値はORDINAL=WITHです。

RANK

各変数間の順序相関係数を表示します。相関係数は、絶対値の大きさで降順に並べられます。HOEFFDINGオプションを指定すると、D統計量が降順に表示されます。

SINGULAR=p

PARTIALステートメントを使用する場合に、変数の特異性を判断するための基準を指定します。変数は、対角要素の Cholesky分解後の値が、その変数の元の修正済み平方和の p倍よりも小さい値である場合は、特異と見なされます。デフォルト値は、SINGULAR=1E-8になります。pは 0から 1までの間の値になります。

SPEARMAN

変数の順位に基づいて Spearman の相関係数を計算します。相関係数の範囲は –1 から 1 までです。WEIGHTステートメントを指定した場合、SPEARMANオプションは無効となります。

SSCP

修正済み平方和と交差積を表示します。SSCP オプションを指定すると、Pearson 相関も表示されます。OUTP= オプションを指定すると、出力データセットには、変数 _TYPE_ の値が SSCP であるSSCP行列が含まれます。PARTIALステートメントを指定すると、不偏 SSCP行列が表示され、出力データセットには SSCP行列は含められません。

VARDEF=DF | N | WDF | WEIGHT | WGT

分散および共分散の計算に使用する分母を指定します。デフォルト値は VARDEF=DFです。

表 2.2に、VARDEF=オプションで使用できる値と関連する分母を示します。ここで、nは欠損値でないオブザベーションの数、k は PARTIAL ステートメントで指定された変数の数、wj 番目の欠損値でないオブザベーションに割り当てられている重みです。

表 2.2 VARDEF=オプションで使用できる値

値 説明 分母

DF 自由度 n – k – 1

N オブザベーションの数 n

WDF 重みの合計から 1を差し引いた値

WEIGHT | WGT 重みの合計

Page 20: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

16 第 2章 : CORRプロシジャ

BYステートメントBY variables;

CORRプロシジャでBYステートメントを使用すると、BY変数によって定義されたオブザベーションのグループごとに独立した分析を行えます。BYステートメントを指定する場合、このプロシジャでは入力データセットがそのBY変数で並べ替えられていることが前提となります。複数のBYステートメントを指定した場合、最後に指定したものだけが使用されます。

入力データセットが昇順で並べ替えられていない場合、次のいずれかを選択できます。• 同様の BYステートメントで SORTプロシジャを使用してデータを並べ替えます。• SORTプロシジャのBYステートメントでNOTSORTEDオプションまたはDESCENDINGオプションを指定します。NOTSORTEDオプションは、データが並べ替えられていないことを意味するのではなく、データは (BY変数の値に従って )グループごとに並べ替えられているが、それらのグループが必ずしもアルファベット順または数値昇順になっていないことを意味します。

• DATASETSプロシジャ(Base SASソフトウェア )を使用して、BY変数のインデックスを作成します。

BYグループ処理の詳細は、SAS言語リファレンス:解説編を参照してください。DATASETSプロシジャの詳細は、Base SAS プロシジャガイドを参照してください。

FREQステートメントFREQ variables;

FREQステートメントでは、オブザベーションの度数を表す数値変数を指定します。FREQステートメントを使用すると、このプロシジャは、各オブザベーションがn個のオブザベーション(nはFREQ変数の値)を表すものと仮定します。nが整数でない場合、小数部は切り捨てられます。nが1未満であるかまたは欠損値である場合、そのオブザベーションは分析から除外されます。度数変数の合計は、オブザベーションの総数に相当します。

FREQステートメントとWEIGHTステートメントは、自由度を計算する場合を除いて、同じ結果を生成します。

IDステートメントID variables ;

IDステートメントは、1つ以上のチップ変数を指定して、散布図と散布図行列のオブザベーションを識別します。プロットごとに、チップ変数にはX軸変数、Y軸変数、オブザベーション番号を表す変数を指定できます。

PARTIALステートメントPARTIAL variables;

PARTIALでは、偏相関統計量の計算に使用するコントロール変数を指定します。計算できるのは、Pearsonの偏相関係数、Spearmanの偏順位相関係数、Kendallの偏Tau-bのみです。PARTIALを使用する場合、欠損値があるオブザベーションは除外されます。

CORRプロシジャでPARTIALステートメントを使用する場合、PEARSONオプションを指定すると、各分析変数の偏分散および標準偏差も表示されます。

Page 21: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : CORRプロシジャ 17

VARステートメントVAR variables;

VARステートメントでは、相関係数の計算に使用する変数を指定します。VARステートメントが指定されていない場合、CORRプロシジャは、他のステートメントで指定されていないすべての数値変数を使って相関係数を計算します。

WEIGHTステートメントWEIGHT variables;

WEIGHT ステートメントでは、Pearson の重み付き積率相関の計算に使用する重みを指定します。HOEFFDING、KENDALL、SPEARMANの各オプションは、WEIGHTステートメントでは無効になります。

加重されていないオブザベーションは分析から除外されます。デフォルトでは、重みが正でないオブザベーションの場合、重みがゼロに設定された上で、そのオブザベーションは分析に含められます。重みが正でないかまたはゼロであるオブザベーションを分関から除外するには、EXCLNPWGTオプションを使用します。

WITHステートメントWITH variables;

WITHステートメントでは、VARステートメント変数との相関の計算に使用する変数を指定します。WITHステートメントはr(Xi, Yj)形式の相関を要求します。ここで、X1, ... , XmはVARステートメントで指定した分析変数、Y1, ... ,YnはWITHステートメントで指定した変数です。相関行列は、次のような矩形構造を持ちます。

たとえば次のステートメントを実行すると、proc corr;

var x1 x2;

with y1 y2 y3;

run;

次の組み合わせの相関が生成されます。

Page 22: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

18 第 2章 : CORRプロシジャ

詳細 : CORRプロシジャ

Pearsonの積率相関

Pearsonの積率相関は、2変数の連関性のパラメトリックな統計量です。これは、線形関係の強度と方向の両者を測定します。ある変数Xが別の変数Yの完全な線形関数である場合、相関が1ならば正の関係が存在し、相関が–1ならば負の関係が存在します。2変数間に線形の予測可能性が存在しない場合、相関は0になります。2変数が相関0で正規である場合、これらの2変数は独立です。ただし、因果関係が存在しない場合もあるため、相関は因果性を意味するものではありません。

2つのランダムな数値変数間の関係を表示する散布図を図2.4に示します。

図 2.4 2変数間の相関

Page 23: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 19

上記の散布図は、変数Y1とX1間には正の関係が存在し、変数Y1とX2間には負の関係が存在すること、および変数Y2とX1間には明確な相関が存在しないことを示しています。また、上記の散布図は、Y2がX2に従属しているにもかかわらず、変数Y2とX2間には明確な相関が存在しないことも示しています。

母集団Pearson積率相関 は次の式で表されます。

Pearson積率相関や重み付き積率相関などの標本相関は、母集団相関を推定します。標本Pearson積率相関は次の式で表されます。

ここで、 はxの標本平均、 は の標本平均です。重み付きPearson積率相関は次の式で表されます

ここで、 は重み、 は の重み付き平均、 は の重み付き平均です。

確率値

Pearson相関の確率値は次の式により計算されます。

ここで、自由度が(n–2)のt分布に従います。rは標本相関です。

Spearmanの順位相関

Spearmanの順位相関は、データ値の順位に基づいて計算される連関性のノンパラメトリックな統計量です。公式は次の通りです。

ここで、 の順位、 は の順位、 は 値の平均、 は 値の平均です。

CORRプロシジャは、データを順位付けし、Pearsonの積率相関公式でそれらの順位を使用することにより、Spearmanの相関を計算します。タイの場合、平均化された順位が使用されます。

ρxy

x y y

wi xw x yw y

Ri Si yi R Ri S Si

Page 24: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

20 第 2章 : CORRプロシジャ

確率値

Spearman相関の確率値は次の式により計算されます。

ここで、自由度が(n–2)のt分布に従います。rは標本Spearman相関です。

Kendallの Tau-b相関係数

KendallのTau-bは、ペアのオブザベーション内の一致と不一致の数に基づく連関性のノンパラメトリックな統計量です。ペアのオブザベーションの変化が同じ場合に一致が発生します。ペアのオブザベーションの変化が異なる場合に不一致が発生します。KendallのTau-bは次の公式で表されます。

ここで、 T0=n(n–1)/2、 、 です。tkはタイのx値のk番目のグループ内にあるタイのxの数、ulはタイのy値のl番目のグループ内にあるタイのy値の数、nはオブザベーションの数です。sgn(z)は次のように定義されます。

CORRプロシジャは、データを順位付けし、Knight (1966)と同様の方法を使用することにより、KendallのTau-bを計算します。最初の変数の値でオブザベーションを順位付けした後、2番目の変数の値でオブザベーションを順位付けすることにより、データが二重に並べ替えられます。CORRプロシジャは、最初の変数の並べ替え後の順位からKendallのTau-bを計算し、タイのペア(XまたはYの値が同じオブザベーションのペア)を修正します。

確率値

KendallのTau-bの確率値は次の式により計算されます。

これは標準正規分布から導かれます。ここで、

であり、V(s)(sの分散)は次の式で計算されます。

Page 25: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 21

ここで、

合計は、タイ値のグループに関するものです。ここで、tiはタイのx値の数、uiはタイのy値の数です。(Noether 1967)。Kendallの偏Tau-bの標本分布は不明であるため、確率値は提供されません。

Hoeffding従属係数

Hoeffdingの従属統計量Dは、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。Hoeffdingの縦続統計量は、2×2分類表からカイ2乗統計量を求め、そのカイ2乗統計量を重み付けして合計した値の近似になります(Hoeffding 1948)。各(x,y)値は、分類のカットポイントとなります。HoeffdingのDは次の式で表されます。

ここで 、 、 です。Ri はxiの順位、Siはyiの順位で、Qi(2変量順位とも呼ぶ)は、x番目の点のyおよび i値よりも小さい値を持つ点の数に1を加えたものです。

x値またはy値のいずれかでタイである点は、Qiにその2分の1を提供します(もう一方の値が、i番目の点の値よりも小さい場合)。

xおよびyの両方でタイである点は、Qiにその4分の1を提供します。CORRプロシジャは、まずデータを順位付けすることによりQi値を取得します。続いて、最初の変数の値でオブザベーションを順位付けした後、2番目の変数の値でオブザベーションを順位付けすることにより、データが二重に並べ替えられます。Hoeffdingの D統計量は、最初の変数の交換数を使って計算されます。データセットのオブザベーション間でタイが発生しない場合、D統計量の値は–0.5から1までの間になります(1は完全従属を意味する)。一方、タイが発生する場合、D統計量の値はより小さい値になります。すなわち、変数のペアが同じ値を持つ場合、Hoeffdingの D統計量は1よりも小さい値になります。小規模なデータセットで多くのタイが発生する場合、D統計量は–0.5未満になります。HoeffdingのDに関する詳細は、Hollander and Wolfe (1999)を参照してください。

確率値

Hoeffdingの D統計量の確率値は、Blum, Kiefer, and Rosenblatt (1961)により計算された漸近分布を使用して計算されます。公式は次の通りです。

これは漸近分布から導かれます。標本サイズが10未満である場合、Hollander and Wolfe (1999)のD分布の表を参照してください。

Page 26: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

22 第 2章 : CORRプロシジャ

偏相関

偏相関は、2変数間の関係を他の変数による影響を補正した上で測定するものです。PARTIALステートメントで他の変数の影響を除外した後の2変数間のPearson偏相関は、これらの影響を除外する変数への回帰を引いた2変数の残差間のPearson相関に等しくなります。

を相関変数の集合、 をコントロール変数の集合とします。y を考慮した場合のi番目とj番目のz変数の間の母集団Pearson編相関は、誤差 と 間の相関になります。ここで、

上記の式はそれぞれ、コントロール変数zが与えられた場合の、変数yiおよびyjの回帰モデルとなります。

指定のオブザベーションの例では、zを考慮した場合のyiとyj間の標本Pearson偏相関は、残差 とから導かれます。ここで、

はzを考慮した場合のyiおよびyj変数の回帰モデルを使用した当てはめ値です。

yを考慮した場合のzの偏修正済み平方和と交差積(CSSCP)は、残差 の修正済み平方和と交差積になります。これらの修正済み偏差平方和積和を使用することで、偏共分散および偏相関を計算できます。

CORRプロシジャは、Cholesky分解アルゴリズムをCSSCP行列に適用することで、 偏修正済み平方和と交差積行列を導きます。Pearson偏相関の場合、を、2変数zおよびy間の偏CSSCP行列とします。

CORRプロシジャは、変数影響を除外する変数zに関連付けられている行に対してCholesky分解アルゴリズムを順番に適用することにより、zで補正した後のyの偏CSSCP行列であるSyy.zを計算します。

変数zに関連付けられている各行に対してCholesky分解アルゴリズムを適用した後、CORRプロシジャは、zに関連付けられているすべての大きい番号の対角要素をチェックし、特異性が存在するかどうかを調べます。変数は、対角要素のCholesky分解後の値が、その変数の元の修正済み平方和の 倍よりも小さい値である場合は、特異と見なされます。特異性の基準 を指定するには、SINGULAR=オプションを使用します。Pearson偏相関の場合、すでに影響が除外された変数からこの変数を予測する際にR2が1– を超えるならば、コントロール変数zは特異であると見なされます。これが発生する場合、CORRプロシジャはその変数を分析から除外します。同様に、コントロール変数から変数を予測する際にR2が1– を超えるならば、その変数は特異であると見なされます。これが発生する場合、それに関連付けられている対角要素、および対応する行または列内にあるすべての大きい番号の要素はゼロに設定されます。

zに関連付けられているすべての行に対してCholesky分解アルゴリズムを適用すると、その結果として次の形式を持つ行列が生成されます。

ここで、Tzzは、T’zzTzz = S’

zz、T’zzTzy = S’

zy、Syy.z = Syy – T’zyTzyである上三角行列です。

εε

ε

ε

Page 27: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 23

Szzが正定値である場合、Tzy = T’zz

-1S’zy および偏CSSCP行列Syy.zは、次の式から導かれる行列と同じにな

ります。

偏分散/共分散行列は、分散算出用の分母を使用して計算されます(VARDEF=オプション)。CORRプロシジャは、偏分散/共分散行列に対して標準Pearson相関公式を適用することにより、Pearson偏相関行列を計算します。

相関行列が正定値である場合、単一変数zで補正後の変数xとy間の偏相関は、次に示す1次偏相関公式から導かれる相関と同じになります。

ここで、rxy、rxz、ryzは適切な相関です。

より高次の偏相関の公式は、上記の1次偏相関公式を単純に拡張したものです。たとえば、相関行列が正定値である場合、z_1およびz_2で補正したxおよびy間の偏相関は、次に示す2次偏相関公式と同じになります。

ここで、rxy.z1、rxz2.z1

、ryz2.z1は、指定のz_1における変数x、y、z_2間の1次偏相関です。

Spearmanの偏順位相関およびKendallの偏Tau-b相関を計算する場合、CORRプロシジャは、Spearmanの順位相関行列およびKendallのTau-b相関行列に対してCholesky分解アルゴリズムを適用し、相関公式を使用します。すなわち、Spearmanの偏順位相関は、影響を除外した後の変数の順位にある、2変数の順位の線形回帰の残差間のPearson相関に等しくなります。このため、PARTIALステートメントでCORR=SPEARMANオプションを指定すると、2変数の順位の残差がプロットに表示されます。偏Tau-b相関の範囲は–1から1までです。ただし、この偏Tau-b相関の標本分布は不明となるため、確率値は提供されません。

確率値

PearsonおよびSpearmanの偏相関の確率値は次の式により計算されます。

これは、自由度が(n–k–2)のt分布から導かれます。ここで、rは偏相関、kは影響を除外する変数の数です。

Page 28: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

24 第 2章 : CORRプロシジャ

Fisherの z変換

標本相関rが相関 = 0の2変量正規分布からの標本を使用する場合、次の統計量

は、自由度がn–2であるStudentのt分布に従います。

相関rの単調変換(Fisher, 1921)の場合、

統計量zrは、次の平均と分散を持つ近似正規分布に従います。

ここで、 = tanh-1( )です。

変換されたzrでは、近似分布V(zr) = 1/(n–3)は相関 から独立になります。また、zrの分布が厳密な正規分布ではない場合であっても、 の任意の値の標本サイズが大きくなると、同分布は急速に正規性を持つようになります(Fisher 1973, pp. 200–201)。

帰無仮説 : = 、p値を計算するには、次の式

を平均ゼロで分散が1/(n–3)である正規ランダム変数として扱います。ここで、 = tanh-1 ( )です(Fisher1973, p. 207; Anderson 1984, p. 123)。

CORRプロシジャでは、帰無仮説 : = に基づいてp値を計算する場合、必ずバイアス調整 /(2(n–1))が使用されます。

FISHERオプション内のALPHA=オプションは、信頼水準 の値 を指定します。RHO0=オプションは、帰無仮説 : = での値 を指定します。BIASADJ=オプションは、信頼限界でバイアス調整を使用するかどうかを指定します。

TYPE= オプションは、信頼限界の種類を指定します。TYPE=TWOSIDED オプションは、帰無仮説: = の下での両側信頼限界とp値を要求します。片側信頼限界の場合、TYPE=LOWERオプション

は、帰無仮説 : <= の下での下側信頼限界とp値を要求します。TYPE=UPPERオプションは、帰無仮説 : >= の下での上側信頼限界とp値を要求します。

ρ

ζ ρ

ρρ

H0ρ ρ0

ζ0 ρ0

H0ρ ρ0 ρ0

1 α– αH0

ρ ρ0 ρ0

H0ρ ρ0

H0ρ ρ0

H0ρ ρ0

Page 29: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 25

相関に対する信頼限界

相関 の信頼限界は、バイアス調整の有無にかかわらず、パラメータ の信頼限界を介して導かれます。

バイアス調整を行わない場合、 の信頼限界を計算するには、次の式

が平均ゼロで分散が1/(n–3)である正規分布に従うものとして扱います。

すなわち、 の両側の信頼限界は次のように計算されます。

ここで、 は標準正規分布の100(1– /2)番目のパーセント点です。

バイアス調整を行う場合、 の信頼限界を計算するには、次の式

が平均ゼロで分散が 1/(n–3) である正規分布を従うものとして扱います。ここで、バイアス調整関数(Keeping 1962, p. 308)は次のようになります。

すなわち、 の両側の信頼限界は次のように計算されます。

続いて、上記の および に関して計算された信頼限界の変換を元に戻すことにより、相関 の信頼限界が導かれます。

バイアス調整を行う場合、CORRプロシジャは次のような相関推定値も表示します。

ρ ζ

ζ

ζ

z 1 α 2⁄–( ) α

ζ

ζ

ζι ζμρ

Page 30: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

26 第 2章 : CORRプロシジャ

Fisherの z変換の応用

Fisher (1973, p. 199)は、次に示すようなz変換の具体的な応用を紹介しています。• 母集団相関が指定の値に等しいかどうかのテスト• 2つの母集団相関が等しいかどうかのテスト• 異なる標本から計算した相関推定値の結合

オブザベーション数がn1で標本相関がr1である標本からの母集団相関 が、与えられた に等しい場合、まず および :z1 = tanh-1(r1)および = tanh-1( )に対してz変換を適用します。

続いて、p値を計算するには、次の式

が平均ゼロで分散が1/(n1–3)である正規分布に従うものとして扱います。

標本推定値r1およびr2は、それぞれn1およびn2というオブザベーションの2つの独立した標本から計算されます。2つの母集団相関 および が等しいかどうかをテストするには、まずz変換を2つの標本相関であるz1 = tanh-1(r1)およびz2 = tanh-1(r2)に対して適用します。

p値は、等しい相関の帰無仮説の下で導かれます。すなわち、差z1 – z2は、平均がゼロで分散が1/(n1–3) + 1/(n2–3)である正規ランダム変数として分布されます。

さらに、2つの標本が同じ相関をもつ母集団から抽出されたと仮定すると、結合された相関推定値を計算できます。z値の重み付き平均は次の式で表されます。

ここで、重みは、それらの分散に対して反比例します。

このため、結合された相関推定値は、 = tanh( )およびV( ) = 1 / (n1 + n2 – 6)となります。これらの応用に関する詳細は、例2.4を参照してください。

なお、この手法は、複数の標本を含めるように拡張できます。

ポリコリック相関

ポリコリック相関は、2変量正規分布を使用して2つの非観測の連続変数の相関を測定します。それぞれの非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します(Olsson 1979; Drasgow 1986)。2つの観測2値変数間のポリコリック相関は、テトラコリック相関とも呼ばれます。

ポリコリック相関は、正規変数間における積率相関の最尤推定値です。ポリコリック相関の範囲は–1から1までです。Olsson (1979)は、ポリコリック相関の推定の尤度方程式と漸近標準誤差を提唱しています。連続変数は、各カテゴリの水準に対応する数値の範囲を定義するしきい値を介して、観測順序変数に関連します。CORRプロシジャは、Olssonの最尤法を使用して、ポリコリック相関としきい値を同時に推定します。

CORRプロシジャは、Newton-Raphsonアルゴリズムを使用することにより、尤度方程式を繰り返し解きます。しきい値の最初の推定値は、表の累積周辺比率における正規分布関数の逆から計算されます。ポリコリック相関の反復計算は、収束測定値が収束基準を下回った場合、または最大反復数に達した場合に停止します。

ρ1 ρ0r1

ρ0 ζ0ρ0

ρ1 ρ2

r z z

Page 31: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 27

確率値

CORRプロシジャは、ポリコリック相関がゼロであるかどうかを判定するために、Wald検定と尤度比(LR)検定という2種類の検定を計算します。

ポリコリック相関の最尤推定値が で、その漸近標準誤差がStdErr( )である場合、Waldカイ2乗検定統計量は次の式で計算されます。

Wald統計量は、自由度が1の漸近カイ2乗分布に従います。

LR検定の場合、ポリコリック相関がゼロであると仮定する最尤関数も必要となります。LR検定統計量は次のように計算されます。

ここで、L1は、全パラメータの最尤推定値を使用する尤度関数です。L0は、ポリコリック相関を除く全パラメータの最尤推定値を使用する尤度関数であり、0に設定されます。LR統計量も、自由度が1の漸近カイ2乗分布に従います。

ポリシリアル相関

ポリシリアル相関は、1つの変数が直接観測され1つの変数が非観測である場合に、2変量正規分布を使用して2つの連続変数の相関を測定します。非観測変数に関する情報は、非観測変数の値を離散的な順序値の有限集合へと分類することにより導かれる観測順序変数を介して取得します(Olsson, Drasgow, and Dorans1982)。

Xを平均が で分散が の正規分布の観測連続変数、Yを非観測の連続変数、 をXとYの間のPearson相関とします。また、観測順序変数Dは、次の方法によりYから導かれるものと仮定します。

ここで、d(1) < d(2) < ... < d(K)は観測された順序値であり、 < < ... < は未知の順序しきい値です。

N個のオブザベーションの標本から結合分布(X, D)を得るための最尤関数は次の式で表されます。(xj , dj)

ここで、f(xj)は、平均が で標準偏差が である正規密度関数(Drasgow 1986)です。

ρ ρ

μ σ2 ρ

τ1 τ2 τK 1–

μ σ

Page 32: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

28 第 2章 : CORRプロシジャ

X=xjにおけるYの条件付き分布は、平均が で分散が1– の正規分布になります。ここで、zj= (xj – ) / は標準正規変量です。一般性を失うことなく、変数Yは標準正規分布に従うと仮定します。その場合、Dのdj = d(k)番目の順序値でkthならば、結果として得られる密度は次のようになります。

ここで、 は累積正規分布関数です。

Cox (1974)は、すべてのパラメータ 、 、 および , ... , の最尤推定値を導きます。 および の最尤推定値は明示的に導けます。 の最尤推定値は標本平均となり、 の最尤推定値は標本分散となります。

残りのパラメータ(ポリシリアル相関 およびしきい値 , ... , を含む)の最尤推定値を計算するには、Cox (1974)に提唱された反復手順を使用します。 の最尤推定値の漸近標準誤差は、この手順の後に計算できます。

パラメータのベクトルとして、情報行列はHessian行列(対数尤度に関する第2次導関数の行列)の負定値となります。この行列は、これらのパラメータの最尤推定値の計算に使用されます。CORRプロシジャは、観測された情報行列(現在のパラメータ推定値で評価された情報行列)を使用して計算を行います。最尤推定値の導出後、これらのパラメータ推定値の漸近共分散行列が、観測された情報行列(最尤推定値で評価された情報行列)の逆行列として計算されます。

確率値

CORRプロシジャは、ポリシリアル相関がゼロであるかどうかを判定するために、Wald検定と尤度比(LR)検定という2種類の検定を計算します。

ポリシリアル相関の最尤推定値が で、その漸近標準誤差がStdErr( )である場合、Waldカイ2乗検定統計量は次の式で計算されます。

Wald統計量は、自由度が1の漸近カイ2乗分布に従います。

LR検定の場合、ポリシリアル相関がゼロであると仮定する最尤関数も必要となります。 =0である場合、この尤度関数は次のようにまとめられます。

この場合、すべてのパラメータの最尤推定値を明示的に導けます。 の最尤推定値は標本平均となり、 の最尤推定値は標本分散となります。

ρzj ρ2 μ σ

Φ

μ σ ρ τ1 τK 1– μ σ2

μ σ2

ρ τ1 τK 1–ρ

ρ ρ

ρ

μ σ2

Page 33: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 29

また、しきい値 , k=1, …, K–1の最尤推定値は次の式で表されます。

ここで、ngは順序変数Dのgth 番目の順序グループにおけるオブザベーション数であり、 はオブザベーションの総数です。

LR検定統計量は次のように計算されます。

ここで、L1は、全パラメータの最尤推定値を使用する尤度関数です。L0 は、ポリシリアル相関を除く全パラメータの最尤推定値を使用する尤度関数であり、0に設定されます。LR統計量も、自由度が1の漸近カイ2乗分布に従います。

Cronbachのアルファ係数

仕事の満足度、運度能力、感覚認識、顧客満足度などの潜在的な構成概念を分析するには、対象となる構成概念を正確に測定するための手段が必要となります。相互に関連する項目を合計することにより、各関与者の全体的なスコアを取得できます。Cronbachのアルファ係数は、検定の内的整合性や検定内の項目の平均相関を判定することにより、この種類の尺度の信頼性を推定します(Cronbach 1951)。

値を記録する場合、観測値にはある程度の測定誤差が含まれています。同一個体の同一変数に関する測定を2回行った場合、測定値が同じ値になるとは限りません。ただし、一連の個体に関して測定を繰り返すことで、ある程度の整合性が示されます。信頼性とは、ある測定値と別の測定値の間の内的整合性を測定する指標です。観測値Yは、真の値Tと測定誤差Eという2つの構成要素に分割されます。測定誤差は、真の値とは独立であると仮定します。これは次の式で表されます。

測定の信頼係数は、観測値Yと真の値T間の相関係数の2乗として定義されます。これは、次の式で表されます。

これは、標本内の個体間の真の差異に起因する観測された分散の割合になります。Yが同じ特徴を測定する複数の観測変数の合計である場合、V(T)を推定できます。Cronbachのアルファ係数は、V(T)の下限値に基づく信頼係数の推定値です。

p変数をYj=Tj+Ej(j=1,2 ,..., p)で使用するとします。ここで、Yjは観測値、Tjは真の値、Ejは測定誤差です。測定誤差(Ej)と真の値(Tj)とは互いに独立です。 を観測スコアの合計とし、 を真のスコアの合計とします。次の式が成り立つため、

τK

Page 34: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

30 第 2章 : CORRプロシジャ

V(T0)の下限値は次の式により与えられます

(ここで、Cov(Yi,Yj)=Cov(Ti,Tj) )が成り立つ場合、信頼係数の下限値V(T0)/V(Y0)はCronbachのアルファ係数により与えられます。

項目の分散が大きく異なる場合、アルファ係数を計算する前に、標準偏差が1となるようにそれらの項目を標準化します。変数が(0,1)に2分される場合、アルファ係数はKuder-Richardson 20 (KR-20)の信頼性測定値に等しくなります。

各変数ペア間の相関が1である場合、アルファ係数の値は最大値である1になります。一部の変数間に負の相関が存在する場合、アルファ係数はゼロより小さい値となります。全体的なアルファ係数の値が大きいほど、項目が信頼性の高い尺度を構成する可能性が高くなります。Nunnally and Bernstein (1994)は、受け入れ可能な信頼係数の値として0.70を推奨しています。この値よりも小さい信頼係数は不適切であると見なされます。

ただし、この推奨値は分野により異なります。各項目が尺度の信頼性をどのように反映するかを判定するには、尺度とは独立に各変数を削除した後、アルファ係数を計算します。すべての変数(ただしk番目の変数を除く)を使用したCronbachのアルファ係数は次の式で表されます。

ある項目を尺度から取り除いた後に信頼係数が上昇する場合、その項目は尺度内の他の項目との高い相関がないものと仮定できます。逆に、信頼係数が低下する場合、その項目は尺度内の他の項目との高い相関があるものと仮定できます。Cronbachのアルファ係数の解釈方法に関する詳細は、Yu (2001)を参照してください。

Cronbachのアルファ係数を正確に計算するには、欠損値を持つオブザベーションのリストワイズ削除が必要となります。ALPHAを指定した場合、CORRプロシジャはリストワイズ削除を自動的には使用しません。このため、データセットに欠損値が含まれている場合、NOMISSオプションを指定する必要があります。そうでない場合、CORRプロシジャは、ALPHAオプションと共にNOMISSオプションを使用するように伝える警告メッセージを表示します。

信頼楕円と予測楕円

2つの変数間の関係が非線形である場合、または外れ値が存在する場合、この相関係数は関係の強度を誤って推定することがあります。データをプロットすることにより、線形関係を検証し、潜在的な外れ値を特定できます。

PARTIALステートメントで変数を補正した後の2変数間の偏相関は、影響を除外したい変数(コントロール変数)に関する2変数の線形回帰の残差間の相関に等しくなります。このため、PARTIALステートメントを指定した場合、分析変数の残差が散布図行列および散布図に表示されます。

CORRプロシジャはオプションで、散布図内の変数ペアごとに2種類の楕円を提供します。1つは母集団平均の信頼楕円であり、もう1つは新しいオブザベーションに関する予測楕円です。両方とも、2変量正規分布を仮定します。

i j≠

Page 35: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 31

およびSを、平均が 共分散行列が である2変量正規分布から抽出したランダムな標本サイズnに関する標本平均および標本共分散行列とします。変数 は、平均がゼロで共分散が(1/n) の2変量正規変数として分布され、Sとは独立になります。次の式で定義されるHotellingのT2統計量を使用すると、

100(1– )%に関する の信頼楕円は、次の式により計算されます。

ここで、F2,n-2(1– )は、自由度2およびn–2を持つF分布の(1– )臨界値です。

予測楕円とは、母集団内の新しいオブザベーションを予測するための領域です。またこれは、母集団の指定した割合を含む領域に近似します。

新しいオブザベーションを、2変量ランダム変数Znewとして表します。次の変数

は平均がゼロ(ゼロベクトル)で共分散が(1+1/n) の2変量正規変数として分布され、Sとは独立になります。この場合、100(1– )%の予測楕円は次の式で表されます。

分布の様々な臨界値により生成される楕円のファミリは、F共通の中心(標本平均)および共通の長軸方向と短軸方向を持ちます。

楕円の形状は、プロットの縦横比に依存します。2変数をそれぞれの標準偏差で除算することにより変数を標準化している場合、楕円はこれら2変数間の相関を示します。この場合、長軸長および短軸長間の比は次の式で表されます。

特に、r=0の場合、この比は1となります。これは、環状の信頼線に対応し、2変数が無相関であることを意味します。この比の値が大きいほど、2変数間に大きな正または負の相関があることを意味します。

欠損値

CORRプロシジャは、欠損値があるオブザベーションをWEIGHT変数やFREQ変数から除外します。オブザベーションに欠損値が含まれている場合、CORRプロシジャはデフォルトでペアワイズ削除を実施します。CORRプロシジャは、各変数ペアの欠損値でないすべての値ペアを統計量計算に含めます。このため、相関統計量は、様々なオブザベーション数に基づく場合があります。

NOMISSオプションを指定すると、CORRプロシジャは、VARステートメント変数またはWITHステートメント変数が欠損値である場合、リストワイズ削除を使用します。CORRプロシジャは、欠損値を含んでいるすべてのオブザベーションを分析から除外します。このため、各変数ペアのオブザベーションの数は同じになります。

PARTIALステートメントは、NOMISSオプションを自動的に呼び出すことにより、欠損値を含んでいるオブザベーションを常に除外します。NOMISSオプションを使用すると、必要なリソース量が少なくて済むため、データをより効率的に処理できます。また、結果として生成される相関行列は非負定値になります。

Z μ ΣZ Σ– Σ

α μ

α α

Σα

Page 36: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

32 第 2章 : CORRプロシジャ

これに対して、データセットの分析変数に欠損値が含まれている場合にNOMISSオプションを指定しないと、結果として生成される相関行列は非負定値にならないことがあります。この結果、相関を回帰またはその他のプロシジャの入力として使用しない場合には、統計の手法として計算上の問題が生じる可能性があります。

In-Database計算

DATA=に指定した入力データセットがデータベース管理システム(DBMS)内のテーブルとして格納される場合、CORRプロシジャは、In-Database計算を使用して単変量統計量とSSCP行列を計算します。CORRプロシジャでDATA=データセットのIn-Database計算を実行すると、単変量統計量およびSSCP行列の要約テーブルを計算するSQLクエリが生成されます。このクエリはDBMSへと渡され、データベース内で実行されます。続いて、このクエリの結果がSAS Systemに戻され、CORRプロシジャへと送られます。その後、CORRプロシジャは、これらの要約テーブルを使用して、通常の方法で(すなわちデータベースの外で)残りのタスク(相関行列や共分散行列の作成など)を実行します。

In-Database計算を行うことで、より高速な処理を実現し、データベースとSASソフトウェア間のデータ転送量を削減できます。In-Database計算の詳細は、SAS/ACCESS for Relational Databases: Referenceの”In-Database Procedures"のセクションを参照してください。In-Database計算では、ネットワークを介してデータベースとSAS間でデータセット全体をやり取りするのでははなく、要約テーブルのみをやり取りします。これにより、要約テーブルの次元数(行と列の数)がデータベーステーブル全体の次元数(個々のオブザベーション数)よりもはるかに小さい場合に処理時間を大幅に削減できます。また、In-Database要約は、効率的な並列処理を使用し、パフォーマンス上の利点も提供します。

デフォルトでは、CORRプロシジャは可能な限りIn-database計算を使用します。In-database計算を使用する場合、EXCLNPWGTオプションが有効になり、正でない重みを持つオブザベーションが除外されます。IDステートメントは行レベルのアクセスを必要とするため、In-database計算では使用できません。また、HOEFFDING、KENDALL、SPEARMAN、OUTH=、OUTK=、OUTS=、PLOTS=の各オプションも行レベルのアクセスを必要とするため、In-database計算では使用できません。

In-Database 計算を制御するには、LIBNAME ステートメントまたは OPTIONS ステートメントでSQLGENERATIONオプションを使用します。In-Database計算に影響するSQLGENERATIONオプションおよびその他のオプションの詳細については、SAS/ACCESS for Relational Databases: Referenceの”In-Database Procedures"を参照してください。CORRプロシジャには、In-Database計算を制御するオプションはありません。

オブザベーションの順番は、DBMSテーブルでは本質的に定義されません。次に示すオプションはオブザベーションの順番に関連するものであるため、In-Database計算を行うCORRプロシジャでは指定できません。

• FIRSTOBS=またはOBS=データセットオプションを指定すると、CORRプロシジャは In-Database計算を実行しません。

• BYステートメントでNOTSORTEDオプションを指定すると、CORRプロシジャの In-Database計算は同オプションを無視し、BY変数に関してデフォルトの昇順を使用します。

注:CORRプロシジャで In-database計算を実行するには、SAS Analytics Acceleratorをインストールする必要があります。

Page 37: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 33

出力テーブル

デフォルトでは、CORRプロシジャは、各変数の記述統計量と相関統計量を含むレポートを出力します。記述統計量には、欠損値を含んでいないオブザベーションの数、平均、標準偏差、最小値、最大値が含まれます。

連関性のノンパラメトリックな測定が要求された場合、記述統計量には中央値が含められます。それ以外の場合、標本合計が含められます。Pearsonの偏相関が要求された場合、記述統計量には偏分散と偏標準偏差も含められます。

変数ラベルが利用可能な場合、CORRプロシジャは変数をラベル付けします。CSSCP、SSCP、COVの各オプションのいずれかを指定した場合、平方和と交差積および共分散行列が相関レポートの最上部に表示されます。データセットに欠損値が含まれている場合、CORRプロシジャは、各変数ペアに関して追加の統計量を出力します。これらの統計量は、欠損値でない行変数値および列変数値から計算されるものであり、次のものを含みます。

• SSCP(’W’,’V’)、無修正平方和と交差積• USS(’W’)、行変数の無修正平方和• USS(’V’)、列変数の無修正平方和• CSSCP(’W’,’V’)、修正平方和と交差積• CSS(’W’)、行変数の修正平方和• CSS(’V’)、列変数の修正平方和• COV(’W’,’V’)、共分散• VAR(’W’)、行変数の分散• VAR(’V’)、列変数の分散• DF(’W’,’V’)、共分散や分散の計算に使用する分母

各変数ペアに関して、CORRプロシジャは、相関係数、同係数の計算に使用したオブザベーション数、p値を出力します。

ALPHAオプションを指定した場合、CORRプロシジャは、未加工の変数と標準化された変数に対して、Cronbachのアルファ係数、変数と残りの変数の合計との相関、および残りの変数を使用したCronbachのアルファ係数を出力します。

出力データセット

OUTP=、OUTS=、OUTK=、OUTH=の各オプションを指定すると、CORRプロシジャは、Pearsonの相関、Spearmanの相関、KendallのTau-b、HoeffdingのDの各統計量を含む出力データセットを作成します。デフォルトでは、出力データセットは、REG プロシジャや FACTOR プロシジャを含む多くのSAS/STATプロシジャにより認識される特殊なデータセットの種類(TYPE=CORR)になります。NOCORRオプションと、COV、CSSCP、SSCPオプションのいずれかを組み合わせて指定する場合、TYPE=データセットオプションを使用してデータセットの種類をCOV、CSSCP、SSCPに変更します。

出力データセットには次の変数が含まれます。• BY変数、BYステートメントを使用する場合の BYグループを表します• _TYPE_変数、オブザベーションの種類を表します• _NAME_変数、相関行列の指定の行に対応する変数を表します• INTERCEPT変数、SSCPを指定した場合の変数の合計を表します

Page 38: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

34 第 2章 : CORRプロシジャ

• VAR変数、VARステートメントに指定された変数を表します

_TYPE_変数と_NAME_変数を組み合わせて使用することで、オブザベーションの内容を特定できます。_NAME_変数は、オブザベーションが対応する相関行列の行を表します。_TYPE_変数の値は次のいずれかになります。

• SSCP、無修正平方和と交差積• CSSCP、修正平方和と交差積• COV、共分散• MEAN、各変数の平均• STD、各変数の標準偏差• N、各変数での欠損値でないオブザベーションの数• SUMWGT、WEIGHTステートメント使用時の各変数の重みの合計• CORR、各変数の相関統計量

SSCPオプションを指定すると、OUTP=に指定したデータセットには、切片値を含むオブザベーションが追加されます。ALPHAオプションを指定すると、OUTP=に指定したデータセットには、次に示す_TYPE_値を含むオブザベーションが含められます。

• RAWALPHA、未加工の変数の Cronbachのアルファ係数• STDALPHA、標準化変数の Cronbachのアルファ係数• RAWALDEL、1つの変数を削除した後の未加工の変数の Cronbachのアルファ係数• STDALDEL、1つの変数を削除した後の標準化変数の Cronbachのアルファ係数• RAWCTDEL、1つの未加工の変数とそれ以外の未加工の変数の合計との間の相関• STDCTDEL、1つの標準化変数とそれ以外の標準化変数の合計との間の相関

PARTIALステートメントを使用すると、変数への影響を除外した上で統計量が計算されます。CORRプロシジャでPearsonの相関統計量を計算すると、OUTP=、OUTK=、OUTS=に指定されたデータセットでは、MEANはゼロに等しくなり、STDは偏分散に関連付けられた偏標準偏差に等しくなります。それ以外の場合、CORRプロシジャは、MEANおよびSTDに欠損値を割り当てます。

ODSテーブル名

CORRプロシジャは、同プロシジャが作成する各テーブルに名前を割り当てます。ODS (Output DeliverySystem)を使用する場合、これらの名前を使用してテーブルを参照する必要があります。これらの名前は、表2.3および表2.4に示されています。ODSの詳細については、SAS/STAT 14.1 User's GuideのChapter20: Using the Output Delivery System を参照してください。

表 2.3 CORRプロシジャにより作成される ODSテーブル

ODSテーブル名 説明 オプション

Cov 共分散 COV

CronbachAlpha アルファ係数 ALPHA

CronbachAlphaDel 削除変数を持つアルファ係数 ALPHA

Csscp 修正平方和と交差積 CSSCP

Page 39: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : CORRプロシジャ 35

FisherPearsonCorr Pearson相関統計量Fisherのz変換

FISHER

FisherSpearmanCorr Spearman相関統計量Fisherのz変換

FISHER SPEARMAN

HoeffdingCorr HoeffdingのD統計量 HOEFFDING

KendallCorr KendallのTau-b係数 KENDALL

PearsonCorr Pearsonの相関 PEARSON

PolychoricCorr ポリコリック相関 POLYCHORIC

PolyserialCorr ポリシリアル相関 POLYSERIAL

SimpleStats 単純記述統計量

SpearmanCorr Spearmanの相関 SPEARMAN

Sscp 平方和と交差積 SSCP

VarInformation 各種情報

表 2.4 PARTIALステートメントにより作成される ODSテーブル

ODSテーブル名 説明 オプション

FisherPearsonPartialCorr Pearson偏相関統計量Fisherのz変換の使用

FISHER

FisherSpearmanPartialCorr Spearmanの偏相関統計量Fisherのz変換の使用

FISHER SPEARMAN

PartialCsscp 偏修正平方和

と交差積

CSSCP

PartialCov 偏共分散 COV

PartialKendallCorr Kendallの偏Tau-b係数 KENDALL

PartialPearsonCorr Pearsonの偏相関

PartialSpearmanCorr Spearmanの偏相関 SPEARMAN

表 2.3 CORRプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 オプション

Page 40: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

36 第 2章 : CORRプロシジャ

ODS Graphics

統計プロシジャは、ODS Graphicsを使用して、その出力に含まれるグラフを作成します。ODS Graphicsの詳細は、Chapter 21: Statistical Graphics Using ODS(SAS/STAT 14.1 User's Guide)を参照してください。

グラフを作成する前に、ODS Graphicsを有効にする必要があります(たとえば、ODS GRAPHICS ONステートメントを使用する)。ODS Graphicsを有効化/無効化する方法の詳細は、上記の章に含まれている"Enabling and Disabling ODS Graphics"のセクションを参照してください。

グラフの全体的な外観は、ODSスタイルにより制御されます。ODSスタイルやODS Graphicsのその他の使用法については、上記の章に含まれている"A Primer on ODS Statistical Graphics"のセクションを参照してください。

CORRプロシジャは、同プロシジャがODSを使って作成する各グラフに名前を割り当てます。ODSを使用する場合、これらの名前を使用することでグラフを参照できます。グラフを参照するには、ODS Graphicsを有効にした上で、表2.5に示されているオプションを指定する必要があります。

例 : CORRプロシジャ

例 2.1 種類の連関性の統計量を計算

この例では、記述統計量と4種類の連関性の統計量を含む相関分析を実施します。これには、Pearsonの積率相関、Spearmanの順位相関、KendallのTau-b係数、Hoeffdingの従属統計量Dが含まれます。

Fitnessデータセットは「入門ガイド: CORRプロシジャ」(5ページ)のセクションで作成されたものであり、これには31名の参加者の体力調査から得られた測定値が含まれています。次のステートメントは、変数Weight、Oxygen、Runtimeの4種類の連関性の統計量すべてを計算します。

ods graphics on;

title 'Measures of Association for a Physical Fitness Study';

proc corr data=Fitness pearson spearman kendall hoeffding

plots=matrix(histogram);

var Weight Oxygen RunTime;

run;

3つのノンパラメトリック相関(SPEARMAN、KENDALL、HOEFFDING)がどれも指定されない場合、デフォルトで Pearson の相関が計算されます。それ以外の場合、Pearson の相関を計算するには、PEARSONオプションを明示的に指定する必要があります。

表 2.5 CORRプロシジャにより作成される ODSテーブル

ODS Graph名 プロットの説明 オプション

ScatterPlot 散布図 PLOTS=SCATTER

MatrixPlot 散布図行列 PLOTS=MATRIX

Page 41: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 37

出力2.1.1の表"Simple Statistics"には、分析変数の単変量統計量が示されています。デフォルトでは、変数の値が欠損値でないオブザベーションを使用して、その変数の単変量統計量が得られます。連関性のノンパラメトリック統計量を指定した場合、追加の記述統計量として、合計ではなく中央値が表示されます。

出力 2.1.1 Simple Statistics

Measures of Association for a Physical Fitness Study

The CORR Procedure

出力2.1.2の表"Pearson Correlation Coefficients"には、分析変数ペアのPearsonの相関統計量が示されています。Pearsonの相関は、2つの連続ランダム変数の連関性のパラメトリックな統計量です。欠損データが存在する場合、相関の計算に使用されるオブザベーション数が異なることがあります。

出力 2.1.2 Pearson Correlation Coefficients

この表では、RuntimeとOxygen間のPearson相関が–0.86843であり、これはp値が0.0001未満で有意であることを示しています。これは2変数間に強い負の線形相関があることを意味します。Runtimeが増加すると、Oxygenは直線的に減少します。

3 Variables: Weight Oxygen RunTime

Simple Statistics

Variable N Mean Std Dev Median Minimum Maximum

Weight 31 77.44452 8.32857 77.45000 59.08000 91.63000

Oxygen 29 47.22721 5.47718 46.67200 37.38800 60.05500

RunTime 29 10.67414 1.39194 10.50000 8.17000 14.03000

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Weight Oxygen RunTime

Weight 1.00000

31

–0.153580.4264

29

0.200720.2965

29

Oxygen –0.153580.4264

29

1.00000

29

–0.86843<.0001

28

RunTime 0.200720.2965

29

–0.86843<.0001

28

1.00000

29

Page 42: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

38 第 2章 : CORRプロシジャ

Spearmanの順位相関は、データ値の順位に基づいて計算される連関性のノンパラメトリックな統計量です。出力2.1.3の表"Spearman Correlation Coefficients"の内容は、出力2.1.2の表"Pearson CorrelationCoefficients"の内容と同様になります。

出力 2.1.3 Spearman Correlation Coefficients

KendallのTau-bは、ペアのオブザベーション内の一致と不一致の数に基づく連関性のノンパラメトリックな統計量です。出力2.1.4の表"Kendall Tau b Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。

出力 2.1.4 Kendall’s Tau-b Correlation Coefficients

Spearman Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Weight Oxygen RunTime

Weight 1.00000

31

–0.068240.7250

29

0.137490.4769

29

Oxygen –0.068240.7250

29

1.00000

29

–0.80131<.0001

28

RunTime 0.137490.4769

29

–0.80131<.0001

28

1.00000

29

Kendall Tau b Correlation CoefficientsProb > |tau| under H0: Tau=0

Number of Observations

Weight Oxygen RunTime

Weight 1.00000

31

–0.009880.9402

29

0.066750.6123

29

Oxygen –0.009880.9402

29

1.00000

29

–0.62434<.0001

28

RunTime 0.066750.6123

29

–0.62434<.0001

28

1.00000

29

Page 43: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 39

Hoeffdingの従属統計量Dは、より一般的な独立性からの乖離を測る、連関性のノンパラメトリックな統計量です。変数にタイが存在しない場合、D統計量は–0.5から1までの間で変化します。ここで、1は完全従属を意味します。それ以外の場合、D 統計量はより小さな値となります。出力 2.1.5 の表 "HoeffdingDependence Coefficients"に、Hoeffdingの従属統計量を示します。変数Weightにタイが存在するため、Weight変数のD統計量は1未満になります。

出力 2.1.5 Kendall’s Tau-b Correlation Coefficients

PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、VARステートメントに指定された分析変数の対称行列プロット(出力2.1.6)を表示します。

Hoeffding Dependence CoefficientsProb > D under H0: D=0Number of Observations

Weight Oxygen RunTime

Weight 0.97690<.0001

31

–0.004970.5101

29

–0.023551.0000

29

Oxygen –0.004970.5101

29

1.00000

29

0.23449<.0001

28

RunTime –0.023551.0000

29

0.23449<.0001

28

1.00000

29

Page 44: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

40 第 2章 : CORRプロシジャ

出力 2.1.6 対称散布図行列

OxygenとRuntime間に強い負の線形相関があることが、出力2.1.6から明らかです。

このグラフ表示を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODSGraphicsの詳細については、SAS/STAT 14.1 User's GuideのChapter 21: Using the Output DeliverySystem を参照してください。

Page 45: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 41

例 2.2 変数の 2つの組み合わせの相関を計算

次のステートメントは、データセットSetosaを作成します。このデータセットには、Fisher’s iris data(1936)からの4種類のデータ(萼片長、萼片幅、花弁長、花弁幅)が含まれます。このデータセットは、複数の欠損値を含むように変更されています。

*-------------------- Data on Iris Setosa -------------------*

| The data set contains 50 iris specimens from the species |

| Iris Setosa with the following four measurements: |

| SepalLength (sepal length) |

| SepalWidth (sepal width) |

| PetalLength (petal length) |

| PetalWidth (petal width) |

| PCertain values were changed to missing for the analysis.|

*------------------------------------------------------------*;

data Setosa; input SepalLength SepalWidth PetalLength PetalWidth @@; label sepallength='Sepal Length in mm.'

sepalwidth='Sepal Width in mm.'petallength='Petal Length in mm.'petalwidth='Petal Width in mm.';

datalines; 50 33 14 02 46 34 14 03 46 36 . 02 51 33 17 05 55 35 13 02 48 31 16 02 52 34 14 02 49 36 14 01 44 32 13 02 50 35 16 06 44 30 13 02 47 32 16 02 48 30 14 03 51 38 16 02 48 34 19 02 50 30 16 02 50 32 12 02 43 30 11 .58 40 12 02 51 38 19 04 49 30 14 02 51 35 14 02 50 34 16 04 46 32 14 02 57 44 15 04 50 36 14 02 54 34 15 04 52 41 15 . 55 42 14 02 49 31 15 02 54 39 17 04 50 34 15 02 44 29 14 02 47 32 13 02 46 31 15 02 51 34 15 02 50 35 13 03 49 31 15 01 54 37 15 02 54 39 13 04 51 35 14 03 48 34 16 02 48 30 14 01 45 23 13 03 57 38 17 03 51 38 15 03 54 34 17 02 51 37 15 04 52 35 15 02 53 37 15 02 ;

次のステートメントは、萼片の測定値(長さと幅)と花弁の測定値(長さと幅)という2種類の変数の組み合わせ間の相関分析を要求します。

ods graphics on;

title 'Fisher (1936) Iris Setosa Data';

proc corr data=Setosa sscp cov plots=matrix;

var sepallength sepalwidth;

with petallength petalwidth;

run;

Page 46: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

42 第 2章 : CORRプロシジャ

出力2.2.1の表"Simple Statistics"に、VARステートメントとWITHステートメントの変数の単変量統計量を示します。

出力 2.2.1 Simple Statistics

Fisher (1936) Iris Setosa Data

The CORR Procedure

WITHステートメントとVARステートメントを組み合わせて指定すると、CORRプロシジャは、共分散や相関などの統計量を表す矩形行列を作成します。この行列の行はWITH変数(PetalLengthとPetalWidth)に、この行列の列はVAR変数(SepalLengthとSepalWidth)にそれぞれ対応しています。CORRプロシジャは、WITH変数のラベルを使用して、この行列の列をラベル付けします。

SSCPオプションを指定すると、無修正平方和と交差積行列の表が作成されます。COVオプションを指定すると、共分散行列の表が作成されます。SSCPオプションおよびCOVオプションを指定すると、Pearson相関の表も作成されます。

各変数ペアの平方和と交差積統計量は、欠損値でない行と列の変数値を持つオブザベーションを使用して計算されます。出力2.2.2の表"Sums of Squares and Crossproducts"には、各変数ペアの交差積、行変数の平方和、列変数の平方和が示されています。

出力 2.2.2 Sums of Squares and Crossproducts

2 With Variables: PetalLength PetalWidth

2 Variables: SepalLength SepalWidth

Simple Statistics

Variable N Mean Std Dev 合計 Minimum Maximum Label

PetalLength 49 14.71429 1.62019 721.00000 11.00000 19.00000 Petal Length in mm.

PetalWidth 48 2.52083 1.03121 121.00000 1.00000 6.00000 Petal Width in mm.

SepalLength 50 50.06000 3.52490 2503 43.00000 58.00000 Sepal Length in mm.

SepalWidth 50 34.28000 3.79064 1714 23.00000 44.00000 Sepal Width in mm.

Sums of Squares and CrossproductsSSCP / Row Var SS / Col Var SS

SepalLength SepalWidth

PetalLengthPetal Length in mm.

36214.0000010735.00000123793.0000

24756.0000010735.00000

58164.0000

PetalWidthPetal Width in mm.

6113.00000355.00000

121356.0000

4191.00000355.00000

56879.0000

Page 47: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 43

分散は、欠損値でない行および列変数値を持つオブザベーションを使用して計算されます。出力2.2.3の表"Variances and Covariances"には、各変数ペアの共分散、行変数の分散、列変数の分散、関連付けられている自由度が示されています。

出力 2.2.3 ariances and Covariances

分析変数に欠損値が存在する場合、出力2.2.4の表"Pearson Correlation Coefficients"には、相関がゼロの帰無仮説の下のp値と、各変数ペアのオブザベーションの数が表示されています。PetalWidthとSepalLength間の相関と、PetalWidthとSepalWidth間の相関のみがわずかに正となります。

出力 2.2.4 Pearson Correlation Coefficients

ODS Graphicsを有効にしている場合、PLOTS=オプションを指定するとデフォルトで散布図行列が表示されます。出力2.2.5には、2つの変数の組み合わせの矩形散布図行列が表示されています。VAR変数であるSepalLengthとSepalWidthが行列の最上位行に表示され、WITH変数であるPetalLengthとPetalWidthが行列の左端列に表示されます。出力 2.2.4 では、PetalWidth と SepalLength の散布図と、PetalWidth とSepalWidthの散布図によっても、わずかに正の相関が存在することが示されています。

Variances and CovariancesCovariance / Row Var Variance / Col Var Variance / DF

SepalLength SepalWidth

PetalLengthPetal Length in mm.

1.2708333332.62500000012.33333333

48

1.3630952382.62500000014.60544218

48

PetalWidthPetal Width in mm.

0.9113475181.06338652511.80141844

47

1.0483156031.06338652513.62721631

47

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

SepalLength SepalWidth

PetalLengthPetal Length in mm.

0.223350.1229

49

0.220140.1285

49

PetalWidthPetal Width in mm.

0.257260.0775

48

0.275390.0582

48

Page 48: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

44 第 2章 : CORRプロシジャ

出力 2.2.5 矩形散布図

このグラフ表示を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODSGraphicsの詳細については、SAS/STAT 14.1 User's GuideのChapter 21: Using the Output DeliverySystem を参照してください。

Page 49: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 45

例 2.3 Fisherの z変換を使用した分析

次のステートメントは、データセットFitnessに関してFisherのz変換を使用することにより、Pearsonの相関統計量を計算します。

proc corr data=Fitness nosimple fisher; var weight oxygen runtime;

run;

NOSIMPLEオプションを指定すると、単変量記述統計の表が表示されなくなります。デフォルトでは、CORRプロシジャは、出力2.3.1の表"Pearson Correlation Coefficients"を表示します。

出力 2.3.1Pearson Correlation Coefficients

The CORR Procedure

FISHERオプションを指定すると、CORRプロシジャは、出力2.3.2のようなFisherのz変換を使用した相関統計量を表示します。

出力 2.3.2 Fisherのz変換を使用した相関統計量

この表には、デフォルトの帰無仮説 : の下での信頼限界とp値も示されています。Fisherのz変換に関する詳細は、「Fisherのz変換」(24ページ)のセクションを参照してください。

次のステートメントは、Fisherのz変換を使用して相関の片側仮説検定と信頼限界を計算します。

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Weight Oxygen RunTime

Weight 1.00000

31

–0.153580.4264

29

0.200720.2965

29

Oxygen –0.153580.4264

29

1.00000

29

–0.86843<.0001

28

RunTime 0.200720.2965

29

–0.86843<.0001

28

1.00000

29

Pearson Correlation Statistics (Fisher's z Transformation)

VariableWith Variable N

SampleCorrelation Fisher's z

BiasAdjustment

CorrelationEstimate 95% Confidence Limits

p Value forH0:Rho<=0

Weight Oxygen 29 –0.15358 –0.15480 –0.00274 –0.15090 –0.490289 0.228229 0.4299

Weight RunTime 29 0.20072 0.20348 0.00358 0.19727 –0.182422 0.525765 0.2995

Oxygen RunTime 28 –0.86843 –1.32665 –0.01608 –0.86442 –0.935728 –0.725221 <.0001

H0 ρ ρ0=

Page 50: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

46 第 2章 : CORRプロシジャ

proc corr data=Fitness nosimple nocorr fisher (type=lower); var weight oxygen runtime;

run;

NOSIMPLEオプションを指定すると、表"Simple Statistics"が表示されなくなります。NOCORRオプションを指定すると、表"Pearson Correlation Coefficients"が表示されなくなります。

出力2.3.3には、Fisherのz変換を使用した相関統計量が示されています。

出力 2.3.3 Fisherのz変換を使用した片側相関分析The CORR Procedure

FISHER(TYPE=LOWER)オプションを指定すると、対立仮説 : に対する片側仮説 : の下での下側信頼限界とp値が計算されます。ここで、Fisherのz、バイアス調整、相関の推定値は、両側対立仮説と同じであるとします。ただし、TYPE=LOWERが指定されているため、各相関の下側信頼限界のみが計算され、片側p値が計算されます。

例 2.4 Fisherの z変換の応用

この例では、Fisherのz変換の応用を示します。詳細は、「Fisherのz変換」(24ページ)のセクションを参照してください。

次のステートメントは、2変量正規分布から抽出した変数XとYの独立した標本をシミュレートします。150個のオブザベーションからなる最初のまとまりは、既知の相関0.3を使用して標本化されます。150個のオブザベーションからなる2番目のまとまりは既知の相関0.25を使用して標本化され、100のオブザベーションからなる3番目のまとまりは既知の相関0.3を使用して標本化されます。

data Sim (drop=i); do i=1 to 400;

X = rannor(135791); Batch = 1 + (i&gt;150) + (i&gt;300); if Batch = 1 then Y = 0.3*X + 0.9*rannor(246791); if Batch = 2 then Y = 0.25*X + sqrt(.8375)*rannor(246791); if Batch = 3 then Y = 0.3*X + 0.9*rannor(246791); output;

end; run;

このデータセットを使用して、Fisherのz変換の次のような応用を示します。• 母集団相関が指定の値に等しいかどうかのテスト• 2つの母集団相関が等しいかどうかのテスト• 異なる標本から計算した相関推定値の結合

Pearson Correlation Statistics (Fisher's z Transformation)

VariableWith Variable N

SampleCorrelation Fisher's z

BiasAdjustment

CorrelationEstimateLower 95% CL

p Value forH0:Rho<=0

Weight Oxygen 29 –0.15358 –0.15480 –0.00274 –0.15090 –0.441943 0.7850

Weight RunTime 29 0.20072 0.20348 0.00358 0.19727 –0.122077 0.1497

Oxygen RunTime 28 –0.86843 –1.32665 –0.01608 –0.86442 –0.927408 1.0000

H1 ρ 0> H0 ρ 0≤

Page 51: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 47

母集団相関が指定の値に等しいかどうかのテストρ0

次のステートメントを使用すると、両側対立仮説 : に対する帰無仮説 : の検定を実施できます。この検定は、オプションFISHER(RHO0=0.5)を使用して要求します。

title 'Analysis for Batch 1'; proc corr data=Sim (where=(Batch=1)) fisher(rho0=.5);

var X Y; run;

出力2.4.1に、Fisherの変換に基づく結果を示します。p値が0.0001未満であるため、この帰無仮説は棄却されます。

出力 2.4.1 Fisherの検定 :Analysis for Batch 1

The CORR Procedure

2つの母集団相関が等しいかどうかのテスト

次のステートメントを使用すると、2つの母集団相関 と が等しいかどうかをテストできます。ここでは、帰無仮説 : を、対立仮説 : に対してテストします。

ods output FisherPearsonCorr=SimCorr; title 'Testing Equality of Population Correlations'; proc corr data=Sim (where=(Batch=1 or Batch=2)) fisher;

var X Y; by Batch;

run;

ODS OUTPUTステートメントは、表"FisherPearsonCorr"を、CORRプロシジャの出力データセット内に保存します。出力データセットSimCorrには、両方のまとまりに関するFisherのz統計量が含まれます。

次のステートメントは、出力2.4.2のように、出力データセットSimCorrを表示します。

proc print data=SimCorr; run;

出力 2.4.2 Fisherの相関統計量

Pearson Correlation Statistics (Fisher's z Transformation)

H0:Rho=Rho0

VariableWith Variable N

SampleCorrelation Fisher's z

BiasAdjustment

CorrelationEstimate 95% Confidence Limits Rho0 p Value

X Y 150 0.22081 0.22451 0.0007410 0.22011 0.062034 0.367409 0.50000 <.0001

H1 ρ 0.5≠ H0 ρ 0.5=

H0 ρ ρ0=

Obs BatchVar WithVar NObs Corr ZVal BiasAdj CorrEst Lcl Ucl pValue

1 1X Y 150 0.22081 0.22451 0.0007410 0.22011 0.062034 0.367409 0.0065

2 2X Y 150 0.33694 0.35064 0.00113 0.33594 0.185676 0.470853 <.0001

ρ1 ρ2H0 ρ1 ρ2= H0 ρ1 ρ2≠

Page 52: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

48 第 2章 : CORRプロシジャ

をテストするためのp値は、差 を平均がゼロで分散が の正規ランダム変数として扱うことにより導かれます。ここで、 と は、それぞれ標本相関 と に関するFisherのz変換です。また、 と は、標本サイズです。

次のステートメントは、出力2.4.3のp値を計算します。

data SimTest (drop=Batch);

merge SimCorr (where=(Batch=1) keep=Nobs ZVal Batch

rename=(Nobs=n1 ZVal=z1))

SimCorr (where=(Batch=2) keep=Nobs ZVal Batch

rename=(Nobs=n2 ZVal=z2));

variance = 1/(n1-3) + 1/(n2-3);

z = (z1 - z2) / sqrt( variance );

pval = probnorm(z);

if (pval &gt; 0.5) then pval = 1 - pval;

pval = 2*pval;

run;

proc print data=SimTest noobs;

run;

出力 2.4.3 観測された相関が等しいかどうかのテスト

出力2.4.3において、p値0.2795は、帰無仮説 を棄却する根拠を提供しません。標本サイズ および の大きさが十分でないため、差 を有意水準 で検出できません。

異なる標本から計算した相関推定値の結合

標本推定値 および は、それぞれ および というオブザベーションの2つの独立した標本から計算されます。結合された相関推定値は、 により与えられます。ここで、 は、 と のz変換の重み付きの平均です。

次のステートメントは、Batch 1とBatch 3を使用して、 の推定値を計算します。ods output FisherPearsonCorr=SimCorr2; proc corr data=Sim (where=(Batch=1 or Batch=3)) fisher;

var X Y;by Batch;

run;

data SimComb (drop=Batch); merge SimCorr2 (where=(Batch=1) keep=Nobs ZVal Batch

rename=(Nobs=n1 ZVal=z1))

SimCorr2 (where=(Batch=3) keep=Nobs ZVal Batch

rename=(Nobs=n2 ZVal=z2));

z = ((n1-3)*z1 + (n2-3)*z2) / (n1+n2-6); corr = tanh(z);

n1 z1 n2 z2 variance z pval

150 0.22451 150 0.35064 0.013605 –1.08135 0.27954

H0 z1 z2–1 n1 3–( )⁄ 1 n2 3–( )⁄+ z1 z2 r1

r2 n1 n2

ρ1 ρ2= n1 150=n2 150= ρ1 ρ2 0.05=– α 0.05=

r1 r2 n1 n2r tanh z( )= z r1 r2

ρ

Page 53: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 49

var = 1/(n1+n2-6); zlcl = z - probit(0.975)*sqrt(var); zucl = z + probit(0.975)*sqrt(var); lcl= tanh(zlcl); ucl= tanh(zucl); pval= probnorm( z/sqrt(var)); if (pval &gt; .5) then pval= 1 - pval; pval= 2*pval;

run;

proc print data=SimComb noobs; var n1 z1 n2 z2 corr lcl ucl pval;

run;

出力2.4.4に、 の結合された推定値を示します。この表は、結合された標本からの相関推定値がr=0.2264であることを示しています。結合された推定値を使用する場合、95% の信頼区間は(0.10453,0.34156)です。この信頼区間には、母集団相関0.3が含まれていることに注意してください。

出力 2.4.4 結合された相関推定値

例 2.5 ポリシリアル相関の計算

次のステートメントは、データセットFitness1を作成します。このデータセットには、直接観測されない酸素摂取の連続測定値から導びかれた順序変数Oxygenが含まれています。

*----------------- Data on Physical Fitness -----------------*

| These measurements were made on men involved in a physical |

| fitness course at N.C.State University. |

| The variables are Age (years), Weight (kg), |

| Runtime (time to run 1.5 miles in minutes), and |

| Oxygen (an ordinal variable based on oxygen intake, |

| ml per kg body weight per minute) |

| Certain values were changed to missing for the analysis. | *------------------------------------------------------------*;

data Fitness1; input Age Weight RunTime Oxygen @@; datalines;

44 89.47 11.37 8 40 75.07 10.07 9

44 85.84 8.65 10 42 68.15 8.17 11

38 89.02 . 9 47 77.45 11.63 8

40 75.98 11.95 9 43 81.19 10.85 9

44 81.42 13.08 7 38 81.87 8.63 12

44 73.03 10.13 10 45 87.66 14.03 7

45 66.45 11.12 8 47 79.15 10.60 9

54 83.12 10.33 10 49 81.42 8.95 9

51 69.63 10.95 8 51 77.91 10.00 9

48 91.63 10.25 9 49 73.37 10.08 .

57 73.37 12.63 7 54 79.38 11.17 9

52 76.32 9.63 9 50 70.87 8.92 10

51 67.25 11.08 9 54 91.63 12.88 7

n1 z1 n2 z2 corr lcl ucl pval

150 0.22451 100 0.23929 0.22640 0.10453 0.34156 .000319748

ρ

Page 54: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

50 第 2章 : CORRプロシジャ

51 73.71 10.47 9 57 59.08 9.93 10

49 76.32 . . 48 61.24 11.50 9

52 82.78 10.50 9 ;

次のステートメントは、Pearsonの相関とポリシリアル相関を計算します。proc corr data=Fitness1 pearson polyserial;

with Oxygen; var Age Weight RunTime;

run;

Pearsonの相関係数を計算する場合、WITHステートメントおよびVARステートメントに指定された変数は、連続変数として扱われます。ポリシリアル相関を計算する場合、WITHステートメントに指定された変数はデフォルトで順序変数として扱われ、VARステートメントに指定された変数は連続変数として扱われます。

出力2.5.1の表"Simple Statistics"には、各分析変数の単変量記述統計量が示されています。

出力 2.5.1 Simple Statistics

The CORR Procedure

出力2.5.2の表"Pearson Correlation Coefficients"には、変数Oxygenとそれ以外の3つの変数との間のPearson相関統計量が示されています。この表は、変数Oxygenと変数RunTimeの間に強い相関があることを示しています。

出力 2.5.2 Pearson Correlation Coefficients

出力2.5.3の表"Polyserial Correlations"には、変数Oxygenとそれ以外の3つの変数との間のポリシリアル相関統計量が示されています。変数Oxygenは酸素摂取量(基盤となる連続変数)から導びかれた順序変数として扱われます。ここで、酸素摂取量と、それ以外の3つの連続変数Age、Weight、RunTimeは、2変量正規分布

1 With Variables: Oxygen

3 Variables: Age Weight RunTime

Simple Statistics

Variable N Mean Std Dev Median Minimum Maximum

Oxygen 29 8.93103 1.16285 9.00000 7.00000 12.00000

Age 31 47.67742 5.21144 48.00000 38.00000 57.00000

Weight 31 77.44452 8.32857 77.45000 59.08000 91.63000

RunTime 29 10.67414 1.39194 10.50000 8.17000 14.03000

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Age Weight RunTime

Oxygen –0.255810.1804

29

–0.222110.2469

29

–0.85750<.0001

28

Page 55: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 51

に従うものとします。CORRプロシジャは、ポリシリアル相関がゼロであるかどうかを判定するために、Wald検定と尤度比検定という2種類の検定を提供します。この表は、両方の検定により、RunTimeとOxygenの連続変数の間に強いポリシリアル相関があることを示しています。

出力 2.5.3 Polyserial Correlation Coefficients

例 2.6 Cronbachのアルファ係数の計算

次のステートメントは、SAS/STAT 14.1 User's GuideのChapter 108: The STEPDISC Procedureで使用されているデータセットFishから、データセットFish1を作成します。重みの立方根(Weight3)は、魚のサイズの1次元測定値として計算されます。

*------------------- Data on Physical Fitness -------------------*

| The data set contains 35 fish from the species Bream caught in |

| Finland's lake Laengelmavesi with the following measurements: |

| Weight (in grams) |

| Length3 (length from the nose to the end of its tail, in cm) |

| HtPct (max height, as percentage of Length3) |

| WidthPct (max width, as percentage of Length3) |

*----------------------------------------------------------------*;

data Fish1 (drop=HtPct WidthPct); title 'Fish Measurement Data'; input Weight Length3 HtPct WidthPct @@; Weight3= Weight**(1/3); Height=HtPct*Length3/100; Width=WidthPct*Length3/100; datalines;

242.0 30.0 38.4 13.4 290.0 31.2 40.0 13.8340.0 31.1 39.8 15.1 363.0 33.5 38.0 13.3 430.0 34.0 36.6 15.1 450.0 34.7 39.2 14.2 500.0 34.5 41.1 15.3 390.0 35.0 36.2 13.4 450.0 35.1 39.9 13.8 500.0 36.2 39.3 13.7 475.0 36.2 39.4 14.1 500.0 36.2 39.7 13.3 500.0 36.4 37.8 12.0 . 37.3 37.3 13.6 600.0 37.2 40.2 13.9 600.0 37.2 41.5 15.0 700.0 38.3 38.8 13.8 700.0 38.5 38.8 13.5 610.0 38.6 40.5 13.3 650.0 38.7 37.4 14.8 575.0 39.5 38.3 14.1 685.0 39.2 40.8 13.7 620.0 39.7 39.1 13.3 680.0 40.6 38.1 15.1 700.0 40.5 40.1 13.8 725.0 40.9 40.0 14.8 720.0 40.6 40.3 15.0 714.0 41.5 39.8 14.1

850.0 41.6 40.6 14.9 1000.0 42.6 44.5 15.5

Polyserial Correlations

Wald Test LR Test

Continuous Variable

Ordinal Variable N Correlation

StandardError Chi-Square Pr >ChiSq Chi-Square Pr > ChiSq

Age Oxygen 29 –0.23586 0.18813 1.5717 0.2100 1.4466 0.2291

Weight Oxygen 29 –0.24514 0.18421 1.7709 0.1833 1.6185 0.2033

RunTime Oxygen 28 –0.91042 0.04071 500.0345 <.0001 38.6963 <.0001

Page 56: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

52 第 2章 : CORRプロシジャ

920.0 44.1 40.9 14.3 955.0 44.0 41.1 14.3 925.0 45.3 41.4 14.9 975.0 45.9 40.6 14.7 950.0 46.5 37.9 13.7 ;

次のステートメントは、変数Weight3、Length3、Height、Widthの相関分析を要求し、Cronbachのアルファ係数を計算します。

ods graphics on; title 'Fish Measurement Data'; proc corr data=fish1 nomiss alpha plots=matrix;

var Weight3 Length3 Height Width; run;

ALPHAオプションを指定すると、指定の分析変数を使ってCronbachのアルファ係数が計算されます。

出力2.6.1の表"Simple Statistics"には、各分析変数の単変量記述統計量が示されています。

出力 2.6.1 Simple Statistics

Fish Measurement Data

The CORR Procedure

出力2.6.2の表"Pearson Correlation Coefficients"には、分析変数ペアのPearsonの相関統計量が示されています。

出力 2.6.2 Pearson Correlation Coefficients

4 Variables: Weight3 Length3 Height Width

Simple Statistics

Variable N Mean Std Dev 合計 Minimum Maximum

Weight3 34 8.44751 0.97574 287.21524 6.23168 10.00000

Length3 34 38.38529 4.21628 1305 30.00000 46.50000

Height 34 15.22057 1.98159 517.49950 11.52000 18.95700

Weight 34 5.43805 0.72967 184.89370 4.02000 6.74970

Pearson Correlation Coefficients, N = 34Prob > |r| under H0: Rho=0

Weight3 Length3 Height Width

Weight3 1.00000 0.96523<.0001

0.96261<.0001

0.92789<.0001

Length3 0.96523<.0001

1.00000 0.95492<.0001

0.92171<.0001

Height 0.96261<.0001

0.95492<.0001

1.00000 0.92632<.0001

Weight 0.92789<.0001

0.92171<.0001

0.92632<.0001

1.00000

Page 57: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 53

このデータセットには1種類の魚の情報のみが含まれているため、すべての変数には高い相関があります。ALPHAオプションを指定すると、CORRプロシジャは、出力2.6.3に示すようなCronbachのアルファ係数を計算します。Cronbachのアルファ係数は、未加工の変数と標準化変数の信頼係数の下限を表します。変数は共通のエンティティを測定するため、アルファ係数では正の相関が必要となります。

出力 2.6.3 Cronbachのアルファ係数の計算

一部の変数では分散が大きく異なっているため、信頼性を推定するには標準化されたスコアを使用する必要があります。全体的に標準化されたCronbachのアルファ係数の値0.985145は、信頼係数の受け入れ可能な下限値を提供します。これは、Nunnally and Bernstein (1994)による推奨値0.70よりもかなり大きい値となっています。

標準化されたアルファ係数は、各変数が標準化変数を使って尺度の信頼性をどのように反映するかについての情報を提供します。ある変数を構成概念から取り除くと標準化されたアルファ係数が減少する場合、その変数は尺度内の他の変数との間に強い相関を持ちます。一方、ある変数を構成概念から取り除くと標準化されたアルファ係数が増加する場合、その変数を尺度から取り除くことにより、構成概念の信頼性を高めることができます。出力2.6.4の表"Cronbach Coefficient Alpha with Deleted Variables"には、標準化されたアルファ係数の有意味な増加も減少も示されていません。詳細は、「Cronbachのアルファ係数」(29ページ)のセクションを参照してください。

出力 2.6.4 変数を除いたときのアルファ係数

例 2.7 出力データセットへの相関の保存

次のステートメントはPearsonの相関を計算します。title 'Correlations for a Fitness and Exercise Study'; proc corr data=Fitness nomiss outp=CorrOutp;

var weight oxygen runtime; run;

NOMISSオプションを指定すると、VARステートメント変数に欠損値があるオブザベーションが分析から除外されます。すなわち、28個のオブザベーションからなる同一セットを使用して各変数ペアの相関が計算

Cronbach Coefficient Alpha

変数 Alpha

Raw 0.822134

Standardized 0.985145

Cronbach Coefficient Alpha with Deleted Variable

Raw Variables Standardized Variables

Deleted Variable

Correlationwith Total Alpha

Correlationwith Total Alpha

Weight3 0.975379 0.783365 0.973464 0.977103

Length3 0.967602 0.881987 0.967177 0.978783

Height 0.964715 0.655098 0.968079 0.978542

Weight 0.934635 0.824069 0.937599 0.986626

Page 58: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

54 第 2章 : CORRプロシジャ

されます。OUTP=オプションを指定すると、Pearsonの相関統計量を含むCorrOutpという名前のデータセットが作成されます。

出力2.7.1の表"Pearson Correlation Coefficients"には、相関ゼロの帰無仮説の下での相関とp値が示されています。

出力 2.7.1 Pearson Correlation Coefficients

Correlations for a Fitness and Exercise Study

The CORR Procedure

次のステートメントは、出力2.7.2のような出力データセットを表示します。title 'Output Data Set from PROC CORR'; proc print data=CorrOutp noobs; run;

出力 2.7.2 Pearsonの相関を含む OUTP=データセットOutput Data Set from PROC CORR

この出力データセット(デフォルトの種類:CORR)は、回帰やその他の統計プロシジャの入力データセットとして使用できます。たとえば、次のステートメントは、REGプロシジャで元のデータを読み取ることなしに、CorrOutpを使って回帰分析を要求します。

title 'Input Type CORR Data Set from PROC REG'; proc reg data=CorrOutp;

model runtime= weight oxygen; run;

Pearson Correlation Coefficients, N = 28Prob > |r| under H0: Rho=0

Weight Oxygen RunTime

Weight 1.00000 –0.184190.3481

0.195050.3199

Oxygen –0.184190.3481

1.00000 –0.86843<.0001

RunTime 0.195050.3199

–0.86843<.0001

1.00000

_TYPE_ _NAME_ Weight Oxygen RunTime

MEAN 77.2168 47.1327 10.6954

STD 8.4495 5.5535 1.4127

N 28.0000 28.0000 28.0000

CORR Weight 1.0000 –0.1842 0.1950

CORR Oxygen –0.1842 1.0000 –0.8684

CORR RunTime 0.1950 –0.8684 1.0000

Page 59: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 55

次のステートメントは、上記のステートメントと同じ結果を生成します。proc reg data=Fitness;

model runtime= weight oxygen; run;

例 2.8 散布図の作成

次のステートメントは、データセットFish1(例2.6で作成されたもの)内にある変数を使用して相関分析を実施し、散布図を作成します。

ods graphics on; title 'Fish Measurement Data'; proc corr data=fish1 nomiss plots=matrix(histogram);

var Height Width Length3 Weight3; run;

出力2.8.1の表"Simple Statistics"には、分析変数の単変量統計量が示されています。

出力 2.8.1 Simple Statistics

Fish Measurement Data

The CORR Procedure

出力2.8.2の表"Pearson Correlation Coefficients"には、分析変数ペアのPearsonの相関統計量が示されています。

出力 2.8.2 Pearson Correlation Coefficients

4 Variables: Height Width Length3 Weight3

Simple Statistics

Variable N Mean Std Dev 合計 Minimum Maximum

Height 34 15.22057 1.98159 517.49950 11.52000 18.95700

Width 34 5.43805 0.72967 184.89370 4.02000 6.74970

Length3 34 38.38529 4.21628 1305 30.00000 46.50000

Weight3 34 8.44751 0.97574 287.21524 6.23168 10.00000

Pearson Correlation Coefficients, N = 34Prob > |r| under H0: Rho=0

Height Width Length3 Weight3

Height 1.00000 0.92632<.0001

0.95492<.0001

0.96261<.0001

Width 0.92632<.0001

1.00000 0.92171<.0001

0.92789<.0001

Length3 0.95492<.0001

0.92171<.0001

1.00000 0.96523<.0001

Weight3 0.96261<.0001

0.92789<.0001

0.96523<.0001

1.00000

Page 60: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

56 第 2章 : CORRプロシジャ

これらの変数の間には高い相関があります。たとえば、変数HeightとWidthの間の相関は0.92632です。

PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、出力2.8.3に示すようなVAR変数を使用した散布図行列が作成されます。

出力 2.8.3 散布図行列

このグラフ表示を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODSGraphicsの詳細については、SAS/STAT 14.1 User's GuideのChapter 21: Using the Output DeliverySystem を参照してください。

Page 61: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 57

HeightとWidth間の相関を調べる場合、次のステートメントにより、出力2.8.4に示すような、2変数の予測楕円付きの散布図を作成します。

ods graphics on; proc corr data=fish1 nomiss

plots=scatter(nvar=2 alpha=.20 .30); var Height Width Length3 Weight3;

run;

PLOTS=SCATTER(NVAR=2)オプションを指定すると、VARリスト内の最初の2つの変数を使った散布図が作成されます。ALPHA=.20 .30サブオプションは、それぞれ80%および70% の予測楕円を要求します。

出力 2.8.4 予測楕円付きの散布図

予測楕円とは、2変量正規性を仮定して母集団内の新しいオブザベーションを予測するための領域です。またこれは、母集団の指定した割合を含む領域に近似します。表示される予測楕円は、平均( , )を中心としています。詳細は、「信頼楕円と予測楕円」(30ページ)のセクションを参照してください。

x y

Page 62: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

58 第 2章 : CORRプロシジャ

次のステートメントも、出力2.8.5に示すような、変数HeightとWidthを使った散布図を作成します。ods graphics on; proc corr data=fish1

plots=scatter(alpha=.20 .30); var Height Width;

run;

出力 2.8.5 予測楕円付きの散布図

出力2.8.5には点(13.9,5.1)が含まれています。この点は、出力2.8.4からは除外されていました。これは、オブザベーションがWeight3で欠損値を含んでいたためです。出力2.8.5の予測楕円には、このオブザベーションの包含も反映されています。

次のステートメントは、出力2.8.6に示すような、平均の信頼楕円を作成します。ods graphics on; title 'Fish Measurement Data'; proc corr data=fish1 nomiss

plots=scatter(ellipse=confidence nvar=2 alpha=.05 .01); var Height Width Length3 Weight3;

run;

PLOTS=オプションに続いてNVAR=2サブオプションを指定すると、VARステートメント内の最初の2つの変数に対して作成される散布図の数を制限できます。ELLIPSE=CONFIDENCEサブオプションは、平均の信頼楕円を要求します。ALPHA=.05 .01サブオプションは、それぞれ95%および99%の信頼楕円を要求します。

Page 63: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 59

出力 2.8.6 信頼楕円付きの散布図

この信頼楕円は、平均( , )を中心としています。詳細は、信頼楕円と予測楕円のセクションを参照してください。

例 2.9 偏相関の計算

偏相関は、他の変数による影響を補正した上で2変数間の線形関係の強さを測定するものです。

次のステートメントは、変数Length3とWeightによる影響を補正した上で、変数HeightとWidth間の偏相関分析を要求します。変数Length3およびWeightのことを、分析の「影響を除外された」変数と呼び、これらはPARTIALステートメントで指定されます。

ods graphics on; title 'Fish Measurement Data'; proc corr data=fish1 plots=scatter(alpha=.20 .30);

var Height Width; partial Length3 Weight3;

run;

x y

Page 64: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

60 第 2章 : CORRプロシジャ

出力2.9.1には、すべての変数の記述統計量が示されています。また、VARステートメント内に指定されている変数の偏分散と偏標準偏差も示されています。

出力 2.9.1 記述統計量Fish Measurement Data

The CORR Procedure

PARTIALステートメントを指定すると、欠損値があるオブザベーションは分析から除外されます。出力2.9.2には、VARステートメントに指定された変数の偏相関が示されています。

出力 2.9.2 Pearson Correlation Coefficients

変数HeightとWidth間の偏相関は0.25692であり、元の相関0.92632よりも大幅に低くなっています(出力2.9.2を参照)。この偏相関のp値は0.1558です。

PLOTS=SCATTERオプションを指定すると、変数Length3およびWeightによる影響を補正した上で、変数HeightおよびWidthの残差の散布図を作成できます(出力2.9.3を参照)。ALPHA=.20 .30サブオプションは、それぞれ80% および70% の予測楕円を要求します。

2 Partial Variables: Length3 Weight3

2 Variables: Height Width

Simple Statistics

Variable N Mean Std Dev 合計 Minimum MaximumPartial

VariancePartial

Std Dev

Length3 34 38.38529 4.21628 1305 30.00000 46.50000

Weight3 34 8.44751 0.97574 287.21524 6.23168 10.00000

Height 34 15.22057 1.98159 517.49950 11.52000 18.95700 0.26607 0.51582

Width 34 5.43805 0.72967 184.89370 4.02000 6.74970 0.07315 0.27047

Pearson Partial Correlation Coefficients, N = 34Prob > |r| under H0: Partial Rho=0

Height Width

Height 1.00000 0.256920.1558

Width 0.256920.1558

1.00000

Page 65: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : CORRプロシジャ 61

出力 2.9.3 偏残差散布図

出力2.9.3では、Heightの標準偏差のX軸上の長さは、Y軸上のWidthの標準偏差とほぼ同じになります。長軸長が短軸長よりも大幅に大きくない場合、HeightとWidth間に弱い偏相関があることを意味します。

Page 66: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

62 第 2章 : CORRプロシジャ

リファレンスAnderson, T. W. (1984).An Introduction to Multivariate Statistical Analysis.2nd ed. New York:

John Wiley & Sons.

Blum, J. R., Kiefer, J., and Rosenblatt, M. (1961).“Distribution Free Tests of Independence Based onthe Sample Distribution Function.”Annals of Mathematical Statistics 32:485–498.

Cox, N. R. (1974).“Estimation of the Correlation between a Continuous and a DiscreteVariable.”Biometrics 30:171–178.

Cronbach, L. J. (1951).“Coefficient Alpha and the Internal Structure of Tests.”Psychometrika16:297–334.

Drasgow, F. (1986).“Polychoric and Polyserial Correlations.”In Encyclopedia of Statistical Sciences,vol. 7, edited by S. Kotz, N. L. Johnson, and C. B. Read.New York: John Wiley & Sons.

Fisher, R. A. (1921).“On the 'Probable Error' of a Coefficient of Correlation Deduced from a SmallSample.”Metron 1:3–32.

Fisher, R. A. (1936).“The Use of Multiple Measurements in Taxonomic Problems.”Annals of Eugenics7:179–188.

Fisher, R. A. (1973).Statistical Methods for Research Workers.14th ed. New York: Hafner Publishing.

Hoeffding, W. (1948).“A Non-parametric Test of Independence.”Annals of Mathematical Statistics19:546–557.

Hollander, M., and Wolfe, D. A. (1999).Nonparametric Statistical Methods.2nd ed. New York: JohnWiley & Sons.

Keeping, E. S. (1962).Introduction to Statistical Inference.New York: D. Van Nostrand.

Knight, W. E. (1966).“A Computer Method for Calculating Kendall’s Tau with UngroupedData.”Journal of the American Statistical Association 61:436–439.

Noether, G. E. (1967).Elements of Nonparametric Statistics.New York: John Wiley & Sons.

Nunnally, J. C., and Bernstein, I. H. (1994).Psychometric Theory.3rd ed. New York: McGraw-Hill.

Olsson, U. (1979).“Maximum Likelihood Estimation of the Polychoric Correlation Coefficient.”Psychometrika 12:443–460.

Olsson, U., Drasgow, F., and Dorans, N. J. (1982).“The Polyserial Correlation Coefficient.”Biometrika 47:337–347.

Yu, C. H. (2001).“An Introduction to Computing and Interpreting Cronbach Coefficient Alpha inSAS.”In Proceedings of the Twenty-Sixth Annual SAS Users Group InternationalConference.Cary, NC: SAS Institute Inc. http://www2.sas.com/proceedings/sugi26/p246-26.pdf.

Page 67: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

第 3章FREQプロシジャ

目次概要 : FREQプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .64入門ガイド : FREQプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66

度数表と統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .66一致研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74

構文 : FREQプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76PROC FREQステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77BYステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .79EXACTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80OUTPUTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88TABLESステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .99TESTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .138WEIGHTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141

詳細 : FREQプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .142度数カウントの入力. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .142出力形式を使用したグループ化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .142欠損値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143In-Database計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .146統計量の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .147定義と表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .147カイ 2乗検定と統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .148連関性の統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .153二項比率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .163リスクとリスク差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171共通リスク差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1812 x 2表に対するオッズ比と相対リスク. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .183Cochran-Armitageの傾向検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .192Jonckheere-Terpstraの検定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .193一致の検定と統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .194Cochran-Mantel-Haenszel統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .199質的交互作用のGail-Simon検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208正確な統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208

計算リソース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .213

Page 68: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

64 第 3章 : FREQプロシジャ

表示される出力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .216ODSテーブル名 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223ODS Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .228

例 : FREQプロシジャ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .229例 3.1 度数の出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .229例 3.2 度数散布図. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .232例 3.3 カイ 2乗適合度検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235例 3.4 二項比率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .238例 3.5 2x2分割表の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .241例 3.6 カイ 2乗統計量の出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .244例 3.7 Cochran-Mantel-Haenszel統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .246例 3.8 Cochran-Armitageの傾向検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .248例 3.9 Friedmanのカイ 2乗検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .252例 3.10 CochranのQ検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .254

リファレンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .257

概要 : FREQプロシジャ

FREQプロシジャは、一元からn元の度数表および分割表(クロス集計表)を作成します。二元表では、連関性に対する検定や統計量を求めることができます。n元表の場合、層別分析が実行されます。層別分析では、層内の統計値に加えて、層で調整した後の全体に対する総計量も計算されます。

一元度数表の場合、FREQプロシジャは、等しい比率かまたは指定された帰無仮説の比率の適合度検定を計算します。一元表の場合、FREQプロシジャは、二項比率の信頼限界や検定(非劣性の検定や同等性の検定を含む)も提供します。

分割表の場合、FREQプロシジャは2つの分類変数間の関係を調べるために、各種の統計量を計算します。一部の変数ペアに関しては、それらの変数間の連関性の存在や強度を調べることもできます。連関性が存在するかどうかを特定するために、FREQプロシジャはカイ2乗検定を計算します。連関性の強度を推定する場合、FREQプロシジャは、連関性の統計量を計算します。連関性の統計量は、連関性が存在しない場合はゼロに近づき、完全な連関性が存在する場合には最大値(または最小値)に近づく傾向があります。分割表の統計量には次のものがあります。

•カイ2乗検定と統計量

•連関性の統計量

• 表のリスク(二項比率)とリスク差

• 表のオッズ比と相対リスク

•傾向検定

•一致の検定と統計量

•Cochran-Mantel-Haenszel統計量

2 2×

2 2×

Page 69: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

概要 : FREQプロシジャ 65

FREQプロシジャは、漸近標準誤差、信頼区間、および連関性の統計量や一致の統計量の検定を計算します。多くの検定統計量や統計量に関しては、正確なp値と信頼区間を計算できます。FREQプロシジャは、n元表の層間および層内の統計量を計算することにより、層化変数に対する調整を行うような分析も実施します。これらの統計量には、Cochran-Mantel-Haenszel統計量や一致の統計量が含まれます。

二元表の分析で使用する連関性の統計量を選択する場合、研究デザイン(すなわち行変数および列変数が独立であるか否か)、変数の測定尺度(名義、順序、区分)、各統計量が検出する連関性の種類、統計量の有効な解釈に必要となる仮説を考慮する必要があります。自分が使用するデータに適した統計量を選択する場合は十分に注意する必要があります。

検定統計量の選択や解釈を行う場合にも、同様の注意が必要となります。たとえば、Mantel-Haenszelカイ2乗統計量は、両変数が順序尺度であることを必要とし、線形連関性を検出するよう設計されています。一方、Pearsonカイ2乗統計量は、すべての変数に適用することで任意の種類の連関性を検出できますが、線形連関性の検出には力不足です。これは、自由度が大きい場合(ただし 表は除く)には、その能力が分散されるためです。

適切な統計分析の選択に関する詳細は、Agresti (2007) およびStokes, Davis, and Koch (2012)を参照してください。

度数カウントを生成するSASプロシジャはいくつか存在しますが、一元からn元の表のカイ2乗検定と、分割表の連関性および一致の統計量を計算できるのはFREQプロシジャのみです。度数カウントを生成するそれ以外のプロシジャとしては、TABULATEプロシジャやUNIVARIATEプロシジャが挙げられます。標本調査データの分割表と連関性の検定を生成したい場合、SURVEYFREQプロシジャを使用します。詳細については、SAS/STAT 14.1 User's GuideのChapter 14: Introduction to Survey Sampling and Analysis Proceduresを参照してください。カテゴリ別データにモデルを当てはめたい場合、CATMOD、GENMOD、GLIMMIX、LOGISTIC、PROBIT、SURVEYLOGISTICの各プロシジャのいずれかを使用します。詳細については、SAS/STAT 14.1 User's GuideのChapter 8: Introduction to Categorical Data AnalysisProceduresを参照してください。

FREQプロシジャはODS (Output Delivery System)を使用します。ODSとは、SASプロシジャからの出力の表示や制御を可能にするSASのサブシステムです。ODSを使うと、FREQプロシジャからの任意の出力をSASデータセットへと変換できます。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

FREQプロシジャは、ODS Graphicsを使用して、同プロシジャ出力の一部としてグラフを作成します。ODS Graphicsの詳細については、SAS/STAT 14.1 User's GuideのChapter 21: Statistical GraphicsUsing ODS を参照してください。FREQプロシジャで利用できる統計グラフに関する詳細は、TABLESステートメントのPLOTS=オプションの説明、および「ODS Graphics」(228ページ)のセクションを参照してください。

2 2×

Page 70: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

66 第 3章 : FREQプロシジャ

入門ガイド : FREQプロシジャ

度数表と統計量

FREQプロシジャを使うと、クロス集計表における連関性を検定するための各種の統計量を簡単に参照できます。

この例では、高校生が夏期特別学習プログラムのコースに申し込んだ場合を取り上げます。このコースには、ジャーナリズム、美術史、統計、グラフィックアート、コンピュータプログラミングが含まれています。申し込みを受理された生徒は、地元企業でのインターンシップがあるクラスとないクラスへとランダムに割り当てられます。表3.1は、この夏期特別学習プログラムに登録した生徒数を、性別およびクラス別(インターンシップがあるクラスへと割り当てられたかどうか)にまとめたものです。

SASデータセットSummerSchoolは、夏期特別学習プログラムのデータをセルカウントデータとして入力すること、または変数値の各組み合わせの度数カウントを提供することにより作成されます。SASデータセットSummerSchoolを作成するDATAステップステートメントは次のようになります。

data SummerSchool; input Gender $ Internship $ Enrollment $ Count @@; datalines;

boys yes yes 35 boys yes no 29 boys no yes 14 boys no no 27 girls yes yes 32 girls yes no 10 girls no yes 53 girls no no 23

;

変数Genderの値は‘boys’か‘girls’のいずれか、変数Internshipの値は‘yes’か‘no’のいずれか、変数Enrollmentの値は‘yes’か‘no’のいずれかになります。変数Countの値は、データ値の各組み合わせに対応する生徒数になります。2個の連続するアットマーク(@@)は、1つのデータ行に複数のオブザベーションが含まれていることを示します。このDATAステップでは、各行に2つのオブザベーションが含まれています。

調査者は、インターンシップの有無と夏期特別学習プログラムの登録者数の間に連関性があるかどうかに興味を持っています。 表における連関性を調べる統計量としては、Pearsonカイ2乗統計量が適しています。このような分析を行うPROC FREQステートメントは次のようになります。

どの表の統計量を計算するかを指定するには、TABLESステートメントを使用します。計算したい統計量を指定するには、TABLESステートメントでスラッシュ(/)の後に対応するオプションを指定します。

proc freq data=SummerSchool order=data; tables Internship*Enrollment / chisq; weight Count;

run;

表 3.1 夏期特別学習プログラムのデータ

Enrollment

Gender Internship Yes No Total

boys yes 35 29 64

boys no 14 27 41

girls yes 32 10 42

girls no 53 23 76

2 2×

Page 71: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : FREQプロシジャ 67

ORDER=オプションを使うと、表の行と列に変数値が表示される順番を制御できます。デフォルトでは、各値は、フォーマットされていない値としてアルファベット順に並べられます。ORDER=DATAを指定すると、データは入力データセット内に現れるのと同じ順番で表示されます。ここで、値‘yes’はデータ内で値‘no’よりも先に現れるため、値‘yes’はいかなる表でも最初に表示されます。順序を制御するその他のオプションとしては、フォーマットされた値に従って値を並べるORDER=FORMATTEDや、度数カウントの高い順に値を並べるORDER=FREQがあります。

TABLESステートメント内のInternship*Enrollmentは、行変数がインターンシップの有無で、列変数がプログラムの登録者数であるような表を指定します。CHISQオプションは、これらの2変数間の連関性を調べるための統計量として、カイ2乗統計量を指定します。入力データはセルカウント形式であるため、WEIGHTステートメントが必要となります。WEIGHTステートメントでは、データ値の各組み合わせに対応する度数を提供する変数としてCountを指定します。

図3.1に、InternshipとEnrollmentのクロス集計表を示します。各セルのセルカウントの下には、表パーセンテージ、行パーセンテージ、列パーセンテージの値がそれぞれ表示されています。たとえば、最初のセルには、インターンシップありのコースを申し込んだ生徒数は全体の63.21パーセントであり、申し込まなかった生徒数は全体の36.79パーセントであることが示されています。

図 3.1 クロス集計表The FREQ Procedure

Frequency Table of Internship by Enrollment

Percent Enrollment

Row Pct

Col Pct Internship yes no Total

yes 67 39 106

30.04 17.49 47.53

63.21 36.79

50.00 43.82

no 67 50 117

30.04 22.42 52.47

51.26 42.74

50.00 56.18

Total 134 89 223

60.09 39.91 100.00

Page 72: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

68 第 3章 : FREQプロシジャ

図3.2に、CHISQオプションにより生成される統計量を示します。Pearsonカイ2乗統計量には'Chi-Square'というラベルが付けられており、自由度が1の場合、その値は0.8189になります。関連するp値は0.3655になります。これは、インターンシップの有無とプログラムの登録者数の間の連関性に関しては有意な根拠が存在しないことを意味します。その他のカイ2乗統計量は、同様の値を持つ、漸近的に等価な統計量です。その他の統計量(ファイ係数、一致係数、CramérのV)は、Pearsonカイ2乗統計量から導かれる連関性の統計量です。Fisherの正確検定では、両側のp値が0.4122となります。これも、インターンシップの有無とプログラムの登録者数の間に連関性がないことを示しています。

図 3.2 CHISQオプションにより生成される統計量

ここまでの分析では性別が無視されています。しかし、性別の調整を行った上で、プログラムの登録者数とインターンシップの有無の間に連関性があるかどうかを調べると面白いかもしれません。この問題を調べるには、表の集合の分析(この場合、男子からなる集合と女子からなる集合の分析)を実施します。この場合、Cochran-Mantel-Haenszel (CMH)統計量が適しています。この統計量を使うと、層化変数に対する調整を行った後で、行と列の間に連関性があるかどうかを調べることができます。この例では、性別(gender)により層化を行います。

この分析を行うPROC FREQステートメントは、先の分析に使用した同ステートメントと同様になりますが、TABLESステートメント内に第3の変数であるGenderが存在する点が異なります。3つ以上の変数をクロス集計する場合、2つの右端変数が表の行と列を構成し、残る左端変数が層化を決定することになります。

次のPROC FREQステートメントを使うことでも、クロス集計表の度数プロットを要求できます。FREQプロシジャは、ODS Graphicsを使用して、これらのプロットを同プロシジャ出力の一部として作成します。プロットを作成する前に、ODS Graphicsを有効にする必要があります。PLOTS(ONLY)=FREQPLOTオプションは、度数プロットを要求します。TWOWAY=CLUSTER plot-optionは、二元度数プロットのクラスタレイアウトを指定します。

Statistic DF Value Prob

Chi-Square 1 0.8189 0.3655

Likelihood Ratio Chi-Square 1 0.8202 0.3651

Continuity Adj.Chi-Square 1 0.5899 0.4425

Mantel-Haenszel Chi-Square

1 0.8153 0.3666

Phi Coefficient 0.0606

Contingency Coefficient 0.0605

Cramer's V 0.0606

Fisher's Exact Test

Cell (1,1) Frequency (F) 67

Left-sided Pr <= F 0.8513

Right-sided Pr >= F 0.2213

Table Probability (P) 0.0726

Two-sided Pr <= P 0.4122

Page 73: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : FREQプロシジャ 69

ods graphics on;

proc freq data=SummerSchool;

tables Gender*Internship*Enrollment /

chisq cmh plots(only)=freqplot(twoway=cluster);

weight Count;

run;

ods graphics off;

このPROC FREQステートメントを実行すると、最初に、行がInternshipで列がEnrollmentのクロス集計表が、男子生徒と女子生徒をそれぞれ対象として作成されます。これらの表ごとに、度数プロットとカイ2乗統計量が作成されます。図3.3、図3.4、図3.5に男子の集計結果を示します。男子生徒を対象としたカイ2乗統計量は、 の有意水準で有意となります。これは、インターンシップありのコースを申し込んだ男子生徒は、インターンシップなしのコースを申し込んだ男子生徒よりも登録率が高いことを示しています。

図3.4に、男子生徒を対象とした、行がInternshipで列がEnrollmentの度数プロットを示します。デフォルトでは、度数プロットは棒グラフとして表示されます。PLOTS=オプションを使用すると、棒グラフの代わりに散布図を要求したり、バーの向きを垂直から水平に変更したり、尺度を度数からパーセントに変更したりできます。また、PLOTS=オプションを使用すると、別の二元レイアウト(積み上げ、垂直グループ、水平グループ)を指定したり、1次グループ化を列水準から行水準へと変更したりもできます。

図3.6、図3.7、図3.8に、女子生徒を対象としたクロス集計表、度数プロット、カイ2乗統計量を示します。これらを見れば、女子生徒の場合には、インターンシップの有無とプログラムの登録者数との間に連関性の根拠が存在しないことが分かります。

図 3.3 男子生徒を対象としたクロス集計表The FREQ Procedure

Frequency Table 1 of Internship by Enrollment

Percent Controlling for Gender=boys

Row Pct Enrollment

Col Pct Internship yes no Total

yes 27 14 41

25.71 13.33 39.05

65.85 34.15

48.21 28.57

no 29 35 64

27.62 33.33 60.95

45.31 54.69

51.79 71.43

Total 56 49 105

53.33 46.67 100.00

α 0.05=

Page 74: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

70 第 3章 : FREQプロシジャ

図 3.4 男子生徒を対象とした度数プロット

Page 75: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : FREQプロシジャ 71

図 3.6 女子生徒を対象としたクロス集計表

図 3.5 男子生徒を対象としたカイ 2乗統計量

Statistic DF Value Prob

Chi-Square 1 4.2366 0.0396

Likelihood Ratio Chi-Square 1 4.2903 0.0383

Continuity Adj.Chi-Square 1 3.4515 0.0632

Mantel-Haenszel Chi-Square 1 4.1963 0.0405

Phi Coefficient 0.2009

Contingency Coefficient 0.1969

Cramer's V 0.2009

Fisher's Exact Test

Cell (1,1) Frequency (F) 27

Left-sided Pr <= F 0.9885

Right-sided Pr >= F 0.0311

Table Probability (P) 0.0196

Two-sided Pr <= P 0.0467

Frequency Table 2 of Internship by Enrollment

Percent Controlling for Gender=girls

Row Pct Enrollment

Col Pct Internship yes no Total

yes 23 53 76

19.49 44.92 64.41

30.26 69.74

69.70 62.35

no 10 32 42

8.47 27.12 35.59

23.81 76.19

30.30 37.65

Total 33 85 118

27.97 72.03 100.00

Page 76: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

72 第 3章 : FREQプロシジャ

図 3.7 女子生徒を対象とした度数プロット

Page 77: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : FREQプロシジャ 73

図 3.8 女子生徒を対象としたカイ 2乗統計量

これらの各表の結果は、他の変数(ここではGender)内の情報を説明する場合ではなく、情報を1つの表へと結合する場合に起こりがちな問題を示しています。図3.9に、CMH結果を示します。3つの要約(CMH)統計量が存在します。どの統計量を使用するかは、使用する 表内での行や列の順序により異なります。ただし、 表の場合、順序は問題にならず、これら3つの統計量はすべて同じ値になります。CMH統計量は、連関性が存在しないという帰無仮説の下で、カイ2乗分布に従います。この例では、CMH統計量の値は、自由度が1の場合に4.0186になります。関連するp値は0.0450であり、これは水準 での有意な連関性を示しています。

したがって、このデータにおける性別による影響を補正した場合には、インターンシップの有無とプログラムの登録者数との間に連関性が存在します。ただし、性別を無視した場合には、連関性は存在しません。また、CMH オプションを指定すると、 表の相対リスクやオッズ比の推定値や信頼限界、およびBreslow-Day検定のようなその他の統計量も生成されます。これらの結果は本セクションには示されていません。

図 3.9 連関性が存在しないという仮説の検定

Statistic DF Value Prob

Chi-Square 1 0.5593 0.4546

Likelihood Ratio Chi-Square 1 0.5681 0.4510

Continuity Adj.Chi-Square 1 0.2848 0.5936

Mantel-Haenszel Chi-Square 1 0.5545 0.4565

Phi Coefficient 0.0688

Contingency Coefficient 0.0687

Cramer's V 0.0688

Fisher's Exact Test

Cell (1,1) Frequency (F) 23

Left-sided Pr <= F 0.8317

Right-sided Pr >= F 0.2994

Table Probability (P) 0.1311

Two-sided Pr <= P 0.5245

Cochran-Mantel-Haenszel Statistics (Based on Table Scores)

Statistic Alternative Hypothesis DF Value Prob

1 Nonzero Correlation 1 4.0186 0.0450

2 Row Mean Scores Differ 1 4.0186 0.0450

3 General Association 1 4.0186 0.0450

r c×2 2×

α 0.05=

2 2×

Page 78: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

74 第 3章 : FREQプロシジャ

一致研究

医療研究者は、新しい処置が皮膚の状態に与える効果を評価することに興味を持っています。次の例では、複数の病院に勤務する皮膚科医が、このような研究を主導し皮膚の状態を評価できるようにトレーニングを受けたものとします。このトレーニングの後、ある2人の皮膚科医が、予備実験により患者の皮膚の状態を調べ、それらの患者の評価を行ったとします。与えることができる評価の値としては、Terrible、Poor、Marginal、Clearの4つがあるものとします。表3.2に、この皮膚状態のデータを示します。

表 3.2 皮膚状態のデータ

SASデータセットSkinConditionを作成するDATAステップステートメントは次のようになります。皮膚科医1および皮膚科医2による患者の評価は、それぞれ変数Derm1およびDerm2に含められます。また、変数Countの値は、特定のレーティングのペアを与えられた患者数になります。

data SkinCondition; input Derm1 $ Derm2 $ Count; datalines;

terrible terrible 10

terrible poor 4

terrible marginal 1

terrible clear 0

poor terrible 5

poor poor 10

poor marginal 12

poor clear 2

marginal terrible 2

marginal poor 4

marginal marginal 12

marginal clear 5

clear terrible 0

clear poor 2

clear marginal 6

clear clear 13

;

皮膚状態のデータの一致分析を要求するには、次のようなPROC FREQステートメントを使用します。診断の一致(および実験における測定誤差への寄与の可能性)を評価するには、カッパ係数を計算します。

TABLESステートメントは、変数Derm1およびDerm2から成るクロス集計表を要求します。TABLESステートメントのAGREEオプションは、カッパ係数と、その標準誤差および信頼限界を要求します。TESTステートメントのKAPPAオプションは、カッパ係数が0である(すなわち一致は純粋に偶然的なものである)という帰無仮説の下での検定を要求します。TABLESステートメントのNOPRINTオプションは、二元表が表

Dermatologist 2

Dermatologist 1 Terrible Poor Marginal Clear

Terrible 10 4 1 0

Poor 5 10 12 2

Marginal 2 4 12 5

Clear 0 2 6 13

Page 79: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : FREQプロシジャ 75

示されないようにします。PLOTS=オプションは、2人の皮膚科医の一致プロットを要求します。プロットを作成する前に、ODS Graphicsを有効にする必要があります。

ods graphics on;

proc freq data=SkinCondition order=data; tables Derm1*Derm2 /

agree noprint plots=agreeplot; test kappa; weight Count;

run;

ods graphics off;

図3.10と図3.11に結果を示します。カッパ係数の値は0.3449であり、これは2人の皮膚科医間でのある程度の一致が存在することを意味します。また、仮説の検定結により、一致が存在しないという帰無仮説を棄却できることが確認されます。この結論は、信頼区間(0.2030, 0.4868)によっても支持されます。これは、真のカッパ係数が0より大きいことを示唆しています。また、AGREEオプションを指定しているため、ここには表示されていませんが、Bowkerの対称性検定や重み付きカッパ係数も計算されます。図3.11に、2人の皮膚科医の評価の一致プロットを示します。

図 3.10 一致研究The FREQ Procedure

Statistics for Table of Derm1 by Derm2

Simple Kappa Coefficient

Kappa 0.3449

ASE

95% Lower Conf Limit 0.2030

95% Upper Conf Limit 0.4868

Test of H0: Kappa = 0

ASE under H0 0.0612

Z 5.6366

One-sided Pr > Z <.0001

Two-sided Pr > |Z| <.0001

Page 80: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

76 第 3章 : FREQプロシジャ

図 3.11 一致プロット

構文 : FREQプロシジャ

FREQプロシジャでは次のステートメントを使用できます。 PROC FREQ < options > ;

BY variables ;EXACT statistic-options < / computation-options > ;OUTPUT <OUT=SAS-data-set > output-options;TABLES requests < / options > ;TEST options ;WEIGHT variable < / option > ;

PROC FREQステートメントは、FREQプロシジャの唯一の必須ステートメントです。次のステートメントを指定すると、FREQプロシジャは最後に作成されたデータセット内の各変数の一元度数表を作成します。

proc freq; run;

表3.3に、プロシジャステートメントの基本機能の概要を示します。次のセクションでは、BY、EXACT、OUTPUT、TABLES、TEST、WEIGHTの各ステートメントの構文に関する詳細情報を示します。PROCFREQステートメントの説明の後、各ステートメントの説明をアルファベット順に示します。

Page 81: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 77

表 3.3 PROC FREQステートメントの概要

PROC FREQステートメント

PROC FREQ < options > ;

PROC FREQステートメントは、FREQプロシジャを呼び出します。また、同ステートメントでは、オプションで入力データセットを指定できます。デフォルトでは、このプロシジャは最後に作成されたSASデータセットを使用します。

表3.4に、PROC FREQステートメントで使用できるoptionsとその概要を示します。optionsの説明はアルファベット順に示されています。

表 3.4 PROC FREQステートメントオプション

PROC FREQステートメントでは次のoptionsを使用できます。COMPRESS

表を開始するのに十分な領域がある場合、直前の一元度数表と同じページに次の一元度数表の表示を開始します。デフォルトでは、次の一元表は表全体がそのページに適合する場合のみ現在のページで開始します。COMPRESSオプションは、PAGEオプションとともに指定した場合は無効になります。

DATA=SAS-data-set

FREQ プロシジャで分析対象とする SAS-data-set を指定します。DATA= オプションを省略すると、最後に作成された SASデータセットが使用されます。

ステートメント 説明

BY 各BYグループについて個別に統計量を計算

EXACT 正確検定を要求

OUTPUT 出力データセットを要求

TABLES テーブルを指定し、分析を要求

TEST 連関性および一致の統計量の検定を要求

WEIGHT 重み変数を指定

オプション 説明

COMPRESS 現在のページで次の一元表を開始

DATA= 入力データセットを指定

FORMCHAR= クロス集計表で使用するアウトライン文字やセル区切り文字を指定

NLEVELS すべてのTABLES変数の水準数を表示

NOPRINT すべての出力表示を抑制

ORDER= 報告する変数値の順番を指定

PAGE 1ページにつき1つの表を表示

Page 82: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

78 第 3章 : FREQプロシジャ

FORMCHAR(1,2,7)='formchar-string' クロス集計表のセルのアウトラインおよび分割表を構成するために使用する文字を定義します。formchar-string の長さは 3 文字です。これらの文字は、垂直区切り記号 (1)、水平区切り記号 (2)、垂直および水平区切り記号の交差記号 (7) を描画するのに使用されます。FORMCHAR= オプションを省略すると、デフォルト値として FORMCHAR(1,2,7)='|-+'が使用されます。表 3.5に、FREQプロシジャで使用されるフォーマッティング文字を示します。

表 3.5 FREQプロシジャにより使用されるフォーマッティング文字

FORMCHAR=オプションでは、出力表示に使用される 20種類のフォーマッティング文字を指定できます。ただし、FREQ プロシジャで使用できるのは、1 番目、2 番目、7 番目の文字だけです。このため、FREQプロシジャにおける同オプションの正しい指定方法は、FORMCHAR(1,2,7)='formchar-string'のようになります。

FORMCHAR(1,2,7)=' 'のように formchar-stringにすべて空白を指定すると、アウトラインや境界線のないクロス集計表が作成されます。formchar-string には、16 進文字を含む任意の文字を指定できます。16進文字を使用する場合、終わりの引用符の後に xを入力する必要があります。16進コードと文字の対応については、使用するハードウェアのマニュアルを参照してください。

フォーマッティング文字の詳細は、Base SAS プロシジャガイドのCALENDAR、PLOT、TABULATEの各プロシジャの説明を参照してください。

NLEVELS "Number of Variable Levels"という名前の表を表示します。この表には、TABLESステートメントに指定された各変数の水準数が示されます。詳細は、「変数の水準数表」(216ページ)を参照してください。「出力形式を使用したグループ化」(142ページ)のセクションで説明されているように、FREQプロシジャは、フォーマットされた変数値により変数の水準を決定します。

NOPRINT すべての出力表示を抑制します。出力データセットのみを作成する場合は、NOPRINT オプションを使用します。FREQプロシジャにより作成される出力データセットについての詳細は、「出力データセット」(213 ページ)のセクションを参照してください。NOPRINT オプションを指定すると、ODS(Output Delivery System) が一時的に無効になります。詳細については、SAS/STAT 14.1 User'sGuideの Chapter 20: Using the Output Delivery System を参照してください。

注 : NOPRINT オプションは、TABLES ステートメントでも使用できます。同オプションを指定すると、クロス集計表は表示されなくなりますが、要求した統計量は表示されます。

ORDER=DATA | FORMATTED | FREQ | INTERNAL TABLESステートメントで要求した度数表やクロス集計表における変数水準の順序を指定します。

位置 デフォルト 使用目的

1 | 垂直区切り記号

2 - 水平区切り記号

7 + 垂直および水平区切り記号の交差記号

Page 83: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 79

ORDER=オプションには次の値を指定できます。

デフォルト値は ORDER=INTERNALです。FORMATTEDおよび INTERNALを指定した場合の順番は、使用しているマシンにより異なります。ORDER=は、欠損値には適用されません。欠損値は、常に最初になります。

並べ替えの順序についての詳細は、Base SAS プロシジャガイド の SORTプロシジャの章、および SAS言語リファレンス:解説編の BYグループ処理のセクションを参照してください。

PAGE 1 ページにつき 1 つの表のみを表示します。それ以外の場合、FREQ プロシジャは、スペースの許す限り、1ページに複数の表を表示します。PAGEオプションは、COMPRESS オプションとともに指定した場合は無効になります。

BYステートメントBY variables ;

FREQプロシジャでBYステートメントを使用すると、BY変数によって定義されたオブザベーションのグループごとに独立した分析を行えます。BYステートメントを指定する場合、このプロシジャでは入力データセットがそのBY変数で並べ替えられていることが前提となります。複数のBYステートメントを指定した場合、最後に指定したものだけが使用されます。

入力データセットが昇順で並べ替えられていない場合、次のいずれかを選択できます。 • 同様の BYステートメントで SORTプロシジャを使用してデータを並べ替えます。 • FREQプロシジャの BYステートメントでNOTSORTEDオプションまたはDESCENDINGオプションを指定します。NOTSORTEDオプションは、データが並べ替えられていないことを意味するのではなく、データは (BY変数の値に従って )グループごとに並べ替えられているが、それらのグループが必ずしもアルファベット順または数値昇順になっていないことを意味します。

• DATASETSプロシジャ(Base SASソフトウェア )を使用して、BY変数のインデックスを作成します。

BYグループ処理の詳細は、SAS言語リファレンス:解説編を参照してください。DATASETSプロシジャの詳細は、Base SAS プロシジャガイドを参照してください。

ORDER=の値 水準が並べられる基準

DATA 入力データセット内に現れる順番

FORMATTED 外部のフォーマットされた値。明示的な出力形式を持たない数値変数は除きます。これらは、それぞれのフォーマットされていない(内部)値により並べ替えられます

FREQ 度数カウントの降順。最もオブザベーション数の多い水準が先頭となります。

INTERNAL フォーマットされていない値

Page 84: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

80 第 3章 : FREQプロシジャ

EXACTステートメントEXACT statistic-options < / computation-options > ;

EXACTステートメントは、選択した統計量に対する正確検定や正確な信頼限界を求めます。statistic-optionsには、計算対象とする統計量を指定します。computation-optionsには、正確な統計量を計算するためのオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

注: FREQプロシジャでは、すべての組み合わせを列挙していく方法ではなく、高速で効率の良いアルゴリズムを使用して、正確検定を行います。正確検定は、データセットが小さい場合、その分布が疎である場合、あるいは片寄った分布である場合に有用です。大きな問題の場合、正確検定の計算には多くの時間とメモリが必要となります。そのような問題の場合、漸近検定の使用を検討してください。または、漸近検定がそのような大きな問題に妥当でないときは、正確なp値のモンテカルロ法による推定の使用を検討してください。モンテカルロ推定値を求めるには、EXACTステートメントでMC computation-optionを指定します。詳細は、「計算リソース」(211ページ)のセクションを参照してください。

統計量オプション

statistic-options には、計算対象とする正確検定および信頼限界を指定します。表 3.6 に、使用可能なstatistic-optionsと、計算される正確な統計量を示します。statistic-optionsの説明はアルファベット順に示されています。

一元表の場合、二項比率検定、カイ2乗適合度検定、尤度比カイ2乗検定の正確なp値が計算されます。正確な(Clopper-Pearson)信頼限界は、二項比率で使用できます。

二元表の場合、正確なp値は、Pearsonのカイ2乗検定、尤度比カイ2乗検定、Mantel-Haenszelのカイ2乗検定、Fisherの正確検定、Jonckheere-Terpstra検定、およびCochran-Armitageの傾向検定に関して計算されます。また、正確なp値は、Pearson相関係数、Spearman相関係数、KendallのTau-b、StuartのTau-c、Somersの 、Somersの 、単純カッパ係数、重み付きカッパ係数のような統計量の検定に関しても計算されます。

表の場合、FREQプロシジャは、リスク(比率)の差の正確なMcNemarの検定、オッズ比の正確な信頼限界、Barnardの条件なしの正確検定を計算します。FREQプロシジャは、リスク差および相対リスク(比率の割合)の正確な無条件の信頼限界も計算します。層化された 表の場合、FREQプロシジャは、オッズ比の等質性に対するZelenの正確検定、共通オッズ比の正確な信頼限界、共通オッズ比の正確検定を提供します。

表3.6に示されているstatistic-option名のほとんどは、TABLESステートメントやOUTPUTステートメントにおける対応するオプション名と同じになります。TABLESステートメントのオプションであるCHISQ、MEASURES、AGREEと同じ名前のstatistic-optionsを使用することで、複数の統計量のグループの正確な計算を要求できます。たとえば、EXACTステートメントでCHISQ statistic-optionを指定すると、FREQプロシジャは、Pearsonカイ2乗検定、尤度比カイ2乗検定、およびMantel-Haenszelのカイ2乗検定の正確なp値を計算します。また、表3.6に示されている個々のstatistic-optionを指定することにより、統計量の正確検定を要求できます。

TABLESステートメントのオプションをEXACTステートメントと共に使用TABLESステートメントはEXACTステートメントと一緒に使用する必要があります。TABLESステートメントを1つだけ指定する場合、TABLESステートメントとEXACTステートメントの両方で同じオプションを指定する必要はありません。この場合、EXACTステートメントでstatistic-optionを指定すると、FREQプロシジャはTABLESステートメントのオプションを自動的に呼び出します。ただし、1つのEXACTステートメントを複数のTABLESステートメントと共に使用する場合、必要な統計量を要求するにはTABLESステートメントでオプションを指定する必要があります。この場合、FREQプロシジャは、EXACTステートメントで指定した統計量に関しても正確検定や信頼限界を計算します。

D C R( ) D C R( )

2 2×

2 2×

Page 85: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 81

statistic-optionsには次のオプションを指定できます。AGREE

McNemar の正確な検定、単純カッパ係数の正確な検定、重み付きカッパ係数の正確な検定を要求します。詳細については、「一致の検定と統計量」(194ページ)および「正確な統計量」(208ページ)のセクションを参照してください。

表 3.6 EXACTステートメントの統計量オプション

統計量オプション 正確な統計量

AGREE McNemarの検定( 表の場合)、単純なカッパ検定、重み付きカッパ検定

BARNARD Barnardの検定( 表の場合)

BINOMIAL|BIN 一元表の二項比率の検定

CHISQ 一元表に対するカイ 2 乗適合度検定、二元表に対するPearson カイ 2 乗検定、尤度比カイ 2 乗検定、およびMantel-Haenszelカイ2乗検定

COMOR 共通オッズ比、共通オッズ比検定の信頼限界( 表の場合)

EQOR | ZELEN オッズ比の等質性に対するZelenの検定( 表の場合)

FISHER Fisherの正確検定

JT Jonckheere-Terpstraの検定

KAPPA 単純カッパ係数に対する検定

KENTB|TAUB KendallのTau-bの検定

LRCHI 尤度比カイ2乗検定(一元表および二元表の場合)

MCNEM McNemarの検定( 表の場合)

MEASURES Pearson係数およびSpearman係数に対する検定、 オッズ比の正確な信頼限界( 表の場合)

MHCHI Mantel-Haenszelカイ2乗検定

OR|ODDSRATIO オッズ比の正確な信頼限界( 表の場合)

PCHI Pearsonカイ2乗検定(一元表および二元表の場合)

PCORR Pearsonの相関係数に対する検定

RELRISK 相対リスクの正確な信頼限界( 表の場合)

RISKDIFF 比率の差の信頼限界( 表の場合)

SCORR Spearmanの相関係数に対する検定

SMDCR Somersのの検定

SMDRC Somersのの検定

STUTC|TAUC StuartのTau-cの検定

TREND Cochran-Armitageの傾向検定

WTKAP|WTKAPPA 重み付きカッパ係数に対する検定

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

D C R( )

D R C( )

Page 86: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

82 第 3章 : FREQプロシジャ

McNemarの検定で、不一致の比率として帰無仮説比率を指定するには、TABLESステートメントでAGREE(MNULLRATIO=) オプションを使用します。デフォルトでは MNULLRATIO=1 になります。重み付きカッパ係数の場合、Fleiss-Cohen の重みを要求するには、TABLES ステートメントでAGREE(WT=FC)オプションを指定します。デフォルトでは FREQプロシジャは、Cicchetti-Allisonの一致の重みを使用して重み付きカッパ係数を計算します。

McNemarの検定は、 表の場合に使用できます。カッパ係数は、列数が行数に等しい正方形の二元表に対してのみ定義されます。重みがゼロのオブザベーションがあるために表の列数と行数が等しくならない場合、WEIGHTステートメントに ZEROSオプションを指定することで、それらのオブザベーションを分析に含めることができます。詳細は、「重みがゼロの行と列を含む表」(199ページ)のセクションを参照してください。

表の場合、重み付きカッパ係数は単純カッパ係数に等しくなるため、FREQプロシジャは単純カッパ係数の分析のみを表示します。

BARNARD

表の場合に、リスク (比率 )の差のBarnardの条件なしの正確検定を要求します。詳細は、「Barnardの条件なしの正確検定」(180ページ)のセクションを参照してください。

リスク差の正確な条件なしの信頼限界を要求するには、EXACTステートメントでRISKDIFFオプションを指定します。TABLESステートメントで RISKDIFFオプションを指定すると、リスク差に関する漸近検定と各種の信頼限界が計算されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

BINOMIAL

BIN

二項比率の正確検定を要求します ( 一元表の場合 )。詳細は、「二項検定」(166 ページ)のセクションを参照してください。帰無仮説比率を指定するには、TABLESステートメントで BINOMIAL(P=)オプションを使用します。デフォルトでは P=0.5になります。

TABLES ステートメントで BINOMIAL オプションを指定すると、デフォルトで二項比率の正確な(Clopper-Pearson)信頼限界が計算されます。TABLES ステートメントで BINOMIAL(CL=MIDP)オプションを指定すると、二項比率の正確なmid-p信頼限界が計算されます。TABLESステートメントで BINOMIAL オプションを指定すると、二項比率に関する漸近 (Wald) 検定と各種の信頼限界が計算されます。詳細は、「二項比率」(163ページ)のセクションを参照してください。

CHISQ二元表に対する各種のカイ 2乗検定 (Pearsonカイ 2乗、尤度比カイ 2乗、Mantel-Haenszelカイ 2乗 )を要求します。詳細は、「カイ 2乗検定と統計量」(148ページ)のセクションを参照してください。TABLES ステートメントで CHISQ オプションを指定すると、これらの統計量の漸近検定が計算されます。

一元表の場合、CHISQオプションを指定すると、正確なカイ 2乗適合度検定が計算されます。この検定で帰無仮説の比率を指定するには、TABLESステートメントで CHISQ(TESTP=)オプションを使用します。デフォルトでは、一元カイ 2 乗検定は、比率が等しいという帰無仮説に基づきます。詳細は、「一元表に対するカイ 2乗検定」(149ページ)のセクションを参照してください。

COMOR 多元 表の場合、共通オッズ比の正確検定および正確な信頼限界を要求します。詳細は、「共通オッズ比の正確な信頼限界」(206ページ)のセクションを参照してください。TABLESステートメントでCMHオプションを指定すると、共通オッズ比に関するMantel-Haenszel推定値およびロジット推定値に加えて、それらの漸近信頼限界が計算されます。

2 2×

2 2×

2 2×

2 2×

Page 87: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 83

EQOR

ZELEN オッズ比の等質性に対する Zelenの正確検定を要求します。これは、多元 表の場合に利用できます。詳細は、「オッズ比の等質性に対する Zelen の正確検定」(205 ページ)のセクションを参照してください。TABLES ステートメントで CMH オプションを指定すると、オッズ比の等質性のBreslow-Dayの漸近検定が計算されます。

FISHER

Fisherの正確検定を要求します。詳細は、「Fisherの正確検定」(152ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。 表の場合、TABLES ステートメントで CHISQオプションを指定すると、Fisherの正確検定が計算されます。一般的な 表の場合、Fisherの正確検定は Freeman-Halton検定とも呼ばれます。

JT 正確な Jonckheere-Terpstra検定を要求します。詳細は、「Jonckheere-Terpstraの検定」(193ページ)および「正確な統計量」(208ページ)のセクションを参照してください。TABLESステートメントで JTオプションを指定すると、漸近的な Jonckheere-Terpstra検定が計算されます。

KAPPA 単純カッパ係数に対する検定を要求します。詳細は、「単純カッパ係数」(196ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで AGREE オプションを指定すると、単純カッパ係数の推定値、標準誤差、信頼限界が計算されます。TESTステートメントで KAPPAオプションを指定すると、単純カッパ係数の漸近検定が計算されます。

カッパ係数は、列数が行数に等しい正方形の二元表に対してのみ定義されます。重みがゼロのオブザベーションがあるために表の列数と行数が等しくならない場合、WEIGHTステートメントに ZEROSオプションを指定することで、それらのオブザベーションを分析に含めることができます。詳細は、「重みがゼロの行と列を含む表」(199ページ)のセクションを参照してください。

KENTB

TAUB Kendallの Tau-bの検定を要求します。詳細は、「Kendallの Tau-b」(155ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで MEASURESオプションを指定すると Kendall の Tau-bの推定値と標準誤差が計算されます。TESTステートメントで KENTBオプションを指定すると Kendallの Tau-bの漸近検定が計算されます。

LRCHI 二元表の場合、尤度比カイ 2 乗の正確検定を要求します。詳細は、「尤度比カイ 2 乗検定」(151 ページ)および「正確な統計量」(208ページ)のセクションを参照してください。TABLESステートメントで CHISQオプションを指定すると、二元表に対する漸近的な尤度比カイ 2乗検定が計算されます。

一元表の場合、LRCHIオプションを指定すると、正確な尤度比適合度検定が計算されます。帰無仮説の比率を指定するには、TABLES ステートメントで CHISQ(TESTP=) オプションを使用します。デフォルトでは、一元検定は、比率が等しいという帰無仮説に基づきます。詳細は、「一元表に対する尤度比カイ 2乗検定」(150ページ)のセクションを参照してください。

MCNEM 正確なMcNemarの検定を要求します。詳細は、「McNemarの検定」(195ページ)および「正確な統計量」(208ページ)のセクションを参照してください。不一致の比率として帰無仮説比率を指定するには、TABLES ステートメントで AGREE(MNULLRATIO=) オプションを使用します。デフォルトではMNULLRATIO=1になります。TABLESステートメントでAGREEオプションを指定すると、漸近的なMcNemarの検定が計算されます。

MEASURES Pearson 係数および Spearman 係数の正確検定を要求します。詳細は、「Pearson の相関係数」(157ページ)および Spearman 係数、「Spearman の順位相関係数」(158 ページ)「正確な統計量」(208

2 2×

2 2×R C×

Page 88: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

84 第 3章 : FREQプロシジャ

ページ)の各セクションを参照してください。TESTステートメントで PCORRおよび SCORRオプションを指定すると、それぞれ Pearson係数および Spearman係数の漸近検定が計算されます。

MEASURES オプションでは、 表のオッズ比の正確な信頼限界も要求されます。詳細は、「オッズ比の信頼限界」(183ページ)セクション内のサブセクション「正確な信頼限界」を参照してください。オッズ比の正確な信頼限界を要求するには、EXACTステートメントにORオプションを指定します。

MHCHI Mantel-Haenszel カイ 2 乗の正確検定を要求します。詳細は、「Mantel-Haenszel カイ 2 乗検定」(151 ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで CHISQオプションを指定すると、漸近的なMantel-Haenszelカイ 2乗検定が計算されます。

OR ODDSRATIO

表の場合、オッズ比の正確な信頼限界を要求します。詳細は、「オッズ比の信頼限界」(183 ページ)セクション内のサブセクション「正確な信頼限界」を参照してください。

オッズ比の正確なmid-p信頼限界を要求するには、TABLESステートメントでOR(CL=MIDP) オプションを指定します。また、TABLES ステートメントで OR(CL=) オプションを指定すると、オッズ比に関する各種の信頼限界が計算されます。詳細は、「オッズ比の信頼限界」(183ページ)のセクションを参照してください。

TABLESステートメントのALPHA=オプションは、正確な信頼限界の信頼水準を決定します。デフォルトはALPHA=0.05であり、オッズ比に関して 95%の信頼限界を作成します。

PCHI 二元表の場合、Pearsonカイ 2乗の正確検定を要求します。詳細は、「二元表に対する Pearsonカイ 2乗検定」(149ページ)および「正確な統計量」(208ページ)のセクションを参照してください。TABLESステートメントで CHISQオプションを指定すると、漸近的な Pearsonカイ 2乗検定が計算されます。

一元表の場合、PCHIオプションを指定すると、正確なカイ 2乗適合度検定が計算されます。帰無仮説の比率を指定するには、TABLES ステートメントで CHISQ(TESTP=) オプションを使用します。デフォルトでは、適合度検定は、比率が等しいという帰無仮説に基づきます。詳細は、「一元表に対するカイ 2乗検定」(149ページ)のセクションを参照してください。

PCORR Pearson の相関係数の正確検定を要求します。詳細は、「Pearson の相関係数」(157 ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントでMEASURES オプションを指定すると、Pearson 相関の推定値と標準誤差が計算されます。TEST ステートメントで PCORRオプションを指定すると、Pearsonの相関の漸近検定が計算されます。

RELRISK< (options)>

表の場合、 相対リスクの正確な信頼限界を要求します。FREQプロシジャは、2つの独立した片側正確検定を反転させることにより、信頼限界を計算します (Santner and Snell, 1980)。デフォルトでは、こ の 計 算 は、標 準 化 さ れ て い な い リ ス ク 差 を 検 定 統 計 量 と し て 使 用 し ま す。RELRISK(METHOD=SCORE) オプションを指定すると、この計算はスコア統計量を使用します(Chan and Zhang, 1999)。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。

TABLES ステートメントで RELRISK(CL=) オプションを指定すると、相対リスクに関する各種の信頼限界が計算されます。詳細は、「リスク差の信頼限界」(172ページ)のセクションを参照してください。

TABLESステートメントのALPHA=オプションは、正確な信頼限界の信頼水準を決定します。デフォルトはALPHA=0.05で、相対リスクに関して 95%の信頼限界を生成します。

optionsには次を指定できます。

2 2×

2 2×

2 2×

Page 89: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 85

COLUMN=1 | 2 | BOTH 相対リスクを計算する表の列を指定します。デフォルト値は COLUMN=1であり、列 1の相対リスクの正確な信頼限界が計算されます。COLUMN=BOTHを指定すると、FREQプロシジャは、列 1と列 2の相対リスクの正確な信頼限界を計算します。

METHOD=SCORE スコア統計量に基づく、正確な条件なしの信頼限界を要求します (Chan and Zhang, 1999)。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。METHOD=SCORE を省略した場合、デフォルトでは、標準化されていない相対リスクに基づいて正確な信頼限界が計算されます。

RISKDIFF < (options)>

表の場合、 リスク差の正確な条件なしの信頼限界を要求します。FREQプロシジャは、2つの独立した片側正確検定を反転させることにより、信頼限界を計算します (Santner and Snell, 1980)。デフォルトでは、この計算は、標準化されていないリスク差を検定統計量として使用します。RISKDIFF(METHOD=SCORE) オプションを指定すると、この計算はスコア統計量を使用します(Chan and Zhang, 1999)。詳細は、「リスク差の信頼限界」(172 ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。

TABLESステートメントで RISKDIFF(CL=)オプションを指定すると、リスク差に関する各種の信頼限界が計算されます。詳細は、「リスク差の信頼限界」(172ページ)のセクションを参照してください。

TABLESステートメントのALPHA=オプションは、正確な信頼限界の信頼水準を決定します。デフォルトはALPHA=0.05で、リスク差に関して 95%の信頼限界を作成します。

optionsには次を指定できます。COLUMN=1 | 2 | BOTH

リスク差を計算する表の列を指定します。デフォルト値は COLUMN=BOTH であり、列 1 および列 2のリスク差の正確な信頼限界が計算されます。

METHOD=SCORE スコア統計量に基づく、正確な条件なしの信頼限界を要求します (Chan and Zhang, 1999)。詳細は、「リスク差の信頼限界」(172 ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。METHOD=SCORE を省略した場合、デフォルトでは、標準化されていないリスク差に基づいて正確な信頼限界が計算されます。

SCORR Spearmanの相関係数の正確検定を要求します。詳細は、「Spearmanの順位相関係数」(158ページ)および「正確な統計量」(208ページ)のセクションを参照してください。TABLESステートメントでMEASURES オプションを指定すると、Spearman 相関の推定値と標準誤差が計算されます。TESTステートメントで SCORRオプションを指定すると、Spearmanの相関の漸近検定が計算されます。

SMDCR Somers の の正確検定を要求します。詳細は、「Somers の D」(157 ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで MEASURESオプションを指定すると Somers の の推定値と標準誤差が計算されます。TEST ステートメントで SMDCRオプションを指定すると、Somersの の漸近検定が計算されます。

SMDRC Somers の の正確検定を要求します。詳細は、「Somers の D」(157 ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで MEASURESオプションを指定すると Somers の の推定値と標準誤差が計算されます。TEST ステートメントで SMDRCオプションを指定すると、Somersの の漸近検定が計算されます。

2 2×

D C R( )

D C R( )D C R( )

D R C( )

D R C( )D C R( )

Page 90: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

86 第 3章 : FREQプロシジャ

STUTC

TAUC Stuartの Tau-cの正確検定を要求します。詳細は、「Stuartの Tau-c」(156ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。TABLES ステートメントで MEASURESオプションを指定すると Stuartの Tau-cの推定値と標準誤差が計算されます。TESTステートメントで STUTCオプションを指定すると Stuartの Tau-cの漸近検定が計算されます。

TREND Cochran-Armitageの傾向検定を要求します。詳細は、「Cochran-Armitageの傾向検定」(192ページ)および「正確な統計量」(208ページ)のセクションを参照してください。TABLESステートメントで TRENDオプションを指定すると、漸近的な Cochran-Armitageの傾向検定が計算されます。この検定は、次元数が または である表の場合に利用できます。

WTKAP WTKAPPA

重み付きカッパ係数に対する検定を要求します。詳細は、「重み付きカッパ係数」(197ページ)および「正確な統計量」(208 ページ)のセクションを参照してください。デフォルトでは FREQ プロシジャは、Cicchetti-Allisonの一致の重みを使用して重み付きカッパ係数を計算します。Fleiss-Cohenの一致の重みを要求するには、TABLESステートメントでAGREE(WT=FC)オプションを指定します。

カッパ係数は、列数が行数に等しい正方形の二元表に対してのみ定義されます。重みがゼロのオブザベーションがあるために表の列数と行数が等しくならない場合、WEIGHTステートメントに ZEROSオプションを指定することで、それらのオブザベーションを分析に含めることができます。詳細は、「重みがゼロの行と列を含む表」(199ページ)のセクションを参照してください。

表の場合、重み付きカッパ係数は単純カッパ係数に等しくなるため、FREQプロシジャは単純カッパ係数のみを表示します。

計算オプション

computation-optionsには、正確な統計量を計算するためのオプションを指定します。EXACTステートメントでは、スラッシュ(/)に続いて次のようなcomputation-optionsを指定できます。ALPHA=

p値のモンテカルロ推定値の信頼限界の水準を指定します。 の値は、0から 1までの間である必要があります。信頼水準が である場合、信頼限界は になります。デフォルトはALPHA=0.01で、モンテカルロ推定値に関して 99%の信頼限界を生成します。

ALPHA=オプションは、MCオプションを呼び出します。MAXTIME=value

正確な p値を計算する場合に FREQプロシジャが使用可能な最大クロック時間 (秒 )を指定します。指定の時間内に計算が完了しない場合、計算は途中で終了します。MAXTIME=valueは正の数にする必要があります。このオプションを指定すると、正確な p値の直接計算に加えて、正確な p値のモンテカルロ推定が計算されます。詳細は、「計算リソース」(211ページ)のセクションを参照してください。

MC 正確な p 値の直接計算ではなく、正確な p 値のモンテカルロ推定を要求します。モンテカルロ推定値は、正確な計算をするためにはかなりの量の時間とメモリが必要となるが、かと言って漸近近似では十分でないような、大きな問題の場合に役立ちます。詳細は、「モンテカルロ推定」(211ページ)のセクションを参照してください。

このオプションは、すべての EXACT statistic-options で使用できます。ただし、BINOMIAL オプションと、 表または 表にのみ適用可能なオプション (BARNARD、COMOR、EQOR、

2 C× R 2×

2 2×

α

αα 100 1 α–( )× %

h 2 2×× 2 2×

Page 91: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 87

MCNEM、OR、RELRISK、および RISKDIFF)は除きます。FREQプロシジャは、これらの統計量に関しては、常に (モンテカルロ推定値ではなく )正確検定または信頼限界を計算します。

ALPHA=、N=、SEED=の各オプションでは、MCオプションが呼び出されます。MIDP

正確検定の正確なmid p値が要求されます。 正確なmid p値は、正確な p値から正確な点確率の半分を差し引いた値として定義されます。詳細は、「p値の定義」(210ページ)のセクションを参照してください。

MIDPオプションは、すべての EXACTステートメントの statistic-optionsで使用できます。ただし、BARNARD、EQOR、OR、RELRISK、および RISKDIFFの各オプションは除きます。MIDPオプションとMCオプションを両方とも指定することはできません。

N=n モンテカルロ推定の標本数を指定します。nの値は正の整数にする必要があり、デフォルトは 10,000になります。n の値が大きいほど、正確な p 値の推定値の精度が高くなります。n の値が大きいほど、より多くの標本が生成されるため、計算時間は増加します。

N=オプションはMCオプションを呼び出します。PFORMAT=format-name | EXACT

正確な p値の表示出力形式を指定します。 FREQプロシジャは、片側および両側の正確な p値、正確な点確率、および正確な mid p 値にこの出力形式を適用します。デフォルトでは、FREQ プロシジャによって、正確な p値が PVALUE6.4出力形式で表示されます。

format-nameを入力するか PFORMAT=EXACTを指定すると、正確な p値の出力形式を制御できます。format-name の値には、標準 SAS 数値出力形式またはユーザー定義出力形式をいずれでも指定できます。出力形式の長さは 24 を超えることはできません。出力形式の詳細については、Base SASProcedures GuideにあるFORMATプロシジャの説明や、SAS Formats and Informats: Referenceにある FORMATステートメントと SAS出力形式の説明を参照してください。

PFORMAT=EXACTを指定すると、FREQプロシジャは、0.001より大きいか等しい正確な p値を表示するには 6.4出力形式、0.000から 0.001までの値を表示するには E10.3出力形式を使用します。これは、SAS/STAT 12.3より前のリリースで FREQプロシジャが正確な p値の表示に使用する出力形式です。SAS/STAT 12.3から、デフォルトでは、FREQプロシジャは PVALUE6.4出力形式を使用して正確な p値を表示します。

POINT 正確検定の正確な点確率を要求します。正確な点確率とは、検定統計量が観測値と等しくなる正確な確率です。詳細は、「p値の定義」(210ページ)のセクションを参照してください。

POINT オプションは、すべての EXACT ステートメントの statistic-options で使用できます。ただし、BARNARD、EQOR、OR、RELRISK、および RISKDIFFの各オプションは除きます。POINTオプションとMCオプションを両方とも指定することはできません。

SEED=number

モンテカルシミュレーションで用いる乱数の、乱数系列の初期シードを指定します。SEED= オプションの値は整数でなければなりません。SEED= オプションを省略するか、または SEED= の値をゼロまたはマイナスに指定した場合、FREQ プロシジャは、コンピュータのクロックの時刻を使用して初期シードを取得します。

SEED=オプションはMCオプションを呼び出します。

Page 92: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

88 第 3章 : FREQプロシジャ

OUTPUTステートメント

OUTPUT < OUT=SAS-data-set > output-options;

OUTPUTステートメントは、FREQプロシジャにより計算される統計量を含むSASデータセットを作成します。表3.7に、出力データセット内に保存可能な統計量を示します。含めたい統計量を特定するには、output-optionsを指定します。

TABLESステートメントはOUTPUTステートメントと一緒に使用する必要があります。OUTPUTステートメントは、1つの表要求のみに対応する統計量を保存します。複数のTABLESステートメントを使用した場合、OUTPUTデータセットの内容は最後のTABLESステートメントに対応します。単一のTABLESステートメントで複数の表を要求した場合、OUTPUTデータセットの内容は最後のTABLESステートメントに対応します。FREQプロシジャの単一の呼び出しで指定できるOUTPUTステートメントは1つだけです。

一元表または二元表の場合、出力データセットには、当該表に関して要求された統計量を格納する1つのオブザベーションが含められます。多元クロス表の場合、出力データセットには、多元クロス集計の二元表(層)ごとに1つのオブザベーションが含められます。多元クロス表で要約統計量を要求すると、出力データセットには、層全体の要約統計量を格納する1つのオブザベーションも含められます。BYステートメントを使用する場合、出力データセットには、BYグループごとに1つのオブザベーションまたはオブザベーションの集合が含められます。出力データセットの内容に関する詳細は、「OUTPUTステートメントの出力データセットの内容」(214ページ)のセクションを参照してください。

OUTPUTステートメントにより作成される出力データセットは、TABLESステートメントのOUT=オプションにより作成される出力データセットとは異なります。OUTPUTステートメントは、統計量(Pearsonカイ2乗やそのp値など)を含むデータセットを作成します。一方、TABLESステートメントのOUT=オプションは、度数表カウントやパーセンテージを含むデータセットを作成します。詳細は、「出力データセット」(213ページ)のセクションを参照してください。

OUTPUTステートメントの代わりに、Output Delivery System (ODS)を使用することで、FREQプロシジャが計算する統計量を保存できます。ODSは、FREQプロシジャが作成する任意の表からSASデータセットを作成します。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

OUTPUTステートメントでは次のoptionsを使用できます。OUT=SAS-data-set

出力データセット名を指定します。OUTPUT ステートメントを使用する場合に OUT= オプションを省略すると、FREQプロシジャはそれが作成するデータセットに、DATAn形式の名前を付けます。

output-options 出力データセットに含める統計量を指定します。表 3.7 に、OUTPUT ステートメントで使用できるoutput-options と、統計量の生成に必要となる TABLES ステートメントのオプションを示します。output-optionsの説明はアルファベット順に示されています。

output-optionsを指定することで、個々の統計量を要求できます。または TABLESステートメントのグループオプション (CHISQ、MEASURES、CMH、AGREE、ALL オプションなど ) と同じoutput-options を使用することで、統計量のグループを要求できます。

1つの output-optionを指定すると、出力データセットには、分析により生成された統計量が含められます。指定の推定値や検定統計量に加えて、出力データセットには、標準誤差、信頼限界、p値、自由度のような関連付けられている値も含められます。詳細については、「OUTPUT ステートメントの出力データセットの内容」(214ページ)のセクションを参照してください。

ある統計量を出力データセットに格納する場合、適切な TABLES ステートメント、EXACT ステートメント、TESTステートメントのオプションを使用して、その統計量の計算を要求する必要があります。たとえば、PCHI output-option を指定すると、出力データセットに Pearson カイ 2 乗統計量が含め

Page 93: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 89

られます。この場合、TABLESステートメントの CHISQオプションを指定することで、Pearsonカイ 2乗統計量の計算を要求する必要があります。または、1 つの TABLESステートメントのみを使用する場合、EXACT ステートメントで PCHI オプションまたは CHISQ オプションを指定することにより、 Pearsonカイ 2乗統計量の計算を要求できます。表 3.7に、OUTPUTデータセットに含める統計量を生成するのに必要となる TABLESステートメントのオプションを示します。

表 3.7 OUTPUTステートメントの統計量オプション

output-option 出力データセットに含める統計量 必要となるTABLESステートメントのオプション

AGREE McNemar の検定 ( 表の場合 )、Bowkerの検定、単純および重み付きカッパ係数。複数層の場合、全体的な単純および重み付きカッパ係数、カッパ係数が等しいかどうかの検定、CochranのQ( 表の場合)

AGREE

AJCHI 連続性補正カイ2乗( 表の場合) CHISQ

ALL CHISQ、MEASURES、CMH統計量N (欠損値でないオブザベーションの数)

ALL

BDCHI Breslow-Day検定( 表の場合) CMH、CMH1またはCMH2

BINOMIAL|BIN 二項統計量(一元表の場合) BINOMIAL

CHISQ 一元表の場合、適合度検定二元表の場合、Pearson、尤度比、 連続性補正、Mantel-Haenszel カイ2乗、Fisherの正確検定( 表の場合)、ファイ係数、一致係数、CramérのV

CHISQ

CMH Cochran-Mantel-Haenszel (CMH)相関、行平均スコア(ANOVA)、および一般連関性統計量。 表の場合、ロジットおよびMantel-Haenszel共通オッズ比および相対リスク、Breslow-Day検定

CMH

CMH1 CMH統計量、行平均スコア(ANOVA)を除く一般連関性統計量

CMHまたはCMH1

CMH2 CMH統計量、一般連関性統計量を除く CMHまたはCMH2CMHCOR CMH相関統計量 CMH、CMH1または

CMH2

CMHGA CMH一般連関性統計量 CMH

CMHRMS CMH行平均スコア(ANOVA)統計量 CMHまたはCMH2COCHQ CochranのQ ( 表の場合) AGREE

CONTGY 一致係数 CHISQ

CRAMV CramérのV CHISQ

EQKAP 単純カッパ係数の同等性に対する検定 AGREE

2 2×

h 2 2××

2 2×

h 2 2××

2 2×

2 2×

h 2 2××

Page 94: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

1CHISQオプションを使用すると、 表に対する Fisherの正確検定を計算できます。FISHERオプションを使用すると、一般的な 表に対する Fisherの正確検定を計算できます。

2 2× r c×

90 第 3章 : FREQプロシジャ

EQOR | ZELEN オッズ比の等質性に対するZelenの検定( 表の場合)

CMHおよびEQOR | ZELEN

EQWKP 重み付きカッパ係数の同等性に対する検定

AGREE

FISHER Fisherの正確検定 CHISQまたはFISHER1

GAMMA ガンマ MEASURES

GS | GAILSIMON Gail-Simon検定 CMH(GAILSIMON)

JT Jonckheere-Terpstraの検定 JT

KAPPA 単純カッパ係数 AGREE

KENTB|TAUB KendallのTau-b MEASURES

LAMCR 非対称ラムダ (C|R) MEASURES

LAMDAS ラムダ非対称 MEASURES

LAMRC 非対称ラムダ(R|C) MEASURES

LGOR ロジット共通オッズ比 CMH、CMH1またはCMH2

LGRRC1 ロジット共通相対リスク、列1 CMH、CMH1またはCMH2

LGRRC2 ロジット共通相対リスク、列2 CMH、CMH1またはCMH2

LRCHI 尤度比カイ2乗 CHISQ

MCNEM McNemarの検定( 表の場合) AGREE

MEASURES ガンマ、KendallのTau-b、StuartのTau-c、Somersの および 、Pearson、Spearman係数、非対称ラムダ(C|R)および(R|C)、対称ラムダ、不確定性係数(C|R)および(R|C)、対称不確定係数、オッズ比と相対リスク( 表の場合)

MEASURES

MHCHI Mantel-Haenszelのカイ2乗 CHISQ

MHOR | COMOR Mantel-Haenszel共通オッズ比 CMH、CMH1またはCMH2

MHRRC1 Mantel-Haenszel共通相対リスク、列1 CMH、CMH1またはCMH2

MHRRC2 Mantel-Haenszel共通相対リスク、列2 CMH、CMH1またはCMH2

N 欠損値でないオブザベーションの数

表 3.7 OUTPUTステートメントの統計量オプション(続き)

output-option 出力データセットに含める統計量 必要となるTABLESステートメントのオプション

h 2 2××

2 2×

D C R( ) D R C( )

2 2×

Page 95: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 91

NMISS 欠損値を含むオブザベーションの数

OR|ODDSRATIO オッズ比( 表の場合) MEASURES、ORまたはRELRISK

PCHI カイ 2 乗適合度検定 ( 一元表の場合 )、Pearsonカイ2乗検定(二元表の場合)

CHISQ

PCORR Pearsonの相関係数 MEASURES

PHI ファイ係数 CHISQ

PLCORR ポリコリック相関係数 PLCORR

RDIF1 列1リスク差(行1-行2) RISKDIFF

RDIF2 列2リスク差(行1-行2) RISKDIFF

RELRISK オッズ比と相対リスク( 表の場合) MEASURESまたはRELRISK

RISKDIFF リスクとリスク差( 表の場合) RISKDIFF

RISKDIFF1 リスクとリスク差、列1 RISKDIFF

RISKDIFF2 リスクとリスク差、列2 RISKDIFF

RRC1 | RELRISK1 相対リスク、列1 MEASURESまたはRELRISK

RRC2 | RELRISK2 相対リスク、列2 MEASURESまたはRELRISK

RSK1 | RISK1 列1全体リスク RISKDIFF

RSK11 | RISK11 行1の列1リスク RISKDIFF

RSK12 | RISK12 行2の列1リスク RISKDIFF

RSK2 | RISK2 列2全体リスク RISKDIFF

RSK21 | RISK21 行1の列2リスク RISKDIFF

RSK22 | RISK22 行2の列2リスク RISKDIFF

SCORR Spearmanの相関係数 MEASURES

SMDCR Somersの MEASURES

SMDRC Somersの MEASURES

STUTC|TAUC Stuartのtau-c MEASURES

TREND Cochran-Armitageの傾向検定 TREND

TSYMM | BOWKER Bowkerの対称性の検定 AGREE

U 対称不確定係数 MEASURES

UCR 不確定性係数 (C|R) MEASURES

URC 不確定性係数 (R|C) MEASURES

WTKAP|WTKAPPA 重み付きカッパ係数 AGREE

表 3.7 OUTPUTステートメントの統計量オプション(続き)

output-option 出力データセットに含める統計量 必要となるTABLESステートメントのオプション

2 2×

2 2×

2 2×

D C R( )

D R C( )

Page 96: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

92 第 3章 : FREQプロシジャ

OUTPUTステートメントでは次のoutput-optionsを使用できます。AGREE

一致の検定と統計量 ( 表に対するMcNemarの検定、Bowkerの対称性の検定、単純カッパ係数、重み付きカッパ係数 )を出力データセットに含めます。多元クロス表の場合、AGREEオプションを指定すると、全体的な単純カッパ係数および重み付きカッパ係数、単純カッパ係数および重み付きカッパ係数が等しいかどうかの検定、CochranのQ検定も出力データセットに含められます。

TABLESステートメントでAGREEオプションを指定すると、一致の検定と統計量の計算が要求されます。詳細は、「一致の検定と統計量」(194ページ)のセクションを参照してください。

AGREE統計量は、列数が行数に等しい正方形の表に対してのみ定義されます。FREQプロシジャは、より大きい表の場合にのみ、Bowker の対称性の検定および重み付きカッパ係数を表示します。

( 表の場合、Bowkerの検定はMcNemarの検定に等しくなり、重み付きカッパ係数は単純カッパ係数に等しくなります )。CochranのQ検定は、 表の場合に利用できます。

AJCHI 連続性補正カイ 2 乗統計量を出力データセットに含めます。連続性補正カイ 2 乗統計量は 表の場合に使用可能であり、これを計算するには TABLESステートメントの CHISQオプションを使用します。詳細は、「連続性補正カイ 2乗検定」(151ページ)のセクションを参照してください。

ALL CHISQ、MEASURES、CMHの output-optionsにより要求されるすべての統計量を出力データセットに含めます。また、ALLを指定すると、欠損値でないオブザベーション数を含めることもできます。これは、N output-optionを指定することにより個別に要求します。

BDCHI Breslow-Day検定を出力データセットに含めます。オッズ比の等質性の Breslow-Day検定は、多元

表の場合に利用可能であり、これを計算するには、TABLES ステートメントで CMH、CMH1、CMH2オプションを使用します。詳細は、「オッズ比の等質性に対する Breslow-Day検定」(205ページ)のセクションを参照してください。

BINOMIAL

BIN 二項比率の推定値、信頼限界、検定を出力データセットに含めます。TABLES ステートメントのBINOMIALオプションは、二項統計量の計算を要求します。これは、一元表の場合にのみ利用できます。詳細は、「二項比率」(163ページ)のセクションを参照してください。

CHISQ カイ 2乗検定と統計量 (Pearsonカイ 2乗、尤度比カイ 2乗、Mantel-Haenszelカイ 2乗、ファイ係数、一致係数、Cramérの V)を、二元表の出力データセットに含めます。 表の場合、CHISQオプションを使用すると、Fisher の正確検定および連続性補正カイ 2 乗統計量も出力データセットに含められます。詳細は、「カイ 2乗検定と統計量」(148ページ)のセクションを参照してください。一元表の場合、CHISQ オプションを指定すると、カイ 2 乗適合度検定が出力データセットに含められます。詳細は、「一元表に対するカイ 2 乗検定」(149 ページ)のセクションを参照してください。TABLESステートメントで CHISQオプションを指定すると、これらの統計量の計算が要求されます。

TABLES ステートメントで CHISQ(WARN=OUTPUT) オプションを指定した場合、CHISQ オプションを指定すると、変数 WARN_PCHI も出力データセットに含められます。この変数は、漸近Pearsonカイ 2乗検定の妥当性に関する警告を表します。

CMH Cochran-Mantel-Haenszel 統計量を出力データセットに含めます。これには、相関、行平均スコア(ANOVA)、一般連関性のような統計量が含まれます。 表の場合、CMHオプションを指定すると、共通オッズ比および相対リスクのMantel-Haenszel推定値およびロジット推定値も含められます。多元 (層化された ) 表の場合、CMHオプションを指定すると、オッズ比の等質性の Breslow-Day

2 2×

2 2×2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

Page 97: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 93

検定が含められます。TABLESステートメントで CMHオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「Cochran-Mantel-Haenszel統計量」(199ページ)のセクションを参照してください。

TABLESステートメントで CMH(MANTELFLEISS)オプションを指定した場合、CMHオプションを指定すると、Mantel-Fleiss 分析が出力データセットに含められます。変数 MF_CMH および変数WARN_CMHには、 それぞれMantel-Fleiss基準および警告インジケータが含められます。

CMH1 CMH 統計量を出力データセットに含めます。ただし、行平均スコア (ANOVA) 統計量および一般連関性統計量は除きます。TABLES ステートメントで CMH1 オプションを指定すると、これらの統計量の計算が要求されます。詳細は、「Cochran-Mantel-Haenszel統計量」(199ページ)のセクションを参照してください。

CMH2 CMH統計量を出力データセットに含めます。ただし、一般連関性統計量は除きます。TABLESステートメントで CMH2 オプションを指定すると、これらの統計量の計算が要求されます。詳細は、「Cochran-Mantel-Haenszel統計量」(199ページ)のセクションを参照してください。

CMHCOR Cochran-Mantel-Haenszel相関統計量を出力データセットに含めます。TABLESステートメントでCMHオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「相関統計量」(201ページ)のセクションを参照してください。

CMHGA Cochran-Mantel-Haenszel一般連関性統計量を出力データセットに含めます。TABLESステートメントで CMHオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「一般連関性統計量」(202ページ)のセクションを参照してください。

CMHRMS Cochran-Mantel-Haenszel の行平均スコア (ANOVA) 統計量を出力データセットに含めます。TABLES ステートメントで CMH オプションを指定すると、これらの統計量の計算が要求されます。詳細は、「ANOVA (行の平均スコア )統計量」(201ページ)のセクションを参照してください。

COCHQ CochranのQ検定を出力データセットに含めます。TABLESステートメントでAGREEオプションを指定すると、この検定の計算が要求されます。これは、多元 表の場合に利用できます。詳細は、「CochranのQ検定」(199ページ)のセクションを参照してください。

CONTGY 一致係数を出力データセットに含めます。TABLES ステートメントで CHISQ オプションを指定すると、一致係数の計算が要求されます。詳細は、「一致係数」(153ページ)のセクションを参照してください。

CRAMV Cramérの Vを出力データセットに含めます。TABLESステートメントで CHISQオプションを指定すると、Cramér の V の計算が要求されます。詳細は、「Cramér の V」(153 ページ)のセクションを参照してください。

EQKAP 単純カッパ係数が等しいかどうかの検定を出力データセットに含めます。TABLES ステートメントでAGREE オプションを指定すると、この検定の計算が要求されます。これは、正方形の多元 ( )表の場合に使用できます。詳細は、「カッパ係数が等しいかどうかの検定」(199ページ)のセクションを参照してください。

2 2×

h r r××

Page 98: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

94 第 3章 : FREQプロシジャ

EQOR

ZELEN オッズ比の等質性に対する Zelen の正確検定を出力データセットに含めます。EXACT ステートメントで EQORオプションを指定すると、この検定の計算が要求されます。これは、多元 表の場合に利用できます。詳細は、「オッズ比の等質性に対する Zelen の正確検定」(205 ページ)のセクションを参照してください。

EQWKP 重み付きカッパ係数が等しいかどうかの検定を出力データセットに含めます。TABLES ステートメントで AGREE オプションを指定すると、この検定の計算が要求されます。重み付きカッパ係数が等しいかどうかの検定は、正方形の多元 ( )表 (ここで、r > 2)の場合に利用できます。詳細は、「オッズ比の等質性に対する Zelenの正確検定」(205ページ)のセクションを参照してください。

FISHER Fisherの正確検定を出力データセットに含めます。 表の場合、TABLESステートメントで CHISQオプションを指定すると、Fisher の正確検定が計算されます。 より大きい表の場合、EXACT ステートメントで FISHERオプションを指定すると、Fisherの正確検定が計算されます。詳細は、「Fisherの正確検定」(152ページ)のセクションを参照してください。

GAMMA ガンマ統計量を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、ガンマ統計量の計算が要求されます。詳細は、「ガンマ」(155ページ)のセクションを参照してください。

GS

GAILSIMON 質的交互作用の Gail-Simon 検定を出力データセットに含めます。TABLES ステートメントでCMH(GAILSIMON)オプションを指定すると、この検定の計算が要求されます。詳細は、「質的交互作用の Gail-Simon検定」(208ページ)のセクションを参照してください。

JT Jonckheere-Terpstra検定を出力データセットに含めます。TABLESステートメントで JTオプションを指定すると、Jonckheere-Terpstra 検定が要求されます。詳細は、「Jonckheere-Terpstra の検定」(193ページ)のセクションを参照してください。

KAPPA 単純カッパ係数を出力データセットに含めます。TABLESステートメントでAGREEオプションを指定すると、カッパ係数の計算が要求されます。これは正方形の表 (行数と列数が等しい表 )の場合に利用できます。多元の正方形の表の場合、KAPPAオプションを指定すると、全体的なカッパ係数も出力データセットに含められます。詳細は、「単純カッパ係数」(196ページ)および「全体的なカッパ係数」(198ページ)のセクションを参照してください。

KENTB

TAUB KendallのTau-bを出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、Kendall の Tau-b の計算が要求されます。詳細は、「Kendall の Tau-b」(155 ページ)のセクションを参照してください。

LAMCR 非対称ラムダ を出力データセットに含めます。TABLES ステートメントで MEASURES オプションを指定すると、ラムダの計算が要求されます。詳細は、「ラムダ ( 非対称 )」(161 ページ)のセクションを参照してください。

2 2×

h r r××

2 2×2 2×

λ C R( )

Page 99: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 95

LAMDAS 対称ラムダを出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、ラムダの計算が要求されます。詳細は、「ラムダ ( 対称 )」(161 ページ)のセクションを参照してください。

LAMRC 非対称ラムダ を出力データセットに含めます。TABLES ステートメントで MEASURES オプションを指定すると、ラムダの計算が要求されます。詳細は、「ラムダ ( 非対称 )」(161 ページ)のセクションを参照してください。

LGOR 共通オッズ比のロジット推定値を出力データセットに含めます。TABLESステートメントで CMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

LGRRC1 共通相対リスク (列 1)のロジット推定値を出力データセットに含めます。TABLESステートメントでCMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

LGRRC2 共通相対リスク (列 2)のロジット推定値を出力データセットに含めます。TABLESステートメントでCMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

LRCHI 尤度比カイ 2乗統計量を出力データセットに含めます。TABLESステートメントで CHISQオプションを指定すると、尤度比カイ 2 乗の計算が要求されます。詳細は、「尤度比カイ 2 乗検定」(151 ページ)のセクションを参照してください。

MCNEM McNemarの検定( 表の場合)を出力データセットに含めます。TABLESステートメントでAGREEオプションを指定すると、McNemar の検定の計算が要求されます。詳細は、「McNemar の検定」(195ページ)のセクションを参照してください。

MEASURES 連関性の統計量を出力データセットに含めます。これには、ガンマ、Kendall の Tau-b、Stuart のTau-c、Somersの 、Somersの 、Pearsonおよび Spearmanの相関係数、非対称および対称ラムダ、非対称および対称の不確定係数のような統計量が含まれます。 表の場合、MEASURESオプションを指定すると、オッズ比、列 1相対リスク、列 2相対リスクも含められます。TABLESステートメントでMEASURESオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「連関性の統計量」(153ページ)を参照してください。

MHCHI Mantel-Haenszelカイ2乗統計量を出力データセットに含めます。TABLESステートメントでCHISQオプションを指定すると、Mantel-Haenszel カイ 2 乗の計算が要求されます。詳細は、「Mantel-Haenszelカイ 2乗検定」(151ページ)のセクションを参照してください。

MHOR

COMOR 共通オッズ比の Mantel-Haenszel 推定値を出力データセットに含めます。TABLES ステートメントで CMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

λ R C( )

2 2×

2 2×

2 2×

2 2×

D C R( ) D R C( )2 2×

2 2×

Page 100: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

96 第 3章 : FREQプロシジャ

MHRRC1 共通相対リスク (列 1)のMantel-Haenszel推定値を出力データセットに含めます。TABLESステートメントで CMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

MHRRC2 共通相対リスク (列 2)のMantel-Haenszel推定値を出力データセットに含めます。TABLESステートメントで CMHオプションを指定すると、この統計量の計算が要求されます。これは、 表の場合に利用できます。詳細は、「調整済みオッズ比と相対リスク推定値」(203ページ)のセクションを参照してください。

N 欠損値を含まないオブザベーションの数を出力データセットに含めます。

NMISS 欠損値を含むオブザベーションの数を出力データセットに含めます。詳細は、「欠損値」(143 ページ)のセクションを参照してください。

OR

ODDSRATIO

RROR オッズ比 ( 表の場合 )を出力データセットに含めます。TABLESステートメントでMEASURES、ORおよび RELRISKオプションを指定すると、この統計量が要求されます。詳細は、「オッズ比」(183ページ)のセクションを参照してください。

PCHI Pearsonカイ 2乗統計量を出力データセットに含めます。詳細は、「二元表に対する Pearsonカイ 2乗検定」(149 ページ)のセクションを参照してください。一元表の場合、PCHI オプションを指定すると、カイ 2乗適合度検定が出力データセットに含められます。詳細は、「一元表に対するカイ 2乗検定」(149ページ)のセクションを参照してください。TABLESステートメントで CHISQオプションを指定すると、これらの統計量の計算が要求されます。

TABLESステートメントで CHISQ(WARN=OUTPUT)オプションを指定した場合、PCHIオプションを指定すると、変数WARN_PCHIも出力データセットに含められます。この変数は、漸近 Pearsonカイ 2乗検定の妥当性に関する警告を表します。

PCORR Pearson相関係数を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、Pearson相関の計算が要求されます。詳細は、「Pearsonの相関係数」(157ページ)のセクションを参照してください。

PHI ファイ係数を出力データセットに含めます。TABLES ステートメントで CHISQ オプションを指定すると、ファイ係数の計算が要求されます。詳細は、「ファイ係数」(153ページ)のセクションを参照してください。

PLCORR ポリコリック相関係数を出力データセットに含めます。 表の場合、この統計量はテトラコリック相関係数と呼ばれます。TABLES ステートメントで PLCORR オプションを指定すると、ポリコリック相関の計算が要求されます。詳細は、「Polychoric Correlation」(160ページ)のセクションを参照してください。

RDIF1 列 1リスク差 (行 1-行 2)を出力データセットに含めます。TABLESステートメントで RISKDIFFオ

2 2×

2 2×

2 2×

2 2×

Page 101: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 97

プションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RDIF2 列 2リスク差 (行 1-行 2)を出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RELRISK 列 1と列 2の相対リスク ( 表の場合 )を出力データセットに含めます。TABLESステートメントでMEASURESオプションおよび RELRISKオプションを指定すると、これらの統計量が要求されます。詳細は、「相対リスク」(186ページ)のセクションを参照してください。

RISKDIFF 表のリスク (二項比率 )とリスク差を出力データセットに含めます。この統計量には、行 1リスク、

行 2リスク、合計 (全体 )リスク、列 1および列 2のリスク差 (行 1-行 2)が含まれます。TABLESでRISKDIFFオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RISKDIFF1表の場合、列 1 リスク (二項比率 ) とリスク差を出力データセットに含めます。この統計量には、

行 1リスク、行 2リスク、合計 (全体 )リスク、リスク差 (行 1-行 2)が含まれます。TABLESステートメントで RISKDIFFオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RISKDIFF2 表の場合、列 2 リスク (二項比率 ) とリスク差を出力データセットに含めます。この統計量には、

行 1リスク、行 2リスク、合計 (全体 )リスク、リスク差 (行 1-行 2)が含まれます。TABLESステートメントで RISKDIFFオプションを指定すると、これらの統計量の計算が要求されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RRC1

RELRISK1 列 1 相対リスクを出力データセットに含めます。TABLES ステートメントで MEASURES オプションおよび RELRISKオプションを指定すると、相対リスクが要求されます。これは、 表の場合に使用できます。詳細は、「2 x 2表に対するオッズ比と相対リスク」(183ページ)のセクションを参照してください。

RRC2

RELRISK2 列 2相対リスクを出力データセットに含めます。TABLESステートメントでMEASURESオプションおよび RELRISKオプションを指定すると、相対リスクが要求されます。これは、 表の場合に使用できます。詳細は、「2 x 2表に対するオッズ比と相対リスク」(183ページ)のセクションを参照してください。

RSK1

RISK1 全体的な列 1リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RSK11

RISK11 行 1の列 1リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプション

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

Page 102: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

98 第 3章 : FREQプロシジャ

を指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RSK12

RISK12 行 2の列 1リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RSK2

RISK2 全体的な列 2リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RSK21

RISK21 行 1の列 2リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

RSK22

RISK22 行 2の列 2リスクを出力データセットに含めます。TABLESステートメントで RISKDIFFオプションを指定すると、リスクとリスク差の計算が要求されます。これは、 表の場合に使用できます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

SCORR Spearman 相関係数を出力データセットに含めます。TABLES ステートメントで MEASURES オプションを指定すると、Spearman 相関の計算が要求されます。詳細は、「Spearman の順位相関係数」(158ページ)のセクションを参照してください。

SMDCR Somers の を出力データセットに含めます。TABLES ステートメントで MEASURES オプションを指定すると、SomersのDの計算が要求されます。詳細は、「SomersのD」(157ページ)のセクションを参照してください。

SMDRC Somersの を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、SomersのDの計算が要求されます。詳細は、「SomersのD」(157ページ)のセクションを参照してください。

STUTC

TAUC Stuart の Tau-c を出力データセットに含めます。TABLES ステートメントでMEASURES オプションを指定すると、Stuart の Tau-c の計算が要求されます。詳細は、「Stuart の Tau-c」(156 ページ)のセクションを参照してください。

TREND Cochran-Armitageの傾向検定を出力データセットに含めます。TABLESステートメントで TRENDオプションを指定すると、この傾向検定の計算が要求されます。この検定は、次元数が または

である表の場合に利用できます。詳細は、「Cochran-Armitageの傾向検定」(192ページ)のセクションを参照してください。

2 2×

2 2×

2 2×

2 2×

D C R( )

D R C( )

2 C×R 2×

Page 103: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 99

TSYMM

BOWKER Bowker の対称性の検定を出力データセットに含めます。TABLES ステートメントで AGREE オプションを指定すると、Bowkerの検定の計算が要求されます。詳細は、「Bowkerの対称性の検定」(195ページ)のセクションを参照してください。

U 不確定性係数 (対称 )を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、不確定性係数の計算が要求されます。詳細は、「不確定性係数 (対称 )」(163ページ)のセクションを参照してください。

UCR 非対称の不確定係数 を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、不確定性係数の計算が要求されます。詳細は、「不確定性係数 ( 非対称 )」(162ページ)のセクションを参照してください。

URC 非対称の不確定係数 を出力データセットに含めます。TABLESステートメントでMEASURESオプションを指定すると、不確定性係数の計算が要求されます。詳細は、「不確定性係数 ( 非対称 )」(162ページ)のセクションを参照してください。

WTKAP

WTKAPPA 重み付きカッパ係数を出力データセットに含めます。TABLESステートメントでAGREEオプションを指定すると、重み付きカッパ係数の計算が要求されます。これは、 より大きい正方形の表の場合に使用できます。多元の正方形の表の場合、WTKAPオプションを指定すると、全体的な重み付きカッパ係数も出力データセットに含められます。詳細は、「重み付きカッパ係数」(197ページ)および「全体的なカッパ係数」(198ページ)のセクションを参照してください。

TABLESステートメント

TABLES requests < / options > ;

TABLESステートメントは、一元からn元度数表およびクロス集計表と、それらの表に含める統計量を要求します。

TABLESステートメントを省略した場合、FREQプロシジャは、他のステートメントでリストされているすべてのデータセット変数の一元度数表を作成します。

TABLESステートメントでは次の変数が必要となります。 requests

作成する度数表およびクロス集計表を指定します。1つの変数名、または複数の変数名をアスタリスク (*)で区切って指定します。一元の度数表を作成したい時には、変数を 1つ指定し、二元クロス集計表を作成したい時には、2つの変数をアスタリスク (*)で区切ります。多元クロス表 (n元表、ここで n > 2)を要求するには、変数をアスタリスク (*) で区切ります。これらの変数の重複しない値により、表の行、列、および層が構成されます。1 つの多元クロス表の要求には、最大で 50 個の変数を含めることができます。

二元から多元までのクロス表では、最後の変数の値がクロス集計表の列を、最後から 2つ目の変数の値が行を、それぞれ構成します。また、その他の変数の各水準 (または水準の組み合わせ )が層を構成します。FREQプロシジャを使用すると、各階層ごとにクロス集計表が作成されます。たとえば、TABLESステートメントで A*B*C*D を指定した場合、k 個の表が作成されます。ここで、k は変数 A と変数 B

U C R( )

U R C( )

2 2×

Page 104: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

100 第 3章 : FREQプロシジャ

の各値の異なる組み合わせの数になります。各表では、変数 Cの値が表の端に縦方向にリストされ、変数 Dの値が表の最上部に横方向にリストされます。

FREQプロシジャでは、複数の TABLESステートメントを使用することができます。この時、データを FREQ プロシジャでは、1 つのデータパスにて要求されたテーブルはすべて作成されるため、実質的に効率性が失われることはありません。また、1 つの TABLES ステートメントで、複数の表を指定することも可能です。複数の表を簡潔に指定するには、いくつかの変数をかっこで囲み、ほかの変数または変数の組み合わせと結合します。複数の表をまとめて指定する例を、表 3.8に示します。

表 3.8 まとめて指定する例

TABLES ステートメントの変数は、DATA= 入力データセットに含まれている 1 つまたは複数の変数になります。これらの変数は、文字変数または数値変数のどちらでもかまいませんが、FREQ プロシジャはそれらをカテゴリ変数として取り扱います。FREQ プロシジャは、TABLES 変数のフォーマットされた値を使用して、カテゴリ変数の水準を決定します。このため、FORMAT ステートメントを使って変数に出力形式を割り当てると、FREQプロシジャは、変数値をフォーマットした後で、オブザベーションを度数表やクロス集計表へと分割します。詳細は、Base SAS プロシジャガイドにあるFORMATプロシジャの説明や、SAS出力形式と入植形式 : リファレンスを参照してください。

FORMATプロシジャを使用して、欠損値と非欠損値を 1つのカテゴリへと結合するようなユーザー定義出力形式を作成する場合、FREQプロシジャは、そのユーザー定義出力形式でフォーマットされた値のカテゴリ全体を欠損値として扱います。詳細は、「出力形式を使用したグループ化」(142ページ)のセクションを参照してください。

デフォルトでは、度数表やクロス集計表は、文字変数および数値変数の両方の値を内部的な ( フォーマットされていない )変数値に基づいて昇順でリストします。表にリストされる値の順序を変更するには、PROC FREQ ステートメントに ORDER= オプションを指定します。フォーマットされた値に基づいて昇順で値をリストするには、ORDER=FORMATTEDを指定します。

オプションなし

オプションを指定せずに変数の一元度数表を要求すると、FREQプロシジャは、各変数値の度数、累積度数、合計度数に対するパーセンテージ、累積パーセンテージを生成します。オプションを指定せずに二元からn元のクロス集計表を要求すると、FREQプロシジャは、セル度数、合計度数に対するセルのパーセンテージ、行度数に対するセルのパーセンテージ、列度数に対するセルのパーセンテージを含むクロス集計表を作成します。FREQプロシジャは、欠損値を含んでいるオブザベーションを表から除外しますが、欠損値を含んでいるオブザベーションの合計度数を各表の下に表示します。

オプション

表3.9に、TABLESステートメントで使用できるoptionsとその概要を示します。optionの説明はアルファベット順に示されています。

まとめて指定する場合 個別に指定する場合

A*(B C) A*B A*C

(A B)*(C D) A*C B*C A*D B*D

(A B C)*D A*D B*D C*D

A – – C A B C

(A – – C)*D A*D B*D C*D

Page 105: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 101

表 3.9 TABLESステートメントオプション

オプション 説明

統計解析の制御

AGREE 分類の一致の検定と統計量を要求

ALL 連関性の検定や統計量を要求これらは、CHISQ、MEASURES、CMHオプションにより生成されます。

ALPHA=BINOMIAL | BIN

信頼限界の信頼水準を設定二項比率、信頼限界、検定を要求一元表を対象とします。

CHISQ カイ2乗検定とカイ2乗統計量を要求

CL MEASURES統計量の信頼限界を要求

CMH Cochran-Mantel-Haenszel統計量を要求

CMH1 CMH補正統計量、調整済みオッズ比、調整済み相対リスクを要求

CMH2 CMH補正および行平均スコア(ANOVA)統計量、調整済みオッズ比、調整済み相対リスクを要求

FISHER よりも大きな表の場合にFisherの正確検定を要求

GAILSIMON 質的交互作用のGail-Simon検定を要求

JT Jonckheere-Terpstra検定を要求

MEASURES 連関性の統計量を要求

MISSING 欠損値を非欠損値として取り扱う

OR 表のオッズ比を要求

PLCORR ポリコリック相関を要求

RELRISK 表の相対リスクを要求

RISKDIFF 表の場合にリスクとリスク差を要求

SCORES= 行および列のスコアの種類を指定

TREND Cochran-Armitageの傾向検定を要求

追加の表情報の制御

CELLCHI2 カイ2乗統計量に対する各セルの寄与分を表示

CUMCOL 累積列パーセンテージを表示

DEVIATION 期待値からのセル度数の偏差を表示

EXPECTED 期待されるセル度数を表示

MISSPRINT 欠損値度数を表示

PEARSONRES CROSSLIST 表にPearson残差を表示

PRINTKWTS カッパ係数の重みを表示

SCOROUT 行スコアおよび列スコアを表示

SPARSE 変数水準のすべての可能な組み合わせをLIST 表およびOUT=データセットに含める

2 2×

2 2×

2 2×

2 2×

Page 106: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

102 第 3章 : FREQプロシジャ

TABLESステートメントでは次のoptionsを使用できます。AGREE < (options)>

正方形の表に対して、分類の一致の検定と統計量を要求します。このオプションでは、単純カッパ係数および重み付きカッパ係数 (とその標準誤差および信頼限界 )を提供します。多元表の場合、このオプションでは、全体的な単純カッパ係数および重み付きカッパ係数を (その標準誤差および信頼限界とともに ) 作成し、それらのカッパ係数が複数の層に渡って等しいかどうかの検定を行います。このオプションでは、 表にはMcNemarの検定を提供し、2つ以上の応答カテゴリ (水準 )を持つ正方形の表には Bowker の対称性検定を提供します。応答カテゴリを 2 つ持つ多元表の場合、このオプションでは CochranのQ検定も生成します。詳細は、「一致の検定と統計量」(194ページ)のセクションを参照してください。

一致の統計量は、列数が行数に等しい正方形の表についてのみ計算できます。重みがゼロのオブザベーションがあるために表の列数と行数が等しくならない場合、WEIGHTステートメントに ZEROSオプ

SPARSE CROSSLIST表に標準化残差を表示

TOTPCT n元表(n > 2)の合計度数に対するパーセンテージを表示

表示される出力を制御

CONTENTS= クロス集計表のコンテンツラベルを指定

CROSSLIST クロス集計表をODS列形式で表示

FORMAT= クロス集計表の度数の出力形式を設定

LIST 二元からn元表をリスト形式で表示

MAXLEVELS= 一元表に表示する水準の最大数を指定

NOCOL 列パーセンテージの表示を抑制

NOCUM 累積度数およびパーセンテージの表示を抑制

NOFREQ 度数の表示を抑制

NOPERCENT パーセンテージの表示を抑制

NOPRINT クロス集計表は表示せずに統計量を表示

NOROW 行パーセンテージの表示を抑制

NOSPARSE CROSSLIST表、LIST表、およびOUT=データセットにおける度数ゼロの水準の表示を抑制

NOWARN カイ2乗検定のログの警告メッセージの表示を抑制

統計グラフの表示

PLOTS= ODS Graphicsを使ったプロットを要求

出力データセットの作成

OUT= 度数カウントを含める出力データセットを指定

OUTCUM 累積度数およびパーセンテージを一元表の出力データセットに含める

OUTEXPECT 出力データセットに期待度数を含めるよう要求

OUTPCT 行、列、二元表のパーセンテージを出力データセットに含める

表 3.9 TABLESステートメントオプション(続き)

オプション 説明

2 2×

Page 107: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 103

ションを指定することで、それらのオブザベーションを分析に含めることができます。詳細は、「重みがゼロの行と列を含む表」(199ページ)のセクションを参照してください。

信頼水準を設定するには、TABLES ステートメントの ALPHA= オプションを指定します。デフォルトではALPHA=0.05であり、95%の信頼限界を生成します。

TESTステートメントを指定して、単純カッパ係数および重み付きカッパ係数の漸近検定を要求できます。EXACT ステートメントを指定して、( 表の )McNemar の正確検定、および単純カッパ係数および重み付きカッパ係数の正確検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

agree-optionsには次のオプションを指定できます。MNULLRATIO=value

McNemar の検定の不一致の比率としてヌルの value を指定します。デフォルトでは、MNULLRATIO=1になります。詳細は、「McNemarの検定」(195ページ)のセクションを参照してください。

PRINTKWTS FREQプロシジャが重み付きカッパ係数の計算に使用する一致の重みを表示します。一致の重みは、変数水準のペア間での相対的な一致に影響を与えます。デフォルトでは、FREQプロシジャは Cicchetti-Allison の一致の重みを使用します。WT=FC オプションが指定されている場合、プロシジャは Fleiss-Cohen の一致の重みを使用します。詳細は、「重み付きカッパ係数」(197ページ)のセクションを参照してください。

WT=FC重み付きカッパ係数の計算で Fleiss-Cohenの一致の重みを指定します。一致の重みは、変数水準のペア間での相対的な一致に影響を与えます。デフォルトでは、FREQプロシジャは、重み付きカッパ係数の計算に Cicchetti-Allisonの一致の重みを使用します。詳細は、「重み付きカッパ係数」(197ページ)のセクションを参照してください。

ALL CHISQ、MEASURES、および CMHオプションにより生成される検定および統計量をすべて要求します。CMH1オプションまたは CMH2オプションを指定することで、計算される CMH統計量の数を制御できます。

ALPHA= 信頼限界の水準を指定します。 の値は、0から 1までの間である必要があります。信頼水準が である場合、信頼限界は になります。デフォルトはALPHA=0.05で、95%の信頼限界を生成します。

このオプションは、TABLES ステートメントで要求する信頼限界に適用されます。EXACT ステートメントの ALPHA= オプションは、EXACT ステートメントのMCオプションを指定して要求した正確な p値のモンテカルロ推定値の信頼限界に適用されます。

BINOMIAL< (binomial-options)> BIN <(binomial-options)>

一元表に対する二項検定を要求します。このオプションを指定する場合、デフォルトでは FREQ プロシジャが、二項比率の漸近標準誤差、漸近Waldおよび正確な (Clopper-Pearson)信頼限界、漸近等価性の検定を提供します。

BINOMIALオプションの後にかっこで囲んで指定できるbinomial-optionsには次のものがあります。LEVEL= binomial-optionは、比率の計算対象となる変数水準を特定します。このオプションを指定しない場合、FREQプロシジャは、一元表に現れる最初の水準の比率を計算します。P= binomial-option

2 2×

αα α

100 1 α–( )× %

Page 108: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

104 第 3章 : FREQプロシジャ

は、二項検定の帰無仮説の比率を指定します。このオプションを指定しない場合、FREQプロシジャは二項検定の帰無仮説の比率として 0.5を使用します。

また、binomial-options を指定することによっても、二項比率の追加の検定や信頼限界を要求できます。EQUIV、NONINF、SUP binomial-optionsは、それぞれ同等性、非劣性、優越性の検定を要求します。CL= binomial-optionは、二項比率の信頼限界を要求します。

二項比率の信頼限界の水準は、ALPHA=オプションで指定できます。デフォルトのALPHA=0.05は、95%の信頼限界を生成します。非劣性、優越性、および同等性の分析の一部として、FREQプロシジャでは、 (Schuirmann 1999)の信頼係数を持つ帰無仮説ベースの同等性の限界を提供します。言い換えると、デフォルトのALPHA=0.05は、90%の同等性の限界を生成します。詳細は、「非劣性の検定」(167ページ)および「同等性検定」(169ページ)のセクションを参照してください。

二項比率の正確検定を要求するには、EXACT ステートメントに BINOMIAL オプションを指定します。FREQ プロシジャは、要求されたすべての二項検定の正確な p 値を計算しますが、それには、BINOMIALオプションがデフォルトで生成する等価性の検定に加えて、非劣性、優越性、および同等性の検定を含められます。

詳細は、「二項比率」(163ページ)のセクションを参照してください。

表 3.10に、binomial-optionsの一覧とその説明をまとめて示します。

表 3.10 BINOMIALオプション

オプション 説明

CORRECT 連続性補正を要求

LEVEL= 変数水準を指定

OUTLEVEL 出力データセットに水準を含む

P= 帰無仮説の比率を指定

信頼限界を要求

CL=AGRESTICOULL | AC Agresti-Coull信頼限界を要求

CL=BLAKER Blaker信頼限界を要求

CL=EXACT | CLOPPERPEARSON 正確な(Clopper-Pearson)信頼限界を要求

CL=JEFFREYS Jeffreys信頼限界を要求

CL=LIKELIHOODRATIO | LR 尤度比信頼限を要求

CL=LOGIT ロジット信頼限界を要求

CL=MIDP 正確なMid-p信頼限界を要求

CL=WALD Wald信頼限界を要求

CL=WILSON | SCORE Wilson (スコア)信頼限界を要求

検定を要求

EQUIV | EQUIVALENCE 同等性の検定を要求

MARGIN= 検定マージンを指定

NONINF | NONINFERIORITY 非劣性の検定を要求

SUP | SUPERIORITY 優越性の検定を要求

VAR=NULL | SAMPLE 検定分散を指定

100 1 2α–( )× %

Page 109: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 105

binomial-optionsには次のオプションを指定できます。CL=type | (types)

二項比率の信頼限界を要求します。typesには信頼限界の種類を 1つまたは複数指定できます。typeを1つのみ指定する場合、かっこで囲む必要はありません。FREQプロシジャは、"Binomial ConfidenceLimits"表に信頼限界を表示します。

ALPHA=オプションは、CL= binomial-optionで提供される信頼限界の水準を決定します。デフォルトはALPHA=0.05で、二項比率の 95%の信頼限界を生成します。

CL= binomial-optionは、二項検定を要求するかどうかにかかわらず指定できます。CL=で生成される信頼限界は、ユーザーが要求する検定に依存しないため、検定マージンの値 (MARGIN= binomial-optionで指定可能 )は使用しません。

CL= binomial-optionを指定しない場合、BINOMIALオプションでは "Binomial Proportion"表のWaldおよび正確な (Clopper-Pearson)信頼限界が表示されます。

typesには次を指定できます。AGRESTICOULL AC

二項比率の Agresti-Coull 信頼限界を要求します。詳細は、「Agresti-Coull 信頼限界」(164ページ)のセクションを参照してください。

BLAKER 二項比率の Blaker 信頼限界を要求します。詳細は、「Blaker 信頼限界」(164 ページ)のセクションを参照してください。

EXACT CLOPPERPEARSON

二項比率の正確な(Clopper-Pearson)信頼限界を要求します。詳細は、「正確な(Clopper-Pearson)信頼限界」(164ページ)のセクションを参照してください。CL= binomial-optionを指定しない場合、FREQプロシジャは "Binomial Proportion"表のWaldおよび正確な (Clopper-Pearson) 信頼限界を表示します。二項比率の正確検定を要求するには、EXACTステートメントに BINOMIALオプションを指定します。

JEFFREYS 二項比率の Jeffreys信頼限界を要求します。詳細は、「Jeffreys信頼限界」(165ページ)のセクションを参照してください。

LIKELIHOODRATIO LR

二項比率の尤度比信頼限界を要求します。詳細は、「尤度比信頼限界」(165ページ)のセクションを参照してください。

Logit 二項比率のロジット信頼限界を要求します。詳細は、「ロジット信頼限界」(165ページ)のセクションを参照してください。

MIDP 正確なMid-p信頼限界を要求します。詳細は、「Mid-p信頼限界」(166ページ)のセクションを参照してください。

Page 110: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

106 第 3章 : FREQプロシジャ

WALD < (CORRECT)> 二項比率のWald信頼限界を要求します。詳細は、「Wald信頼限界」(163ページ)のセクションを参照してください。CL=WALD(CORRECT)を指定すると、Wald信頼限界に連続性補正が含められます。CORRECT binomial-optionを指定すると、Wald信頼限界とWald検定の両方に連続性補正が含められます。CL= binomial-optionを指定しない場合、FREQプロシジャは "Binomial Proportion"表のWaldおよび正確な (Clopper-Pearson)信頼限界を表示します。

WILSON < (CORRECT)> SCORE <(CORRECT)>

二項比率の Wilson 信頼限界を要求します。これはスコア信頼限界とも呼ばれます。詳細は、「Wilson (スコア )信頼限界」(166ページ)のセクションを参照してください。CL=WILSON(CORRECT)または CORRECT binomial-optionを指定すると、Wilson信頼限界に連続性補正が含められます。

CORRECT Wald信頼限界、Wald検定、Wilson信頼限界に連続性補正を含めます。

Wald信頼限界またはWilson信頼限界に個別に連続性補正を含めるには、それぞれ CL=WALD(CORRECT)または CL=WILSON(CORRECT) binomial-optionを指定します。

EQUIV EQUIVALENCE

二項比率の同等性の検定を要求します。詳細は、「同等性検定」(169ページ)のセクションを参照してください。同等性の検定マージン、帰無仮説の比率、分散の種類を指定するには、それぞれMARGIN= 、P= 、および VAR= binomial-optionsを使用します。正確な同等性の検定を要求するには、EXACTステートメントの BINOMIAL オプションを指定します。

LEVEL=level-number | 'level-value' 二項比率の変数水準を指定します。level-number を指定でき、それは、一元度数表に現れる水準の順序になります。つまり、level-value を指定すると、それが変数水準のフォーマットされた値になります。level-numberは正の整数であることが必要です。level-valueは一重引用符で囲む必要があります。

デフォルトでは、FREQプロシジャは、一元度数表に現れる最初の変数水準の二項比率を計算します。MARGIN=value | (lower, upper)

非劣性、優越性、同等性の検定でのマージンを指定します。これらの検定ではそれぞれ、NONINF 、SUP 、およびEQUIV binomial-optionsを指定することで要求できます。デフォルトは、MARGIN=0.2です。

非劣性の検定および優越性の検定では、MARGIN= オプションに単一の value を指定します。MARGIN= value は正の数であることが必要です。value には 0 から 1 までの数を指定できます。または、value1から 100までのパーセント数を指定すると、FREQプロシジャがそのパーセント数を比率へと変換します。FREQプロシジャは、値 1を 1%として扱います。

非劣性の検定および優越性の検定では、検定限界が 0から 1までの間である必要があります。これらの限界は、帰無仮説の比率値 (P= binomial-optionで指定可能 )およびマージン値によって決定されます。非劣性の限界は、帰無仮説の比率からマージンを差し引いた値になります。デフォルトでは、帰無仮説の比率は 0.5で、マージンは 0.2であるため、非劣性の限界は 0.3になります。優越性の限界は、帰無仮説の比率にマージンを加えた値であり、デフォルトでは 0.7になります。

同等性の検定の場合、単一のMARGIN= valueを指定するか、または lowerおよび upper値の両方を指定できます。単一のMARGIN= valueを指定する場合、前述したように、その値は正の数であることが必要です。同等性の検定に単一の MARGIN= value を指定すると、FREQ プロシジャは、下限マージンとして –valueを、上限マージンとして valueを検定に使用します。同等性の検定に lowerお

Page 111: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 107

よび upper値を指定する場合、–1 から 1 までの間で比率を指定できます。または、–100 から 100 の間の数字はパーセントでの指定になり、FREQプロシジャはそのパーセント数を比率へと変換します。lowerの値は upperの値よりも小さくする必要があります。

同等性の限界は 0 から 1 の間である必要があります。同等性の限界は、帰無仮説の比率値 (P=binomial-option で指定可能 ) およびマージン値によって決定されます。下側同等性限界は、帰無仮説の比率に下限マージンを加えた値になります。デフォルトでは、帰無仮説の比率は 0.5で、下限マージンは –0.2 であるため、下側同等性限界は 0.3 になります。上側同等性限界は、帰無仮説の比率に上限マージンを加えた値であり、デフォルトでは 0.7になります。

詳細は、「非劣性の検定」(167 ページ)および「同等性検定」(169 ページ)のセクションを参照してください。

NONINF NONINFERIORITY

二項比率の非劣性の検定を要求します。詳細は、「非劣性の検定」(167ページ)のセクションを参照してください。非劣性の検定マージン、帰無仮説の比率、分散の種類を指定するには、それぞれMARGIN= 、P= 、および VAR= binomial-optionsを使用します。正確な非劣性の検定を要求するには、EXACTステートメントの BINOMIAL オプションを指定します。

OUTLEVEL TABLESステートメントにBINOMIALオプションを指定するときFREQプロシジャが生成するすべてのODS出力データセットには、変数 LevelNumberおよび LevelValueが含まれます。OUTPUTステートメントに BINOMIALオプションを指定するとき FREQプロシジャが生成する統計量出力データセットには、 OUTLEVELオプションでも、変数 LevelNumberおよび LevelValueが含まれます。

LevelNumberおよび LevelValue変数は、FREQプロシジャが二項比率を計算するための分析変数水準を特定します。LevelNumberの値は、一元度数表における水準の順序です。LevelValueの値は、その水準のフォーマットされた値です。OUTLEVEL binomial-optionは、LEVEL= binomial-optionを付けても付けなくても指定できます。

P=value 二項検定の帰無仮説の比率を指定します。帰無仮説の比率 valueは正の数であることが必要です。valueには 0 から 1 までの数を指定できます。または、value には 1 から 100 までのパーセント数を指定でき、FREQ プロシジャがそのパーセント数を比率へと変換します。FREQ プロシジャは、値 1 を 1%として扱います。デフォルトは、P=0.5です。

SUP SUPERIORITY

は、二項比率の優越性の検定を要求します。詳細は、「優越性の検定」(168ページ)のセクションを参照してください。優越性の検定マージン、帰無仮説の比率、分散の種類を指定するには、それぞれMARGIN= 、P= 、および VAR= binomial-optionsを使用します。正確な優越性の検定を要求するには、EXACTステートメントの BINOMIAL オプションを指定します。

VAR=NULL | SAMPLE 非劣性、優越性、同等性のWald検定で使用する分散の種類を指定します。VAR=SAMPLEを指定すると、FREQ プロシジャは標本比率を使用して分散推定値を計算します。VAR=NULL を指定すると、FREQプロシジャは帰無仮説の比率 (P= binomial-optionで指定可能 )を使用して、検定に基づく分散を計算します。詳細は、「非劣性の検定」(167 ページ)および「同等性検定」(169 ページ)のセクションを参照してください。デフォルトは、VAR=SAMPLEです。

CELLCHI2 クロス集計表における Pearson のカイ 2 乗統計量に対する、表のセルごとの寄与分を表示します。セルのカイ 2乗は、(frequency-expected)2/expectedとして計算されます。ここで、frequencyは表セル度数 (カウント )であり、expectedは期待されるセル度数になります。詳細は、「二元表に対する Pearson

Page 112: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

108 第 3章 : FREQプロシジャ

カイ 2 乗検定」(149 ページ)のセクションを参照してください。このオプションは、一元表またはリスト形式の表 (LISTオプションで要求可能 )には無効です。

CHISQ< (chisq-options)>

等質性または独立性のカイ 2乗検定、およびカイ 2乗統計量に基づく連関性の統計量を要求します。二元表の場合、カイ 2乗検定には、Pearsonカイ 2乗、最尤比カイ 2乗、Mantel-Haenszelカイ 2乗検定が含まれます。カイ 2乗統計量には、ファイ係数、一致係数、Cramérの Vが含まれます。 表の場合、CHISQオプションを使用すると、Fisherの正確検定および連続性補正カイ 2乗統計量も提供されます。詳細は、「カイ 2乗検定と統計量」(148ページ)のセクションを参照してください。

一元表の場合、CHISQオプションを指定すると、Pearsonカイ2乗適合度検定が計算されます。CHISQオプションの後に LRCHI chisq-option をかっこで囲んで指定しても、一元表での尤度比適合度検定を要求できます。デフォルトでは、一元カイ 2 乗検定は、比率が等しいという帰無仮説に基づきます。または、TESTP= や TESTF= chisq-optionを指定することで、それぞれ帰無仮説の比率や度数を提供できます。詳細は、「一元表に対するカイ 2乗検定」(149ページ)のセクションを参照してください。

表に対する Fisherの正確検定を要求するには、EXACTステートメントで FISHERオプションを指定します。Pearson検定、尤度比検定、Mantel-Haenszelカイ 2乗検定では、正確な p値も利用できます。詳細は、EXACTステートメントの説明を参照してください。

chisq-optionsには次を指定できます。DF=df

カイ 2乗検定の自由度を指定します。dfには0以外の値を指定します。dfが正数の場合、FREQプロシジャは、dfをカイ 2乗検定の自由度として使用します。dfが負数の場合、FREQプロシジャは、dfを使用してカイ 2乗検定のデフォルトの自由度を調整します。一元表の場合、デフォルトで、dfの値は (n – 1) になります。ここで、nは表の変数水準の数です。二元表の場合、デフォルトで、dfの値は (r – 1) (c – 1)になります。ここで、rは表の行数、cは表の列数です。詳細は、「一元表に対するカイ 2乗検定」(149ページ)および「カイ 2乗検定と統計量」(148ページ)のセクションを参照してください。dfに負数の値を指定すると、FREQプロシジャは、その (負の )df値をデフォルト値に加算することでデフォルトの自由度を調整し、調整済の自由度を生成します。調整済みの自由度は正数でなければなりません。DF= chisq-optionを使うと、次のカイ 2乗分布 (一元表に対する Pearsonおよび尤度比適合度検定、または二元表に対する Pearson、尤度比、Mantel-Haenszelカイ 2乗検定 ) の自由度を指定または調整できます。

LRCHI 一元表の場合、尤度比適合度検定を要求します。詳細は、「一元表に対する尤度比カイ 2乗検定」(150ページ)のセクションを参照してください。デフォルトでは、この検定は、比率が等しいという帰無仮説に基づきます。TESTP= や TESTF=chisq-optionを指定することで、それぞれ帰無仮説の比率や度数を提供できます。正確な尤度比低号度検定を要求するには、 EXACTステートメントで LRCHIオプションを指定します。

TESTF=(values)| SAS-data-set 一元カイ 2 乗適合度検定における帰無仮説の度数を指定します。詳細は、「一元表に対するカイ2乗検定」(149ページ)のセクションを参照してください。帰無仮説の度数は、TESTF=の後にかっこで囲んだ values として指定します。または、TESTF=SAS-data-set を指定することで、2次入力データセット内で帰無仮説の度数を提供します。TESTF=SAS-data-setには、DATA=オプションに指定するデータセットと同じものは指定できません。このプロシジャの単一呼び出しで指定できる TESTF=または TESTP=データセットは 1つだけです。帰無仮説の度数を valuesとして指定する場合、各 valuesを空白またはカンマで区切る必要があります。valuesは正数でなければなりません。valuesの数は、一元表の変数の水準数と同じであ

2 2×

2 2×

Page 113: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 109

ることが必要です。valuesの合計は、一元表の合計度数と同じであることが必要です。一元度数表に対応する変数水準が表示される順序と一致するように、valuesを順番に指定します。帰無仮説の度数を 2 次入力データセット (TESTF=SAS-data-set) 内で提供する場合、帰無仮説の度数を含む変数には、_TESTF_、TestFrequency、Frequencyのいずれかの名前を付ける必要があります。帰無仮説の度数は正数でなければなりません。帰無仮説の度数は一元度数表内の水準数に等しく、度数の合計はその一元表の合計度数に等しくなる必要があります。一元度数表に対応する変数水準が表示される順序と一致するように、帰無仮説の度数を順番に指定します。

TESTP=(values)| SAS-data-set 一元カイ 2 乗適合度検定における帰無仮説の比率を指定します。詳細は、「一元表に対するカイ2 乗検定」(149 ページ)のセクションを参照してください。帰無仮説の比率は、TESTP= の後にかっこで囲んだ valuesとして指定します。または、TESTP=SAS-data-setを指定することで、2次入力データセットに帰無仮説の比率を提供します。TESTP=SAS-data-setには、DATA=オプションに指定するデータセットと同じものは指定できません。このプロシジャの単一呼び出しで指定できる TESTF=または TESTP=データセットは 1つだけです。帰無仮説の比率を valuesとして指定する場合、各 valuesを空白またはカンマで区切る必要があります。values は正数でなければなりません。values の数は、一元表の変数の水準数と同じであることが必要です。一元度数表に対応する変数水準が表示される順序と一致するように、valuesを順番に指定します。valuesの値は 0 から 1 までの間の確率として指定できます (この場合、比率の合計が 1となります )。または、 valuesの値を 0から 100までの間のパーセンテージとして指定できます (この場合、パーセンテージの合計が 100となります )。帰無仮説の比率を 2次入力データセット (TESTP=SAS-data-set)内で提供する場合、帰無仮説の比率を含む変数には、_TESTP_、TestPercent、Percentのいずれかの名前を付ける必要があります。帰無仮説の比率は正数でなければなりません。比率の数は、一元表の水準数と同じでなければなりません。比率は 0 から 1 までの間の確率として指定できます ( この場合、比率の合計が 1となります )。または、比率の値を 0から 100までの間のパーセンテージとして指定できます (この場合、パーセンテージの合計が 100 となります )。一元度数表に対応する変数水準が表示される順序と一致するように、帰無仮説の比率を順番に指定します。

WARN=type | (types) 漸近カイ 2 乗検定の妥当性に関する警告メッセージを制御します。デフォルトでは、20% を超える表セルが 5 未満の期待度数を持つ場合、FREQ プロシジャは警告を表示します。PROCFREQステートメントでNOPRINTオプションを指定すると、この警告をログに含めることができます。同オプションを指定しない場合、この警告はカイ 2乗表内のフットノートとして表示されます。WARN= オプションを指定すると、この警告の表示を抑制し、警告インジケータを出力データセットに含めることができます。WARN=オプションには、次の typesを 1つ以上指定できます。1つ以上の type値を指定する場合、それらの値をかっこで囲んだものをWARN=の後に続けて記述します。たとえば、warn =(output noprint)のように記述します。

WARN=OUTPUTオプションを指定すると、ODS出力データセット ChiSqには、Warningという名前の変数が含められます。Pearsonカイ 2乗オブザベーションでは、この変数の値は、20%

WARN=の値 説明

OUTPUT 警告インジケータ変数を出力データセットに追加

NOLOG カイ2乗検定の警告メッセージのログでの表示を抑制

NOPRINT カイ2乗検定の警告メッセージの画面での表示を抑制

NONE カイ2乗検定の警告メッセージの表示を完全に抑制

Page 114: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

110 第 3章 : FREQプロシジャ

を超える表セルが 5 未満の期待度数を持つ場合には 1 になり、それ以外の場合は 0 になります。WARN=OUTPUTを指定し、かつOUTPUTステートメントで CHISQオプションを指定すると、出力データセットには、警告を示すWARN_PCHIという名前の変数が含められます。WARN=NOLOGオプションは、TABLESステートメントのNOWARNオプションと同じ効果を持ちます。

CL 連関性の統計量の信頼限界を要求します。これは、MEASURES オプションを指定することで要求できます。詳細は、「連関性の統計量」(153 ページ)および信頼限界のセクションを参照してください。信頼限界の水準を設定するには、ALPHA=オプションを使用します。デフォルトでは ALPHA=0.05であり、95%の信頼限界を生成します。

MEASURESオプションを省略すると、CLオプションによりMEASURESオプションが呼び出されます。CLオプションは、MEASURES(CL)オプションと同じものです。

CMH < (cmh-options)>

Cochran-Mantel-Haenszel 統計量を要求します。この統計量は、多元クロス表における残りの変数の調整後に、行変数と列変数間の連関性の検定を実施します。Cochran-Mantel-Haenszel 統計量には、非ゼロの相関統計量、行平均スコア(ANOVA)統計量、一般連関性統計量が含まれます。また、 表の場合、CMHオプションは、オッズ比や相対リスクの調整済みMantel-Haenszelおよびロジット推定値を、それらの信頼限界と共に提供します。層化された の場合、CMH オプションを指定すると、オッズ比の等質性の Breslow-Day検定が含められます。(Breslow-Day検定で Taroneの調整を要求するには、BDT cmh-optionを指定します。)詳細は、「Cochran-Mantel-Haenszel統計量」(199ページ)のセクションを参照してください。

CMH1オプションまたは CMH2オプションを使用すると、FREQプロシジャが計算する CMH統計量の数を制御できます。

層化された 表の場合、EXACTステートメントで EQORオプションを指定すると、オッズ比の等質性に対する Zelenの正確検定を要求できます。詳細は、「オッズ比の等質性に対する Zelenの正確検定」(205ページ)のセクションを参照してください。共通オッズ比の正確な信頼限界を要求するには、EXACT ステートメントで COMOR オプションを指定します。このオプションを指定すると、共通オッズ比検定も計算されます。詳細は、「共通オッズ比の正確な信頼限界」(206ページ)のセクションを参照してください。

次の cmh-optionsは、CMHオプションの後にかっこで囲んで指定します。これらの cmh-optionsは、層化された 表に適用されるものですが、CMH1オプションやCMH2オプションでも使用できます。BDT

オッズ比の等質性の Breslow-Day検定で Taroneの調整を要求します詳細は、「オッズ比の等質性に対する Breslow-Day検定」(205ページ)のセクションを参照してください。

GAILSIMON < (COLUMN=1 | 2)> GS < (COLUMN=1 | 2)>

層化された 表に適用される、質的交互作用の Gail-Simon検定を要求します。詳細は、「質的交互作用の Gail-Simon検定」(208ページ)のセクションを参照してください。COLUMN=オプションは、Gail-Simon検定の計算に使用するリスク差の列を指定します。デフォルトでは、FREQプロシジャは列 1のリスク差を使用します。COLUMN=2を指定すると、FREQプロシジャは列 2のリスク差を使用します。GAILSIMON cmh-optionは、TABLESステートメントのGAILSIMONオプションと同じ効果を持ちます。

2 2×

2 2×

2 2×

2 2×

2 2×

Page 115: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 111

MANTELFLEISS MF

層化された 表でのMantel-Haenszel統計量のMantel-Fleiss基準を要求します。詳細は、「Mantel-Fleiss基準」(202ページ)のセクションを参照してください。

CMH1 < (cmh-options)>

Cochran-Mantel-Haenszel 相関統計量を要求します。このオプションは、CMH 行平均スコア(ANOVA) 統計量や一般連関性統計量を提供しません。これらの統計量は CMH オプションにより提供されます。 より大きい表の場合、CMH オプションではなく CMH1 オプションを指定した方が必要となるメモリ量がより少なくなります。大きい表の場合、CMHオプションは非常に多くのメモリ量を必要とします。

また、 表の場合、CMH1オプションは、オッズ比や相対リスクの調整済みMantel-Haenszelおよびロジット推定値を、それらの信頼限界と共に提供します。層化された の場合、CMH1オプションを指定すると、オッズ比の等質性の Breslow-Day検定が含められます。

CMH1オプションの cmh-optionsは、CMHオプションで利用可能な cmh-optionsと同じになります。詳細は、CMHオプションの説明を参照してください。

CMH2 < (cmh-options)>

Cochran-Mantel-Haenszel相関統計量および行平均スコア (ANOVA)統計量を要求します。このオプションは CMH 一般連関性統計量は提供しません。CMH 一般連関性統計量は、CMH オプションにより提供されます。 より大きい表の場合、CMH オプションではなく CMH2 オプションを指定した方が必要となるメモリ量がより少なくなります。大きい表の場合、CMHオプションは非常に多くのメモリ量を必要とします。

また、 表の場合、CMH1オプションは、オッズ比や相対リスクの調整済みMantel-Haenszelおよびロジット推定値を、それらの信頼限界と共に提供します。層化された の場合、CMH1オプションを指定すると、オッズ比の等質性の Breslow-Day検定が含められます。

CMH2オプションの cmh-optionsは、CMHオプションで利用可能な cmh-optionsと同じになります。詳細は、CMHオプションの説明を参照してください。

CONTENTS='string' コンテンツファイル、Resultsウィンドウ、トレースレコード内のクロス集計表で使用するラベルを指定します。出力表示に関する詳細は、SAS Output Delivery System: ユーザーガイドを参照してください。

CONTENTS=オプションを省略すると、クロス集計表のコンテンツラベルはデフォルトで "Cross-Tabular Freq Table"になります。

1 つの TABLES ステートメントで作成されたすべてのクロス集計表のコンテンツラベルには、同じテキストが使用されます。各クロス集計表のリンクごとに異なるコンテンツラベルを指定したい場合は、各表を別々の TABLESステートメントで作成し、各 TABLESステートメントで CONTENTS=オプションを使用します。

特定のクロス集計表のエントリをコンテンツファイルから削除するには、CONTENTS='' のようにヌルラベルを指定します。

CONTENTS=オプションは、クロス集計表のコンテンツラベルのみに影響を与えます。このオプションは、FREQプロシジャで作成される他の表のコンテンツラベルには影響を与えません。

FREQ プロシジャで作成される任意の表のコンテンツラベルを指定するには、TEMPLATE プロシジャを使用してカスタマイズした表テンプレートを作成します。特定の表のコンテンツラベルを指定するには、TEMPLATEプロシジャの DEFINE TABLEステートメントで CONTENTS_LABEL属性を使用します。詳細は、SAS Output Delivery System: ユーザーガイドの「TENPLATE プロシジャ」の章を参照してください。

2 2×

2 2×

2 2×2 2×

2 2×

2 2×2 2×

Page 116: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

112 第 3章 : FREQプロシジャ

CROSSLIST < (options)> クロス集計表を、デフォルトのクロス集計セル形式ではなく、ODS 列形式を使用して表示します。この CROSSLIST 表では、行がクロス集計表のセルに対応し、列が記述統計量 ( 度数やパーセンテージなど ) に対応します。CROSSLIST 表はデフォルトのクロス集計表と同じ情報を表示します ( ただし、ODS 列形式を使用します )。CROSSLIST 表の内容に関する詳細は、「二元表と多元クロス表」(217ページ)のセクションを参照してください。

CROSSLIST 表の内容を制御する場合、デフォルトのクロス集計表の制御に使用できるオプションと同じものを使用できます。このオプションには、NOFREQ、NOPERCENT、NOROW、NOCOLが含まれます。CROSSLIST 表に追加情報を表示するには、CELLCHI2、DEVIATION、EXPECTED、MISSPRINT、TOTPCTオプションを使用します。CROSSLIST(STDRES) または CROSSLIST(PEARSONRES) オプションを指定して、それぞれ、CROSSLIST表の標準化残差または Pearson残差を表示できます。これらのオプションは、デフォルトのクロス集計表には使用できません。FORMAT= オプションおよび CUMCOL オプションは、CROSSLIST 表には無効です。LIST オプションと CROSSLISTオプションの両方を同一の TABLESステートメントには指定できません。

NOSPARSE オプションを CROSSLIST オプションと一緒に指定すると、度数がゼロの変数水準を表示しないようにできます。デフォルトでは、CROSSLIST 表の場合、FREQ プロシジャは、行変数の各水準内ですべての水準の列変数 (度数が 0であるあらゆる水準を含む )を表示します。デフォルトでは、多元 CROSSLIST 表の場合、FREQ プロシジャは、表の各層内にある行変数のすべての水準 ( 層内にある度数が 0であるすべての行水準を含む )を表示します。

optionsには次を指定できます。STDRES

CROSSLIST 表の表セルに標準化残差を表示します。標準化残差とは、標準誤差に対する(frequency – expected)の比率です。ここで、frequencyは表セル度数 (カウント )であり、expectedは期待される表セル度数です。期待される表セル度数は、行変数と列変数が独立であるという帰無仮説の下で計算されます。詳細は、「標準化残差」(150ページ)のセクションを参照してください。EXPECTED オプションおよびDEVIATION オプションを指定すると、それぞれ期待値と偏差が表示できます。

PEARSONRES CROSSLIST表にある表セルの Pearson残差を表示します。Pearson残差は、Pearsonカイ 2乗統計量に対する表セルの寄与分の平方根です。Pearson残差は、 として計算されます。ここで、frequency は表セル度数 ( カウント ) であり、expected は期待される表セル度数です。期待されるセル度数は、行変数と列変数が独立であるという帰無仮説の下で計算されます。詳細は、「二元表に対する Pearson カイ 2 乗検定」(149 ページ)のセクションを参照してください。EXPECTED 、DEVIATION 、および CELLCHI2 オプションを指定すると、それぞれ期待値、偏差、およびセルのカイ 2乗が表示できます。

CUMCOL クロス集計表の各セルに、累積列パーセンテージを表示します。CUMCOLオプションは、LISTオプションや CROSSLISTオプションにより作成されたクロス集計表には適用されません。

DEVIATION クロス集計表における期待度数 (frequency – expected)からの度数の偏差を表示します。期待度数は、行変数と列変数が独立であるという帰無仮説に基づいて計算されます。詳細は、「二元表に対するPearsonカイ 2乗検定」(149ページ)のセクションを参照してください。EXPECTEDオプションを指定することで、期待値を表示できます。このオプションは、一元表またはリスト形式の表 (LISTオプションで要求可能 )には無効です。

EXPECTED クロス集計表の期待セル度数を表示します。期待度数は、行変数と列変数が独立であるという帰無仮説に基づいて計算されます。詳細は、「二元表に対する Pearsonカイ 2乗検定」(149ページ)のセクション

frequenvy ectedexp–( ) ectedexp( )⁄

Page 117: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 113

を参照してください。このオプションは、一元表またはリスト形式の表 (LISTオプションで要求可能 )には無効です。

FISHER よりも大きな表の場合に Fisher の正確検定を要求 ( 表の場合、CHISQ オプションを指定する

と、Fisherの正確検定が提供されます )。この検定は、Freeman-Halton検定とも呼ばれます。詳細は、「Fisherの正確検定」(152ページ)および「正確な統計量」(208ページ)のセクションを参照してください。

TABLES ステートメントで CHISQ オプションを省略した場合、FISHER オプションにより CHISQオプションが呼び出されます。EXACT ステートメントで FISHER オプションを指定することでも、Fisherの正確検定を要求できます。

注:FREQ プロシジャでは、すべての組み合わせを列挙していく方法ではなく、高速で効率の良いアルゴリズムを使用して、正確検定を行います。正確検定は、データセットが小さい場合、その分布が疎である場合、あるいは片寄った分布である場合に有用です。大きな問題の場合、正確検定の計算には多くの時間とメモリが必要となります。そのような問題の場合、漸近検定の使用を検討してください。または、漸近検定がそのような大きな問題に妥当でないときは、正確なp値のモンテカルロ法による推定の使用を検討してください。モンテカルロ推定値を求めるには、EXACTステートメントでMCcomputation-option を指定します。詳細は、「計算リソース」(211 ページ)のセクションを参照してください。

FORMAT=format-name クロス集計表の各種セル値 ( 度数、期待度数、および偏差 ) の出力形式を指定します。FREQ プロシジャは、この指定された出力形式を使用して、行および列の合計度数やクロス集計表における全体の合計度数を表示します。

SAS 標準の数値出力形式か、または FORMAT プロシジャで定義した数値出力形式を指定できます。出力形式の長さは 24 を超えることはできません。FORMAT= を省略すると、1E6 より小さい場合は度数の表示に BEST6.形式が使用されます。

それ以外の場合は BEST7.形式が使用されます。FORMAT= オプションは、デフォルト形式で表示されるクロス集計表に対してのみ適用されます。このオプションは、LISTオプションや CROSSLISTオプションにより作成されたクロス集計表には適用されません。

FREQ プロシジャで作成される任意の表の表示形式を変更するには、TEMPLATE プロシジャを使用します。詳細は、SAS Output Delivery System: ユーザーガイドの "TENPLATEプロシジャ "の章を参照してください。

GAILSIMON < (COLUMN=1 | 2)> GS < (COLUMN=1 | 2)>

層化された 表に適用される、質的交互作用のGail-Simon検定を要求します。詳細は、「質的交互作用の Gail-Simon検定」(208ページ)のセクションを参照してください。

COLUMN=オプションは、Gail-Simon検定の計算に使用するリスク差の列を指定します。デフォルトでは、FREQプロシジャは列 1のリスク差を使用します。COLUMN=2を指定すると、FREQプロシジャは列 2のリスク差を使用します。

JT Jonckheere-Terpstra 検定を要求します。詳細は、「Jonckheere-Terpstra の検定」(193 ページ)のセクションを参照してください。Jonckheere-Terpstra検定で正確な p値を要求する場合、EXACTステートメントで JT オプションを指定します。詳細は、「正確な統計量」(208 ページ)のセクションを参照してください。

LIST 二元表と多元表を、デフォルトのクロス集計セル形式ではなく、リスト形式で表示します。このオプ

2 2× 2 2×

2 2×

Page 118: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

114 第 3章 : FREQプロシジャ

ションは、層ごとに個々の二元表を表示するかわりに、多元表全体を 1 つの表に表示します。詳細は、「二元表と多元クロス表」(217ページ)を参照してください。

検定と統計量を要求している場合、LISTオプションは使用できません。検定と統計量を要求する際に、標準的なクロス集計表による表示か CROSSLIST表示を使用する必要があります。

MAXLEVELS=n 一元表に表示する変数水準の最大数を指定します。nの値は正の整数でなければなりません。FREQプロシジャは、先頭から n個までの変数水準を表示します。この表示順は、一元度数表に表示される水準の表示順と一致します (変数水準の順序は、ORDER=オプションにより制御されます。デフォルトではORDER=INTERNALであり、フォーマットされていない値により変数水準が順序付けされます )。

また、MAXLEVELS=オプションは一元度数プロットにも適用されます。これは、ODS Graphicsが有効な場合に、PLOTS=FREQPLOTオプションを指定することで要求できます。

MISSPRINT オプションを指定して欠損水準を度数表に表示する場合、MAXLEVELS= オプションを指定すると、先頭から n個までの欠損水準を表示できます。

MAXLEVELS=オプションは OUT=出力データセットには適用されません。このデータセットには、すべての変数水準が含まれています。MAXLEVELS=オプションは、一元表におけるパーセンテージ、統計量、検定の計算には影響しません。これらの値は、完全な表に基づいています。

MEASURES < (CL)> 連関性の統計量とそれらの漸近標準誤差を要求します。このオプションでは次の統計量を提供します。ガンマ、Kendallの Tau-b、Stuartの Tau-c, Somersの 、Somersの 、PearsonおよびSpearmanの相関係数、対称ラムダと非対称ラムダ、対称不確定係数および非対称不確定係数です。CLオプションの後にMEASURESオプションをかっこで囲んで指定すると、FREQプロシジャは連関性の統計量の信頼限界を提供します。詳細は、「連関性の統計量」(153ページ)を参照してください。

表の場合、MEASURES オプションを指定すると、オッズ比、列 1 相対リスク、列 2 相対リスク、漸近Wald信頼限界も提供されます。オッズ比と相対リスクのみを (その他の連関性の統計量はなしで )個別に要求するには、RELRISK オプションを指定します。オッズ比の信頼限界を要求するには、OR(CL=)オプションを指定します。

TESTステートメントを使用すると、ガンマ、Kendallの Tau-b、Stuartの Tau-c、Somersの 、Somersの 、Pearsonおよび Spearmanの相関係数のような連関性の統計量の漸近検定を要求できます。EXACTステートメントを使用すると、オッズ比の正確な信頼限界、相対リスクの正確な無条件の信頼限界、および連関性の統計量 (Kendall の Tau-b、Stuart の Tau-c、Somers の 、

、Pearsonおよび Spearmanの相関係数 )の正確検定を要求できます。詳細は、TESTステートメントと EXACTステートメントの説明、および「正確な統計量」(208ページ)のセクションを参照してください。

MISSING 欠損値を、すべての TABLES変数の有効な非欠損水準として取り扱います。MISSINGは、欠損水準を度数表やクロス集計表に表示し、パーセンテージ、検定、統計量の計算にも含めます。

デフォルトでは、MISSINGまたはMISSPRINTオプションを指定しない場合、TABLESステートメントの変数に欠損値を含むオブザベーションは表から除外されます。FREQプロシジャで欠損値を含んでいるオブザベーションを除外する場合、欠損値を含んでいるオブザベーションの合計度数が表の下に表示されます。詳細は、「欠損値」(143ページ)のセクションを参照してください。

MISSPRINT 欠損値の度数を度数表およびクロス集計表に表示します。ただし、パーセンテージ、検定、統計量の計算には欠損値の度数を含めません。

デフォルトでは、MISSINGまたはMISSPRINTオプションを指定しない場合、TABLESステートメントの変数に欠損値を含むオブザベーションは表から除外されます。FREQプロシジャで欠損値を含ん

D C R( ) D R C( )

2 2×

D C R( )D R C( )

D C R( )D R C( )

Page 119: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 115

でいるオブザベーションを除外する場合、欠損値を含んでいるオブザベーションの合計度数が表の下に表示されます。詳細は、「欠損値」(143ページ)のセクションを参照してください。

NOCOL クロス集計表のセルにおける列パーセントの表示を抑制します。

NOCUM 一元表における累積度数および累積パーセンテージの表示を抑制します。NOCUMオプションは、リスト形式のクロス集計表 (LISTオプションで要求した表 ) における累積度数および累積パーセンテージの表示も抑制します。

NOFREQ クロス集計表におけるセル度数の表示を抑制します。NOFREQオプションは、行の合計度数の表示も抑制します。このオプションは、一元表またはリスト形式のクロス集計表 (LISTオプションで要求した表 )に対しては影響を与えません。

NOPERCENT クロス集計表における全体のパーセンテージの表示を抑制します。これらのパーセンテージには、合計 ( 二元 ) 表度数のセルパーセンテージや、合計表度数に対する行パーセンテージおよび列パーセンテージが含まれます。行合計または列合計のセルパーセンテージの表示を抑制するには、それぞれNOROWまたはNOCOLオプションを指定します。

一元度数表とリスト形式のクロス集計表に対して NOPERCENT オプションを指定すると、パーセンテージと累積パーセンテージの表示が抑制されます。

NOPRINT 度数表およびクロス集計表の表示を抑制します。ただし、要求された検定および統計量はすべて表示します。検定や統計量を含むあらゆる出力を抑制するには、PROC FREQステートメントにNOPRINTオプションを指定します。

NOROW クロス集計表のセルにおける列パーセンテージの表示を抑制します。

NOSPARSE 度数がゼロであるセルを、LIST 表、CROSSLIST 表、および OUT= データセットに表示しないようにします。

NOSPARSE オプションは、重みが0のオブザベーションを含めるために WEIGHT ステートメントで ZEROSオプションを指定している場合に適用できます。デフォルトでは、ZEROSオプションを指定すると SPARSE オプションが呼び出されます。この結果、重みがゼロの表セルが LIST 表示表示され、それらが OUT= データセットに含められます。度数がゼロのセルを表示しないようにするには、NOSPARSEオプションを指定します。詳細は、ZEROSオプションの説明を参照してください。

NOSPARSE オプションは、CROSSLIST オプションを指定する場合にも使用できます。デフォルトでは、CROSSLIST 表の場合、FREQ プロシジャは、行変数の各水準内ですべての水準の列変数 ( 度数が 0であるあらゆる水準を含む )を表示します。デフォルトでは、多元 CROSSLIST表の場合、FREQプロシジャは、表の各層内にある行変数のすべての水準 (層内にある度数が 0であるすべての行水準を含む ) を表示します。NOSPARSE オプションを指定すると、度数がゼロである水準が CROSSLIST表に表示されなくなります。

NOWARN 漸近 Pearson カイ 2 乗検定の妥当性に関するログの警告メッセージを抑制します。デフォルトでは、20%を超える表セルが 5未満の期待度数を持つ場合、FREQプロシジャは、漸近 Pearsonカイ 2乗検定の妥当性に関する警告を表示します。PROC FREQ ステートメントで NOPRINT オプションを指定すると、この警告メッセージがログに表示されます。

Page 120: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

116 第 3章 : FREQプロシジャ

NOWARNオプションは、CHISQ(WARN=NOLOG)オプションと同じものです。CHISQ(WARN=)オプションを使用して、警告メッセージの表示を抑制し、カイ 2 乗 ODS 出力データセットまたはOUTPUTデータセットに警告変数を要求することもできます。

OR < (CL=type | (types )> ODDSRATIO < (CL=type | (types )>

表のオッズ比および信頼限界を要求します。詳細は、「オッズ比」(183ページ)のセクションを参照してください。

types には信頼限界の種類を 1 つまたは複数指定できます。type に信頼限界の種類を 1 つのみ指定する場合は、かっこで囲む必要はありません。FREQプロシジャは、"Confidence Limits for the OddsRatio"表に信頼限界を表示します。

CL=オプションなしの ORオプションの指定は、RELRISKオプションと同じで、"Odds Ratio andRelative Risks"表を作成します。詳細は、RELRISK オプションの説明を参照してください。OR(CL=)オプションを指定すると、RELRISK オプションまたは MEASURES オプションも指定されている場合を除き、FREQプロシジャは、"Odds Ratio and Relative Risks"表を作成しません。

ALPHA= オプションは信頼水準を決定します。デフォルトは ALPHA=0.05 で、オッズ比の 95% の信頼限界を作成します。

typesには次を指定できます。EXACT"

Confidence Limits for the Odds Ratio"表におけるオッズ比の正確な信頼限界を表示します。( デフォルトで、FREQ プロシジャは、これらの正確な信頼限界を個別の表に表示します )。EXACTステートメントにORオプションを指定して、正確な信頼限界の計算も要求する必要があります。詳細は、「オッズ比の信頼限界」(183ページ)セクション内のサブセクション「正確な信頼限界」を参照してください。

LR LIKELIHOODRATIO

オッズ比の尤度比信頼限界を要求します。詳細は、「オッズ比の信頼限界」(183 ページ)セクション内のサブセクション「尤度比信頼限界」を参照してください。

MIDPオッズ比の正確なMid-p信頼限界を要求します。詳細は、「オッズ比の信頼限界」(183ページ)セクション内のサブセクション「正確なmid-p信頼限界」を参照してください。

SCORE < (CORRECT=NO)>オッズ比のスコア信頼限界を要求します。詳細は、「オッズ比の信頼限界」(183 ページ)セクション内のサブセクション「スコア信頼限界」を参照してください。CORRECT=NOを指定すると、FREQプロシジャは補正されていない形式のスコア信頼限界を提供します。

WALD漸近 Wald 信頼限界を要求します。これはオッズ比の対数変換に基づきます。詳細は、「オッズ比の信頼限界」(183ページ)セクション内のサブセクション「Wald信頼限界」を参照してください。

WALDMODIFIEDオッズ比のWald modified信頼限界を要求します。詳細は、「オッズ比の信頼限界」(183ページ)セクション内のサブセクション「Wald Modified信頼限界」を参照してください。

OUT=SAS-data-set

度数表またはクロス集計表のカウントとパーセンテージを含む出力データセットを指定します。TABLESステートメントで複数の表が要求された場合、OUT=データセットは、その TABLESステー

2 2×

Page 121: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 117

トメントの最後の表要求に対応します。OUT=データセット変数COUNTには度数が、変数 PERCENTにはパーセンテージがそれぞれ含められます。詳細は、「出力データセット」(213ページ)のセクションを参照してください。OUT= データセットに追加情報を含めるには、OUTCUM、OUTEXPECT、OUTPCTの各オプションを指定します。

OUTCUM 累積度数と累積パーセンテージを、一元表のOUT=データセットに含めます。変数 CUM_FREQには累積度数が、変数 CUM_PCT には累積パーセンテージがそれぞれ含められます。詳細は、「出力データセット」(213ページ)のセクションを参照してください。OUTCUMオプションは、二元表や多元クロス表には効果がありません。

OUTEXPECT 期待されるセル度数を、クロス集計表のOUT=データセットに含めます。変数 EXPECTEDに、期待されるセル度数が含められます。詳細は、「出力データセット」(213ページ)のセクションを参照してください。EXPECTEDオプションは、一元表に関しては効果がありません。

OUTPCT 次に示す各種の追加情報を、クロス集計表のOUT=データセットに含めます。

PCT_COL 列度数のパーセンテージ

PCT_ROW 行度数のパーセンテージ

PCT_TABL n元表 (n > 2)における、層 (二元表 )度数のパーセンテージ

詳細は、「出力データセット」(213ページ)のセクションを参照してください。OUTPCTオプションは、一元表に関しては効果がありません。

PLCORR < (options)> ポリコリック相関係数とその漸近標準誤差を要求します。 表の場合、この統計量は一般にテトラコリック相関係数として知られているため、表示出力のラベルにはその名前が付けられます。詳細は、「Polychoric Correlation」(160ページ)のセクションを参照してください。

CLオプションまたはMEASURES(CL)オプションを指定すると、FREQプロシジャはポリコリック相関の信頼限界も表示します。TEST ステートメントに PLCORR オプションを指定すると、ポリコリック相関の Wald 検定および尤度比検定をプロシジャが提供します。PLCORR オプションは、MEASURESオプションを起動します。

optionsには次を指定できます。CONVERGE=value

ポリコリック相関を計算するための収束基準を指定します。収束基準 valueは正の数であることが必要です。デフォルトは、CONVERGE=0.0001です。ポリコリック相関の反復計算は、収束測定値が valueを下回った場合、または反復回数がMAXITER= numberを超えた場合に停止します。パラメータ値が 0.01 未満の場合、FREQ プロシジャは、相対的差異ではなく絶対的差異を使用して収束を推定します。詳細は、「Polychoric Correlation」(160ページ)のセクションを参照してください。

MAXITER=number ポリコリック相関を計算する反復の最大数 numberを指定します。numberの値は正の整数でなければなりません。デフォルトは、MAXITER=20です。ポリコリック相関の反復計算は、反復回数が numberを超えた場合、または収束測定値が CONVERGE= valueを下回った場合に停止します。詳細は、「Polychoric Correlation」(160ページ)のセクションを参照してください。

2 2×

Page 122: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

118 第 3章 : FREQプロシジャ

PLOTS < (global-plot-options)> < =plot-request < (plot-options)> > PLOTS < (global-plot-options)>

< =(plot-request < (plot-options)> < …plot-request < (plot-options)> > )>

ODS Graphics により作成される各種プロットを制御します。Plot-requests でプロットを特定し、plot-options には、そのプロットの表示や内容を制御するオプションを指定します。plot-options は、plot-request の後に続けてかっこで囲んで指定します。global-plot-option は、特定の plot-option により変更されない限り、同オプションを利用できるすべてのプロットに対して適用されます。PLOTSオプションに続いて、global-plot-optionsをかっこで囲んで指定できます。

plot-requestを 1つのみ指定する場合、かっこで囲む必要はありません。例えば、次のようになります。

plots=all

plots=freqplot

plots=(freqplot oddsratioplot)

plots(only)=(cumfreqplot deviationplot)

プロットを要求する前に、ODS Graphicsを有効にする必要があります。例えば、次のようになります。

ods graphics on;

proc freq;

tables treatment*response / chisq plots=freqplot;

weight wt;

run;

ods graphics off;

ODS Graphicsを有効化 /無効化する方法については、SAS/STAT 14.1 User's Guideの Chapter 21:Using the Output Delivery System を参照してください。

ODS Graphics は有効化されているが、PLOTS= オプションが指定されていない場合、FREQ プロシジャは、要求した分析に関連付けられているすべてのプロット (ただし、度数プロット、累積度数プロット、モザイクプロットは除く )を作成します。ODS Graphicsは有効化されている場合に度数プロットまたは累積度数プロットを作成するには、PLOTS= オプションで、FREQPLOT またはCUMFREQPLOT plot-requestをそれぞれ指定する必要があります。または PLOTS=ALLオプションを指定する必要があります。ODS Graphics が有効である場合にモザイクプロットを作成するには、PLOTS=オプションで、 MOSAICPLOT plot-requestを指定するか、または PLOTS=ALLオプションを指定する必要があります。

TABLESステートメントのオプションで要求した場合、FREQプロシジャは残りのプロット (表 3.11を参照 )をデフォルトで作成します。デフォルトのプロットではなく、特定のプロットだけを要求するには、PLOTS(ONLY)= オプションを使用します。PLOTS(ONLY)=(plot-requests) と指定すると、plot-requestsに指定したプロットのみが作成されます。すべてのプロットを抑制するには、PLOTS=NONEオプションを使用します。PROC FREQステートメントでNOPRINTオプションを指定した場合、PLOTSオプションは無効です。

plot-requests

表3.11に、利用可能なplot-requests を、それらが必要とするTABLESステートメントオプションと共に示します。plot-requestsの説明はアルファベット順に示されています。

表 3.11 plot-requests

plot-request 説明 必要となるTABLESステートメントのオプション

AGREEPLOT 一致プロット AGREE ( 表)

ALL すべてのプロット なし

r r×

Page 123: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 119

plot-requestsには次を指定できます。AGREEPLOT < (plot-options)>

一致プロット (Bangdiwala and Bryan, 1987) を要求します。一致プロットは、行変数と列変数が n個のサブジェクトの 2つの独立した評価を表すような二元表における、一致の強さを表します。一致プロットについての詳細は、Bangdiwala (1988)、Bangdiwala et al. (2008)、Friendly (2000, Section3.7.2)を参照してください。(2008)、および Friendly (2000, Section 3.7.2)を参照してください。

一致プロットを作成するには、TABLESステートメントにAGREEオプションも指定する必要があります。一致の統計量および一致プロットは、列数が行数に等しい二元の正方形の表に関してのみ利用できます。

表 3.12に、一致プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

*デフォルト値

STATS plot-option を指定する場合、一致プロットでは、カッパ係数、重み付きカッパ係数、 統計量 (Bangdiwala and Bryan、1987)、標本サイズの各値を表示します。FREQプロシジャはこれらの統計量を BnMeasure という名前の ODS テーブルに格納しますが、このテーブルは表示されません。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

ALL指定された分析に関連付けられているすべてのプロットを要求します。表 3.11 に、使用可能なplot-requests と分析オプションを示します。PLOTS=ALL オプションを指定すると、FREQ プロシジャは、要求したテーブルに関連付けられる度数プロット、累積度数プロット、モザイクプロットを作成します (これらのプロットは、ODS Graphicsが有効な場合、デフォルトでは作成されません。)

CUMFREQPLOT 累積度数プロット 一元表の要求

DEVIATIONPLOT 偏差プロット CHISQ (one-way table)

FREQPLOT 度数プロット 任意の表の要求

KAPPAPLOT カッパプロット AGREE ( 表)

MOSAICPLOT モザイクプロット 二元表または多元クロス表の要求

NONE プロットなし なし

ODDSRATIOPLOT オッズ比図 MEASURES、OR、またはRELRISK ( 表)

RELRISKPLOT 相対リスクプロット MEASURESまたはRELRISK ( 表)

RISKDIFFPLOT リスク差図 RISKDIFF ( 表)

WTKAPPAPLOT 重み付きカッパ図 AGREE ( 表、 )

表 3.12 AGREEPLOTの plot-option

plot-option 説明 値

LEGEND= 凡例 NOまたはYES*

PARTIAL= 部分的な一致 NOまたはYES*

SHOWSCALE= 度数尺度 NOまたはYES*

STATS 統計量 なし

表 3.11 plot-requests(続き)

plot-request 説明 必要となるTABLESステートメントのオプション

h r r××

h 2 2××

h 2 2××

h 2 2××

h r r×× r 2>

Bn

Page 124: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

120 第 3章 : FREQプロシジャ

CUMFREQPLOT < (plot-options)> 累積度数のプロットを要求します。累積度数プロットは、一元度数表で利用できます。

累積度数プロットを作成するには、PLOTS=オプションで、CUMFREQPLOT plot-requestを指定するか、または PLOTS=ALLオプションを指定する必要があります。ODS Graphicsが有効になっている場合、FREQプロシジャはデフォルトでは累積度数プロットを作成しません。

表 3.13に、累積度数プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

*デフォルト値

DEVIATIONPLOT < (plot-options)> 期待度数からの相対偏差を示すプロットを要求します。偏差プロットは、一元度数表のカイ 2乗分析で利用できます。偏差プロットを作成するには、一元度数表に対する TABLESステートメントで CHISQオプションも指定する必要があります。

表 3.14に、偏差プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

*デフォルト値

FREQPLOT < (plot-options)> 度数プロットを要求します。度数プロットは、度数表およびクロス集計表で利用できます。多元クロス表の場合、FREQプロシジャは層 (二元表 )ごとに 1つの二元度数プロットを提供します。

度数プロットを作成するには、PLOTS=オプションで、 FREQPLOT plot-requestを指定するか、または PLOTS=ALL オプションを指定する必要があります。ODS Graphics が有効になっている場合、FREQプロシジャはデフォルトでは度数プロットを作成しません。

表 3.15に、度数プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

表 3.13 CUMFREQPLOTの plot-option

plot-option 説明 値

ORIENT= 向き HORIZONTALまたはVERTICAL*

SCALE= 尺度 FREQ*またはPERCENT

TYPE= 種類 BARCHART*またはDOTPLOT

表 3.14 DEVIATIONPLOTの plot-option

plot-option 説明 値

NOSTAT 統計量なし なし

ORIENT= 向き HORIZONTALまたはVERTICAL*

TYPE= 種類 BARCHART*またはDOTPLOT

Page 125: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 121

*デフォルト値**二元表の場合

ORIENT=、SCALE=、および TYPE=の各 plot-optionsは、すべての度数プロットに対して指定できます。GROUPBY=、NPANELPOS=、および TWOWAY=の各 plot-options、二元 (および多元 )表の度数プロットに対して指定できます。NPANELPOS= plot-option は、TWOWAY=CLUSTER またはTWOWAY=STACKEDレイアウトでは利用できません。これらのレイアウトでは、プロットは常に単一のパネル内に表示されます。

デフォルトでは、度数プロットは棒グラフとして表示されます。度数プロットを散布図として表示するには、TYPE=DOTPLOT を指定します。度数のかわりにパーセンテージをプロットするには、SCALE=PERCENT を指定します。二元表の場合、4 種類の度数プロットレイアウトが使用でき、度数プロットレイアウトは TWOWAY= plot-optionを指定することで、要求できます。詳細は、このセクション内のサブセクション「plot-options」を参照してください。

デフォルトでは、二元レイアウトのグラフセルは、最初に列変数の水準によってグループ化され、行変数の水準は列変数の水準内に表示されます。最初に行変数の水準でグループ化するには、GROUPBY=ROW を指定します。

KAPPAPLOT < (plot-options)> カッパ統計量と信頼限界を示すプロットを要求します。カッパプロットは多元の正方形の表で利用可能であり、各二元表 ( 層 ) のカッパ統計量を ( 信頼限界と共に ) 表示します。また、COMMON=NOplot-option を指定しない場合、カッパプロットは全体的なカッパ統計量を表示します。カッパプロットを作成するには、TABLESステートメントでAGREEオプションを指定してカッパ統計量を計算する必要があります。

表 3.16 に、カッパプロットで利用可能な plot-options を示します。plot-options の説明については、このセクション内のサブセクション「plot-options」を参照してください。

表 3.15 FREQPLOTの plot-option

plot-option 説明 値

GROUPBY= ** 1次グループ COLUMN*またはROW

NPANELPOS= ** パネルごとのセクション数

数字(4*)

ORIENT= 向き HORIZONTALまたはVERTICAL*

SCALE= 尺度 FREQ*、GROUPPERCENT**、LOG、PERCENT、SQRT

TWOWAY= ** 二元レイアウト CLUSTER、GROUPHORIZONTAL、GROUPVERTICAL*、STACKEDのいずれか

TYPE= 種類 BARCHART*またはDOTPLOT

表 3.16 KAPPAPLOTおよびWTKAPPAPLOTの plot-options

plot-option 説明 値

CLDISPLAY= 誤差バーの種類 BAR、LINE、LINEARROW、SERIF*、またはSERIFARROW

COMMON= 全体的なカッパ NOまたはYES*

Page 126: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

122 第 3章 : FREQプロシジャ

*デフォルト値

MOSAICPLOT < (plot-options)> モザイクプロットを要求します。モザイクプロットは二元表および多元クロス集計表に使用可能で、多元表の場合は、PROC FREQが二元表 (層 )ごとのモザイクプロットを提供します。

モザイクプロットを作成するには、PLOTS=オプションで、 MOSAICPLOT plot-requestを指定するか、または PLOTS=ALLオプションを指定する必要があります。ODS Graphicsが有効になっている場合、FREQプロシジャはデフォルトではモザイクプロットを作成しません。

モザイクプロットは、クロス集計表のセルに対応するタイルを表示します。タイルの領域は、テーブルセルの度数に比例します。列変数は X 軸上に表示され、タイルの幅は列変数水準の相対度数に比例します。行変数は Y軸上に表示され、タイルの高さは列水準における行水準の相対度数に比例します。詳細は、Friendly (2000)を参照してください。

デフォルトでは、タイルの色は、行変数水準に対応します。COLORSTAT= plot-optionを指定する場合、Pearson残差または標準化残差の値に応じてタイルが色付けされます。

plot-optionsには次を指定できます。COLORSTAT < =PEARSONRES | STDRES>

残差の値に応じて、モザイクプロットのタイルが色付けされます。COLORSTAT=PEARSONRESを指定する場合、タイルは、表セルの Pearson残差に応じて色付けされます。詳細は、「二元表に対するPearsonカイ2乗検定」(149ページ)のセクションを参照してください。COLORSTAT=STDRES を指定する場合、タイルは、表セルの標準化残差に応じて色付けされます。詳細は、「標準化残差」(150ページ)のセクションを参照してください。CROSSLIST(PEARSONRES)または CROSSLIST(STDRES) オプションを指定して、それぞれ、CROSSLIST 表の Pearson残差または標準化残差を表示できます。

SQUARE正方形のモザイクプロットを作成します。同プロットでは、Y軸の高さと X軸の幅が等しくなります。正方形のモザイクプロットでは、相対度数の尺度が両方の軸で同じになります。デフォルトで、FREQプロシジャは長方形のモザイクプロットを作成します。

NONE すべてのプロットの表示を抑制します。

ODDSRATIOPLOT < (plot-options)> オッズ比と信頼限界を示すプロットを要求します。オッズ比プロットは多元 表で利用可能であり、各 表 (層 )のオッズ比を (信頼限界と共に )表示します。オッズ比プロットを作成するには、TABLESステートメントにMEASURES 、OR 、または RELRISK オプションも指定して、オッズ比を計算する必要があります。

表 3.17に、オッズ比プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

NPANELPOS= グラフィックごとの統計量

数字(0:すべての統計量を単一パネルに表示*)

ORDER= 二元水準の順序 ASCENDINGまたはDESCENDING

RANGE= 表示範囲 値またはCLIP

STATS 統計量の値 なし

表 3.16 KAPPAPLOTおよびWTKAPPAPLOTの plot-options(続き)

plot-option 説明 値

2 2×2 2×

Page 127: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 123

*デフォルト値**RELRISKPLOTおよび RISKDIFFPLOTで利用可能***ODDSRATIOPLOTおよび RELRISKPLOTで利用可能

オッズ比プロットでは、信頼限界の種類として、正確 (CL=EXACT)、尤度比 (CL=LR)、mid-p (CL=MIDP)、スコア (CL=SCORE)、Wald (CL=WALD)、またはWald modified (CL=WALDMODIFIED)のいずれかを指定できます。デフォルトでは、オッズ比プロットはWald信頼限界を表示します。詳細は、CL=plot-optionおよびOR(CL=) オプションの説明を参照してください。

オッズ比プロットに正確な信頼限界を表示するには、EXACTステートメントにORオプションを指定して、その計算も要求する必要があります。

CL=WALDまたは CL=EXACTの場合、デフォルトでは、オッズ比プロットは共通オッズ比が使用可能なときにはそれを表示します。共通オッズ比を Wald 信頼限界とともに計算するには、TABLES ステートメントで CMH オプションを指定します。共通オッズ比を正確な信頼限界とともに計算するには、EXACTステートメントで COMOR オプションを指定します。共通オッズ比が表示されないようにするには、COMMON=NO を指定します。

RELRISKPLOT < (plot-options)> 相対リスクと信頼限界を示すプロットを要求します。相対リスクプロットは多元 表で利用可能であり、各 表 ( 層 ) の相対リスクを ( 信頼限界と共に ) 表示します。相対リスクプロットを作成するには、TABLESステートメントでMEASURESオプションまたは RELRISKオプションを指定して相対リスクを計算する必要があります。

表 3.17に、相対リスクプロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

相対リスクプロットでは、信頼限界の種類として、正確 (CL=EXACT)、尤度比 (CL=LR)、スコア(CL=SCORE)、Wald(CL=WALD)、または Wald modified (CL=WALDMODIFIED) のいずれかを指定できます。デフォルトでは、相対リスクプロットはWald信頼限界を表示します。詳細は、CL=plot-optionおよび RELRISK(CL=) オプションの説明を参照してください。

相対リスクプロットに正確な信頼限界を表示するには、EXACTステートメントに RELRISK オプションを指定して、その計算も要求する必要があります。信頼限界に指定したリスク列は、プロットに指定したリスク列と一致している必要があります。

表 3.17 ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOTの plot-options

plot-option 説明 値

CL= 信頼限界の種類 Type

CLDISPLAY= 誤差バーの種類 BAR、LINE、LINEARROW、SERIF*、またはSERIFARROW

COLUMN= ** リスク列 1*または2

COMMON= 共通の値 NOまたはYES*

LOGBASE= *** 軸尺度 2、E、10のいずれか

NPANELPOS= グラフィックごとの統計量

数字(0:すべての統計量を単一パネルに表示*)

ORDER= 二元水準の順序 ASCENDINGまたはDESCENDING

RANGE= 表示範囲 値またはCLIP

STATS 統計量の値 なし

2 2×2 2×

Page 128: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

124 第 3章 : FREQプロシジャ

相対リスクプロットは、CL=WALDおよび TABLESステートメントに CMH オプションが指定されている場合、デフォルトでは共通相対リスクを表示します。共通相対リスクが表示されないようにするには、COMMON=NO を指定します。

RISKDIFFPLOT < (plot-options)> リスク (比率 )差と信頼限界を示すプロットを要求します。リスク差プロットは多元 表で使用可能であり、各 表 (層 )のリスク差を (信頼限界と共に )表示します。リスク差プロットを作成するには、TABLESステートメントでRISKDIFFオプションを指定してリスク差を計算する必要があります。

表 3.17に、リスク差プロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」 を参照してください。

リスク差プロットでは、信頼限界の種類として、Agresti-Caffo(CL=AC)、正確 (CL=EXACT)、Hauck-Anderson (CL=HA)、Miettinen-Nurminen(スコア ) (CL=MN)、Newcombe (CL=NEWCOMBE)、またはWald (CL=WALD)のいずれかを指定できます。デフォルトでは、プロットにリスク差の Wald 信頼限界を表示します。詳細は、CL= plot-option および RISKDIFF(CL=) オプションの説明を参照してください。

リスク差プロットに正確な信頼限界を表示するには、EXACT ステートメントに RISKDIFF オプションを指定して、その計算も要求する必要があります。信頼限界に指定したリスク列は、プロットに指定したリスク列と一致している必要があります。

デフォルトでは、RISKDIFF(COMMON)オプションを指定し、さらに CL= plot-optionに信頼限界の種類として、Miettinen-Nurminen (スコア ) (CL=MN)、Newcombe (CL=NEWCOMBE)、Wald(CL=WALD) のいずれかを指定すると、リスク差プロットは共通リスク差を表示します。共通相対リスク差が表示されないようにするには、COMMON=NO を指定します。

WTKAPPAPLOT < (plot-options)> 重み付きカッパ係数と信頼限界を示すプロットを要求します。重み付きカッパプロットは多元の正方形の表で使用可能であり、各二元表 (層 )の重み付きカッパ係数を (信頼限界と共に )表示します。また、COMMON=NO plot-optionを指定しない場合、重み付きカッパプロットは全体的な重み付きカッパ係数を表示します。

重み付きカッパプロットを作成するには、TABLESステートメントにAGREEオプションを指定して重み付きカッパ係数を計算する必要があり、表次元は 1より大きい必要があります。

表 3.16に、重み付きカッパプロットで利用可能な plot-optionsを示します。plot-optionsの説明については、このセクション内のサブセクション「plot-options」 を参照してください。

グローバルプロットオプション

global-plot-optionは、個別のplot-optionにより変更されない限り、同オプションを利用できるすべてのプロットに対して適用されます。PLOTSオプションに続いて、global-plot-optionsをかっこで囲んで指定できます。例えば、次のようになります。

plots(order=ascending stats)=(riskdiffplot oddsratioplot)

plots(only)=freqplot

次のplot-optionsはglobal-plot-optionsとして使用できます。CLDISPLAY=、COLUMN=、COMMON=、EXACT、LOGBASE=、NPANELPOS=、ORDER=、ORIENT=、RANGE=、SCALE=、STATS、およびTYPE=。plot-optionsの説明については、このセクション内のサブセクション「plot-options」を参照してください。

これらのplot-optionsに加えて、次のglobal-plot-optionを指定可能です。ONLY

デフォルトのプロットを抑制し、plot-requestsとして指定されているプロットのみを要求します。

2 2×2 2×

Page 129: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 125

plot-options

plot-optionsは、plot-requestの後に続けてかっこで囲んで指定します。CL=type

表示する信頼限界の typeを指定します。次の plot-requestsを指定する場合、CL= plot-optionを指定できます。ODDSRATIOPLOT、RELRISKPLOT、および RISKDIFFPLOT。

オッズ比プロット (ODDSRATIOPLOT)では、信頼限界の種類として、正確 (CL=EXACT)、尤度比(CL=LR)、mid-p (CL=MIDP)、スコア (CL=SCORE)、Wald (CL=WALD)、またはWald modified(CL=WALDMODIFIED)のいずれかを指定できます。詳細は、OR(CL=)オプションの説明、および「オッズ比の信頼限界」(183ページ)のセクションを参照してください。デフォルトは、CL=WALDです。CL=EXACT を指定して正確な信頼限界を表示する場合、EXACT ステートメントに OR オプションを指定して、正確な信頼限界の計算も要求する必要があります。

相対リスクプロット (RELRISKPLOT ), では、信頼限界の種類として、正確 (CL=EXACT)、尤度比(CL=LR)、スコア (CL=SCORE)、Wald (CL=WALD)、またはWald modified (CL=WALDMODIFIED)のいずれかを指定できます。詳細は、RELRISK(CL=) オプションの説明、および「相対リスクの信頼限界」(186ページ)セクションを参照してください。デフォルトは、CL=WALDです。CL=EXACTを指定して正確な信頼限界を表示する場合、EXACTステートメントに RELRISKオプションを指定して、正確な信頼限界の計算も要求する必要があります。

リスク差プロット (RISKDIFFPLOT ) では、信頼限界の種類として、Agresti-Caffo(CL=AC)、正確(CL=EXACT)、Hauck-Anderson (CL=HA)、Miettinen-Nurminen(スコア) (CL=MN)、Newcombe(CL=NEWCOMBE)、またはWald (CL=WALD)のいずれかを指定できます。詳細は、RISKDIFF(CL=)オプションの説明、および「リスク差の信頼限界」(172ページ)のセクションを参照してください。デフォルトは、CL=WALD です。CL=EXACT を指定して正確な信頼限界をプロットに表示する場合、EXACT ステートメントで RISKDIFF オプションを指定することにより、正確な信頼限界の計算も要求する必要があります。

CLDISPLAY=BAR < width > | LINE | LINEARROW | SERIF | SERIFARROW信頼限界誤差バーの外観を制御します。次の plot-requests を指定する場合、CLDISPLAY= plot-optionを指定できます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

デフォルトは CLDISPLAY=SERIF で、この場合、信頼限界はセリフ付きの線として表示されます。CLDISPLAY=LINEを指定すると、信頼限界がセリフなしの線として表示されます。CLDISPLAY=SERIFARROW および CLDISPLAY=LINEARROW plot-options は、RANGE= plot-option でクリップされている誤差バー上に矢印を表示します。誤差バー全体がプロットから切り取られる場合、その統計量に向いた矢印が表示されます。

CLDISPLAY=BAR を指定すると、信頼限界がバーとして表示されます。デフォルトでは、バーの幅は推定値のマーカーのサイズに等しくなります。バーの幅とマーカーのサイズを制御するには、バー間の距離に対してバーの幅が占めるパーセンテージとしてwidthの値を で指定します。widthの値が非常に小さい場合、バーが見えなくなることがあります。

COLUMN=1 | 2相対リスクプロット (RELRISKPLOT)およびリスク差プロット (RISKDIFFPLOT)のリスク (比率 )を計算するために使用する表の列を指定します。COLUMN=1を指定すると、プロットには列 1の相対リスク、または列 1のリスク差が表示されます。同様に、COLUMN=2を指定すると、プロットには列 2の相対リスク、または列 2のリスク差が表示されます。

相対リスクプロットの場合、デフォルトは COLUMN=1です。リスク差プロットの場合、RISKDIFFオプションを指定して、列 1と列 2両方のリスク差の計算を要求する場合、デフォルトは COLUMN=1になります。RISKDIFF(COLUMN=1) (または RISKDIFF(COLUMN=2) )オプションを指定して、

Page 130: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

126 第 3章 : FREQプロシジャ

列 1(または列 2)のリスク差のみの計算を要求すると、デフォルトでは、リスク差プロットは指定した列のリスク差を表示します。

COMMON=NO | YES多元表向けの層 ( 二元表 ) 統計量を表示するプロットにおける、共有の ( 全体的な ) 統計量の表示を制御します。次の plot-requests を指定する場合、COMMON= plot-option を指定できます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

COMMON=NO を指定すると、共通統計量およびその信頼限界は表示されません。デフォルトはCOMMON=YESで、このとき共通統計量およびその信頼限界の値が使用可能であればそれらが表示されます。詳細は、plot-requestsの説明を参照してください。

EXACT漸近信頼限界ではなく、正確な信頼限界の表示を要求します。次のplot-requestsを指定する場合、EXACTplot-optionを指定できます。ODDSRATIOPLOT、RELRISKPLOT、および RISKDIFFPLOT。EXACTplot-optionは、CL=EXACT plot-optionと同じものです。

EXACT plot-optionを指定する場合、EXACTステートメントで適切な statistic-optionオプションを指定することにより、正確な信頼限界の計算も要求する必要があります。

GROUPBY=COLUMN | ROW二元度数プロットでの 1 次グループ化を指定します。FREQPLOT plot=request を指定することで要求できます。デフォルトは GROUPBY=COLUMNであり、最初に列変数に基づいてグラフセルをグループ化し、列変数水準内に行変数水準を表示します。最初に行変数に基づいてグループ化するには、GROUPBY=ROW を指定します。二元表および多元表を要求する場合、列変数が最後の変数になり、これがクロス集計表の列を形成します。行変数は最後から 2番目の変数になり、これが表の行を形成します。

デフォルトでは、TWOWAY=STACKED レイアウトに棒グラフが表示されます。バーは列変数水準に対応しており、行水準は各列バー内に ( 積み上げられて ) 表示されます。デフォルトでは、TWOWAY=STACKEDレイアウトで表示される棒グラフにおいて、バーは最初に列変数水準でグループ化され、行水準は各列水準グループ内における隣接バーとして表示されます。GROUPBY=ROWを指定すると、デフォルトの行変数と列変数によるグループ化を反転できます。

LOGBASE=2 | E | 10オッズ比プロット (ODDSRATIOPLOT)および相対リスクプロット (RELRISKPLOT)に対して適用されます。この plot-optionを指定すると、指定の対数尺度上にオッズ比または相対リスク軸が表示されます。

LEGEND=NO | YES一致プロット (AGREEPLOT)に対して適用されます。LEGEND=NOを指定すると、正確な一致または部分的な一致の領域を特定する凡例が表示されなくなります。デフォルト値は LEGEND=YESです。

NOSTAT偏差プロット (DEVIATIONPLOT) に対して適用されます。NOSTAT を指定すると、偏差プロットにデフォルトで表示されるカイ 2乗 p値が表示されなくなります。

NPANELPOS=n最大で |n|統計量またはセクションを表示する複数のパネルにプロットを分割します。

n が正の数の場合、パネルごとに表示される統計量やセクションの数は均等化されます。n が負の数の場合、パネルごとに表示される統計量の数は均等化されません。たとえば、21 個のオッズ比を表示したいとします。この場合、NPANELPOS=20を指定すると、最初のパネルには 11個のオッズ比、2番目のパネルには 10個のオッズ比がそれぞれ表示されます。NPANELPOS=–20では、最初のパネルに

Page 131: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 127

は 20個のオッズ比、2番目のパネルには 1個のオッズ比のみがそれぞれ表示されます。この plot-optionは、モザイクプロットおよび一元重み付き度数プロットを除く、すべてのプロットに使用可能です。

二元度数プロット (FREQPLOT)の場合、NPANELPOS=nでは、最大で |n|セクションを表示する複数のパネルを要求し、ここでのセクションは、プロットの種類やグループ化に応じて、行変数水準または列変数水準に対応します。デフォルトは n=4で、各パネルには最大で 4セクションが含まれます。この plot-option は、TWOWAY=GROUPVERTICAL または TWOWAY=GROUPHORIZONTALレイアウトで表示される二元プロットに適用されます。NPANELPOS= plot-optionは、TWOWAY=CLUSTERレイアウトや TWOWAY=STACKEDレイアウトには適用されません。これらのレイアウトでは、プロットは常に単一のパネル内に表示されます。

信頼限界と一緒に統計量を表示するプロットの場合、NPANELPOS=nは、最大で |n|統計量を表示するパネルを要求します。デフォルトでは n = 0であり、すべての統計量が 1つのプロット内に表示されます。この plot-option は次のプロットに適用されます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

ORDER=ASCENDING | DESCENDING二元表(層)統計量を統計値の順序で表示します。次のplot-requestsを指定する場合、ORDER= plot-optionを指定できます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

ORDER=ASCENDINGまたはORDER=DESCENDINGを指定する場合、プロットにはそれぞれ、昇順、または降順に統計量が表示されます。デフォルトでは、プロットにおける統計量の順序は、二元表の層が多元表に現れる順序と同じです。

ORIENT=HORIZONTAL | VERTICALプロットの向きを制御します。次の plot-requestsを指定する場合、ORIENT= plot-optionを指定できます。CUMFREQPLOT、DEVIATIONPLOT、および FREQPLOT。

ORIENT=HORIZONTALを指定すると、変数水準が Y軸上に、度数、パーセンテージ、または統計値が X 軸上に配置されます。ORIENT=VERTICAL を指定すると、変数水準が X 軸上に配置されます。デフォルトの向きは、棒グラフ (TYPE=BARCHART) の場合が ORIENT=VERTICAL になり、散布図 (TYPE=DOTPLOT)の場合はORIENT=HORIZONTALになります。

PARTIAL=NO | YES一致プロット (AGREEPLOT) における部分的一致の表示を制御します。PARTIAL=NO は、部分的一致の表示を抑制します。PARTIAL=NO を指定すると、一致プロットには正確な一致のみが表示されます。正確な一致には、行変数と列変数の水準が同じである正方形の表の対角セルが含められます。部分的な一致には、行および列の値が正確な一致の 1つの水準内にある表における、隣接する非対角セルが含められます。デフォルト値は PARTIAL=YESです。

RANGE=( < min > < , max > )| CLIP表示する値の範囲を指定します。次の plot-requestsを指定する場合、RANGE= plot-optionを指定できます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

RANGE=CLIP を指定すると、信頼限界が切り取られ、表示範囲は統計量の最小値と最大値により決定されます。デフォルトでは、表示範囲はすべての信頼限界を含みます。

SCALE=FREQ | GROUPPERCENT | LOG | PERCENT | SQRT表示する度数の尺度を指定します。この plot-optionは、度数プロット (FREQPLOT )および累積度数プロット (CUMFREQPLOT )に使用可能です。

デフォルトは SCALE=FREQであり、尺度なしの度数を表示します。SCALE=PERCENTは、合計度数のパーセンテージ ( 相対度数 ) を表示します。SCALE=LOG は、対数 ( 底 10) 度数を表示します。SCALE=SQRTは、rootogramと呼ばれるプロットを生成し、度数の平方根を表示します。

SCALE=GROUPPERCENTは、二元度数プロットで使用可能です。このオプションは、(表度数の )全体的なパーセンテージのかわりに、行や列のパーセンテージを表示します。デフォルト ( または、

Page 132: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

128 第 3章 : FREQプロシジャ

GROUPBY=COLUMN plot-optionが指定されている場合 ) では、SCALE=GROUPPERCENT は列のパーセンテージを表示します。GROUPBY=ROW plot-optionを指定すると、グラフセルの 1 次グループ化は行変数水準に基づいて行われ、プロットには行のパーセンテージが表示されます。詳細は、GROUPBY= plot-optionの説明を参照してください。

SHOWSCALE=NO | YES一致プロット (AGREEPLOT) の右側における累積度数尺度の表示を制御します。SHOWSCALE=NOは、尺度の表示を抑制します。デフォルト値は SHOWSCALE=YESです。

STATS統計値をプロットに表示します。次のplot-requestsの場合、STATS plot-optionを指定すると、統計量とその信頼限界がプロットの右側に表示されます。KAPPAPLOT、ODDSRATIOPLOT、RELRISKPLOT、RISKDIFFPLOT、およびWTKAPPAPLOT。

一致プロット (AGREEPLOT) の場合、STATS plot-option は、カッパ統計量、重み付きカッパ統計量、 統計量 (Bangdiwala and Bryan, 1987)、標本サイズの各値を表示します。FREQ プロシジャはこれらの統計量を BnMeasureという名前のODSテーブルに格納しますが、このテーブルは表示されません。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

STATS plot-optionを要求しない場合、これらのプロットは統計値を表示しません。TWOWAY=CLUSTER | GROUPHORIZONTAL | GROUPVERTICAL | STACKED

二元度数プロットのレイアウトを指定します。

棒グラフ (TYPE=BARCHART) では、すべての TWOWAY= レイアウトが利用できます。散布図(TYPE=DOTPLOT)では、TWOWAY=CLUSTERを除くすべての TWOWAY=レイアウトが利用できます。ORIENT=およびGROUPBY= plot-optionsは、すべての TWOWAY=レイアウトで使用可能です。

デフォルトの二元レイアウトは TWOWAY=GROUPVERTICALになります。このレイアウトは、縦の基線が同じであるグループ化プロットを作成します。棒グラフ (TYPE=BARCHART、ORIENT=VERTICAL) の場合、デフォルトでは X 軸に列変数水準が表示され、Y 軸に度数が表示されます。プロットには、行変数水準ごとに縦 (Y 軸 ) ブロックが含まれます。このプロット内のグラフセルの相対位置は、クロス集計表内の表セルの相対位置と同じになります。GROUPBY=ROW plot-option を指定すると、デフォルトの行変数と列変数によるグループ化を反転できます。

TWOWAY=GROUPVERTICALレイアウトは、横の基線が同じであるグループ化プロットを作成します。デフォルト (GROUPBY=COLUMN)では、同プロットは、列変数水準ごとに X軸上にブロックを表示します。同プロットは、各列変数ブロック内に行変数水準を表示します。

TWOWAY=STACKED レイアウトは、度数の積み上げ表示を作成します。積み上げ式の棒グラフの場合、デフォルト (GROUPBY=COLUMN) では、バーが列変数水準に対応するため、各列水準内に行水準が積み上げられます。積み上げ式の散布図の場合、デフォルトでは点線が列水準に対応するため、列線上のデータ点としてセル度数がプロットされます。点の色は行水準を表します。

TWOWAY=CLUSTERレイアウトは棒グラフでのみ利用できます。このレイアウトは、隣接バーのグループを表示します。デフォルトでは、1次グループ化が列変数水準に基づいて行われるため、各列水準内に行水準が表示されます。

GROUPBY=ROW plot-option を指定すると、任意のレイアウトにおけるデフォルトの行変数と列変数によるグループ化を反転できます。デフォルト値は GROUPBY=COLUMNであり、最初に列変数に基づいてグループ化が行われます。TYPE=BARCHART | DOTPLOT

度数 (FREQPLOT )、累積度数 (CUMFREQPLOT )、偏差プロット (DEVIATIONPLOT )のプロットの種類 (形式 )を指定します。TYPE=BARCHARTは棒グラフを、TYPE=DOTPLOTは散布図をそれぞれ作成します。デフォルト値は TYPE=BARCHARTです。

Bn

Page 133: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 129

PRINTKWTS FREQプロシジャが重み付きカッパ係数の計算に使用する一致の重みを表示します。一致の重みは、変数水準のペア間での相対的な一致に影響を与えます。デフォルトでは、FREQ プロシジャは一致の重みのCicchetti-Allison形式を使用します。AGREE(WT=FC)オプションが指定されている場合、プロシジャは一致の重みの Fleiss-Cohen形式を使用します。詳細は、「重み付きカッパ係数」(197ページ)のセクションを参照してください。

重み付きカッパ係数を計算するために AGREE オプションも指定してある場合を除き、このオプションは無効です。PRINTKWTSオプションは、AGREE(PRINTKWTS)オプションと同じものです。

RELRISK < (relrisk-options)>

表の相対リスク統計量とその信頼限界を要求します。これらの統計量には、オッズ比と、列 1および列 2 の相対リスクが含まれます。詳細は、「2 x 2 表に対するオッズ比と相対リスク」(183 ページ)のセクションを参照してください。デフォルトでは、FREQプロシジャは "Odds Ratio and RelativeRisks" 表にある相対リスク統計量とそのその漸近 Wald 信頼限界を表示します。この表は、MEASURESオプションを指定することでも得られますが、このオプションでは相対リスクに加えて、連関性のその他の統計量を作成します。

列 1または列 2相対リスクに関する検定とその他の信頼限界を要求するには、RELRISKオプションの後に relrisk-optionsをかっこで囲んで指定します。表 3.18に、relrisk-optionsの一覧とその説明をまとめて示します。

相対リスクに関する検定とその他の信頼限界を要求する場合、PRINTALL relrisk-optionが指定されていないならば、FREQプロシジャは "Odds Ratio and Relative Risks"表を表示しません。

表 3.18 RELRISK(相対リスク )オプション

オプション 説明

COLUMN=1 | 2 リスク列を指定

PRINTALL "Odds Ratio and Relative Risks"表を表示

信頼限界を要求

CL=EXACT 正確な信頼限界を表示

CL=LR 尤度比信頼限を要求

CL=SCORE スコア信頼限界を要求

CL=WALD Wald信頼限界を要求

CL=WALDMODIFIED Wald modified信頼限界を要求

検定を要求

EQUAL < (NULL=) 等価性の検定を要求

EQUIV | EQUIVALENCE 同等性の検定を要求

MARGIN= 検定マージンを指定

METHOD= 検定方式を指定

NONINF | NONINFERIORITY 非劣性の検定を要求

SUP | SUPERIORITY 優越性の検定を要求

2 2×

Page 134: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

130 第 3章 : FREQプロシジャ

relrisk-optionsには次を指定できます。CL=type | (types)

相対リスクの信頼限界の種類を指定します。typesには信頼限界の種類を 1つまたは複数指定できます。typeを 1つのみ指定する場合、かっこで囲む必要はありません。CL= relrisk-optionを指定すると、FREQプロシジャは "Confidence Limits for the Relative Risk"表の信頼限界を表示します。ALPHA=オプションは、CL= relrisk-optionで提供される信頼限界の水準を決定します。デフォルトはALPHA=0.05で、相対リスクの 95%の信頼限界を生成します。typesには次を指定できます。EXACT "

Confidence Limits for the Relative Risk"表における相対リスクの正確な条件なしの信頼限界を表示します。(デフォルトで、FREQプロシジャは、これらの正確な信頼限界を個別の表に表示します )。EXACTステートメントに RELRISKオプションを指定して、正確な信頼限界の計算も要求する必要があります。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。

LR LIKELIHOOD RATIO

相対リスクの尤度比信頼限界を要求します。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「尤度比信頼限界」を参照してください。

SCORE < (CORRECT=NO)>相対リスクのスコア信頼限界を要求します。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「スコア信頼限界」を参照してください。CORRECT=NOを指定すると、FREQプロシジャは補正されていない形式の信頼限界を提供します。

WALD漸近Wald信頼限界を要求します。これは相対リスクの対数変換に基づきます。詳細は、「相対リスクの信頼限界」(186 ページ)セクション内のサブセクション「Wald 信頼限界」を参照してください。

WALDMODIFIEDオッズ比のWald modified信頼限界を要求します。詳細は、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「Wald Modified信頼限界」を参照してください。

COLUMN=1 | 2 相対リスク信頼限界 (CL= relrisk-option の指定により要求するもの ) と相対リスク検定(EQUAL、EQUIV、NONINF、および SUP)を計算する表の列を指定します。デフォルトは、COLUMN=1です。このオプションは、列 1と列 2両方の相対リスクを表示する、"Odds Ratio and Relative Risks"表には無効です。

EQUAL < (NULL=value )>

相対リスクに関する等価性の検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「等価性検定」サブセクションを参照してください。METHOD= relrisk-option で検定を指定し、NULL=オプションで相対リスクの帰無仮説の valueを指定できます。ヌルの valueは正の数でなければなりません。デフォルトは、METHOD=WALDおよびNULL=1です。

EQUIV EQUIVALENCE

相対リスクに関する同等性の検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「同等性の検定」サブセクションを参照してください。検定方法は METHOD=

Page 135: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 131

relrisk-optionで指定でき、マージンはMARGIN= relrisk-optionで指定できます。デフォルトは、METHOD=WALDおよびMARGIN=(0.8,1.25)です。

MARGIN=value | (lower, upper)

非劣性、優越性、同等性の検定でのマージンを指定します。これらの検定ではそれぞれ、NONINF 、SUP 、および EQUIV relrisk-options を指定することで要求できます。デフォルト値は、非劣性の検定では MARGIN=0.8、優越性の検定では MARGIN=1.25、同等性の検定ではMARGIN=(0.8,1.25)になります。非劣性の検定および優越性の検定では、MARGIN= オプションに単一の value を指定します。value は正の数であることが必要です。非劣性の検定では、value は 1 未満でなければなりません。優越性の検定では、valueは 1より大きい数になります。同等性の検定の場合、単一のMARGIN= valueを指定するか、または lowerおよび upper値の両方を指定できます。すべての valueは正数でなければなりません。単一の valueを指定すると、FREQプロシジャはその valueを下限マージンとして使用し、valueの逆数を上限マージンとして使用します。lower値と upper値の両方を指定する場合、lowerの値は upperの値よりも小さくなければなりません。

METHOD=method

等価性、同等性、非劣性、優越性の検定で使用される方法を指定します。これらの方法はそれぞれ、EQUAL、EQUIV、NONINF、および SUP relrisk-optionsを指定することで要求できます。デフォルトは、METHOD=WALDです。methodsには次のいずれかを指定できます。FM SCORE

相対リスクに関する等価性、同等性、非劣性、優越性の分析で、Farrington-Manning(スコア )検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「Farrington-Manning(スコア )検定」サブセクションを参照してください。

LR LIKELIHOODRATIO

相対リスクに関する等価性、同等性、非劣性、優越性の分析で、尤度比検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「尤度比検定」サブセクションを参照してください。

WALD 相対リスクに関する等価性、同等性、非劣性、優越性の分析で、Wald 検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「Wald検定」サブセクションを参照してください。

WALDMODIFIED 相対リスクに関する等価性、同等性、非劣性、優越性の分析で、Wald modified検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「Wald Modified検定」サブセクションを参照してください。

NONINF NONINFERIORITY

相対リスクに関する非劣性の検定を要求します。詳細は、「相対リスク検定」(189ページ)セクションの「非劣性検定」サブセクションを参照してください。検定方法は METHOD=relrisk-optionで指定でき、マージンはMARGIN= relrisk-optionで指定できます。デフォルトは、METHOD=WALDおよびMARGIN=0.8です。

Page 136: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

132 第 3章 : FREQプロシジャ

PRINTALL ユーザーが relrisk-optionsを指定して検定やその他の信頼限界を要求した場合に、"Odds Ratioand Relative Risks"表を表示します。デフォルトでは、ユーザーが相対リスクに関する検定やその他の信頼限界を要求した場合に、FREQプロシジャはこの表を表示しません。

SUP SUPERIORITY

相対リスクに関する優越性の検定を要求します。詳細は、「相対リスク検定」(189 ページ)セクションの「優越性の検定」サブセクションを参照してください。検定方法は METHOD=relrisk-option で指定でき、マージンは MARGIN= relrisk-option で指定できます。デフォルトは、METHOD=WALDおよびMARGIN=1.25です。

RISKDIFF < (riskdiff-options)> 表に対するリスク (二項比率 )とリスク差を要求します。デフォルトでは、このオプションは、行

1 リスク、行 2 リスク、合計 ( 全体 ) リスク、およびリスク差 ( 行 1 – 行 2) を、漸近標準誤差およびWald信頼限界と一緒に提供し、さらに、行1、行2、および合計(全体)リスクの正確な(Clopper-Pearson)信頼限界も提供します。リスク差の正確な条件なしの信頼限界を要求するには、EXACTステートメントで RISKDIFFオプションを指定します。FREQプロシジャは、これらの結果を、"Risk Estimates"表の列 1および列 2に表示します (これらを表示しないようにするには、NORISKS riskdiff-optionを指定します )。

RISKDIFFオプションの後に riskdiff-optionsをかっこで囲んで指定すると、多元 表の共通リスク差の推定に加えて、検定と、リスク差の信頼限界を追加で要求できます。表 3.19 に、riskdiff-optionsの一覧とその説明をまとめて示します。

CL= riskdiff-optionは、リスク差の信頼限界を要求します。使用可能な信頼限界の種類には、Agresti-Caffo信頼限界、正確な条件なしの信頼限界、Hauck-Anderson信頼限界、Miettinen-Nurminen (スコア )信頼限界、Newcombe信頼限界、Wald信頼限界があります。連続性補正Newcombe信頼限界およびWald信頼限界も使用できます。同一の分析で 1つまたは複数の種類の信頼限界を指定できます。FREQ プロシジャは、"Confidence Limits for the Proportion (Risk) Difference" 表に信頼限界を表示します。

CL=EXACT riskdiff-optionは、正確な条件なしの信頼限界を"Confidence Limits for the Proportion(Risk) Difference" 表に表示します。CL=EXACT を指定する場合は、EXACT ステートメントにRISKDIFFオプションを指定して、正確な信頼限界の計算も要求する必要があります。

EQUAL、EQUIV、NONINF、およびSUP riskdiff-optionsは、それぞれリスク差に関する等価性、同等性、非劣性、優越性の検定を要求します。利用できる検定方法には、Farrington-Manning(スコア )、Hauck-Anderson、Wald があります。Newcombe( ハイブリッドスコア ) 信頼限界は、等価性、同等性、非劣性、優越性の分析で使用できます。

非劣性、優越性、および同等性の分析の一部として、FREQ プロシジャでは、 (Schuirmann 1999)の信頼係数を持つ帰無仮説ベースの同等性の限界を提供します。ALPHA= オプションは信頼水準を決定します。デフォルトは ALPHA=0.05で、これらの分析の 90%の同等性の限界を作成します。詳細は、「非劣性の検定」(177 ページ)および「同等性検定」(169 ページ)のセクションを参照してください。

2 2×

2 2×

100 1 2α–( )× %

Page 137: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 133

riskdiff-optionsには次のオプションを指定できます。CL=type | (types)

リスク差の信頼限界を要求します。types には信頼限界の種類を 1 つまたは複数指定できます。type を 1 つのみ指定する場合、かっこで囲む必要はありません。FREQ プロシジャは、"Confidence Limits for the Proportion (Risk) Difference"表に信頼限界を表示します。ALPHA=オプションは、信頼限界の水準を決定します。デフォルトはALPHA=0.05で、リスク差の 95%の信頼限界を生成します。CL= riskdiff-option は、リスク差検定を要求するかどうかにかかわらず指定できます。CL= で生成される信頼限界は、ユーザーが要求する検定に依存しないため、検定マージンの値(MARGIN= riskdiff-optionで指定可能 )は使用しません。信頼限界のリスク列を制御するには、COLUMN= riskdiff-option を使用します。COLUMN=を指定しない場合、デフォルトで FREQプロシジャは、列 1のリスク差の信頼限界を提供します。typesには次を指定できます。AC AGRESTICAFFO

リスク差の Agresti-Caffo 信頼限界を要求します。詳細は、「リスク差の信頼限界」(172ページ)セクション内のサブセクション "Agresti-Caffo信頼限界 "を参照してください。

表 3.19 RISKDIFF(比率差 )オプション

オプション 説明

COLUMN=1 | 2 リスク列を指定

COMMON 共通リスク差を要求

CORRECT 連続性補正を要求

NORISKS デフォルトのリスク表の表示を抑制

信頼限界を要求

CL=AC Agresti-Caffo信頼限界を要求

CL=EXACT 正確な信頼限界を表示

CL=HA Hauck-Anderson信頼限界を要求

CL=MN | SCORE Miettinen-Nurminen信頼限界を要求

CL=NEWCOMBE Newcombe信頼限界を要求

CL=WALD Wald信頼限界を要求

検定を要求

EQUAL(NULL=) 等価性の検定を要求

EQUIV | EQUIVALENCE 同等性の検定を要求

MARGIN= 検定マージンを指定

METHOD= 検定方式を指定

NONINF | NONINFERIORITY 非劣性の検定を要求

SUP | SUPERIORITY 優越性の検定を要求

VAR=SAMPLE | NULL 検定分散を指定

Page 138: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

134 第 3章 : FREQプロシジャ

EXACT リスク差の正確な条件なしの信頼限界を、"Confidence Limits for the Proportion (Risk)Difference" 表に表示します。EXACT ステートメントで RISKDIFF オプションを指定して、正確な信頼限界の計算を要求する必要もあります。FREQプロシジャは、2つの個々の片側検定 (裾を用いる手法 )を反転して、信頼限界を計算します。デフォルトでは、検定は標準化されていないリスク差に基づきます。EXACTステートメントで RISKDIFF(METHOD=SCORE)オプションを指定すると、検定はスコア統計量に基づくようになります。詳細は、EXACTステートメントの RISKDIFFオプション、および「リスク差の信頼限界」(172 ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。デフォルトで、FREQプロシジャは、これらの正確な信頼限界を "Risk Estimates"表に表示します。この表を表示しないようにするには、NORISKS riskdiff-optionを指定します。

HA リスク差のHauck-Anderson信頼限界を要求します。詳細は、「リスク差の信頼限界」(172ページ)セクション内のサブセクション「Hauck-Anderson信頼限界」を参照してください。

MN < (CORRECT=NO | MEE)> SCORE < (CORRECT=NO | MEE)>

リスク差の Miettinen-Nurminen( スコア ) 信頼限界を要求します。詳細は、「リスク差の信頼限界」(172ページ)セクション内のサブセクション「Miettinen-Nurminen (スコア)信頼限界」を参照してください。デフォルトでは、Miettinen-Nurminen信頼限界にはバイアス補正因子が含められます (Miettinen and Nurminen, 1985; Newcombe andNurminen, 2011)。CL=MN(CORRECT=NO)を指定すると、FREQプロシジャは補正されていない信頼限界を提供します (Mee, 1984)。

NEWCOMBE < (CORRECT)> リスク差のNewcombeハイブリッドスコア信頼限界を要求します。CL=NEWCOMBE(CORRECT) または CORRECT riskdiff-optionを指定すると、Newcombe信頼限界に連続性補正が含められます。詳細は、「リスク差の信頼限界」(172 ページ)セクション内のサブセクション「Newcombe信頼限界」を参照してください。

WALD < (CORRECT)> リスク差の Wald 信頼限界を要求します。CL=WALD(CORRECT) または CORRECTriskdiff-optionを指定すると、Wald信頼限界に連続性補正が含められます。詳細は、「リスク差の信頼限界」(172 ページ)セクション内のサブセクション「Wald 信頼限界」を参照してください。

COLUMN=1 | 2 | BOTH リスク差検定 (EQUAL 、EQUIV 、NONINF 、SUP )およびリスク差の信頼限界 (CL= riskdiff-option を指定して要求 ) を計算するための表の列を指定します。デフォルトは、COLUMN=1です。このオプションは、列 1 と列 2 の両方を作成する、"Risk Estimates" 表には無効です。"RiskEstimates"表を表示しないようにするには、NORISKS riskdiff-optionを指定します。

COMMON 多元 表の共通 (全体 )リスク差の推定値を要求します。FREQプロシジャは、共通リスク差のMantel-Haenszel推定値および要約スコア推定値を、それらの信頼限界とともに生成します。詳細は、共通リスク差のセクションを参照してください。RISKDIFF(CL=NEWCOMBE)オプションを指定すると、FREQプロシジャは共通リスク差のNewcombe信頼限界も提供します。詳細は、共通リスク差のセクションを参照してください。

2 2×

Page 139: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 135

COLUMN= riskdiff-optionを指定しない場合、デフォルトで FREQプロシジャは、列 1の共通リスク差を提供します。COLUMN=2を指定すると、FREQプロシジャは列 2の共通リスク差を提供します。COLUMN=BOTHは共通リスク差には適用されません。

CORRECT Wald信頼限界、Wald検定、Newcombe信頼限界に連続性補正を含めます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。

EQUAL < (NULL=value )> リスク差に関する等価性の検定を要求します。詳細は、等価性の検定のセクションを参照してください。METHOD= riskdiff-option で検定を指定し、NULL= オプションでリスク差の帰無仮説の valueを指定できます。デフォルトは、METHOD=WALDおよびNULL=0です。ヌルのvalueは、–1から 1までの間の比率形式で指定できます。または、ヌルの valueは、–100から100までの間のパーセンテージ形式で指定できます。valueが –100から 100までの間または –1から 1 までの間にある場合、FREQ プロシジャはその数値を比率に変換します。FREQ プロシジャは、–1から 1までの間の値をパーセンテージとして扱います。

EQUIV EQUIVALENCE

リスク差に関する同等性の検定の検定を要求します。詳細は、同等性検定のセクションを参照してください。検定方法は METHOD= riskdiff-option で指定でき、マージンは MARGIN=riskdiff-optionで指定できます。デフォルトは、METHOD=WALDおよびMARGIN=0.2です。

MARGIN=value | (lower, upper) 非劣性、優越性、同等性の検定でのマージンを指定します。これらの検定ではそれぞれ、NONINF 、SUP 、および EQUIV riskdiff-optionsを指定することで要求できます。デフォルトは、MARGIN=0.2です。非劣性の検定および優越性の検定では、MARGIN= オプションに単一の value を指定します。value は正の数であることが必要です。value には 0 から 1 までの数を指定できます。または、value1から 100までのパーセント数を指定すると、FREQプロシジャがそのパーセント数を比率へと変換します。FREQプロシジャは、値 1を 1%として扱います。同等性の検定の場合、単一のMARGIN= valueを指定するか、または lowerおよび upper値の両方を指定できます。単一の valueを指定する場合、前述したように、その値は正の数であることが必要です。同等性の検定に単一の valueを指定すると、FREQプロシジャは、下限マージンとして –value を、上限マージンとして value を検定に使用します。同等性の検定に lowerおよび upper値を指定する場合、–1から 1までの間で比率を指定できます。または、–100から 100の間の数字はパーセントでの指定になり、FREQプロシジャはそのパーセント数を比率へと変換します。lowerの値は upperの値よりも小さくする必要があります。

METHOD=method 等価性、同等性、非劣性、優越性の検定で使用される方法を指定します。これらの方法はそれぞれ、EQUAL、EQUIV、NONINF、および SUP riskdiff-optionsを指定することで要求できます。デフォルトは、METHOD=WALDです。methodsには次を指定できます。FM SCORE

等価性、同等性、非劣性、優越性の分析で、Farrington-Manning(スコア )検定を要求します。詳細は、「非劣性の検定」(177ページ)セクションの「Farrington-Manning (スコア )検定」サブセクションを参照してください。

HA 等価性、同等性、非劣性、優越性の分析で、Hauck-Anderson 検定を要求します。詳細は、

Page 140: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

136 第 3章 : FREQプロシジャ

「非劣性の検定」(177 ページ)セクションの「Hauck-Anderson 検定」サブセクションを参照してください。

NEWCOMBE 同等性、非劣性、優越性の分析の Newcombe( ハイブリッドスコア ) 信頼限界を要求します。CORRECT riskdiff-option を指定すると、Newcombe 信頼限界に連続性補正が含められます。詳細は、「非劣性の検定」(177ページ)セクションの「Newcombe非劣性分析」サブセクションを参照してください。

WALD 等価性、同等性、非劣性、優越性の分析で、Wald 検定を要求します。CORRECTriskdiff-option を指定すると、Wald 検定と信頼限界に連続性補正が含められます。VAR=NULL riskdiff-optionを指定すると、その検定では、標本分散ではなく、(検定に基づく )帰無仮説の分散が使用されます。詳細は、「非劣性の検定」(177ページ)セクションの「Wald検定」サブセクションを参照してください。

NONINF NONINFERIORITY

リスク差に関する非劣性の検定の検定を要求します。詳細は、「非劣性の検定」(177ページ)のセクションを参照してください。検定方法はMETHOD= riskdiff-optionで指定でき、マージンは MARGIN= riskdiff-option で指定できます。デフォルトは、METHOD=WALD およびMARGIN=0.2です。

NORISKS "Risk Estimates"表 (RISKDIFFオプションによりデフォルトで列 1および列 2に関して作成される表 )の表示を抑制します。"Risk Estimates"表には、リスクやリスク差と共に、それらの漸近標準誤差、Wald信頼限界、正確化信頼限界が含められます。

SUP SUPERIORITY

リスク差に関する優越性の検定の検定を要求します。詳細は、「優越性の検定」(179ページ)のセクションを参照してください。検定方法はMETHOD= riskdiff-optionで指定でき、マージンは MARGIN= riskdiff-option で指定できます。デフォルトは、METHOD=WALD およびMARGIN=0.2です。

VAR=NULL | SAMPLE 等価性、同等性、非劣性、優越性のWald検定で使用する分散の種類を指定します。VAR=SAMPLEを指定すると、FREQプロシジャは標本分散を使用します。VAR=NULLを指定すると、FREQプロシジャは、リスク差の帰無仮説の値から計算される検定に基づく分散を使用します。詳細は、「等価性の検定」(166ページ)および「非劣性の検定」(177ページ)のセクションを参照してください。デフォルトは、VAR=SAMPLEです。

SCORES=type FREQプロシジャが次の統計量 (Mantel-Haenszelのカイ 2乗、Pearsonの相関、Cochran-Armitageの傾向検定、重み付きカッパ係数、Cochran-Mantel-Haenszel統計量 )を計算するために使用する行スコアおよび列スコアの種類を指定します。typeの値は次のいずれかになります。

•MODRIDIT

•RANK

•RIDIT

•TABLE

これらのスコアの種類の詳細は、「スコア」(147ページ)のセクションを参照してください。

Page 141: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 137

SCORES=オプションを省略すると、FREQプロシジャはデフォルトで SCORES=TABLEを使用します。文字変数の場合、行および列の TABLE スコアは、行番号および列番号になります。すなわち、TABLEスコアは行 1では 1、行 2では 2、という具合になります。数値変数の場合、テーブルスコアは変数値に等しくなります。詳細は、「スコア」(147 ページ)のセクションを参照してください。MODRIDITスコア、RANKスコア、RIDITスコアを使用すると、ノンパラメトリック分析を実施できます。

行スコアおよび列スコアを表示するには、SCOROUTオプションを使用します。SCOROUT

行スコアおよび列スコアを表示します。これらのスコアは、スコアに基づく検定や統計量を計算する際に FREQ プロシジャにより使用されます。スコアの種類を指定するには、SCORES= オプションを使用します。詳細は、「スコア」(147ページ)のセクションを参照してください。

これらのスコアは、FREQ プロシジャにより二元表の統計量が計算される場合にのみ表示されます。ODSを使用すると、これらのスコアを出力データセットに格納できます。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

SPARSE n 元表 (n > 1) における変数値の考えられるすべての組み合わせを報告します。組み合わせがデータ内に存在しない場合でも報告されます。FORMAT=オプションは、LIST形式で表示されるクロス集計表に対して、および OUT=出力データセットに対してのみ適用されます。LISTオプションや OUT=オプションを使用しない場合、SPARSEオプションは無効です。

SPARSE オプションと LIST オプションを指定すると、FREQ プロシジャは、表にリストされている変数のすべての組み合わせ (度数カウントが0のものを含む )を表示します。デフォルトでは、SPARSEオプションを省略すると、FREQプロシジャは度数がゼロの水準をLIST出力に表示しません。SPARSEと OUT=を使用すると、FREQプロシジャは、空のクロス集計表のセルを出力データセットに含めます。デフォルトでは、FREQプロシジャは、度数がゼロの表セルを出力データセットに含めません。

詳細は、「欠損値」(143ページ)のセクションを参照してください。TOTPCT

n 元表 (n > 2) のクロス集計表における、多元クロス表の合計度数のパーセンテージを表示します。デフォルトでは、FREQプロシジャは、個々の二元表度数のパーセンテージは表示しますが、多元クロス集計表の合計度数のパーセンテージは表示しません。詳細は、「二元表と多元クロス表」(217 ページ)セクションを参照してください。

LIST オプションを指定すると、デフォルトで多元クロス表の合計度数のパーセンテージが表示されます。また、これはOUT=出力データセット内の変数 PERCENTにもデフォルトで含められます。

TREND Cochran-Armitage の傾向検定を要求します。傾向検定を計算する場合、対象となる表は 表か

表でなければなりません。詳細は、「Cochran-Armitageの傾向検定」(192ページ)のセクションを参照してください。傾向検定で正確な p 値を要求する場合、EXACT ステートメントで TRENDオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

2 C×R 2×

Page 142: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

138 第 3章 : FREQプロシジャ

TESTステートメント

TEST test-options;

TESTステートメントは、連関性や一致の統計量に対する漸近検定を要求します。test-optionsは、計算対象となる検定を指定します。表3.20に、利用可能なtest-options を、それらのTABLESステートメントオプションと共に示します。test-optionsの説明はアルファベット順に示されています。

FREQプロシジャは、TESTステートメントで要求された連関性または一致の各統計量に対して、その統計量がゼロに等しいという帰無仮説の下での漸近的な検定を行います。FREQプロシジャは、帰無仮説の下での漸近標準誤差、検定統計量、およびp値を表示します。さらに、FREQプロシジャは、その統計量の信頼限界を計算します。TABLESステートメントのALPHA=オプションは信頼水準を決定します。デフォルトの信頼水準値はALPHA=0.05であり、95パーセントの信頼限界を作成します。詳細は、漸近検定および信頼限界のセクションを参照してください。また、各統計量の詳細については、「連関性の統計量」(153ページ)および「一致の検定と統計量」(194ページ)の各セクションを参照してください。

選択した連関性や一致の統計量の正確検定を要求するには、EXACTステートメントを使用します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

TABLESステートメントのオプションをEXACTステートメントと共に使用TABLESステートメントはTESTステートメントと一緒に使用する必要があります。使用するTABLESステートメントが1つだけの場合、TABLESステートメントやTESTステートメントで同じオプションを指定する必要はありません。TEST ステートメントであるオプションを指定すると、FREQ プロシジャは、TABLESステートメントのオプションを自動的に呼び出します。ただし、1つのTESTステートメントを複数のTABLESステートメントと共に使用する場合、必要な統計量を要求するにはTABLESステートメントでオプションを指定する必要があります。この場合、FREQプロシジャは、ユーザーがTESTステートメントで指定した統計量に関して漸近検定を計算します。

表 3.20 TESTステートメントオプション

test-options 漸近検定 必要となるTABLESステートメントのオプション

AGREE 単純カッパ係数および重み付きカッパ係数

AGREE

GAMMA Gamma ALLまたはMEASURES

KAPPA 単純カッパ係数 AGREE

KENTB | TAUB KendallのTau-b ALLまたはMEASURES

MEASURES ガンマ、KendallのTau-b、StuartのTau-c、Somersの 、Somersの 、Pearson係数およびSpearman係数

ALLまたはMEASURES

PCORR Pearsonの相関係数 ALLまたはMEASURES

PLCORR ポリコリック相関 PLCORR

SCORR Spearmanの相関係数 ALLまたはMEASURES

SMDCR Somersの ALLまたはMEASURES

SMDRC Somersの ALLまたはMEASURES

D C R( )D R C( )

D C R( )

D R C( )

Page 143: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 139

TESTステートメントでは次のtest-optionsを指定できます。AGREE

単純カッパ係数および重み付きカッパ係数の漸近検定を要求します。詳細は、「単純カッパ係数」(196ページ)および「重み付きカッパ係数」(197ページ)のセクションを参照してください。

TABLESステートメントでAGREEオプションを指定すると、カッパ係数の推定値、標準誤差、信頼限界が計算されます。カッパ係数の正確検定を要求するには、EXACTステートメントを使用します。

カッパ係数は、列数が行数に等しい正方形の表に対してのみ定義されます。正方形でない表の場合、カッパ係数は計算されません。 表の場合、重み付きカッパ係数は単純カッパ係数に等しくなるため、FREQプロシジャは単純カッパ係数のみを表示します。

GAMMA ガンマ統計量の漸近検定を要求します。詳細は、「ガンマ」(155ページ)のセクションを参照してください。TABLESステートメントでMEASURESオプションを指定すると、ガンマ統計量とその漸近標準誤差が提供されます。

KAPPA 単純カッパ係数の漸近検定を要求します。詳細は、「単純カッパ係数」(196ページ)のセクションを参照してください。

TABLESステートメントでAGREEオプションを指定すると、カッパ統計量とその標準誤差、およびその信頼限界が計算されます。単純カッパ係数の正確検定を要求するには、EXACTステートメントでKAPPAオプションを指定します。

カッパ係数は、列数が行数に等しい正方形の表に対してのみ定義されます。正方形でない表の場合、FREQプロシジャはカッパ係数を計算しません。

KENTB TAUB

Kendallの Tau-bの漸近検定を要求します。詳細は、「Kendallの Tau-b」(155ページ)のセクションを参照してください。

TABLES ステートメントでMEASURES オプションを指定すると、Kendall の Tau-b とその標準誤差が計算されます。Kendallの Tau-bの正確検定を要求するには、EXACTステートメントで KENTBオプションを指定します。

MEASURES ガンマ、Kendallの Tau-b、Pearsonの相関係数、Somersの 、Somersの 、Spearmanの相関係数、Stuartの Tau-cのような連関性の統計量の漸近検定を要求します。詳細は、「連関性の統計量」(153ページ)を参照してください。

TABLESステートメントでMEASURESオプションを指定すると、連関性の統計量とそれらの漸近標準誤差が提供されます。選択した統計量の正確検定を要求するには、EXACTステートメントを使用します。

STUTC | TAUC Stuartのtau-c ALLまたはMEASURES

WTKAP | WTKAPPA 重み付きカッパ係数 AGREE

表 3.20 TESTステートメントオプション(続き)

test-options 漸近検定 必要となるTABLESステートメントのオプション

2 2×

D C R( ) D R C( )

Page 144: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

140 第 3章 : FREQプロシジャ

PCORR Pearson の相関係数の漸近検定を要求します。詳細は、「Pearson の相関係数」(157 ページ)のセクションを参照してください。

TABLESステートメントでMEASURESオプションを指定すると、Pearson相関とその標準誤差が提供されます。Pearson相関の正確検定を要求するには、EXACTステートメントで PCORRオプションを指定します。

PLCORR ポリコリック相関の Wald 検定および尤度比検定を要求します。詳細は、「Polychoric Correlation」(160ページ)のセクションを参照してください。

TABLES ステートメントで PLCORR オプションを指定すると、ポリコリック相関とその標準誤差が提供されます。

SCORR Spearman の相関係数の漸近検定を要求します。詳細は、Spearman 順位相関係数のセクションを参照してください。

TABLES ステートメントで MEASURES オプションを指定すると、Spearman 相関とその標準誤差が提供されます。Spearman 相関の正確検定を要求するには、EXACT ステートメントで SCORRオプションを指定します。

SMDCR Somersの の漸近検定を要求します。詳細は、「SomersのD」(157ページ)のセクションを参照してください。

TABLESステートメントでMEASURESオプションを指定すると、Somersの とその標準誤差が提供されます。Somers の の正確検定を要求するには、EXACT ステートメントで SMDCRオプションを指定します。

SMDRC Somersの の漸近検定を要求します。詳細は、「SomersのD」(157ページ)のセクションを参照してください。

TABLESステートメントでMEASURESオプションを指定すると、Somersの とその標準誤差が提供されます。Somers の の正確検定を要求するには、EXACT ステートメントで SMDRCオプションを指定します。

STUTC TAUC

Stuartの Tau-cの漸近検定を要求します。詳細は、「Stuartの Tau-c」(156ページ)のセクションを参照してください。

TABLES ステートメントでMEASURES オプションを指定すると、Stuart の Tau-c とその標準誤差が提供されます。Stuartの Tau-cの正確検定を要求するには、EXACTステートメントで STUTCオプションを指定します。

WTKAP WTKAPPA

重み付きカッパ係数の漸近検定を要求します。詳細は、「重み付きカッパ係数」(197 ページ)のセクションを参照してください。

TABLES ステートメントで AGREE オプションを指定すると、重み付きカッパ係数とその標準誤差、および信頼限界が計算されます。重み付きカッパの正確検定を要求するには、EXACTステートメントでWTKAPオプションを指定します。

カッパ係数は、列数が行数に等しい正方形の表に対してのみ定義されます。正方形でない表の場合、FREQプロシジャはカッパ係数を計算しません。 表の場合、重み付きカッパ係数は単純カッパ係数に等しくなるため、FREQプロシジャは単純カッパ係数のみを表示します。

D C R( )

D C R( )D C R( )

D R C( )

D R C( )D R C( )

2 2×

Page 145: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : FREQプロシジャ 141

WEIGHTステートメント

WEIGHT variable < / option > ;

WEIGHTステートメントは、入力データセット内の各オブザベーションに重みを提供する数値変数を指定します。WEIGHTステートメントは、セルカウントデータを入力する場合に最もよく使用されます。詳細は、度数カウントの入力のセクションを参照してください。WEIGHTステートメントを使用する場合、FREQプロシジャは、1つのオブザベーションがn個のオブザベーションを表すものと仮定します。ここで、nはvariableに指定した値です。WEIGHTステートメントのvariable引数(WEIGHT変数)の値は、整数でなくてもかまいません。

WEIGHT変数が欠損値である場合、FREQプロシジャはそのオブザベーションを分析で使用しません。WEIGHT変数の値が0である場合、ZEROSオプションが指定されていない限り、FREQプロシジャはそのオブザベーションを無視します。ZEROSオプションを指定すると、重みが0のオブザベーションが分析に含められます。WEIGHTステートメントを指定しない場合、FREQプロシジャは、各オブザベーションに重み1を割り当てます。WEIGHT変数値の合計は、オブザベーションの総数に相当します。

WEIGHT変数の値が負数である場合、FREQプロシジャは、重み付きの値から計算した度数を表示しますが、パーセンテージや統計量は計算しません。TABLESステートメントのOUT=オプションを使って出力データセットを作成する場合、FREQプロシジャは、PERCENT変数に欠損値を割り当てます。FREQプロシジャは、OUTEXPECTオプションやOUTPCTオプションが提供する変数にも欠損値を割り当てます。WEIGHT変数の値が負数である場合、OUTPUTステートメントを使うことでは出力データセットを作成できません。これは、負の重みが存在すると統計量が計算されないためです。

WEIGHTステートメントでは次のoptionを使用できます。ZEROS

重みが 0のオブザベーションを含めます。デフォルトでは、FREQプロシジャは重みが 0のオブザベーションを無視します。

ZEROSオプションを指定すると、度数表とクロス集計表に、重みがゼロのオブザベーションのみを含む水準が表示されます。ZEROSオプションを指定しない場合、FREQプロシジャは重みがゼロのオブザベーションを処理しないため、重みがゼロのオブザベーションのみを含む水準は表示されません。

ZEROSオプションを指定すると、FREQプロシジャは、一元表でのカイ 2乗検定および二項検定の計算に、重みがゼロの水準を含めます。これにより、重みが正のオブザベーションを含んでいない水準が参照された場合でも、二項検定や二項推定量の計算が可能となります。

二元表の場合、ZEROSオプションを指定すると、重みが正のオブザベーションを含んでいない水準が存在する場合でも、カッパ統計量を計算できるようになります。詳細は、「重みがゼロの行と列を含む表」(199ページ)のセクションを参照してください。

ZEROSオプションを指定したとしても、二元表がゼロ行またはゼロ列を含んでいる場合には、FREQプロシジャは、その表に対する CHISQやMEASURES統計量を計算しません。これは、そのような場合には、これらの統計量のほとんどが未定義となるためです。

デフォルトでは、ZEROSオプションを指定すると、TABLESステートメントの SPARSEオプションが呼び出されます。この結果、重みがゼロの表セルが、LIST 表や OUT= データセットに含められます。重みがゼロの表セルを含めないようにするには、TABLES ステートメントで NOSPARSE オプションを指定します。

Page 146: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

142 第 3章 : FREQプロシジャ

詳細 : FREQプロシジャ

度数カウントの入力

FREQプロシジャは、生データやセルカウントデータを使用して、度数表やクロス集計表を作成します。生データとは、ケースレコードデータとも呼ばれ、1つのサブジェクトや標本メンバにつき1つのレコードとしてデータを報告するものです。セルカウントデータとは、データ値のすべての可能な組み合わせを度数カウントとともに示す表としてデータを報告するものです。この方式によるデータの表示は、印刷結果として頻繁に使用されます。

次のDATAステップステートメントは、生データをSASデータセットに格納します。 data Raw;

input Subject $ R C @@;

datalines;

01 1 1 02 1 1 03 1 1 04 1 1 05 1 1

06 1 2 07 1 2 08 1 2 09 2 1 10 2 1

11 2 1 12 2 1 13 2 2 14 2 2 14 2 2

;

同じデータをセルカウントとして格納するには、次のDATAステップステートメントを使用します。 data CellCounts;

input R C Count @@;

datalines;

1 1 5 1 2 3

2 1 4 2 2 3

;

変数Rには行の値が、変数Cには列の値が含まれます。変数Countには、行と列の各組み合わせのセルカウントが含まれます。

RawデータセットとCellCountsデータセットはどちらも、まったく同じ度数カウント、二元表、および統計量を生成します。CellCountsデータセットを使用する場合、変数Countにすべてのセルカウントを含めるように指定するWEIGHTステートメントを含める必要があります。たとえば、次のFREQステートメントでは、CellCountsデータセットを使用して二元クロス集計表を作成します。

proc freq data=CellCounts;

tables R*C;

weight Count;

run;

出力形式を使用したグループ化

FREQプロシジャは、変数の値を、そのフォーマットされた値に従ってグループ化します。FORMATステートメントを使って変数に出力形式を割り当てると、FREQプロシジャは、変数値をフォーマットした後で、オブザベーションを度数表やクロス集計表へと分割します。

たとえば、変数Xが値1.1、1.4、1.7、2.1、2.3を持つとします。これらの各値は、度数表内の1つの水準として表示されます。各値を1桁に四捨五入する場合、FREQプロシジャのステップ内に次のステートメントを指定します。

format X 1.;

Page 147: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 143

この結果作成される表では、フォーマットされた水準1の度数カウントは2、フォーマットされた水準2の度数カウントは3として表示されます。

FREQプロシジャは、フォーマットされた文字変数を同じ方法で取り扱います。フォーマットされた値を使用すると、オブザベーションを度数表やクロス集計表の各水準へとグループ化できます。FREQプロシジャは、文字出力形式の全体的な値を使用して、オブザベーションを分類します。

また、FORMATステートメントを使用すると、FORMATプロシジャにより作成された出力形式を変数に割り当てることができます。ユーザー定義出力形式は、変数の水準数を決定し、表ラベルを提供します。同じデータを異なる出力形式で使用すると、変数値の異なる分類に基づいて度数カウントや統計量を計算できます。

FORMATプロシジャを使用して、欠損値と非欠損値を1つのカテゴリへと結合するようなユーザー定義出力形式を作成する場合、FREQプロシジャは、そのユーザー定義出力形式でフォーマットされた値のカテゴリ全体を欠損値として扱います。たとえば、あるアンケートでは回答コード1がYes、回答コード2がNo、回答コード8が無回答を表すとします。次のPROC FORMATステートメントは、このようなアンケート用のユーザー定義出力形式を作成します。

proc format;

value Questfmt 1 ='Yes'

2 ='No'

8,. ='Missing';

run;

FORMATステートメントを使ってQuestfmtをある変数に割り当てると、その変数の度数表には、回答コード8の度数カウントが含められなくなります。無回答の度数を表に含めるには、TABLESステートメントでMISSINGオプションまたはMISSPRINTオプションを指定する必要があります。この水準の度数カウントには、値8または欠損値(.)を含むオブザベーションが含められます。

度数表やクロス集計表には、文字変数と数値変数の両方の値が(フォーマットされていない)内部値に基づいて昇順でリスト表示されます。値の表示順を変更するには、ORDER=オプションを使用します。これらの値をフォーマットされた値に基づいて昇順でリスト表示するには、PROC FREQステートメントでORDER=FORMATTEDオプションを使用します。

FORMATステートメントの詳細は、SAS出力形式と入力形式: リファレンスを参照してください。

欠損値

WEIGHT変数が欠損値である場合、FREQプロシジャはそのオブザベーションを分析で使用しません。

FREQプロシジャは、欠損値のBY変数値を、他のBY変数値と同じように取り扱います。欠損値は、独立した1つのBYグループを形成します。

あるオブザベーションがTABLESステートメントで要求された変数に関して欠損値を含んでいる場合、FREQプロシジャは、デフォルトではそのオブザベーションを度数表やクロス集計表に含めません。また、デフォルトでは、FREQプロシジャは、欠損値を含むオブザベーションをパーセンテージや統計量の計算に含めません。同プロシジャは、欠損値を含むオブザベーションの数を各表の次に表示します。

また、FREQプロシジャは、欠損値の数を出力データセット内に報告します。TABLESステートメントのOUT=データセットには、欠損値の度数を含む1つのオブザベーションが含められます。OUTPUTステートメントでNMISSオプションを指定すると、欠損値の度数を含む出力データセット変数が作成されます。

Page 148: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

144 第 3章 : FREQプロシジャ

FREQプロシジャによるTABLES変数の欠損値の処理方法を変更するオプションとしては、次のものがあります。

FREQプロシジャでTABLES変数の欠損値を処理する3通りの方法を次に示します。次のDATAステートメントは、変数Aに欠損値を含むデータセットを作成します。

data one;

input A Freq;

datalines;

1 2

2 2

. 2

;

次のPROC FREQステートメントは、変数Aの一元度数表を作成します。最初の要求では欠損値オプションを指定していません。2番目の要求では、TABLESステートメントのMISSPRINTオプションを指定しています。3番目の要求では、TABLESステートメントのMISSINGオプションを指定しています。

proc freq data=one;

tables A;

weight Freq;

title 'Default';

run;

proc freq data=one;

tables A / missprint;

weight Freq;

title 'MISSPRINT Option';

run;

proc freq data=one;

tables A / missing;

weight Freq;

title 'MISSING Option';

run;

図3.12に、この例で作成される度数表を示します。最初の表は、欠損値の処理に関するFREQプロシジャのデフォルトの振る舞いを示すものです。TABLES変数Aが欠損値であるオブザベーションは、この表には含められず、欠損値の度数がこの表の下に表示されます。2番目の表は、MISSPRINTオプションが指定された場合のものであり、この表には欠損値のあるオブザベーションが表示されていますが、そのオブザベーションの度数は合計度数やパーセンテージの計算には含められません。3番目の表は、MISSINGが指定された場合のものであり、この場合、FREQプロシジャは欠損水準を有効な非欠損水準として扱うことを示しています。この表には欠損水準が表示されており、FREQプロシジャはこの水準を度数やパーセンテージの計算に含めます。

MISSPRINT 欠損値の度数を度数表やクロス集計表に表示します。ただし、パーセンテージや統計量の計算には欠損値の度数を含めません。

MISSING 欠損値を、すべてのTABLES変数の有効な非欠損水準として取り扱います。欠損水準を度数表やクロス集計表に表示し、パーセンテージや統計量の計算にも含めます。

Page 149: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 145

図 3.12 度数表における欠損値Default

The FREQ Procedure

MISSPRINT Option

The FREQ Procedure

MISSING Option

The FREQ Procedure

二元表の変数値の組み合わせが欠損値である場合、FREQプロシジャはその対応する表セルの度数カウントに0を割り当てます。デフォルトでは、FREQプロシジャは、欠損値の組み合わせをLIST表示またはOUT=出力データセットに含めません。欠損値の組み合わせをLIST表示またはOUT=出力データセットに含めるには、TABLESステートメントでSPARSEオプションを指定します。

A Frequency PercentCumulativeFrequency

CumulativePercent

1 2 50.00 2 50.00

2 2 50.00 4 100.00

Frequency Missing = 2

A Frequency PercentCumulativeFrequency

CumulativePercent

. 2 . . .

1 2 50.00 2 50.00

2 2 50.00 4 100.00

Frequency Missing = 2

A Frequency PercentCumulativeFrequency

CumulativePercent

. 2 33.33 2 33.33

1 2 33.33 4 66.67

2 2 33.33 6 100.00

Page 150: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

146 第 3章 : FREQプロシジャ

In-Database計算

サポートされているデータベース管理システム(DBMS)内のテーブルとしてDATA=入力データセットが格納される場合、FREQプロシジャはIn-Database計算を使用して度数表やクロス集計表を作成します。FREQプロシジャは、データベース管理システムとして、Aster、DB2、Greenplum、Hadoop、HAWQ、Impala、Netazza、Oracle、SAP HANA、Teradataをサポートしています。In-Database計算を行うことで、より高速な処理を実現し、データベースとSASソフトウェア間のデータ転送量を削減できます。In-Database計算の詳細については、SAS/ACCESS for Relational Databases: Referenceの"In-DatabaseProcedures"というセクションを参照してください。

FREQプロシジャは、SQLの明示的パススルーを使用することでIn-Database計算を実施します。同プロシジャは、ユーザーがTABLESステートメントで要求した表に基づいてSQLクエリを生成します。データベースは、これらのSQLクエリを実行することで、初期要約テーブルを構築します。続いて、この要約テーブルはFREQプロシジャへと送信されます。同プロシジャは、この要約テーブルを使用することで、残りの分析やタスクを通常通り(すなわち、データベースの外で)実行します。In-Database計算では、ネットワークを介してデータベースとSAS間でデータセット全体をやり取りするのではなく、要約テーブルのみをやり取りします。これにより、要約テーブルの次元数(行と列の数)がデータベーステーブル全体の次元数(個々のオブザベーション数)よりもはるかに小さい場合に処理時間を大幅に削減できます。また、In-Database要約は、効率的な並列処理を使用し、パフォーマンス上の利点も提供します。

In-Database 計算を制御するには、LIBNAME ステートメントまたは OPTIONS ステートメントでSQLGENERATIONオプションを使用します。In-Database計算に影響するSQLGENERATIONオプションおよびその他のオプションの詳細については、SAS/ACCESS for Relational Databases: Referenceの"In-Database Procedures"というセクションを参照してください。デフォルトでは、FREQプロシジャは可能な限りIn-database計算を使用します。FREQプロシジャには、In-Database計算を制御するオプションはありません。

FREQプロシジャはフォーマットされた値を使用して、度数表やクロス集計表の各水準へとオブザベーションをグループ化します。詳細は、「出力形式を使用したグループ化」(142ページ)のセクションを参照してください。出力形式がデータベース内で利用可能な場合、In-Database要約ではその出力形式を使用します。出力形式がデータベース内で利用できない場合、In-Database要約は生データを使用し、FREQプロシジャが最終的にフォーマットされた分類を(データベース外で)実施します。詳細については、SAS/ACCESS forRelational Databases: Referenceの"Deploying and Using SAS Formats in Teradata"というセクションを参照してください。

オブザベーションの順番は、DBMSテーブルでは本質的に定義されません。次に示すオプションはオブザベーションの順番に関連するものであるため、In-Database計算を行うFREQプロシジャでは指定できません。

• FIRSTOBS=または OBS=データセットオプションを指定すると、FREQプロシジャは In-Database計算を実行しません。

• BYステートメントでNOTSORTEDオプションを指定すると、FREQプロシジャの In-Database計算は同オプションを無視し、BY変数に関してデフォルトの昇順を使用します。

• DBMSテーブルの入力データに対してORDER=DATAオプションを指定すると、FREQプロシジャは、同じ分析の個々の実行で異なる結果を生成する場合があります。クロス集計表の表示で変数の順番を決定することに加えて、ORDER=オプションを使うと、FREQが計算する多くの検定統計量や指標の値に対して影響を与えることもできます。

Page 151: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 147

統計量の計算

定義と表記

二元表は、行変数 X と列変数 Y からなるクロス集計表を表します。この表の行の値または水準を ,で表し、列の値を , で表します。 は、i番目の行とj番目の列にある表セルの度

数を表すものであり、次の表記を定義します。

スコアFREQ プロシジャは変数値のスコアを使用して、Mantel-Haenszel のカイ 2 乗、Pearson の相関、Cochran-Armitageの傾向検定、重み付きカッパ係数、Cochran-Mantel-Haenszel統計量を計算します。TABLESステートメントのSCORES=オプションは、FREQプロシジャが使用するスコアの種類を指定します。利用可能なスコアの種類は、TABLE、RANK、RIDIT、MODRIDITです。デフォルトのスコアの種類はTABLEです。MODRIDITスコア、RANKスコア、RIDITスコアを使用すると、ノンパラメトリック分析を実施できます。

数値変数の場合、表スコアは、行および列水準の値となります。行変数および列変数がフォーマットされている場合、表スコアは、その水準に対応する内部数値となります。2つ以上の数値を同じフォーマットされた水準に分類する場合、その水準に対応する内部数値は、それらの数値の中の最小値となります。文字変数の場合、表スコアは行番号と列番号として定義されます(すなわち、最初の行は1、2番目の行は2、という具合になります)。

Xii 1 2 … R, , ,= Yj j 1 2 … C, , ,= nij

Page 152: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

148 第 3章 : FREQプロシジャ

SCORES=RANKオプションで要求されるランクスコアは、次のように定義されます。

ここで、 は行iのランクスコア、 は列jのランクスコアです。ランクスコアは、タイ値に関しては中間のランクを生成します。

SCORES=RIDITオプションで要求されるリジッドスコアは、標本サイズで標準化されたランクスコアとして定義されます(Bross, 1958; Mack and Skillings 1980)。リジッドスコアは、次の式により、ランクスコアから導かれます。

修正済みリジッドスコア(SCORES=MODRIDITにより要求される)は、区間(0,1)における一様分布の順序統計量の期待値を表します(van Elteren 1960; Lehmann and D’Abrera 2006)。修正済みリジッドスコアは、次の式により、ランクスコアから導かれます。

カイ 2乗検定と統計量

CHISQオプションは、等質性または独立性に対する各種のカイ2乗検定を実施し、特定のカイ2乗統計量に基づく連関性の統計量を計算します。TABLESステートメントでCHISQオプションを指定すると、FREQは、各二元表に関して各種のカイ2乗検定(Pearsonカイ2乗検定、尤度比カイ2乗検定、Mantel-Haenszelのカイ2乗検定)を計算します。FREQプロシジャは、Pearsonカイ2乗統計量に基づく連関性の統計量として、ファイ係数、一致係数、およびCramerのVを計算します。 テーブルの場合、CHISQオプションを使用することで、Fisherの正確検定および連続性補正カイ2乗統計量を要求できます。一般的な 表のFisherの正確検定を要求するには、TABLESステートメントまたはEXACTステートメントでFISHERオプションを指定します。

一元表の場合にCHISQオプションを指定すると、FREQプロシジャは、Pearsonカイ2乗適合度検定を実施します。一元表の場合にCHISQ(LRCHI)オプションを指定すると、FREQプロシジャは、一元尤度比カイ2乗検定も実施します。CHISQオプションが生成するその他の検定や統計量は、二元表の場合にのみ利用可能となります。

二元表の場合、カイ2乗検定の帰無仮説は、行変数と列変数間に連関性がないこととなります。標本サイズnが大きい場合、検定統計量は、帰無仮説の下では漸近カイ2乗分布に従います。標本サイズが大きくない場合や、データセットが疎であるかまたは片寄った分布である場合、漸近検定よりも正確検定の方がより適していることがあります。FREQプロシジャは、Fisherの正確検定に加えて、Pearsonカイ2乗、尤度比カイ2乗、Mantel-Haenszelのカイ2乗の各検定の正確なp値を計算します。一元表の場合、FREQプロシジャは、Pearsonカイ2乗適合度検定および尤度比カイ2乗適合度検定の正確なp値を計算します。これらの正確検定を要求するには、EXACTステートメントで対応するオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Ri1

C1j

2 2×R C×

Page 153: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 149

Mantel-Haenszelのカイ2乗統計量は、両変数が順序尺度である場合にのみ適用できます。本セクションで説明するその他のカイ2乗検定および統計量は、変数が名義尺度であれ順序尺度であれ適用できます。これ以降の各セクションでは、FREQがカイ2乗検定および統計量の計算に使用する各種の公式を示します。これらの統計量に関する詳細は、Agresti (2007)、Stokes, Davis, and Koch (2012)、およびその他の参考文献を参照してください。

一元表に対するカイ2乗検定一元度数表の場合、TABLESステートメントでCHISQオプションを指定すると、カイ2乗適合度検定が行われます。Cは、一元表内のクラス数または水準数を表すものとします。 は、クラスiの度数(またはクラスi内にあるオブザベーションの数)を表すものとします。ここで、 です。FREQプロシジャは、一元表に対するカイ2乗統計量を次の式により計算します。

ここで、 は、帰無仮説の下でのクラスiの期待度数です。

CHISQオプションのデフォルトである等比率に対する検定では、帰無仮説は、合計標本サイズに対する各クラスの比率が等しいとします。この帰無仮説の下では、各クラスの期待度数は、合計標本サイズをクラス数で割った値に等しくなります。

FREQプロシジャで指定された度数の検定を計算する場合、TESTF=オプションを使用して帰無仮説の度数を入力すると、期待度数はTESTF=に指定された値になります。FREQプロシジャで指定された寄与率の検定を計算する場合、TESTP=オプションを使用して帰無仮説の寄与率を入力すると、期待度数はTESTP=に指定された寄与率 に基づいて、次の式により決定されます。

この帰無仮説(等しい寄与率、指定された度数、指定された寄与率を持つ)の下では、 は自由度C–1の漸近カイ2乗分布に従います。

漸近検定に加えて、EXACTステートメントでCHISQオプションを指定すると、一元表に対する正確なカイ2乗検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください

二元表に対するPearsonカイ2乗検定二元表に対するPearsonカイ2乗検定では、観測度数と期待度数間の差異を取り扱います。ここで、期待度数は、独立帰無仮説に基づいて計算されます。Pearsonカイ2乗統計量は次のように計算されます。

ここで、 はテーブルセル(i, j)の測定度数、 はテーブルセル(i, j)の期待度数です。期待度数は、行変数と列変数が独立であるという帰無仮説に基づいて計算されます。

行変数と列変数が独立である場合、 は自由度が(R–1)(C–1)の漸近カイ2乗分布に従います。 の値が大きい場合、この検定では帰無仮説ではなく、一般連関性の対立仮説を使用することを推奨します。

fii 1 2 … C, , ,=

ei

pi

Qp

nij eij

Qp Qp

Page 154: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

150 第 3章 : FREQプロシジャ

漸近検定に加えて、EXACTステートメントでPCHIオプションまたはCHISQオプションを指定すると、正確なPearsonカイ2乗検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

表の場合、Pearsonカイ2乗を適用することで、2つの二項比率が等しいかどうかも検定できます。表や 表の場合、Pearsonカイ2乗は寄与率の等質性を検定します。詳細は、Fienberg (1980)を参

照してください。

標準化残差一元表や多元クロス表向けのTABLESステートメントでCROSSLIST(STDRES)オプションを指定すると、FREQプロシジャはCROSSLIST表に標準化残差を表示します。

クロス集計表セルの標準化残差は、(度数 – 期待)の標準誤差に対する比率になります。ここで、度数とは表セルの度数であり、期待とは期待されるセル度数の推定値です。期待度数は、行変数と列変数が独立であるという帰無仮説に基づいて計算されます。詳細は、「二元表に対するPearsonカイ2乗検定」(149ページ)のセクションを参照してください。

FREQプロシジャは、表セル(i, j)の標準化残差を次の式により計算します。

ここで、 は表セル(i, j)の測定度数、 は同表セルの期待度数、 .は行i ( ./ )における寄与率、 は列j(n.j/ )における寄与率です。表セル(i, j)の期待度数は次の式で計算されます。

独立性の帰無仮説の下では、各標準化残差は漸近標準正規分布に従います。詳細については、Agresti(2007)のセクション2.4.5 を参照してください。

一元表に対する尤度比カイ2乗検定一元度数表の場合、TABLESステートメントでCHISQ(LRCHI)オプションを指定すると、尤度比カイ2乗適合度検定が行われます。デフォルトでは、この尤度比検定は、一元表のCクラス(水準)において等しい寄与率を持つという帰無仮説に基づきます。CHISQ(TESTP=)またはCHISQ(TESTF=)オプションを使用して、帰無仮説の寄与率または度数を指定した場合、この尤度比検定は、指定した帰無仮説の値に基づきます。

FREQプロシジャは、一元尤度比検定を次のように計算します。

ここで、 は帰無仮説の下でのクラスiの測定度数、 は帰無仮説の下でのクラスiの期待度数です。

等しい寄与率を持つという帰無仮説の下では、各クラスの期待度数は、合計標本サイズをクラス数で割った値に等しくなります。

TABLESステートメントでCHISQ(TESTF=)オプションを指定することにより帰無仮説を設定した場合、期待度数は指定したTESTF=値になります。TABLESステートメントでCHISQ(TESTP=)オプションを指定することにより帰無仮説を設定した場合、FREQプロシジャは期待度数を次のように計算します。

2 2×R 2× 2 C×

nij eij pj ni n P j⋅n

fi ei

Page 155: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 151

ここで、寄与率 は、指定したTESTP=値です。

この帰無仮説(等しい寄与率、指定された度数、指定された寄与率を持つ)の下では、尤度比統計量 は、自由度C–1の漸近カイ2乗分布に従います。

漸近検定に加えて、EXACTステートメントでLRCHIオプションを指定すると、一元表に対する正確な尤度比カイ2乗検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

尤度比カイ2乗検定尤度比カイ2乗検定では、観測度数と期待度数間の比を取り扱います。尤度比カイ2乗統計量は次のように計算されます。

ここで、 はテーブルセル(i, j)の測定度数、 はテーブルセル(i, j)の期待度数です。

行変数と列変数が独立である場合、 は自由度が(R–1)(C–1)の漸近カイ2乗分布に従います。

漸近検定に加えて、EXACTステートメントでLRCHIオプションまたはCHISQオプションを指定すると、正確な尤度比カイ2乗検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

連続性補正カイ2乗検定表に対する連続性補正カイ2乗検定は、Pearsonカイ2乗検定と同じになりますが、カイ2乗分布の連続

性が補正される点が異なります。連続性補正カイ2乗検定は、標本サイズが小さい場合に役立ちます。連続性補正の使用に関しては議論が分かれることがありますが、標本サイズが小さい場合には、連続性補正カイ2乗検定がより保守的となります(すなわち、よりFisherの正確検定に近づきます)。標本サイズが大きくなると、連続性補正カイ2乗検定は、Pearsonカイ2乗検定により近づきます。

連続性補正カイ2乗統計量は次のように計算されます。

独立性の帰無仮説の下では、 は自由度が(R–1)(C–1)の漸近カイ2乗分布に従います。

Mantel-Haenszelカイ2乗検定Mantel-Haenszelカイ2乗統計量は、行変数と列変数間に線形連関性が存在するという対立仮説を検定します。両変数は順序尺度でなければなりません。Mantel-Haenszelカイ2乗統計量は次のように計算されます。

ここで、rは行変数と列変数間のPearson相関です。Pearson相関の詳細は、「Pearsonの相関係数」(157ページ)を参照してください。Pearsonの相関統計量およびMantel-Haenszelカイ2乗統計量は、TABLESステートメントのSCORES=オプションに指定されたスコアを使用します。詳細は、Mantel and Haenszel(1959)およびLandis, Heyman, and Koch (1978)を参照してください。

連関性がないという帰無仮説の下では、 は自由度が1の漸近カイ2乗分布に従います。

pi

G2

nij eij

G2

2 2×

QC

QMH

Page 156: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

152 第 3章 : FREQプロシジャ

漸近検定に加えて、EXACTステートメントでMHCHIオプションまたはCHISQオプションを指定すると、正確なMantel-Haenszelカイ2乗検定を要求できます。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Fisherの正確検定Fisherの正確検定は、行変数と列変数間の連関性を検定する方法の1つです。この検定では、行と列の合計が固定されていると仮定した上で、超幾何分布を使用して観測された行および列合計の条件に応じて可能な表の確率を計算します。Fisherの正確検定は、いかなる標本サイズの大きな分布の仮定にも依存しないため、標本サイズの小さな分布や疎な分布に対しても適用できます。

表 表の場合、FREQプロシジャはFisherの正確検定に関する情報として、表確率、両側p値、左側p値、右側p値を提供します。表確率は、観測された表の超幾何確率に等しくなります。これは、実際にはFisherの正確検定の検定統計量の値になります。

ここで、pは、 観測された行および列の合計を含む特定の表の超幾何確率です。Fisherの正確なp値は、定義された表の集合に関して確率pを合計することにより計算されます。

両側p値は、観測された表確率以下のすべての可能な表の確率の合計(観測された行および列合計の条件に基づくもの)になります。両側p値の場合、集合Aには、観測された表の確率以下の超幾何確率を持つすべての可能な表が含まれます。小さな両側p値は、行変数と列変数間に連関性があるという対立仮説を支持します。

表の場合、Fisherの正確検定の片側p値は、表の最初の行と最初の列にあるセル(1,1)の度数として定義されます。観測された(1,1)セルの度数を で表すと、Fisherの正確検定の左側p値は、(1,1)セルの度数が以下である確率になります。左側p値の場合、集合Aには、(1,1)セルの度数が 以下である表が含まれ

ます。小さな左側p値は、オブザベーションが最初のセルに存在する確率が、行変数と列変数が独立であるという帰無仮説の下で期待される確率よりも低いという対立仮説を支持します。

同様に、右側対立仮説では、Aは、セル(1,1)の度数が観測された同セルの度数以上である表の集合になります。小さい両側p値は、最初のセルの確率が帰無仮説の下での期待確率よりも実際には大きいという対立仮説を支持します。

周辺行および列の合計が固定されている場合、(1,1)セルの度数が完全に 表を決定するため、他のセルの確率やセル確率の比に関して、これらの片側対立仮説を等しく主張できます。左側対立仮説は、1未満のオッズ比に等しくなります。ここで、オッズ比は( )です。左側対立仮説は、行1の列1リスクが行2の列1リスクよりも小さいこと に等しくなります。同様に、右側対立仮説は、行1の列1リスクが行2の列1リスクよりも大きいこと に等しくなります。詳細は、Agresti (2007)を参照してください。

R C表 Fisherの正確検定は、Freeman and Halton (1951)により一般的な 表へと拡張されました。この検定はFreeman-Halton検定とも呼ばれます。 表の場合、両側p値の定義は 表と同じになります。集合Aには、観測された表の確率以下のpを持つすべての表が含まれます。小さなp値は、行変数と列変数間に連関性があるという対立仮説を支持します。 表の場合、Fisherの正確検定は本質的に両側検定となります。対立仮説は、線形連関性としてではなく、一般的な連関性としてのみ定義されます。このため、Fisherの正確検定は、一般的な 表に関しては右側または左側p値を持ちません。

表の場合、FREQプロシジャは、Mehta and Patel (1983)のネットワークアルゴリズムを使用してFisherの正確検定を計算します。同アルゴリズムは、すべての組み合わせを列挙していく方法よりも高速で効率の良い解を提供します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

2 2× 2 2×

2 2×n11

n11 n11

2 2×

n11n22 n12⁄ n21p1 1 p1 2<p1 1 p1 2>

× R C×R C× 2 2×

R C×

R C×

R C×

Page 157: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 153

ファイ係数ファイ係数は、Pearsonカイ2乗統計量から導かれる連関性の統計量です。ファイ係数の範囲は、 表の場合、 になります。 より大きい表の場合、ファイ係数の範囲は になります(Liebetrau 1983)。ファイ係数は次のように計算されます。

詳細は、Fleiss, Levin, and Paik (2003, pp. 98–99)を参照してください。

一致係数一致係数は、Pearson カイ 2 乗統計量から導かれる連関性の統計量です。一致係数の範囲は、

になります。ここで、 です(Liebetrau 1983)。一致係数は次のように計算されます。

詳細は、Kendall and Stuart (1979, pp. 587–588)を参照してください。

CramérのVCramérのVは、Pearsonカイ2乗統計量から導かれる連関性の統計量です。これは到達可能上限が常に1となるように作られています。CramérのVの範囲は、 表の場合、 になります。 よりも大きい表の場合、範囲は になります。CramérのVは次のように計算されます。

詳細は、Kendall and Stuart (1979, p. 588)を参照してください。

連関性の統計量

TABLESステートメントでMEASURESオプションを指定すると、FREQプロシジャは、分割表の行変数と列変数の間の連関性を示す複数の統計量を計算します。行変数Xが増加するにつれ列変数Yが増加する傾向にあるかどうかを検討する順序連関性の統計量としては、ガンマ、KendallのTau-b、StuartのTau-c、SomersのDがあります。これらの統計量は順序変数に適しており、これらの統計量によりオブザベーションのペアを一致または不一致として分類できます。オブザベーションでXの値が大きいほどYの値も大きくなる場合、そのペアは一致となります。オブザベーションでXの値が大きいほどYの値が小さくなる場合、そのペアは不一致となります。詳細は、Agresti (2007)および各連関性の統計量の説明で示されている参考文献を参照してください。

Pearsonの相関係数とSpearmanの順位相関係数も、順序変数に適しています。Pearsonの相関は、行変数と列変数間の線形連関性の強度を示するものであり、TABLESステートメントのSCORES=で指定された行変数と列変数を使用して計算されます。Spearmanの相関は、ランクスコアを使用して計算されます。ポリコリック相関(PLCORRオプションにより要求される)も順序変数を必要とし、変数が2変量正規分布に従う

2 2×2 2× 2 2× 0 ∅ min R 1– C 1–( , )≤ ≤

0 P m 1–( ) m⁄≤ ≤ m min R C( , )=

1– V 1≤ ≤ 2 2× 2 2×1 V 1≤ ≤

Page 158: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

154 第 3章 : FREQプロシジャ

ことを仮定します。連関性の統計量のうち、非対象ラムダ、対称ラムダ、不確定性係数は順序変数を必要としないため、名義変数に適しています。

FREQプロシジャは、これ以降の各セクションで示す公式に従って統計量の推定値を計算します。各統計量に関して、FREQプロシジャは、漸近標準誤差(ASE)を計算します。これは、以降のセクションではVarで表される漸近分散の平方根になります。

信頼限界TABLESステートメントでCLオプションを指定すると、FREQプロシジャは、すべてのMEASURES統計量の漸近信頼限界を計算します。信頼限界はALPHA=オプションの値に従って決定されます。この値はデフォルトで0.05であり、信頼限界は95%になります。

信頼限界は次のように計算されます。

ここで、 Estは統計量の推定値、 は標準正規分布の 番目のパーセント点、ASE は推定値の漸近標準誤差です。

漸近検定TESTステートメントで統計量を指定すると、FREQプロシジャは、その統計量が0であるという帰無仮説の漸近的な検定を計算します。漸近検定は、ガンマ、KendallのTau-b、StuartのTau-c、Somersの 、Somersの Pearsonの相関係数、Spearmanの順位相関係数のような連関性の統計量に関して利用できます。漸近検定を計算する場合、FREQプロシジャは、標準化された検定統計量zを使用します。この統計量は、重み付きカッパ係数がゼロであるという帰無仮説の下で漸近標準正規分布に従います。検定統計量は次のように計算されます。

ここで、Estは統計量の推定値、 は帰無仮説の下での推定値の分散です。個々の連関性の統計量を計算する 公式は、各統計量について説明したセクションで示します。

次に示す統計量では、 に対する比が同じになります。これには、ガンマ、KendallのTau-b、StuartのTau-c、Somersの 、Somersの が含まれます。このため、これらの統計量の検定は同じになります。たとえば、 : の検定のp値は、 : の検定のp値に等しくなります。

FREQプロシジャは、これらの各検定の片側および両側のp値を計算します。検定統計量zがその帰無仮説の期待値0よりも大きい場合、FREQプロシジャは右側p値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側p値は、統計量の真の値が0より大きいという対立仮説を支持します。この検定統計量が0以下である場合、FREQプロシジャは、左側p値を表示します。これは、帰無仮説の下で統計量の小さな値が発生する確率になります。小さな左側p測定値の真の値が0より小さいという対立仮説を支持します。片側のp値 は、次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値 は次のように計算されます。

zα 2⁄ 100 1 α– 2⁄( )

D C R( )D R C( )

Var0 Est( )Var0 Est( )

Var0 Est( )D C R( ) D R C( )H0 gamma 0= H0 tau b 0=–

P1

P2

Page 159: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 155

正確検定漸近検定は、KendallのTau-b、Stuart のTau-c、Somers の および 、Pearson の相関係数、Spearmanの順位相関係数のような連関性の統計量に関して利用できます。EXACTステートメントで連関性の統計量の正確検定を要求すると、FREQプロシジャは、統計量が0であるという仮説の正確検定を計算します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

ガンマガンマ( )統計量は、2つのオブザベーション間の一致および不一致の数にのみ基づきます。これは、タイのペア(すなわち、X値が等しいか、またはYの値が等しいオブザベーションのペア)を無視します。ガンマは、両変数が順序尺度である場合にのみ適用できます。ガンマの範囲は、 になります。行変数と列変数が独立である場合、ガンマは0に近づく傾向があります。ガンマは次のように計算されます。

漸近分散は次のように計算されます。

表の場合、ガンマはYuleのQに等しくなります。詳細は、Goodman and Kruskal (1979)およびAgresti (2002)を参照してください。

ガンマが0に等しい帰無仮説の下での分散は次のように計算されます。

詳細は、Brown and Benedetti (1977)を参照してください。

KendallのTau-bKendallのTau-b ( )はガンマに似ていますが、Tau-bはタイの修正を使用する点が異なります。Tau-bは、両変数が順序尺度である場合にのみ適用できます。Tau-bの範囲は になります。KendallのTau-bは次のように計算されます。

漸近分散は次のように計算されます。

ここで、

D C R( ) R C( )

Γ

1– Γ 1≤ ≤

2 2×

τb1– τb 1≤ ≤

Page 160: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

156 第 3章 : FREQプロシジャ

詳細は、Kendall (1955)を参照してください。

Tau-bが0に等しい帰無仮説の下での分散は次のように計算されます。

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、KendallのTau-bの正確検定も提供しています。この検定を要求するには、EXACTステートメントでKENTBオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

StuartのTau-cStuartのTau-c ( )は、タイの修正に加えて、表サイズを調整します。Tau-cは、両変数が順序尺度である場合にのみ適用できます。Tau-cの範囲は になります。StuartのTau-cは次のように計算されます。

漸近分散は次のように計算されます。

ここで、 および です。Tau-cが0に等しい帰無仮説の下での分散は、漸近分散と同じになります。

詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Stuartのtau-cの正確検定も提供しています。この検定を要求するには、EXACTステートメントでSTUTCオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

τc1– τc 1≤ ≤

m min R C( , )= dij Aij Dij–=

Page 161: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 157

SomersのDSomersの およびSomersの は、Tau-bの非対称的な変形です。 は、行変数Xを独立変数として、列変数Yを従属変数として見なすことを意味します。同様に、 は列変数Yを独立変数として、行変数Xを従属変数として見なすことを意味します。SomersのDがTau-bと異なる点は、前者は独立変数に関してタイであるペアに対してのみ修正を適用することにあります。SomersのDは、両変数が順序尺度である場合にのみ適用できます。SomersのDの範囲は、 になります。Somersの は、次のように計算されます。

その漸近分散は次のように計算されます。

ここで、 であり、次の式が成り立ちます。

詳細は、Somers (1962)、Goodman and Kruskal (1979)、Liebetrau (1983)を参照してください。

が0に等しい帰無仮説の下での分散は、次のように計算されます。

詳細は、Brown and Benedetti (1977)を参照してください。

Somersの の公式は、添え字を交換することにより導びかれます。

FREQプロシジャは、Somersの およびSomersの の正確検定も提供しています。これらの正確検定を要求するには、EXACTステートメントでそれぞれSMDCRオプションおよびSMDCRオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Pearsonの相関係数Pearsonの相関係数( )は、SCORES=オプションに指定されたスコアを使用して計算されます。この統計量は、両変数が順序尺度である場合にのみ適用できます。Pearsonの相関係数の範囲は になります。Pearsonの相関係数は次のように計算されます。

その漸近分散は次のように計算されます。

ここで、 および はそれぞれ行スコアおよび列スコアであり、次の式が成り立ちます。

D C R( ) D R C( ) C R( )R C( )

1– D 1≤ ≤ D C R( )

dij Aij Dij–=

D C R( )

D R C( )

D C R( ) R C( )

ρ1– ρ 1≤ ≤

Ri Cj

Page 162: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

158 第 3章 : FREQプロシジャ

詳細は、Snedecor and Cochran (1989)を参照してください。

TABLESステートメントのSCORES=オプションは、Pearson相関係数(およびその他のスコアに基づく統計量)の計算に使用される行スコアおよび列スコアの種類を指定します。デフォルトはSCORES=TABLEです。使用可能なスコアの種類とそれらの計算方法についての詳細は、「スコア」(147ページ)のセクションを参照してください。

相関が0に等しい帰無仮説の下での分散は次のように計算されます。

この分散式は、分割表のフレームワークにおける多項標本抽出で導びかれるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti(1977)を参照してください。

FREQプロシジャは、Pearsonの相関係数の正確検定も提供しています。この検定を要求するには、EXACTステートメントでPCORRオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Spearmanの順位相関係数Spearmanの相関係数( )を計算するには、「スコア」(147ページ)のセクションで定義されているランクスコアを使用します。この統計量は、両変数が順序尺度である場合にのみ適用できます。Spearmanの相関係数の範囲は、 になります。Spearmanの相関係数は、次のように計算されます。

その漸近分散は次のように計算されます。

ここで、 および はそれぞれ行および列のランクスコアであり、次の式が成り立ちます。

ρs

1– ρs 1≤ ≤

R1i C

1j

Page 163: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 159

詳細は、Snedecor and Cochran (1989)を参照してください。

相関が0に等しい帰無仮説の下での分散は次のように計算されます。

ここで、

この分散式は、分割表のフレームワークにおける多項標本抽出で導びかれるものであり、両変数が連続でありかつ正規分布に従うという仮定の下で導かれる形式とは異なっています。詳細は、Brown and Benedetti (1977)を参照してください。

FREQプロシジャは、Spearmanの相関係数の正確検定も提供しています。この検定を要求するには、EXACTステートメントでSCORRオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Page 164: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

160 第 3章 : FREQプロシジャ

Polychoric CorrelationTABLESステートメントでPLCORRオプションを指定すると、FREQプロシジャはポリコリック相関と、その標準誤差を計算します。ポリコリック相関は、度数表の2つの順序カテゴリ変数が2変量正規分布に従うという仮定に基づいています。ポリコリック相関は、正規変数間における積率相関の最尤推定値です。ポリコリック相関の範囲は–1から1までです。 表の場合、ポリコリック相関はテトラコリック相関とも呼ばれます(表示出力のラベルにはそのように名前が付けられます)。ポリコリック相関係数の概要については、Drasgow (1986)を参照してください。

Olsson (1979)は、ポリコリック相関の推定の尤度方程式と漸近標準誤差を提唱しています。連続変数は、各カテゴリ(表)の水準に対応する数値の範囲を定義するしきい値を介して、観測クロス集計表に関連します。FREQプロシジャは、Olssonの最尤法を使用して、ポリコリック相関としきい値を同時に推定します(Olssonは、最初にしきい値を推定する2段階の方法も提唱しています)。

FREQプロシジャは、Newton-Raphsonアルゴリズムを使用することにより、尤度方程式を繰り返し解きます。しきい値の最初の推定値は、表の累積周辺比率における正規分布関数の逆から計算されます。ポリコリック相関の反復計算は、収束測定値が収束基準を下回った場合、または最大反復数に達した場合に停止します。パラメータ値が0.01未満の場合、相対的差異ではなく絶対的差異を使用して収束が推定されます。PLCORR(CONVERGE=)オプションは、収束基準を指定します(デフォルト値は0.0001です)。PLCORR(MAXITER=)オプションは、最大反復回数を指定します(デフォルト値は0.0001です)。

TABLESステートメントでCLオプションを指定すると、FREQプロシジャはポリコリック相関の信頼限界を計算します。信頼限界は次のように計算されます。

ここで、 はポリコリック相関の推定値、 は標準正規分布の 番目のパーセント点、 はポリコリック相関推定値の標準誤差です。

TESTステートメントでPLCORRオプションを指定すると、FREQプロシジャは、ポリコリック相関が0であるという帰無仮説の下でのWald検定および尤度比検定を計算します。Wald検定統計量は次のように計算されます。

これは、帰無仮説の下で標準正規分布に従います。FREQプロシジャは、傾向検定の片側および両側のp値を計算します。検定統計量zが帰無仮説の期待値であるゼロよりも大きい場合、FREQプロシジャは、右側p値を表示します。この検定統計量がゼロ以下である場合、FREQプロシジャは、左側p値を計算します。

ポリコリック相関の尤度比統計量は次のように計算されます。

ここで、 は、ポリコリック相関が0である場合の尤度比関数(Olsson 1979)です。 は、すべてのパラメータを最尤推定値で置き換えた場合の尤度比関数の値です。帰無仮説の下で、尤度比統計量は自由度が1の漸近カイ2乗分布に従います。

2 2×

ρ zα 2⁄ 100 1 α– 2⁄( ) SE ρ( )

L0 L1

Page 165: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 161

ラムダ(非対称)非対称ラムダ は、行変数Xに関する知識を与えられた場合の列変数Yの予測における推定的な改善として解釈されます。非対称ラムダの範囲は、 になります。非対称ラムダ は、次のように計算されます。

その漸近分散は次のように計算されます。

ここで、

およびlの値は、次のように決定されます。 によりjの重複しない値( など)を表し、lをjの重複しない値( など)とします。一意性仮説により、度数または周辺合計のタイを、任意の一貫した方式で分割する必要があります。タイの場合、lはjの最小値として定義されます( など)。

セル(i, j)を含んでいるこれらの列で である場合、 は が起こると仮定される行を記録します。最初に、 はすべてのjで-1に設定されます。i=1で始まり、 となるような値j が少なくとも1つ存在し、かつ であるならば、 はそのような値jの最小値として定義され、 はiに等しくなるように設定されます。それ以外の場合、 であるならば、 はlに等しくなるように設定されます。どちらの条件も真でない場合、 は、 のような値jの最小値となります。

非対称ラムダ の公式は、添え字を交換することにより導びかれます。

詳細は、Goodman and Kruskal (1979)を参照してください。

ラムダ(対称)非指向性ラムダとは、2つの非対称ラムダ および の平均です。その範囲は です。対称ラムダは次のように計算されます。

その漸近分散は次のように計算されます。

ここで、

λ C R( )0 λ C R( ) 1≤ ≤ C R( )

li li ri nij=r n.j=

r n.j=

nij ri cj= = csj cjcsj nij ri cj= =csj 1–= li csj

nij ri= lili nij ri=

R C( )

λ C R( ) λ R C( ) 0 λ 1≤ ≤

Page 166: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

162 第 3章 : FREQプロシジャ

およびlの定義は、前のセクションで示されています。 およびkの値は、非対称ラムダ と同様の方法で定義されます。

詳細は、Goodman and Kruskal (1979)を参照してください。

不確定性係数(非対称)不確定性係数 は、行変数Xにより説明される列変数Yにおける不確定性の割合を測定するものです。その範囲は です。不確定性係数は次のように計算されます。

その漸近分散は次のように計算されます。

ここで、

不確定性係数 の公式は、添え字を交換することにより導びかれます。

詳細は、Theil (1972, pp. 115–120)およびGoodman and Kruskal (1979)を参照してください。

li kj R C( )

U C R( )0 U≤ C R( ) 1≤

U R C( )

Page 167: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 163

不確定性係数(対称)不確定性係数 は、2つの非対称不確定性係数の対称版です。その範囲は です。不確定性係数は次のように計算されます。

その漸近分散は次のように計算されます。

ここで、 、 、 は、前のセクションで定義されています。詳細は、Goodman and Kruskal(1979)を参照してください。

二項比率

TABLESステートメントでBINOMIALオプションを指定すると、FREQプロシジャは一元表の二項比率を計算します。デフォルトでは、これは、出力に表示される最初の変数水準のオブザベーションの割合になります。なお、二項比率の別の水準を指定するには、LEVEL=オプションを使用します。二項比率は次のように計算されます。

ここで、 は最初の(または指定された)水準の度数であり、nは一元表の合計度数です。二項比率の標準誤差は次のように計算されます。

二項比率の信頼限界FREQプロシジャは、二項比率のWald信頼限界および正確な(Clopper-Pearson)信頼限界を提供します。または、BINOMIAL(CL=) オプションを指定して、二項比率の信頼限界の種類として Agresti-Coull、Blaker、Jeffreys、正確なmid-p、尤度比、ロジット、Wilson (スコア)を要求することもできます。詳細は、信頼限界の各種類の説明で示されているリファレンスに加えて、Brown, Cai, and DasGupta (2001)、Agresti and Coull (1998)、およびNewcombe (1998b)を参照してください。

Wald信頼限界 Wald漸近信頼限界は、二項分布の正規近似に基づきます。FREQプロシジャは、二項比率のWald信頼限界を次のように計算します。

ここで、 は、標準正規分布の 番目のパーセント点です。信頼水準 はALPHA=オプションにより定義されます。デフォルトではALPHA=0.05であり、95%の信頼限界を生成します。

CL=WALD(CORRECT)またはCORRECT binomial-optionを指定すると、FREQプロシジャは、Wald漸近信頼限界に の連続性補正を含めます。この補正の目的は、正規近似と、離散的な二項分布との間の差異を調整することにあります。詳細は、Fleiss, Levin, and Paik (2003)を参照してください。二項比率の連続性補正Wald信頼限界は、次のように計算されます。

U 0 U 1≤ ≤

H X( ) H Y( ) H XY( )

n1

zα 2⁄ 100 1 α 2⁄–( ) α

Page 168: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

164 第 3章 : FREQプロシジャ

正確な (Clopper-Pearson)信頼限界 二項比率の正確な(Clopper-Pearson)信頼限界は、二項分布に基づく等尾部検定を反転することにより構成されます。この方法は、Clopper and Pearson (1934)により完成されたものです。正確な信頼限界 および は、 において、次の方程式を満たします。

の場合、下側信頼限界がゼロになり、 の場合、上側信頼限界が1になります。

FREQプロシジャは、F分布を使用して、正確な(Clopper-Pearson)信頼限界を次のように計算します。

ここで、 は、自由度bおよびcを持つF分布の 番目のパーセント点です。この式の導出についてはLeemis and Trivedi (1996)を参照してください。正確な二項比率の信頼限界の詳細については、Collett (1991)も参照してください。

これは離散的な問題であるため、正確な(Clopper-Pearson)信頼区間の信頼係数(包含確率) は、厳密にはではなく最小で となります。このため、この信頼区間は保守的となります。標本サイズが大きく

ない場合、実際の包含確率はターゲット値よりも非常に大きくなります。これらの信頼限界の性能に関する詳細は、Agresti and Coull (1998)、Brown, Cai, and DasGupta (2001)、およびLeemis and Trivedi (1996)を参照してください。

Agresti-Coull信頼限界 CL=AGRESTICOULL binomial-optionを指定すると、FREQプロシジャは二項比率のAgresti-Coull信頼限界を次のように計算します。

ここで、

Agresti-Coull信頼区間は、標準Wald区間と同じ基盤を持ちますが、前者は の代わりに を使用します。 である場合、 の値は2に近くなるため、この区間は、Agresti and Coull (1998)が提唱した“成功2と失敗2” を追加するように調整されたWald区間になります。

Blaker信頼限界 CL=BLAKER binomial-optionを指定すると、FREQプロシジャは二項比率のBlaker信頼限界を計算します。これは、両側の正確なBlaker検定を反転することにより構成されます(Blaker 2000)。

PL PU n1 1 2 …n 1–, ,=

n1 0= n1 n=

F α 2 b c, ,⁄( ) α 2⁄( )

1 α–( ) 1 α–( )

P P

α 0.05= zα 2⁄

Page 169: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 165

の%Blaker信頼区間は、検定統計量 が選択域に入る、比率 のすべての値により構成されます。

ここで、

また、Xは二項ランダム変数です。詳細は、Blaker (2000)を参照してください。

Jeffreys信頼限界 CL=JEFFREYS binomial-optionを指定すると、FREQプロシジャは二項比率のJeffreys信頼限界を次のように計算します。

ここで、 は、形状パラメータbおよびcを持つベータ分布 の番目のパーセント点です。 の場合、下側信頼限界がゼロに設定され、 の場合、上側信頼限界が1に設定されます。これは、二項比率の無情報Jeffreys事前分布に基づくEqual-tailed区間になります。詳細は、Brown, Cai, and DasGupta(2001)を参照してください。二項比率の推定のためのベータ事前分布に関する詳細は、Berger (1985)を参照してください。

尤度比信頼限界 CL=LIKELIHOODRATIO binomial-optionを指定すると、FREQプロシジャは、尤度比検定を反転することにより二項比率の尤度比信頼限界を計算します。比率が に等しい帰無仮説の尤度比検定統計量は、次のように表されます。

%の尤度比信頼区間は、検定統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、自由度が1であるカイ2乗分布の100 番目のパーセント点です。FREQプロシジャは、反復計算により信頼限界を求めます。詳細は、Fleiss, Levin, and Paik (2003)、Brown, Cai, andDasGupta (2001)、Agresti (2013)、Newcombe (1998b)を参照してください。

ロジット信頼限界 CL=LOGIT binomial-optionを指定すると、FREQプロシジャは二項比率のロジット信頼限界を計算します。これはロジット変換 に基づいています。Yの近似信頼限界は、次のように計算されます。

次のように、Yの信頼限界を反転して、二項比率pの %ロジット信頼限界 および を求めます。

100 1 α–( ) B p0 n1( , ) p0

β α b c, ,( ) α n1 0=n1 n=

p0

100 1 α–( ) p0 L p0( )

χ21 α, 1 α–( )

Y p 1 p–( )⁄( )log=

100 1 α–( ) PL PU

Page 170: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

166 第 3章 : FREQプロシジャ

詳細は、Brown, Cai, and DasGupta (2001)およびKorn and Graubard (1998)を参照してください。

Mid-p信頼限界 CL=MIDP binomial-optionを指定すると、FREQプロシジャは、mid-p裾領域を含む2つの片側二項検定を反転することにより二項比率の正確なmid-p信頼限界を計算します。mid-p手法では、観測された度数の確率が、Clopper-Pearson合計におけるその確率の半分に置き換えられます。詳細は、「正確な(Clopper-Pearson)信頼限界」(164ページ)のセクションを参照してください。正確なmid-p信頼限界 および は、方程式の解です。

詳細は、Agresti and Gottard (2007)、Agresti (2013)、Newcombe (1998b)、Brown, Cai, andDasGupta (2001)を参照してください。

Wilson (スコア )信頼限界 CL=WILSON binomial-optionを指定すると、FREQプロシジャは二項比率のWilson信頼限界を計算します。これはスコア信頼限界とも呼ばれます(Wilson 1927)。この信頼限界は、帰無仮説の分散比を使用した正規検定(スコア検定)の反転に基づいています。Wilson信頼限界は次の根になります。

これは次のように計算されます。

CL=WILSON(CORRECT)またはCORRECT binomial-optionを指定すると、FREQ プロシジャは連続性補正Wilson信頼限界を計算します。これは、次の根として計算されます。

Wilson区間は、Wald区間や正確な(Clopper-Pearson)区間よりも高い性能を持つことが証明されています。詳細は、Agresti and Coull (1998)、Brown, Cai, and DasGupta (2001)、およびNewcombe (1998b)を参照してください。

二項検定BINOMIALオプションを指定すると、デフォルトで、二項比率の漸近等価性の検定が実施されます。また、binomial-optionsを指定することでも、二項比率の非劣性、優越性、同等性の検定を要求できます。EXACTステートメントでBINOMIALオプションを指定すると、FREQプロシジャは、binomial-optionsで要求された検定の正確なp値も計算します。

等価性の検定 FREQプロシジャは、二項比率が に等しいという仮説の漸近検定を計算します。ここで、の値を指定するには、P=binomial-optionを使用します。P=にヌル値以外を指定すると、FREQプロシ

ジャはデフォルト を使用します。二項検定は次のように計算されます。

PL PU

P0P0

P0 0.5=

Page 171: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 167

デフォルトでは、標準誤差は、帰無仮説の比率に基づいて次のように計算されます。

VAR=SAMPLE binomial-optionを指定すると、次のように、標本比率から標準誤差が計算されます。

CORRECT binomial-optionを指定すると、FREQプロシジャは、正規近似と離散的な二項分布間の差異を調整するために、漸近検定統計量に連続性補正を含めます。詳細については、Fleiss, Levin, and Paik (2003)を参照してください。 の連続性補正は、 が正数である場合、検定統計量の分子から差し引かれます。それ以外の場合、連続性補正は同分子に追加されます。

FREQプロシジャは、この検定の片側および両側のp値を計算します。検定統計量zが0(帰無仮説の下でのその期待値)より大きい場合、FREQプロシジャは、右側p値を計算します。これは、帰無仮説の下で統計量の大きい値が発生する確率になります。小さい右側p値は、比率の真の値が より大きいという対立仮説を支持します。この検定統計量が0以下である場合、FREQプロシジャは、左側p値を計算します。これは、帰無仮説の下で統計量の小さな値が発生する確率になります。小さな左側p値は、比率の真の値が より小さいという対立仮説を支持します。片側のp値 は、次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値は、 として計算されます。

EXACT ステートメントでBINOMIALオプションを指定すると、FREQプロシジャは、帰無仮説 : の正確検定も計算します。正確検定を計算する場合、FREQプロシジャは次のような二項確率関数を使用します。

ここで、変数Xはパラメータnおよび を持つ二項分布に従います。左側p値 を計算する場合、FREQプロシジャは、xの二項確率を、0から まで合計します。右側p値 を計算する場合、FREQプロシジャは、xの二項確率を からnまで合計します。正確な片側p値は、次に示すように、右側および左側p値の最小値となります。

両側のp値は、 として計算されます。

非劣性の検定 NONINF binomial-optionを指定すると、FREQプロシジャは二項比率の非劣性の検定を実施します。非劣性の検定の帰無仮説は、次のようになります。

対立仮説は次のようになります。

ここで、 は非劣性のマージンであり、 は帰無仮説の比率です。帰無仮説の棄却は、二項比率がヌル値に対して劣性でないことを示します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

1 2n⁄( ) p p0–( )

P0

P0P1

P1Prob Z z>( ) if z 0>Prob Z z<( ) if z 0≤

=

P2 2 P1×=

H0 p p0=

p0 Prob X n1≤( )n1 Prob X n1≥( )

n1

P2 2 P1×=

δ p0

Page 172: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

168 第 3章 : FREQプロシジャ

の値を指定するには、MARGIN= binomial-optionを使用します。 を指定するには、P= binomial-optionを使用します。デフォルトでは、 および です。

FREQプロシジャは、非劣性の漸近Wald検定も実施します。検定統計量は次のように計算されます。

ここで、 は非劣性の限界であり、次の式が成り立ちます。

デフォルトでは、標準誤差は、標本比率から次のように計算されます。

VAR=NULL binomial-optionを指定すると、標準誤差は非劣性の限界(帰無仮説の比率とマージンにより決定されるもの)に基づいて次のように計算されます。

CORRECT binomial-optionを指定すると、FREQプロシジャは漸近検定統計量zに連続性補正を含めます。の連続性補正は、 が正数である場合、検定統計量の分子から差し引かれます。それ以外の場

合、連続性補正は同分子に追加されます。

非劣性の検定のp値は次のようになります。

ここで、Zは標準正規分布に従います。

非劣性の分析の一部として、FREQプロシジャは、二項比率の漸近Wald信頼限界を計算します。これらの信頼限界は、Wald信頼限界のセクションで示した方法で計算されますが、非劣性の検定統計量zの場合と同じ標準誤差(VAR=NULLまたはVAR=SAMPLE)を使用します。信頼係数は %です(Schuirmann1999)。ALPHA=オプションを省略すると、非劣性の信頼限界はデフォルトで90%の信頼限界となります。この信頼限界を非劣性の限界 と比較できます。

EXACTステートメントでBINOMIALオプションを指定すると、FREQプロシジャは、二項比率の正確な非劣性の検定も計算します。正確なp値は、パラメータ およびn値を持つ二項確率関数を使用して次のように計算されます。

詳細は、Chow, Shao, and Wang (2003, p. 116)を参照してください。正確な二項統計量を要求する場合、FREQは、同等性の分析の表示の中に、二項比率の正確な(Clopper-Pearson)信頼限界も含めます。詳細は、「正確な(Clopper-Pearson)信頼限界」(164ページ)のセクションを参照してください。

優越性の検定 SUP binomial-optionを指定すると、FREQプロシジャは、二項比率の優越性の検定を実施します。優越性の検定の帰無仮説は、次のように表されます。

δ p0δ 0.2= p0 0.5=

p∗0

1 2n⁄( ) p p∗0–( )

100 1 2α–( )

p∗0 p δ–=

p∗0

Page 173: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 169

対立仮説は次のようになります。

ここで、 優越性のマージンであり、 は帰無仮説の比率です。帰無仮説の棄却は、二項比率がヌル値に対して優越していることを示します。 の値を指定するには、MARGIN= binomial-optionを使用します。の値を指定するには、P= binomial-optionを使用します。デフォルトでは、 および です。

優越性の分析は非劣性分析と同じですが、帰無仮説で正のマージン値 を使用するところが違います。優越性の限界は に等しくなります。優越性の計算は「非劣性の検定」(167ページ)のセクションに示されている方法に従いますが、– の代わりに を使用します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

同等性検定 EQUIV binomial-optionを指定すると、FREQプロシジャは、二項比率の同等性の検定を実施します。同等性の検定の帰無仮説は次のようになります。

対立仮説は次のようになります。

ここで、 は下限マージン、 は上限マージン、 は帰無仮説の比率です。帰無仮説の棄却は、二項比率がヌル値に対して同等であることを示します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

マージン値 および を指定するには、MARGIN= binomial-optionを使用します。MARGIN=を指定しない場合、FREQプロシジャはデフォルトの下限マージンおよび上限マージンとして、それぞれ–0.2および0.2を使用します。単一のマージン値 を指定すると、FREQプロシジャは下限マージンおよび上限マージンとして、それぞれ– および を使用します。帰無仮説の比率 を指定するには、P= binomial-optionを使用します。デフォルトは です。

FREQプロシジャは、同等性の分析で、2つの片側検定(TOST)を計算します(Schuirmann 1987)。TOST手法には、下限マージンの右側検定と、上限マージンの左側検定が含まれます。全体的なp値は、下側および上側の検定における2つのp値のうちの大きい方になります。

下限マージンの場合、漸近Wald検定統計量は次のように計算されます。

ここで、下側同等性限界は次のようになります。

デフォルトでは、標準誤差は、標本比率から次のように計算されます。

VAR=NULL binomial-optionを指定すると、標準誤差は下側同等性限界(帰無仮説の比率と下限マージンにより決定されるもの)に基づいて次のように計算されます。

δ p0δ

p0 δ 0.2= p0 0.5=

δp0 δ+

δ δ

δL δU p0

δL δU

δδ δ p0p0 0.5=

se p 1 p–( ) n⁄=

Page 174: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

170 第 3章 : FREQプロシジャ

CORRECT binomial-optionを指定すると、FREQプロシジャは漸近検定統計量 に連続性補正を含めます。 の連続性補正は、検定統計量 の分子が正数である場合、同分子から差し引かれます。それ以外の場合、連続性補正は同分子に追加されます。

下限マージン検定のp値は次のようになります。

上限マージンの漸近検定も同様に計算されます。Wald検定統計量は次のように表されます。

ここで、同等性の上限は次のようになります。

デフォルトでは、標準誤差は、標本母集団から計算されます。VAR=NULL binomial-optionを指定すると、標準誤差は上側同等性限界に基づいて次のように計算されます。

CORRECT binomial-optionを指定すると、FREQプロシジャは漸近検定統計量 に の連続性補正を含めます。

上限マージン検定のp値は次のようになります。

2つの片側検定(TOST)に基づく場合、同等性の検定の全体的なp値は、下限および上限マージン検定のp値以上になります。これは次のように表されます。

同等性の分析の一部として、FREQプロシジャは、二項比率の漸近Wald信頼限界を計算します。これらの信頼限界は、「Wald信頼限界」(163ページ)のセクションで示した方法で計算されますが、同等性の検定統計量の場合と同じ標準誤差(VAR=NULLまたはVAR=SAMPLE)を使用し、かつ %の信頼係数を持ちます(Schuirmann 1999)。ALPHA=を省略すると、これらはデフォルトで90%の信頼限界になります。VAR=NULLを指定すると、下限および上限マージン検定で、それぞれ帰無仮説の比率と対応する(下限または上限)マージンに基づいて、別々の標準誤差が計算されます。これらの信頼限界は、これらの2つの標準誤差の最大値を使用して計算されます。信頼限界を同等性の限界 と比較できます。

EXACTステートメントでBINOMIALオプションを指定すると、FREQプロシジャは、2つの片側正確検定(TOST)を使用した正確な同等性の検定も実施します。同プロシジャは、「非劣性の検定」(167ページ)の検定のセクションに示されている二項確率関数を使用して上限および下限マージンの正確検定を計算します。同等性の検定の全体的な正確なp値は、下限および上限マージンの正確検定のp値において大きい方になります。正確検定を要求する場合、FREQプロシジャは、同等性の分析の表示に正確な(Clopper-Pearson)信頼限界も

zL1 2n⁄( ) p p∗L–( )

1 2n⁄( ) zU

100 1 2α–( )

p0 δL p0 δU+,+

Page 175: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 171

含めます。信頼係数は %です(Schuirmann 1999)。詳細は、「正確な(Clopper-Pearson)信頼限界」(164ページ)のセクションを参照してください。

リスクとリスク差

TABLESステートメントでRISKDIFFオプションを指定すると、 表のリスク(二項比率)とリスク差の推定値を計算できます。この分析は、行1と行2が2つのグループに対応し、列が2つの可能な特性または結果に対応しているような2つのグループの特性を比較する場合に適しています。たとえば、行変数が処置または投薬量で、列変数が反応である場合などが挙げられます。詳細は、Collett (1991)、Fleiss, Levin, and Paik(2003)、Stokes, Davis, and Koch (2012)を参照してください。

表の度数が次のように表されるとします。

デフォルトでは、RISKDIFFオプションを指定すると、FREQプロシジャは、行1のリスク(比率)、行2のリスク、全体的なリスクの推定値、および 表の列1と列2のリスク差を計算します。リスク差は、行1のリスクから行2のリスクを差し引いたものとして定義されます。リスクはこれらの行(行1、行2、または全体)の二項比率であり、それらの標準誤差および信頼限界の計算は、「二項比率」(163ページ)のセクションに示されている二項比率の計算方法に従います。

行1の列1リスクは、列1に分類される行1オブザベーションの比率であり、次の式で表されます。

これは、行変数の第1水準における列1の反応の条件付き確率を推定します。行1の列2リスクは、列2に分類される行1オブザベーションの比率であり、次の式で表されます。

全体的な列1リスクは、列1に分類されるすべてのオブザベーションの比率であり、次の式で表されます。

列1のリスク差は2つの行のリスクを比較するものであり、行1の列1リスクから行2の列1リスクを差し引いたものとして計算されます。

行iの列1リスクの標準誤差は次のように計算されます。

全体的な列1リスクの標準誤差は次のように計算されます。

100 1 2α–( )

列1 列2 合計

行1

行2

Total

2 2×

2 2×

n11 n12 n1.

n21 n22 n2.

n.1 n.2 n

2 2×

Page 176: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

172 第 3章 : FREQプロシジャ

2つの行が独立した二項標本を表している場合、列1のリスク差の標準誤差は次のように計算されます。

列2のリスクとリスク差も同様に計算されます。

信頼限界デフォルトでは、RISKDIFFオプションは、リスク(行1、行2、全体)およびリスク差のWald漸近信頼限界を計算します。デフォルトでは、RISKDIFFオプションは、リスクの正確な(Clopper-Pearson)信頼限界も計算します。この情報を表示しないようにするには、NORISKS riskdiff-optionを指定します。riskdiff-optionsを指定すると、リスク差の検定や別の種類の信頼限界を要求できます。詳細は、「リスク差の信頼限界」(172ページ)および「リスク差の検定」(176ページ)のセクションを参照してください。

各リスクは、それらの対応する行の二項比率に等しくなります。このセクションでは、RISKDIFFオプションを指定した場合にデフォルトで計算されるWald信頼限界について説明します。BINOMIALオプションを指定すると、リスク(二項比率)のその他の信頼限界の種類や検定も計算されます。詳細は、二項比率の信頼限界および「二項検定」(166ページ)のセクションを参照してください。

Wald信頼限界は、二項分布の正規近似に基づきます。FREQプロシジャは、リスクとリスク差のWald信頼限界を次のように計算します。

ここで、Estは推定値、 は標準正規分布の 番目のパーセント点、 は推定値の標準誤差です。信頼水準は、ALPHA=オプションにより定義されます。信頼水準 はALPHA=オプションにより定義されます。この値はデフォルトで0.05であり、95%の信頼限界を生成します。

CORRECT riskdiff-optionを指定すると、FREQプロシジャは、リスクとリスク差の連続性補正Wald信頼限界を計算します。この連続性補正の目的は、正規近似と、離散型分布である二項分布との間の差異を調整することにあります。詳細は、Fleiss, Levin, and Paik (2003)を参照してください。連続性補正Wald信頼限界は次のように計算されます。

ここで、ccは連続性補正です。行1リスクの場合 、行2リスクの場合 、全体的なリスクの場合 、リスク差の場合 になります。列1および列2のリスクの場合、同じ連続性補正を使用します。

デフォルトでは、RISKDIFFオプションを指定すると、FREQプロシジャは、列1のリスク、列2のリスク、全体的なリスクの正確な(Clopper-Pearson)信頼限界も計算します。これらの信頼限界は、二項分布に基づく等尾部検定を反転することにより構成されます。詳細は、「正確な(Clopper-Pearson)信頼限界」(164ページ)のセクションを参照してください。

リスク差の信頼限界 FREQプロシジャで使用できるリスク差の信頼限界の種類としては、Agresti-Caffo信頼限界、正確な条件なしの信頼限界、Hauck-Anderson信頼限界、Miettinen-Nurminen(スコア)信頼限界、Newcombe( ハイブリッドスコア ) 信頼限界、Wald 信頼限界があります。連続性補正形式のNewcombe信頼限界およびWald信頼限界も使用できます。

zα 2⁄ 100 1 α– 2⁄( ) se Est( )a

cc 1 2n1.⁄( )= cc 1 2n2.⁄( )=cc 1 2n⁄( )= cc 1 n1.⁄ 1 n2.⁄+( ) 2⁄( )=

Page 177: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 173

CL= riskdiff-optionにより生成される信頼限界の信頼係数は %になります。ここで、 の値はALPHA=オプションにより決定されます。デフォルトのALPHA=0.05は、95%の信頼限界を生成します。この信頼限界は、同等性、非劣性、優越性の検定により提供される検定ベースの信頼限界とは異なり、

%の信頼係数(Schuirmann 1999)を持ちます。詳細は、「リスク差の検定」(176ページ)のセクションを参照してください。

Agresti-Caffo信頼限界リスク差のAgresti-Caffo信頼限界は、次のように計算されます。

ここで、 、

は、標準正規分布の 番目のパーセント点です。

Agresti-Caffo区間は、各標本の種類(成功と失敗)ごとに疑似オブザベーションを追加することで、リスク差のWald区間を調整します。詳細については、Agresti and Caffo (2000)およびAgresti and Coull (1998)を参照してください。

Hauck-Anderson信頼限界リスク差のHauck-Anderson信頼限界は次のように計算されます。

ここで、 であり、 は標準正規分布の 番目のパーセント点です。標準誤差は、標本比率から次のように計算されます。

Hauck-Anderson連続性補正ccは次のように計算されます。

詳細は、Hauck and Anderson (1986)を参照してください。対応する非劣性の検定については、セクション「非劣性の検定」(177ページ)内のサブセクション「Hauck-Anderson検定」を参照してください。

Miettinen-Nurminen (スコア )信頼限界リスク差のMiettinen-Nurminen (スコア)信頼限界(Miettinen and Nurminen 1985)は、リスク差のスコア検定を反転することにより計算されます。リスク差が に等しいという帰無仮説に対するスコアに基づく検定統計量は、次のように表されます。

ここで、 はリスク差( )の観測値です。

100 1 α–( ) α

100 1 2α–( )

d p1 p2–= pi

ni1 1+( ) ni. 2+( )⁄=

zα 2⁄ 100 1 α 2⁄–( )

d p1 p2–= zα 2⁄ 100 1 α 2⁄–( )

δ

d p1 p2–

Page 178: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

174 第 3章 : FREQプロシジャ

ここで、 および は、リスク差が であるという制限の下での行1と行2のリスク(比率)の最尤推定値です。詳細は、Miettinen and Nurminen (1985, pp. 215–216)およびMiettinen (1985, chapter 12)を参照してください。

リスク差の %の信頼区間は、スコア統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、標準正規分布の 番目のパーセント点です。FREQプロシジャは、反復計算により信頼限界を求めます。この計算は、反復の増分が収束基準を下回った場合か、または最大反復回数に達した場合に停止します。デフォルトでは、収束基準は0.00000001であり、 最大反復回数は100です。

デフォルトでは、Miettinen-Nurminen信頼限界は、バイアス補正因子 を の計算に含めます(Miettinen and Nurminen 1985, p. 216)。詳細は、Newcombe and Nurminen (2011)を参照してください。CL=MN(CORRECT=NO) riskdiff-optionを指定すると、FREQプロシジャは、この計算にバイアス補正因子を含めません(Mee 1984)。Agresti (2002, p. 77)も参照してください。無修正の信頼限界は、表示出力において“Miettinen-Nurminen-Mee”としてラベル付けされます。

リスク差が であるという制約を受けた、 および の最尤推定値は、次のように計算されます。

ここで、

詳細は、Farrington and Manning (1990, p. 1453)を参照してください。

Newcombe信頼限界リスク差のNewcombe (ハイブリッドスコア)信頼限界は、2つの個別比率のそれぞれのWilsonスコア信頼限界から構成されます。個別比率の信頼限界は、比率差のWald信頼限界の標準誤差項目として使用されます。詳細は、Newcombe (1998a)およびBarker et al.(2001)を参照してください。

および のWilson信頼限界は次の根になります。

ここで、 です。信頼限界は次のように計算されます。

p1 δ( ) p2 δ( ) δ

100 1 α–( ) T δ( ) δ

zα 2⁄ 100 1 α 2⁄–( )

n n 1–( )⁄ Var˜ δ( )

δ p1 p2

p1 p2

i 1 2,=

Page 179: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 175

詳細は、「Wilson (スコア)信頼限界」(166ページ)のセクションを参照してください。

の下側および上側のWilsonスコア信頼限界を および で表し、 の下側および上側のWilsonスコア信頼限界を および で表します。比率の差( )のNewcombe信頼限界は次のように計算されます。

CORRECT riskdiff-optionを指定すると、FREQプロシジャは、連続性補正Newcombeスコア信頼限界を計算します。連続性補正 を含めることにより、個別比率のWilsonスコア信頼限界は次の根として計算されます。

続いて、個別比率の連続性補正信頼限界を使用して、比率差の信頼限界 および が計算されます。

Wald信頼限界リスク差のWald信頼限界は次のように計算されます。

ここで、 であり、 は標準正規分布の 番目のパーセント点でし。標準誤差は、標本比率から次のように計算されます。

CORRECT riskdiff-optionを指定すると、Wald信頼限界に連続性補正ccが含まれます。

ここで、 です。

対応する非劣性の検定については、セクション「非劣性の検定」(177ページ)内のサブセクション「Wald検定」を参照してください。

正確な条件なしの信頼限界EXACTステートメントでRISKDIFFオプションを指定すると、FREQプロシジャは、リスク差の正確な条件なしの信頼限界を計算します。FREQプロシジャは、2つの個々の片側検定(裾を用いる手法)を反転して、信頼限界を計算します。ここで、各検定のサイズは最大で であり、信頼係数は最低でも になります。正確な条件付き方式(セクション「正確な統計量」(208ページ)を参照)は、撹乱パラメータが存在するため、リスク差には適用できません(Agresti, 1992)。条件なしの手法(行マージンのみを固定するもの)では、すべての可能な値に関してp値を最大化することで、撹乱パラメータを廃止しています(Santner andSnell, 1980)。

デフォルトでは、FREQプロシジャは、信頼限界の計算における検定統計量として、標準化されていないリスク差を使用します。RISKDIFF(METHOD=SCORE)オプションを指定すると、同プロシジャは、信頼限

p1 L1 U1 p2L2 U2 d p1 p2–=

1 2⁄ ni.

dL dU

d p1ˆ p2–= zα 2⁄ 100 1 α 2⁄–( )

d cc zα 2⁄ se d( )×+( )±

cc 1 n1.⁄ 1 n2.⁄+( ) 2⁄=

α 2⁄ 1 α–( )

Page 180: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

176 第 3章 : FREQプロシジャ

界を計算するためにスコア統計量を使用します(Chan and Zhang, 1999)。スコア統計量は標準化されていないリスク差よりも離散的でない統計量であるため、より保守的でない信頼限界を生成します(Agresti andMin, 2001)。詳細については、Santner et al.(2007)を参照してください。リスク差のスコア統計量の計算については、「Miettinen-Nurminen (スコア)信頼限界」(173ページ)のセクションを参照してください。詳細は、Miettinen and Nurminen (1985)およびFarrington and Manning (1990)を参照してください。

FREQプロシジャは、次の正確な条件なしの信頼限界を計算します。リスク差は、行1と行2のリスク(比率)間の差 として定義されます。ここで、 および は 表の行合計を表します。この表の結合確率関数は、表のセル度数、リスク差、撹乱パラメータ を使って次のように表されます。

リスク差の %の信頼限界は次のように計算されます。

ここで、

集合Aには、行合計が および であるすべての 表が含まれており、 はAにおける表aの検定統計量の値を表します。 を計算する場合、( )である表の確率が合計に含まれます。ここで、 は観測された表の検定統計量の値です。 が固定値の場合、 は、 のすべての可能な値の最大合計値となるように取得されます。

リスク差の検定FREQプロシジャは、リスク(比率)差の等価性、非劣性、優越性、同等性に関する検定を提供します。Wald検定(連続性補正ありまたは連続性補正なし)検定、Hauck-Anderson検定、Farrington-Manning(スコア)検定、Newcombe(連続性補正ありまたは連続性補正なし)検定が使用できます。検定方法を指定するには、METHOD= riskdiff-optionオプションを使用します。デフォルトでは、FREQプロシジャはWald検定を提供します。

等価性の検定 リスク差の等価性の検定では、リスク差がヌル値に等しいという帰無仮説を判定します。ヌル値を指定するには、EQUAL(NULL=) riskdiff-optionオプションを使用します。デフォルトではヌル値は0になります。この検定は、 と対立仮説 との比較として表現されます。ここで、 はリスク差(列1または列2の)を表し、 はヌル値を表します。

検定統計量は次のように計算されます。

ここで、標準誤差 は、ユーザーが指定した方法を使用して計算されます。等価性の検定では、Wald検定(連続性補正ありまたは連続性補正なし)検定、Hauck-Anderson検定、Farrington-Manning(スコア)検定が使用できます。標準誤差の計算については、「非劣性の検定」(177ページ)セクション内にある

d p1 p2–= n1 n2 2 2×p2

100 1 α 2⁄–( )

n1 n2 2 2× T a( )PU d*( ) T a( ) t0≥ t0

d* PU d*( ) p2

H0:d d0= Ha:d d0≠ d p1 p2–=d0

se d( )ˆ

Page 181: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 177

「Wald検定」、「Hauck-Anderson検定」、および「Farrington-Manning (スコア)検定」の各サブセクションを参照してください。

FREQプロシジャは、等価性検定の片側および両側のp値を計算します。検定統計量zがゼロより大きい場合、FREQプロシジャは、右側のp値を表示します。これは、帰無仮説の下でより大きい値が発生する確率を表します。片側のp値は次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値は、 として計算されます。

非劣性の検定 NONINF riskdiff-optionを指定すると、FREQプロシジャはリスク差、すなわち2つの比率間の差の非劣性の検定を実施します。非劣性の検定の帰無仮説は、次のようになります。

対立仮説は次のようになります。

ここで、 は非劣性マージンです。帰無仮説の棄却は、行1のリスクが行2のリスクに対して劣性でないことを示します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

値を指定するには、MARGIN= riskdiff-optionを使用します。デフォルトは です。検定方法を指定するには、METHOD= riskdiff-optionを使用します。リスク差の非劣性分析では、Wald検定(連続性補正ありまたは連続性補正なし)検定、Hauck-Anderson検定、Farrington-Manning(スコア)検定、Newcombe(連続性補正ありまたは連続性補正なし)検定が使用できます。Wald、Hauck-Anderson、Farrington-Manningの各方式は、検定および対応する信頼限界を提供します。 Newcombe方式は、信頼限界のみを提供します。METHOD=を省略すると、FREQプロシジャはデフォルトでWald検定を使用します。

検定に基づく信頼限界の信頼係数は %です(Schuirmann 1999)。ALPHA=を省略すると、これらはデフォルトで90%の信頼限界になります。この信頼限界を非劣性の限界– と比較できます。

次のセクションでは、リスク差の非劣性の各種の分析方式について説明します。

Wald検定METHOD=WALD riskdiff-optionを指定すると、FREQプロシジャはリスク差の非劣性の漸近Wald検定を実施します。これはデフォルトの分析方式でもあります。Wald検定統計量は次のように計算されます。

ここで、( )はリスク差の推定値であり、 は非劣性のマージンです。

デフォルトでは、Wald検定の標準誤差は、標本比率から次のように計算されます。

VAR=NULL riskdiff-optionを指定すると、標準誤差は、リスク差が– に等しいという帰無仮説に基づきます(Dunnett and Gent 1977)。標準誤差は次のように計算されます。

p1Prob Z z>( ) if z 0>Prob Z z<( ) if z 0≤

=

P2 2 P1×=

δ

δ δ 0.2=

100 1 2α–( )δ

d p1ˆ p2–= δ

δ

Page 182: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

178 第 3章 : FREQプロシジャ

ここで、

CORRECT riskdiff-optionを指定すると、検定統計量に連続性補正が含められます。連続性補正は、検定統計量の分子が正数である場合、同分子から差し引かれます。それ以外の場合、連続性補正は同分子に追加されます。連続性補正値は になります。

Wald非劣性の検定のp値は であり、ここでZは標準正規分布に従います。

Hauck-Anderson検定METHOD=HA riskdiff-optionを指定すると、FREQプロシジャは非劣性のHauck-Anderson検定を行います。Hauck-Anderson検定統計量は次のように計算されます。

ここで、 であり、標準誤差は標本比率から次のように計算されます。

Hauck-Anderson連続性補正ccは次のように計算されます。

非劣性のHauck-Anderson検定のp値は であり、ここでZは標準正規分布に従います。詳細は、Hauck and Anderson (1986)およびSchuirmann (1999)を参照してください。

Farrington-Manning (スコア )検定METHOD=FM riskdiff-optionを指定すると、FREQプロシジャはリスク差の非劣性のFarrington-Manning(スコア)検定を実施します。リスク差が に等しいという帰無仮説に対するスコア検定統計量は、次のように表されます。

ここで、 はリスク差( )の観測値です。

ここで、 および は、リスク差が であるという制限の下での行1と行2のリスク(比率)の最尤推定値です。非劣性の検定のp値は であり、ここでZは標準正規分布に従います。詳細は、Miettinenand Nurminen (1985)、Miettinen (1985)、Farrington and Manning (1990)、Dann and Koch (2005)を参照してください。

リスク差が であるという制約を受けた、 および の最尤推定値は、次のように計算されます。

ここで、

1 n1.⁄ 1 n2.⁄+( ) 2⁄

Pz Prob Z z>( )=

d p1ˆ p2–=

Pz Prob Z z>( )=

δ–

d P1ˆ P2

ˆ–

p1p2 δ–

Pz Prob Z z>( )=

δ– p1 p1

Page 183: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 179

詳細は、Farrington and Manning (1990, p. 1453)を参照してください。

Newcombe非劣性分析METHOD=NEWCOMBE riskdiff-optionを指定すると、FREQプロシジャは、リスク差のNewcombeハイブリッドスコア信頼限界に基づいた非劣性の分析を実施します。この信頼限界の信頼係数は %になります(Schuirmann 1999)。ALPHA=を省略すると、これらはデフォルトで90%の信頼限界になります。この信頼限界を非劣性の限界 と比較できます。CORRECT riskdiff-optionを指定すると、信頼限界に連続性補正が含められます。詳細は、セクション「リスク差の信頼限界」(172ページ)内のサブセクション「Newcombe信頼限界」を参照してください。

優越性の検定 SUP riskdiff-optionを指定すると、FREQプロシジャは、リスク差の優越性の検定を実施します。帰無仮説は次のようになります。

対立仮説は次のようになります。

ここで、 は優越性のマージンです。帰無仮説の棄却は、行1の比率が行2の比率に対して優越していることを示します。 の値を指定するには、MARGIN= riskdiff-optionを使用します。デフォルトは です。

優越性の分析は非劣性分析と同じですが、帰無仮説で正のマージン値 を使用するところが違います。優越性の計算は「非劣性の検定」(177ページ)のセクションに示されている方法に従いますが、 の代わりにを使用します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

同等性検定 EQUIV riskdiff-optionを指定すると、FREQプロシジャはリスク差、すなわち2つの比率間の差の同等性の検定を実施します。同等性の検定の帰無仮説は次のようになります。

対立仮説は次のようになります。

ここで、 は下限マージン、 は上限マージンです。帰無仮説の棄却は、2つの二項比率が等しいことを示します。詳細は、Chow, Shao, and Wang (2003)を参照してください。

マージン値 および を指定するには、MARGIN= riskdiff-optionを使用します。MARGIN=を指定しない場合、FREQプロシジャはデフォルトの下限マージンおよび上限マージンとして、それぞれ–0.2および0.2を使用します。単一のマージン値 を指定すると、FREQプロシジャは下限マージンおよび上限マージンとして、それぞれ および を使用します。検定方法を指定するには、METHOD= riskdiff-optionを使用しま

100 1 2α–( )

δ–

δδ δ 0.2=

δδ–

δ

δL δU

δL δU

δδ– δ

Page 184: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

180 第 3章 : FREQプロシジャ

す。リスク差の同等性分析では、Wald検定(連続性補正ありまたは連続性補正なし)検定、Hauck-Anderson検定、Farrington-Manning(スコア)検定、Newcombe(連続性補正ありまたは連続性補正なし)検定が使用できます。Wald、Hauck-Anderson、Farrington-Manningの各方式は、検定および対応する信頼限界を提供します。 Newcombe方式は、信頼限界のみを提供します。METHOD=を省略すると、FREQプロシジャはデフォルトでWald検定を使用します。

FREQプロシジャは、同等性の分析で、2つの片側検定(TOST)を計算します(Schuirmann 1987)。TOST手法には、下限マージン の右側検定と、上限マージン の左側検定が含まれます。全体的なp値は、下側および上側の検定における2つのp値のうちの大きい方になります。

リスク差のWald、Hauck-Anderson、Farrington-Manning (スコア)、Newcombeの各検定についての詳細は、「非劣性の検定」(177ページ)のセクションを参照してください。下限マージンの同等性の検定統計量は、非劣性の検定統計量と同じ形式を持ちますが、前者は のかわりに下限マージン値 を使用します。上限マージンの同等性の検定統計量は、非劣性の検定統計量と同じ形式を持ちますが、前者は のかわりに上限マージン値 を使用します。

リスク差の検定ベースの信頼限界は、ユーザーが選択した同等性の検定方式に従って計算されます。METHOD=WALDと共にVAR=NULLまたはMETHOD=FMを指定すると、下限および上限マージン検定の標準誤差が別々に計算されます。この場合、検定ベースの信頼限界は、これらの標準誤差の最大値を使用して計算されます。これらの信頼限界の信頼係数は %になります(Schuirmann 1999)。ALPHA=を省略すると、これらはデフォルトで90%の信頼限界になります。検定ベースの信頼限界を同等性の限界( ,

)と比較できます。

Barnardの条件なしの正確検定EXACTステートメントのBARNARDオプションを指定すると、 表のリスク(比率)の差に対して条件なしの正確検定が実施されます。条件なしの正確検定の参照集合は、観測された表と同じ行合計を含んでいるすべての 表から構成されます(Barnard 1945, 1947, 1949)。これは、正確な条件付きの推定の参照集合とは異なります。後者は、観測された表と同じ行合計および同じ列合計を含んでいる表の集合に限定されます。詳細は、「Fisherの正確検定」(152ページ)および「正確な統計量」(208ページ)のセクションを参照してください。

この検定統計量は標準化されたリスク差であり、次のように計算されます。

ここで、リスク差dは、行1と行2のリスク(比率)間の差 として定義されます。 およびは、それぞれ行1および行2の合計です。 は、列1における全体的な比率 です。

リスク差がゼロに等しいという帰無仮説の下で、表の結合確率関数は、表のセル度数、行合計、未知のパラメータ を使って次のように表されます。

ここで、 はリスク(比率)の共通値です。

FREQプロシジャは、 観測された検定統計量値以上の検定統計量を持つ表の参照集合に関する表確率を合計します。この合計は次のように表されます。

δL δU

δ– δLδ–

δU

100 1 2α–( )δL

δU

2 2×

2 2×

d n11 n1⁄ n21 n2⁄–( )= n1n2 n11 n21+( ) n⁄

π

π

Page 185: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 181

ここで、集合Aには、行合計が および であるすべての 表が含まれており、 はAにおける表aの検定統計量の値を表します。合計には、( )である表の確率が含まれます。ここで、 は、観測された表の検定統計量の値です。

Prob( )合計は、未知の値 により異なります。正確なp値を計算する場合、FREQプロシジャは、すべての可能な の値に関してProb( )の値を最大化することで、攪乱パラメータ を廃止します。

詳細は、Suissa and Shuster (1985)およびMehta and Senchaudhuri (2003)を参照してください。

共通リスク差

FREQプロシジャは、多元 表の共通リスク(比率)差のMantel-Haenszel推定値および要約スコア推定値を計算します。FREQプロシジャは、共通リスク差の層化Newcombe信頼限界も計算します。

Mantel-Haenszel推定値FREQプロシジャは、共通リスク差のMantel-Haenszel (Mantel and Haenszel 1959)推定値を次のように計算します。

ここで、 は層hのリスク差であり、次の式が成り立ちます。

層hの列1のリスク差は次のように計算されます。

ここで、 は、列1に分類される行1オブザベーションの比率であり、 は、列1に分類される行2オブザベーションの比率です。列2のリスクは同じ方法で計算されます。詳細は、Agresti (2013, p. 231)を参照してください。

FREQプロシジャは、次のように (Sato 1989)の分散を計算します。

ここで、

共通リスク差の %の信頼限界は、次のように計算されます。

n1 n2 2 2× T a( )T a( ) t0≥ t0

π ππ π π

2 2×

dhˆ

Ph1 Ph2

dMH

100 1 2α–( )

Page 186: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

182 第 3章 : FREQプロシジャ

要約スコア推定値FREQプロシジャは、Agresti (2013, p. 231)の説明にあるように、共通リスク差の要約スコア推定値を計算します。この推定値は、層リスク差のMiettinen-Nurminen (スコア)信頼限界から計算されます。詳細は、「Miettinen-Nurminen (スコア)信頼限界」のセクションを参照してください。層hのリスク差のスコア信頼区間は で表されます。ここで、 はスコア信頼区間の中間点、 は信頼区間の幅を で割った値です。共通リスク差の要約スコア推定値は、次のように計算されます。

ここで、

の分散は、次のように計算されます。

共通リスク差の %の要約スコア信頼限界は、次のように計算されます。

層化Newcombe信頼限界FREQプロシジャは、Yan and Su (2010)の方法を使用して、共通リスク(比率)差の層化Newcombe信頼限界を計算します。層化Newcombe信頼限界は、共通(全体)行比率の層化Wilson信頼限界から構成されます。

FREQプロシジャは、最初に各 表(層)における行比率の個別Wilson信頼限界を計算します。詳細は、「Wilson (スコア)信頼限界」(166ページ)のセクションを参照してください。次に、Mantel-Haenszel重みを使用して、これらの層化Wilson信頼限界が結合され、全体行比率の層化Wilson信頼限界が形成されます。ここで、層hのMantel-Haenszel重みは次のように計算されます。

層化Wilson信頼限界の信頼水準は、(層化Wilson信頼限界の)全体的な信頼係数が % (Yan and Su2010)になるように選択されます。

共通行1の比率の下側および上側の層化Wilsonスコア信頼限界をそれぞれ と で表し、共通行2の比率の下側および上側の層化Wilson信頼限界をそれぞれ と で表します。共通リスク(比率)差の %の層化Newcombe信頼限界は、次のように計算されます。

ここで、 は、共通リスク差のMantel-Haenszel推定値です。

2 2×

100 1 a–( )

100 1 a–( )

Page 187: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 183

単一層がある場合、層化Newcombe信頼区間は(非層化)Newcombe信頼区間に等しくなります。詳細は、セクション「リスク差の信頼限界」(172ページ)内のサブセクション「Newcombe信頼限界」を参照してください。Kim and Won (2013)も参照してください。

2 x 2表に対するオッズ比と相対リスク

オッズ比オッズ比は、各種の研究デザインにおいて連関性の有益な統計量となります。ケースコントロール研究と呼ばれる後ろ向きデザインでは、オッズ比を使用することで肯定応答が小さい場合の相対リスクを推定できます(Agresti, 2002)。ケースコントロール研究では、2つの独立標本が2値(yes/no式)応答変数に基づいて特定され、2値説明変数の条件付き分布が応答変数の固定水準内において検証されます。詳細については、Stokes,Davis, and Koch (2012)、Agresti (2013)およびAgresti (2007)を参照してください。

行1の肯定応答(列1)のオッズ比は になります。同様に、行2の肯定応答のオッズ比は になります。オッズ比は、行1のオッズの行2のオッズに対する比として形成されます。 表に対するオッズ比は次のように定義されます。

オッズ比は任意の非負数になります。行変数と列変数が独立である場合、オッズ比の真の値は1になります。オッズ比が1より大きい場合、行1の肯定応答のオッズが行2よりも高いことを意味します。オッズ比が1より小さい場合、行2の肯定応答のオッズの方が高いことを意味します。連関性の強度は、1からの偏差で増加します。

変換 はオッズ比を範囲(–1,1)へと変換します。ここで、 の場合G = 0となり、の場合G= –1となります。また、ORが無限大に近づとG は1に近づきます。Gはガンマ統計量であ

り、これはMEASURESオプションを指定した場合にFREQプロシジャにより計算されます。

オッズ比の信頼限界 オッズ比の場合に利用可能な信頼限界の種類としては、正確、正確なmid-p、尤度比、スコア、Wald、およびWald modifiedがあります。

Wald信頼限界 漸近Wald信頼限界は、オッズ比の対数変換に基づきます(Woolf 1955; Haldane 1955)。FREQプロシジャは、Wald信頼限界を次のように計算します。

ここで、

zは、標準正規分布の 番目のパーセント点です。信頼水準 は、TABLESテートメントのALPHA=オプションにより定義されます。デフォルトはALPHA=0.05で、オッズ比に関して95%の信頼限界を生成します。4つのセル度数のいずれかがゼロである場合、vは定義されず、Wald信頼限界は計算されません。詳細は、Agresti (2013, p. 70)を参照してください。

Wald Modified信頼限界 FREQプロシジャは、オッズ比のWald Modified信頼限界(Haldane 1955)を計算する場合に、 を、推定量ORおよび分散v内の で置き換えます。

2 2×

100 1 a 2⁄–( ) α

nijnij 0.5+( )

Page 188: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

184 第 3章 : FREQプロシジャ

Wald Modified信頼限界は次のように計算されます。

zは、標準正規分布の 番目のパーセント点です。詳細については、Fleiss, Levin, and Paik(2003)およびAgresti (2013)を参照してください。

スコア信頼限界オッズ比のスコア信頼限界(Miettinen and Nurminen 1985)は、オッズ比のスコア検定を反転することにより計算されます。オッズ比 がに等しいという帰無仮説に対するスコアに基づくカイ2乗検定統計量は、次のように表されます。

ここで、 は観測された行1のリスク( /n1.)であり、 および は、オッズ比( / )が であるという制限の下での行1と行2のリスクの最尤推定値です。詳細は、Miettinen and Nurminen (1985)およびMiettinen (1985, chapter 14)を参照してください。

オッズ比の %のスコア信頼区間は、検定統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、自由度が1であるカイ2乗分布の 番目のパーセント点です。スコア信頼限界の詳細は、Agresti (2013)を参照してください。

デフォルトで、スコア信頼限界には、 の分母のバイアス補正因子 が含まれます(Miettinen andNurminen 1985, p. 217)。CL=SCORE(CORRECT=NO)オプションを指定すると、FREQプロシジャは、計算にこの因子を含めません。

オッズ比が であるという制約を受けた、 および の最尤推定値は、次のように計算されます。

ここで、

詳細は、Miettinen and Nurminen (1985, pp. 217-218)およびMiettinen (1985, chapter 14)を参照してください。

尤度比信頼限界 オッズ比の尤度比(プロファイル尤度)信頼限界は、尤度比検定を反転することにより計算されます。オッズ比 がに等しい帰無仮説の尤度比検定統計量は、次のように表されます。

100 1 a 2⁄–( )

θ

P1ˆ n11 P1 P2 n11n22 n12n21 θ

100 1 α–( ) Q θ( ) θ

X1 α,2 100 1 α–( )

Q θ( ) n n 1–( )⁄

θ p1 p2

θ

Page 189: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 185

ここで、 は観測された行 iのリスク( /n1.)であり、 は、オッズ比が であるという制限の下での行iのリスクの最尤推定値です。最尤推定値の計算については、このセクション内の「スコア信頼限界」サブセクションを参照してください。詳細は、Agresti(2013)、Miettinen and Nurminen (1985)およびMiettinen (1985,chapter 14)を参照してください。

オッズ比の %の信頼区間は、検定統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、自由度が1であるカイ2乗分布の 番目のパーセント点です。

正確な信頼限界FREQプロシジャは、オッズ比の正確な信頼限界を計算する場合、非心度超幾何分布に基づく2つの個々の片側(等尾部)検定を反転します。この場合、分布は 、表の観測された周辺合計によって条件付けられます。正確な信頼 限界 およびは、方程式の解です。

ここで、

詳細については、Fleiss, Levin, and Paik (2003)、Thomas (1971)およびGart (1971)を参照してください。

これは離散的な問題であるため、正確な信頼区間の信頼係数は、厳密には ではなく最小で となります。このため、これらの信頼限界は保守的となります。詳細は、Agresti (1992)を参照してください。

オッズ比がゼロである場合(これは または の場合に起こる)、FREQプロシジャは、下側の正確な信頼限界をゼロに設定し、水準 ( ではなく)を使用して上側限界を決定します。同様に、オッズ比が無限大である場合(これは または の場合に起こる)、FREQプロシジャは、上側の正確な信頼限界を無限大に設定し、水準 を使用して下側限界を決定します。

正確なmid-p信頼限界FREQプロシジャは、オッズ比の正確なmid-p信頼限界を計算する場合、mid-pの尾部領域を含む2つの片側超幾何検定を反転します。mid-p手法では、観測された表の確率が、超幾何確率合計におけるその確率の半分に置き換えられます。詳細は、「正確な信頼限界」のセクションを参照してください。正確なmid-p信頼限 界お よびは、方程式の解です。

ここで、

Pi n11 Pi θ

100 1 α–( ) G2 θ( ) θ

X1 α,2 100 1 α–( )

2 2×φ1 φ2

1 α–( ) 1 α–( )

n11 0= n22 0=a a 2⁄

n12 0= n22 0=a

φ1 φ2

Page 190: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

186 第 3章 : FREQプロシジャ

詳細は、Agresti (2013)を参照してください。

同様に、オッズ比が無限大である場合(これは または の場合に起こる)、FREQプロシジャは、上側の正確な信頼限界を無限大に設定し、水準 を使用して下側限界を決定します。

相対リスク相対リスクは、説明変数の有無に基づいて2つの標本を特定するようなコーホート(前向き)研究デザインで役立ちます。この研究では、2つの標本が2値(yes/no)の応答変数に対してこれから観測されます。相対リスクは、2変数を同時に観測するクロスセクション研究でも役立ちます。詳細については、Stokes, Davis, andKoch (2012)およびAgresti (2007)を参照してください。

相対リスクは、 表内の行2リスクに対する行1リスクの比率になります。行1の列1リスクは、列1に分類される行1オブザベーションの比率であり、次の式で表されます。

同様に、行2の列1リスクは次のように表されます。

列1の相対リスクは次のように計算されます。

相対リスクが1より大きい場合、行1の肯定応答の確率が行2よりも大きいことを意味します。同様に、相対リスクが1より小さい場合、行1の肯定応答の確率が行2よりも小さいことを意味します。連関性の強度は、1からの偏差で増加します。

相対リスクの信頼限界 FREQプロシジャが提供する相対リスクの信頼限界の種類としては、正確な条件なしの信頼限界、尤度比信頼限界、スコア信頼限界、Wald信頼限界、Wald modified信頼限界があります。

Wald信頼限界漸近Wald信頼限界は、相対リスクの対数変換に基づきます。FREQプロシジャは、列1の相対リスクのWald信頼限界を次のように計算します。

ここで、 は相対リスク( )の観測値です。

zは、標準正規分布の 番目のパーセント点です。信頼水準 は、TABLESテートメントのALPHA=オプションにより決定されます。この値はデフォルトで0.05であり、95%の信頼限界を作成します。セル度数n11またはn12のいずれかがゼロである場合、vは定義されず、Wald信頼限界は計算されません。

FREQプロシジャは、列2の相対リスクの信頼限界を同じ方法で計算します。

Wald Modified信頼限界 FREQプロシジャは、相対リスクのWald Modified信頼限界(Haldane 1955)を計算する場合に、nijを (nij + 0.5)で置き換え、ni.を推定量Rと分散v内の (ni. + 0.5)で置き換えます。

n11 0= n22 0=a

2 2×

r

α

Page 191: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 187

信頼限界は次のように計算されます。

zは、標準正規分布の 番目のパーセント点です。詳細については、Fleiss, Levin, and Paik(2003)およびAgresti (2013)を参照してください。

スコア信頼限界 スコア信頼限界(Miettinen and Nurminen, 1985; Farrington and Manning, 1990)は、相対リスクのスコア検定を反転することにより計算されます。 相対リスクがr0に等しいという帰無仮説に対するスコアに基づくカイ2乗検定統計量は、次のように表されます。

ここで、 と はそれぞれ、観測された行1と行2のリスク(比率)です。

ここで、 および はそれぞれ、相対リスクが に等しいという帰無仮説の下での および の最尤推定値です。詳細は、Miettinen and Nurminen (1985)およびMiettinen (1985, chapter 13)を参照してください。

相対リスクの %のスコア信頼区間は、検定統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、自由度が1であるカイ2乗分布の 番目のパーセント点です。詳細は、Agresti(2013)を参照してください。

デフォルトで、スコア信頼限界には、 の分母のバイアス補正因子 が含まれます(Miettinen andNurminen 1985, p. 217)。CL=SCORE(CORRECT=NO)オプションを指定すると、FREQプロシジャは、計算にこの因子を含めません。

相対リスクが であるという制約を受けた、 および の最尤推定値は、次のように計算されます。

ここで、

詳細は、Farrington and Manning (1990, p. 1454)およびMiettinen and Nurminen (1985, p. 217)を参照してください。

100 1 α 2⁄–( )

P1ˆ P2ˆ

p1 p2 r0 p1 p2

100 1 α–( ) Q r0( ) r0

X1 α,2 100 1 α–( )

Q r0( ) n n 1–( )⁄

r0 p1 p2

Page 192: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

188 第 3章 : FREQプロシジャ

尤度比信頼限界 相対リスクの尤度比(プロファイル尤度)信頼限界は、尤度比検定を反転することにより計算されます。相対リスク比 がに等しい帰無仮説の尤度比検定統計量は、次のように表されます。

ここで、 は観測された行iのリスク( /ni.)であり、 は、相対リスクが であるという制限の下での行iのリスクの最尤推定値です。最尤推定値 および の式については、このセクション内の「スコア信頼限界」サブセクションを参照してください。詳細は、Miettinen and Nurminen (1985)およびMiettinen (1985,chapter 13)を参照してください。

相対リスクの %の信頼区間は、検定統計量 が選択域に入る、 のすべての値により構成されます。

ここで、 は、自由度が1であるカイ2乗分布の 番目のパーセント点です。

正確な条件なしの信頼限界 FREQプロシジャは、2つの個々の片側検定(裾を用いる手法)を反転することにより、相対リスクに関する正確な条件なしの信頼限界を計算します。各検定のサイズは最大 であり、信頼係数は最低 でもになります。正確な条件付き方式(セクション「正確な統計量」(208ページ)を参照)は、撹乱パラメータが存在するため、相対リスクには適用できません(Agresti, 1992)。条件なしの 手法(表の行マージンのみを固定するもの)では、すべての可能な値に関してp値を最大化することで、撹乱パラメータを廃止しています(Santner and Snell, 1980)。この計算方法については、「リスク差の信頼限界」(172ページ)セクション内のサブセクション「正確な条件なしの信頼限界」を参照してください。

デフォルトでは、FREQプロシジャは、信頼限界の計算における検定統計量として、標準化されていない相対リスクを使用します。ゼロの表セルが存在する場合でも同統計量が定義されることを保証するために、FREQプロシジャは、次のような標準化されていない相対リスクの形式を使用します。これは、セルと行の度数に対して0.05を加算するものです(Gart and Nam 1988)。

詳細は、このセクション内のサブセクション「Wald Modified信頼限界」を参照してください。

RELRISK(METHOD=SCORE)オプションを指定すると、FREQプロシジャは、信頼限界を計算するために、相対リスクのスコア統計量を検定統計量として使用します(Chan and Zhang, 1999)。スコア統計量は標準化されていない相対リスクよりも離散的でない統計量であるため、より保守的でない信頼限界を生成します(Agresti and Min, 2001)。詳細については、Santner et al.(2007)を参照してください。

相対リスクのスコア統計量(Miettinen and Nurminen 1985; Farrington and Manning 1990)は、次のように計算されます。

ここで、

r0

Pi ni1 pi r0

p1 p2

100 1 α–( ) G2r0( ) r0

X1 α,2 100 1 α–( )

a 2⁄ 1 a–

2 2×

Page 193: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 189

ここで、 および は、相対リスクが に等しいという制限の下での および の最尤推定値です。最尤推定値 および の式については、このセクション内の「スコア信頼限界」サブセクションを参照してください。詳細は、Farrington and Manning (1990, p. 1454)およびMiettinen and Nurminen (1985, p. 217)を参照してください。

相対リスク検定 FREQプロシジャは、相対リスクの等価性、非劣性、優越性、同等性に関する検定を提供します。分析手法としては、Wald(対数変換ベース)、Wald modified、スコア、尤度比が使用できます。検定方法を指定するには、METHOD= relrisk-optionオプションを使用します。デフォルトでは、FREQプロシジャはWald検定を提供します。

等価性検定 相対リスクに関する等価性検定は次のように表されます。

対立仮説は次のようになります。

ここで、 は相対リスク(列1または列2の)を表し、 はヌル値を表します。ヌル値を指定するには、EQUAL(NULL=) relrisk-optionオプションを使用します。デフォルトではヌル値は1になります。

検定統計量は、ユーザーが指定した方法を使用して計算されます。デフォルトでは、FREQプロシジャはWald検定を使用します。検定統計量の計算に関する詳細は、このセクション内のサブセクション 「Wald検定」、 「Wald Modified検定」、「Farrington-Manning(スコア)検定」、および「尤度比検定」を参照してください。

Wald手法およびスコア手法では、検定統計量zは、帰無仮説の下で標準正規分布に従います。尤度比検定では、検定統計量 は、帰無仮説の下で自由度が1のカイ2乗分布に従います。

検定統計量zがゼロより大きい場合、FREQプロシジャは、右側のp値を表示します。これは、帰無仮説の下でより大きい値が発生する確率を表します。片側のp値は次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値は、 として計算されます。

非劣性検定

相対リスクに関する非劣性検定は、次のように表されます。

対立仮説は次のようになります。

ここで、 は相対リスク(列1または列2の)を表し、 は非劣性マージン(限界)を表します。マージンを指定するには、MARGIN= relrisk-optionオプションを使用します。デフォルトでは非劣性マージンは0.8になります。相対リスクの非劣性マージンは、1未満でなければなりません。帰無仮説の棄却は、行1のリスクが行2のリスクに対して劣性でないことを示します。詳細は、Chow, Shao, and Wang (2008)を参照してください。

p1 p2 r0p1 p1

p1 p2

R p1 p2⁄= r0

G2

P2 2 P1×=

R p1 p2⁄= δ

Page 194: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

190 第 3章 : FREQプロシジャ

検定統計量は、ユーザーが指定した方法を使用して計算されます。検定統計量の計算に関する詳細は、このセクション内のサブセクション 「Wald検定」、「Wald Modified検定」、「Farrington-Manning(スコア)検定」、および「尤度比検定」を参照してください。検定統計量zは、非劣性マージン(限界)を相対リスクのヌル値として使用することにより計算されます。帰無仮説の下では、検定統計量は標準正規分布に従います。非劣性検定のp値は、右側p値( である確率)になります。

非劣性の分析の一部として、FREQプロシジャは、相対リスクの信頼限界も提供します。信頼係数は%です(Schuirmann 1999)。信頼水準 は、TABLESテートメントのALPHA=オプションにより

定義されます。デフォルトではALPHA=0.05であり、90%の非劣性分析の信頼限界を生成します。この信頼限界を非劣性の限界値 と比較できます。

優越性の検定

相対リスクに関する優越性の検定は、次のように表されます。

対立仮説は次のようになります。

ここで、 は相対リスク(列1または列2の)を表し、 は優越性マージン(限界)を表します。マージンを指定するには、MARGIN= relrisk-optionオプションを使用します。デフォルトでは優越性マージンは1.25になります。相対リスクの優越性マージンは、1より大きい数でなければなりません。帰無仮説の棄却は、行1のリスクが行2のリスクに対して優越していることを示します。詳細は、Chow, Shao, and Wang(2008)を参照してください。

検定統計量zは、優越性マージン(限界)を相対リスクのヌル値として使用することにより計算されます。帰無仮説の下では、検定統計量は標準正規分布に従います。優越性検定のp値は、右側p値( である確率)になります。

優越性分析の計算は、非劣性分析の計算と同じになります。計算式については、このセクション内のサブセクション「非劣性検定」を参照してください。

同等性の検定 相対リスクに関する同等性の検定は、次のように表されます。

対立仮説は次のようになります。

ここで、 は下限マージン、 は上限マージンです。帰無仮説の棄却は、2つのリスクが等しいことを示します。詳細は、Chow, Shao, and Wang (2008)を参照してください。

マージンを指定するには、MARGIN= relrisk-optionオプションを使用します。デフォルトでは、下限マージンは0.8、上限マージンは1.25になります。単一のマージン値を指定すると、FREQプロシジャは、同等性の検定の下限マージンとしてその値を使用し、下限マージンの逆数として上限マージンを計算します。

FREQプロシジャは、同等性の分析で、2つの片側検定(TOST)を計算します(Schuirmann 1987)。この検定には、下限マージン の右側検定と、上限マージン の左側検定が含められます。下側の検定統計量では、下限マージンがヌルの相対リスク値として使用され、p値は右側の確率値となります( )。上側の検定統

Z z>

100 1 2α–( ) α

δ

R p1 p2⁄= δ

Z z>

δL δU

δL δUZ zL>

Page 195: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 191

計量では、上限マージンがヌルの相対リスク値として使用され、p値は左側の確率値となります( )。全体的なp値は、下側および上側の検定における2つのp値のうちの大きい方になります。

検定統計量は、ユーザーが指定した方法を使用して計算されます。検定統計量の計算に関する詳細は、このセクション内のサブセクション 「Wald検定」、 「Wald Modified検定」、 「Farrington-Manning(スコア)検定」、および「尤度比検定」を参照してください。

同等性の分析の一部として、FREQプロシジャは、相対リスクの信頼限界も提供します。信頼係数は%です(Schuirmann 1999)。信頼水準 は、TABLESテートメントのALPHA=オプションにより

定義されます。デフォルトではALPHA=0.05であり、90%の同等性分析の信頼限界を生成します。信頼限界を同等性の限界 と と比較できます。

Wald検定 Wald検定統計量(相対リスクの対数変換に基づくもの)は、 といて計算されます。ここで、 は相対リスク推定値( )、 は相対リスクのヌル値になります。

ヌル値は、検定の種類(等価性、非劣性、優越性、同等性のいずれか)と、ユーザーが指定したヌル値またはマージン値により決定されます。また、p値の側と検定の解釈も、検定の種類により決定されます。詳細については、このセクション内のサブセクション「等価性検定」、「非劣性検定」、「優越性の検定」、および「同等性の検定」を参照してください。

Wald Modified検定 Wald modified検定統計量を計算する場合、nijを で置き換え、 を相対リスクの推定量Rと分散v内の で置き換えます。検定統計量は、 として計算されます。ここで、r0は相対リスクのヌル値です。

ヌル値は、検定の種類(等価性、非劣性、優越性、同等性のいずれか)と、ユーザーが指定したヌル値またはマージン値により決定されます。また、p値の側と検定の解釈も、検定の種類により決定されます。詳細については、このセクション内のサブセクション「等価性検定」、「非劣性検定」、「優越性の検定」、および「同等性の検定」を参照してください。

Farrington-Manning(スコア )検定 ヌル値 の場合の相対リスクのスコア検定統計量(Miettinen and Nurminen 1985; Farrington and Manning1990)は次のように計算されます。

ここで、

ここで、 および は、ヌル値 の下での、 および の最尤推定値です。最尤推定値 および の式については、このセクション内の「スコア信頼限界」サブセクションを参照してください。

Z zU<

100 1 2α–( ) α

δL δU

r p1 p2ˆ⁄ r0

r0

p1 p2 r0 p1 p2p1 p2

Page 196: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

192 第 3章 : FREQプロシジャ

ヌル値は、検定の種類(等価性、非劣性、優越性、同等性のいずれか)と、ユーザーが指定したヌル値またはマージン値により決定されます。また、p値の側と検定の解釈も、検定の種類により決定されます。詳細については、このセクション内のサブセクション「等価性検定」、「非劣性検定」、「優越性の検定」、および「同等性の検定」を参照してください。

尤度比検定 ヌルの相対リスク値 の場合の尤度比検定統計量は次のように計算されます。

ここで、 および は、ヌル値 の下での、 および の最尤推定値です。最尤推定値 および の式については、このセクション内の「スコア信頼限界」サブセクションを参照してください。詳細は、Miettinen and Nurminen (1985)およびMiettinen (1985, chapter 13)を参照してください。

FREQプロシジャは、非劣性の検定、優越性の検定、同等性の検定での尤度比検定統計量 を として計算します。ここで、推定値がヌル値よりも大きい場合には符号は正になり( )、そうでない場合には符号は負になります( )。

ヌル値は、検定の種類(等価性、非劣性、優越性、同等性のいずれか)と、ユーザーが指定したヌル値またはマージン値により決定されます。また、p値の側と検定の解釈も、検定の種類により決定されます。詳細については、このセクション内のサブセクション「等価性検定」、「非劣性検定」、「優越性の検定」、および「同等性の検定」を参照してください。

Cochran-Armitageの傾向検定

TABLESステートメントでTRENDオプションを指定すると、Cochran-Armitageの傾向検定を実施できます。これは、単一要因または共変量の水準を通じて二項比率の傾向を検定します。この検定は、1つの変数が2つの水準を持ち、別の変数が順序変数であるような二元表に対して適用されます。2つの水準を持つ変数は応答変数を表し、別の変数は順序水準を持つ説明変数を表します。二元表が2つの列とR個の行を持つ場合、FREQプロシジャは、行変数のR個の水準を通じて傾向を検定します。この結果、二項比率が、最初の列におけるオブザベーションの比率として計算されます。表が2つの行とC個の列を持つ場合、FREQプロシジャは、列変数のC個の水準を通じて傾向を検定します。

この結果、二項比率が、最初の行におけるオブザベーションの比率として計算されます。傾向検定は、説明変数水準のスコアにおいて、二項比率の重み付き線形回帰の回帰係数に基づいています。詳細は、Margolin(1988)およびAgresti (2002)を参照してください。表が2つの列とR個の行を持つ場合、この傾向検定統計量は次のように計算されます。

ここで、 は行iのスコア、 はは平均の行スコアであり、次の式が成り立ちます。

TABLESステートメントのSCORES=オプションは、傾向検定(およびその他のスコアに基づく統計量)の計算に使用される行スコアの種類を指定します。デフォルトはSCORES=TABLEです。詳細は、「スコア」(147ページ)のセクションを参照してください。文字変数の場合、行変数の表スコアは行番号になります(すなわち、最初の行は1、2番目の行は2、という具合になります)。数値変数の場合、各行の表スコアは対応する行水準の数値になります。傾向検定を実施する場合、説明変数は数値(披験物質の用量など)となり、その変数

r0

p1 p2 r0 p1 p2p1 p2

z r0( ) G2 r0( )r r0≥

r r0<

Ri R

Page 197: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 193

値は対応するスコアになります。説明変数が数値でない順序水準を持つ場合、その変数水準に対して有意なスコアを割り当てる必要があります。場合によっては、文字変数の表スコアのように、等間隔のスコアが適していることがあります。傾向検定におけるスコアの選択に関する詳細は、Margolin (1988)を参照してください。

Cochran-Armitage検定の帰無仮説は傾向がないことであり、これは二項比率 が説明変数のすべての水準で同じであることを意味します。帰無仮説の下では、傾向統計量は漸近標準正規分布に従います。

FREQプロシジャは、傾向検定の片側および両側のp値を計算します。検定統計量がその帰無仮説の期待値0よりも大きい場合、FREQプロシジャは右側p値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側p値は、傾向の比率が行1から行Rへと上昇するという対立仮説を支持します。この検定統計量がゼロ以下である場合、FREQプロシジャは、左側p値を計算します。小さい左側p値は、傾向が減少するという対立仮説を支持します。

傾向検定の片側p値は次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値は次のように計算されます。

FREQプロシジャは、Cochran-Armitage傾向検定の正確なp値も計算します。この正確検定を要求するには、EXACTステートメントでTRENDオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

Jonckheere-Terpstraの検定

TABLESステートメントでJTオプションを指定すると、クラス間の順序付き差異のノンパラメトリック検定であるJonckheere-Terpstra検定を実施できます。これは、応答変数の分布がクラス間で変化しないという帰無仮説を検定するものです。この検定は、順序付きのクラス差異の対立仮説を検出します。この対立仮説は、少なくとも1つの厳密な不等式を持つ (または )として表されます。ここで、 はクラスiの効果を表します。このような順序付きの対立仮説の場合、Jonckheere-Terpstra検定の方が、Kruskal–Wallis検定(NPAR1WAYプロシジャのWILCOXONオプションにより実施されるもの)のような一般的なクラス差異の検定よりも適しています。Jonckheere-Terpstra検定に関する詳細は、Pirie(1983)およびHollander and Wolfe (1999)を参照してください。

Jonckheere-Terpstra検定は、順序列変数が応答を表すような二元表に適しています。行変数(名義変数または順序変数のいずれか)は分類変数を表します。行変数の2つの水準は、検定により検出させたい順序に従って順序付けされている必要があります。変数水準の順序は、PROC FREQステートメントのORDER=オプションにより指定されます。デフォルトではORDER=INTERNALであり、フォーマットされていない値により順序付けが行われます。ORDER=DATAを指定すると、FREQプロシジャは、入力データセットの順序に従って値を並べかえます。変数水準の順序付け方法に関する詳細は、ORDER=オプションの説明を参照してください。

Jonckheere-Terpstra検定統計量を計算するには、まず /2のMann-Whitneyカウントである を形成します。ここで、 であり、分割表内の行のペアの場合は次のように表されます。

ここで、 は、行i内の応答jです。Jonckheere-Terpstra検定統計量は次のように計算されます。

τi

R R 1–( ) Mi i',i i'<

Xi j,

Page 198: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

194 第 3章 : FREQプロシジャ

この検定は、Jの値が大きい場合にはクラス間で差異がないという帰無仮説を棄却します。Jonckheere-Terpstra検定の漸近p値は、標準化された検定統計量の分布に対する正規近似を使用することにより導かれます。標準化された検定統計量は次のように計算されます。

ここで、 および は、次の帰無仮説の下での検定統計量の期待値と分散になります。

ここで、

FREQプロシジャは、Jonckheere-Terpstra検定の片側および両側のp値を計算します。標準化された検定統計量がその帰無仮説の期待値0よりも大きい場合、FREQプロシジャは右側p値を表示します。これは、帰無仮説の下で統計量の大きな値が発生する確率になります。小さい右側p値は、行1から行Rへと順序が上昇するという対立仮説を支持します。この標準化された検定統計量が0以下である場合、FREQプロシジャは、左側p値を表示します。小さい左側p値は、行1から行Rへと順序が下降するという対立仮説を支持します。

Jonckheere-Terpstra検定の片側p値 は、次のように計算されます。

ここで、Zは標準正規分布に従います。両側のp値 は、次のように計算されます。

FREQプロシジャは、Jonckheere-Terpstra検定の正確なp値も計算します。この正確検定を要求するには、EXACTステートメントでJTオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

一致の検定と統計量

TABLESステートメントでAGREEオプションを指定すると、FREQプロシジャは、正方形の表(行数と列数が等しい表)の一致の検定と統計量を計算します。二元表の場合、これらの検定および統計量としては、

表に対するMcNemarの検定、Bowkerの対称性の検定、単純カッパ係数、重み付きカッパ係数が含まれます。複数の層がある場合(n元表、ここでn > 2)、FREQプロシジャは、全体的な単純カッパ係数および重

E0 J( ) Var0 J( )

P1

P2

2 2×

Page 199: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 195

み付きカッパ係数の計算に加えて、各層間の(単純および重み付き)カッパ係数の同等性の検定も行います。CochranのQは、各変数が2つの水準を持つ多元クロス表、すなわち 表に対して計算されます。

TABLESステートメントでAGREEオプションを指定すると、FREQプロシジャは、(単純および重み付き)カッパ係数、それらの漸近標準誤差、およびそれらの信頼限界を計算します。TESTステートメントでKAPPAオプションを指定すると、FREQプロシジャは、単純カッパ係数が0に等しいという帰無仮説の漸近的な検定を計算します。同様に、TESTステートメントでWTKAPオプションを指定すると、FREQプロシジャは、重み付きカッパ係数の漸近的な検定を計算します。

このセクションで説明されている漸近検定に加えて、FREQプロシジャは、McNemarの検定、単純カッパ係数の検定、重み付きカッパ係数の検定の正確なp値も計算します 。これらの正確検定を要求するには、EXACTステートメントで対応するオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

次のセクションでは、FREQプロシジャが各AGREE統計量の計算に使用する公式を示します。これらの統計量の解釈に関する詳細は、Agresti (2002, 2007)、Fleiss, Levin, and Paik (2003)、および各統計量の説明で示されているリファレンスを参照してください。

McNemarの検定AGREEオプションを指定すると、FREQプロシジャは、 表に対するMcNemarの検定(McNemar 1947)を計算します。この検定は、2値(yes/no式)応答を持つ一致したサブジェクトのペアからのデータを分析する場合に適しています。デフォルトでは、McNemarの検定の帰無仮説は周辺等質性になります。これは、p1. =p.1として表されます。これは、1の不一致の比率( )に等しくなります。対応する検定統計量は次のように計算されます。

帰無仮説の下では、 は自由度が1の漸近カイ2乗分布に従います。

オプションで、AGREE(MNULLRATIO=)オプションに不一致の比率としてヌル比率( )を指定できます。ヌル比率がrである場合、McNemarの検定は次のように計算されます。

ここで、 、 、および D は不一致の数 です。帰無仮説の下では、は自由度が1の漸近カイ2乗分布に従います。

EXACTステートメントでMCNEMオプションを指定すると、FREQプロシジャは、McNemarの検定の正確なp値も計算します。

Bowkerの対称性の検定Bowkerの対称性の検定では、セルの比率が対称であること、またはすべての表セルのペアで であることが帰無仮説となります。 表の場合、Bowkerの検定はMcNemarの検定と同じになるため、FREQプロシジャは、 より大きい正方形の表にはBowkerの検定を行います。

Bowkerの対称性の検定は次のように計算されます。

大きい標本の場合、 は、対称性の帰無仮説の下で自由度が /2の漸近カイ2乗分布に従います。詳細は、Bowker (1948)を参照してください。

h 2 2××

2 2×

p12 p21⁄

QM

p12 p21⁄

e12 D 1 1 r⁄+( )⁄= e12 D 1 r+( )⁄= n12 n21+( )QM r( )

pij pji=2 2×

2 2×

QB R R 1–( )

Page 200: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

196 第 3章 : FREQプロシジャ

単純カッパ係数単純カッパ係数とは、Cohen (1960)により導入された判定者間一致の統計量です。FREQプロシジャは、単純カッパ係数を次のように計算します。

ここで、 および です。2つの応答変数が、n個のサブジェクトに関する2つの独立した判定として認識される場合、それらの判定間に完全な一致が存在するならば、カッパ係数は+1に等しくなります。観測された一致が偶然に一致する確率を超えている場合、カッパ係数は正数になり、その大きさは一致の強度を反映します。実際にはあまり起こりませんが、観測された一致が偶然に一致する確率よりも低い場合、カッパ係数は負数になります。カッパ係数の最小値は、周辺比率に応じて–1から0までの間になります。

単純カッパ係数の漸近分散は次のように計算されます。

ここで、

詳細については、Fleiss, Cohen, and Everitt (1969)を参照してください。

FREQプロシジャは、単純カッパ係数の信頼限界を次のように計算します。

ここで、 は、標準正規分布の 番目のパーセント点です。 の値は、ALPHA=オプションにより定義されます。この値はデフォルトで0.05であり、99%の信頼限界を生成します。

カッパ係数の漸近検定を計算する場合、FREQプロシジャは、標準化された検定統計量 を使用します。この統計量は、重み付きカッパ係数が0であるという帰無仮説の下で漸近標準正規分布に従います。標準化された検定統計量は次のように計算されます。

ここで、 は、帰無仮説の下でのカッパ係数の分散です。

詳細については、Fleiss, Levin, and Paik (2003)を参照してください。

FREQプロシジャは、単純カッパ係数の正確検定も提供します。この正確検定を要求するには、EXACTステートメントでKAPPAまたはAGREEオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

za 2⁄ 100 1 a 2⁄–( ) α

K∗

Var0 K( )

Page 201: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 197

重み付きカッパ係数重み付きカッパ係数は、単純カッパ係数の一般化であり、重みを使用してカテゴリ間の相対的差異を数値化します。 表の場合、重み付きカッパ係数は単純カッパ係数に等しくなります。FREQプロシジャは、

より大きい表の場合にのみ、重み付きカッパ係数を表示します。FREQプロシジャは、次のセクションで説明されているCicchetti-Allison重みまたはFleiss-Cohen重みのいずれかを使用して、列スコアからカッパ係数の重みを計算します。重み は、すべての で 、すべてのiで 、および .となるように構成されます。重み付きカッパ係数は次のように計算されます。

ここで、

重み付きカッパ係数の漸近分散は次のようになります。

ここで、

詳細については、Fleiss, Cohen, and Everitt (1969)を参照してください。

FREQプロシジャは、重み付きカッパ係数の信頼限界を次のように計算します。

ここで、 は、標準正規分布の 番目のパーセント点です。 の値は、ALPHA=オプションにより定義されます。この値はデフォルトで0.05であり、99%の信頼限界を生成します。

カッパ係数の漸近検定を計算する場合、FREQプロシジャは、標準化された検定統計量 を使用します。この統計量は、重み付きカッパ係数が0であるという帰無仮説の下で漸近標準正規分布に従います。標準化された検定統計量は次のように計算されます。

ここで、 は、帰無仮説の下での重み付きカッパ係数の分散です。

詳細については、Fleiss, Levin, and Paik (2003)を参照してください。

2 2×2 2×

wij i j≠ 0 wij 1< < wij 1= wij wji=

za 2⁄ 100 1 a 2⁄–( ) α

Var0 Kw( )

Page 202: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

198 第 3章 : FREQプロシジャ

FREQプロシジャは、重み付きカッパ係数の正確検定も提供します。この正確検定を要求するには、EXACTステートメントでWTKAPPAまたはAGREEオプションを指定します。詳細は、「正確な統計量」(208ページ)のセクションを参照してください。

重み FREQプロシジャは、列スコアと2つの利用可能な重みの種類のいずれかを使用して、カッパ係数の重みを計算します。列スコアは、TABLESステートメントのSCORES=オプションにより決定されます。2種類の利用可能な重みは、Cicchetti-Allisonの重みとFleiss-Cohenの重みになります。デフォルトでは、FREQプロシジャはCicchetti-Allisonの重みを使用します。AGREEオプションで(WT=FC)を指定すると、FREQプロシジャは、Fleiss-Cohenの重みを使用して重み付きカッパ係数を計算します。

FREQプロシジャは、Cicchetti-Allisonのカッパ係数重みを次のように計算します。

ここで、 は列iのスコア、Cははカテゴリ数または列数です。詳細については、Cicchetti and Allison(1971)を参照してください。

TABLESステートメントのSCORES=オプションは、カッパ係数の重み(およびその他のスコアに基づく統計量)の計算に使用される列スコアの種類を指定します。デフォルトはSCORES=TABLEです。詳細は、「スコア」(147ページ)のセクションを参照してください。数値変数の場合、表スコアは、変数水準の値となります。水準の類似度を反映するように、各水準に数値を割り当てることができます。たとえば、4つの水準があり、それらを類似度に基づいて順序付けるとします。これらに値 0、2、4、10 を割り当てると、Cicchetti-Allisonのカッパ係数重みは、 = 0.8、 = 0.6、 = 0、 = 0.8、 = 0.2、および =0.4のようになります。2つのカテゴリが存在する場合(すなわち、C = 2である場合)にのみ、重み付きカッパ係数は単純カッパ係数と同じになります。

TABLES ステートメントの AGREE オプションで (WT=FC) を指定すると、FREQ プロシジャは、Fleiss-Cohenのカッパ係数重みを次のように計算します。

詳細については、Fleiss and Cohen (1973)を参照してください。

先述の例では、Fleiss-Cohenのカッパ重みは、 = 0.96、 = 0.84、 = 0、 = 0.96、 = 0.36、および = 0.64のようになります。

全体的なカッパ係数複数の層が存在する場合、FREQプロシジャは、カッパ係数の層水準の推定値を組み合わせて、共通すると想定される値に対する全体のカッパ係数の推定値にします。q個の層が存在し、 により添え字付けされるものとします。また、 は の分散を表すものとします。全体的なカッパ係数の推定値は次のように計算されます。

詳細については、Fleiss, Levin, and Paik (2003)を参照してください。

FREQプロシジャは、同じ方法により、全体的な重み付きカッパ係数の推定値も計算します。

Ci

w12 w13 w14 w23 w24 w34

w12 w13 w14 w23 w24w34

h 1 2 … q, , ,=Var0 Khˆ( ) Kh

Page 203: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 199

カッパ係数が等しいかどうかの検定複数の層が存在する場合、次のようなカイ2乗統計量により、カッパ係数の層水準値が等しいかどうかを検定できます。

q個の層でカッパ係数が等しいという帰無仮説の下で、 は自由度がq–1の漸近カイ2乗分布に従います。詳細は、Fleiss, Levin, and Paik (2003)を参照してください。FREQプロシジャは、同じ方法により、重み付きカッパ係数が等しいかどうかの検定も行います。

CochranのQ検定CochranのQは、各変数が2つの水準を持つ多元クロス表、すなわち 表に対して計算されます。CochranのQ統計量は、1次元マージンの等質性の検定に使用されます。mが変数の数を、Nがサブジェクトの合計数を表すものとします。CochranのQ統計量は次のように計算されます。

ここで、 は変数jに関する肯定応答の数、Tはすべての変数に関する肯定応答の数、 はサブジェクトkに関する肯定応答の数です。この帰無仮説の下では、CochranのQは自由度がm–1の漸近カイ2乗分布に従います。詳細は、Cochran (1950)を参照してください。2つの2値応答変数(m=2)のみが存在する場合、CochranのQはMcNemar検定へと簡略化されます。複数の応答カテゴリが存在する場合、CATMODプロシジャの機能を繰り返し使用することで、周辺等質性に関する検定を実施できます。

重みがゼロの行と列を含む表AGREE統計量は、列数が行数に等しい正方形の表に対してのみ定義されます。正方形でない表の場合、FREQプロシジャはその表に関するAGREE統計量を計算しません。カッパ統計量の枠組みでは、2人の別々の評価者がn個のサブジェクトのそれぞれにレーティングを割り当てます。ここでは、どちらの評価者が使用可能なr個のレーティング水準をすべて使用しないと想定します。対応する表の行数がrで列数はr–1である場合、その表は正方形ではないため、この表に関してFREQプロシジャはAGREE統計量を計算しません。このような場合に正方形の表を作成するには、WEIGHTステートメントでZEROSオプションを指定します。これにより、重みがゼロのオブザベーションが分析に含められるようになります。評価者により使用されないレーティング水準を表すには、重みがゼロのオブザベーションを入力データセットに含めます。これにより、この入力データセットに、評価者とレーティングの可能な組み合わせごとに少なくとも1つのオブザベーションが含まれます。この入力データセットを使用する場合にZEROSオプションを指定すると、(すべての水準が実際には両方の評価者により割り当てられていない場合であっても)分析にはすべてのレーティング水準が含められます。結果として生成される表(評価者1×評価者2)は正方形の表であるため、AGREE統計量が計算されます。

詳細は、WEIGHTステートメントのZEROSオプションの説明を参照してください。デフォルトでは、FREQプロシジャは、重みがゼロのオブザベーションを処理しません。その理由は、これらのオブザベーションが合計度数に寄与しないため、および重みゼロの行または列を含んでいる表では連関性の検定や統計量の多くが定義されないためです。ただし、カッパ統計量は重みがゼロの行または列を含む表に対して定義されるため、ZEROSオプションを指定することで、重みがゼロのオブザベーションを入力し、カッパ係数の計算に必要となる表を構成できます。

Cochran-Mantel-Haenszel統計量

TABLESステートメントでCMHオプションを指定すると、多元表内の層変数に関する補正を行った上で、行変数と列変数間の関係の層別分析が行えます。たとえば、表要求がA*B*C*Dである場合、CMHオプショ

QK

2 2× … 2×

Tj Sk

Page 204: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

200 第 3章 : FREQプロシジャ

ンを指定すると、AとBに関する補正を行った上で、CとD間の関係の分析が行われます。層別分析は、AおよびBに対するパラメータ推定を強制せずに、それらに生じうる交絡的影響を補正する方法を提供します。

CMH分析はCochran-Mantel-Haenszel統計量を生成します。これには、相関統計量、ANOVA (行平均スコア)統計量、一般連関性統計量が含まれます。 表の場合、CMHオプションを指定すると、共通オッズ比と共通相対リスクに関するMantel-Haenszel推定値およびロジット推定値に加えて、オッズ比の等質性に関するBreslow-Day検定も計算されます。

層化された 表の場合、正確な統計量も提供されます。EXACTステートメントでEQORオプションを指定すると、FREQプロシジャは、オッズ比の等質性に対するZelenの正確検定を実施します。EXACTステートメントでCOMORオプションを指定すると、FREQプロシジャは、共通オッズ比に関する正確な信頼限界と、共通オッズ比が1に等しいかどうかの正確検定を計算します。

層の数をqで表し、 により層をインデックス付けします。各層には、行変数Xと列変数Yを持つ分割表が含まれています。表hの場合、行i列jのセル度数を で表し、行と列の周辺合計をそれぞれnhi. およびnh.jで、全体的な層の合計をnhで表します。

Cochran-Mantel-Haenszel統計量の公式は行列で表した方がより簡単に定義できるため、次のような表記を使用します。ベクトルは転置 でない限り、列ベクトルであると推定されます。

層は独立であり、かつ各層の周辺の合計は固定であるとします。帰無仮説 は、いずれの層におけるXおよびY間にも連関性が存在しないになります。モデルは、多重超幾何分布になります。これは、 の下で、度数の期待値および共分散行列がそれぞれ次のようになることを意味します。

ここで、

また、ここで、 はKronecker積を表し、 は主対角線上に の要素を含む対角行列です。

一般化されたCMH統計量(Landis, Heyman, and Koch 1978)は次のように定義されます。

ここで、

2 2×

2 2×

h 1 2 … q, , ,=nhij

′( )

H0H0

Page 205: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 201

また、ここで、

は、列スコア および行スコア に基づく固定された定数行列です。帰無仮説が真である場合、CMH統計量は、 の順位に等しい自由度を持つ漸近カイ2乗分布に従います。 が特異であることが判明した場合、FREQプロシジャはメッセージを表示し、CMH統計量の値に欠損値を設定します。

FREQプロシジャは、一般化されたCMH統計量の公式を、統計量ごとに異なる行スコアと列スコアを組み合わせて使用することにより、3つのCMH統計量を計算します。FREQプロシジャが計算するCMH統計量は、相関統計量、ANOVA (行平均スコア)統計量、一般連関性統計量です。これらの統計量を使用することで、連関性がないという帰無仮説を、各種の対立仮説に照らして検定できます。これらのCMH統計量の計算方法については、次の各セクションで説明します。

注意: CMH統計量は、一部の層の連関性のパターンが他の層により表示されるパターンの反対方向に存在する場合、連関性の検出力が低くなります。このため、有意でないCMH統計量は、連関性がないことか、または他のパターンよりも優勢となるために十分な強度や整合性を持つ連関性のパターンが存在しないことを示唆します。

相関統計量相関統計量は、Mantel and Haenszelにより一般化されたものであり、1つの自由度を持ち、Mantel-Haenszel統計量とも呼ばれます(Mantel and Haenszel 1959、Mantel 1963)。

相関統計量の対立仮説は、少なくとも1つの層におけるXとYの間に線形連関性が存在することになります。XまたはYのいずれかが順序(または区間)尺度でない場合、この統計量は無意味となります。

相関統計量を計算する場合、FREQプロシジャは、一般化されたCMH統計量の公式を、TABLESステートメントのSCORES=に指定された行スコアと列スコアと共に使用します。利用可能なスコアの種類の詳細は、「スコア」(147ページ)のセクションを参照してください。行スコアの行列 は次元 を持ち、列スコアの行列 は次元 を持ちます。

存在する層が1つだけの場合、このCMH統計量は となります。ここで、rはXとYの間のPearson相関係数です。ノンパラメトリックな (RANK または RIDIT) スコアが指定された場合、この統計量は

になります。ここで、 はXとYの間のSpearman順位相関係数です。複数の層が存在する場合、CMH統計量は層に関して調整済みの相関統計量になります。

ANOVA (行の平均スコア)統計量ANOVA統計量は、列変数Yが順序(または区間)尺度であり、Yの平均スコアが有意である場合にのみ利用できます。ANOVA統計量では、表の行ごとに平均スコアが計算されます。対立仮説は、少なくとも1つの層に関してR個の行の平均スコアが等しくないことになります。これは、同統計量がYのR分布間における位置の差異に影響を受けやすいことを意味します。

列スコアの行列 は次元 を持ちます。この列スコアはSCORES=オプションにより決定されます。

行スコアの行列 は次元 を持ちます。これはFREQプロシジャにより次のように生成されます。

1 R×1 C×

n 1–( )r2

n 1–( )r2 rs

1 C×

R 1–( ) R×

Page 206: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

202 第 3章 : FREQプロシジャ

ここで、 は順位R - 1の恒等行列であり、 は恒等行列の ベクトルです。この行列は、R平均スコアに関するR – 1の独立対比の形成に関して影響を与えます。

1つの層のみが存在する場合、このCMH統計量は本質的に分散分析(ANOVA)統計量となります。これは、独立変数Yの一元ANOVAから導かれる分散比率F統計量の関数であることを意味します。この場合、ノンパラメトリックスコアを指定すると、ANOVA統計量はKruskal-Wallis検定になります。

複数の層が存在する場合、このCMH統計量は、層に関して調整済みのANOVAまたはKruskal-Wallis検定になります。各層の分割表内の行および列ごとにそれぞれ1つのサブジェクトが存在するという特殊なケースでは、このCMH統計量はFriedmanのカイ2乗統計量と同じになります。概要については例3.9を参照してください。

一般連関性統計量一般連関性統計量の対立仮説は、少なくとも1つの層において、XとYの間にある種の連関性が存在することになります。この統計量はXまたはYが順序尺度であることを必要としないため、常に解釈可能となります。

一般連関性統計量の場合、行列 は、ANOVA統計量で使用される行列と同じになります。同様に、行列は次のように定義されます。

FREQプロシジャは、両方のスコア行列を内部的に生成します。1つの層のみが存在する場合、一般連関性CMH統計量は /nになります。ここで、 はPearsonカイ2乗統計量です。複数の層が存在する場合、CMH統計量は層に関して調整済みのPearsonカイ2乗統計量になります。層を通じてカイ2乗統計量を合計することにより、同様の調整を実施できます。ただし、後者の統計量は、結果として生成される自由度がq(R–1)(C–1)のカイ2乗分布をサポートするために、各層で大きな標本サイズを必要とします。CMH統計量は、自由度として(R–1)(C–1)のみを持つため、全体的に大きな標本サイズのみを必要とします。

詳細は、Cochran (1954)、Mantel and Haenszel (1959)、Mantel (1963)、Birch (1965)、Landis,Heyman, and Koch (1978)を参照してください。

Mantel-Fleiss基準TABLESステートメントでCMH(MANTELFLEISS)オプションを指定すると、FREQプロシジャは、層化された 表のMantel-Fleiss基準を計算します。Mantel-Fleiss基準を使うことで、 表のMantel-Haenszel統計量の分布に対するカイ2乗近似の妥当性を評価できます。詳細については、Mantel andFleiss (1980)、Mantel and Haenszel (1959)、Stokes, Davis、Koch (2012)、Dmitrienko et al.(2005)を参照してください。

Mantel-Fleiss基準は次のように計算されます。

ここで、 は、表h内の行と列の間に連関性がないという帰無仮説の下での の期待値、 は表のセル度数が取りうる最小値、 は表のセル度数が取りうる最大値です。

R 1–( ) 1×

Qp n 1–( ) Qp

2 2× 2 2×

mh11 nh11 nh11( )Lnh11( )U

Page 207: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 203

Mantel-Fleissガイドラインは、基準値が少なくとも5である場合、Mantel-Haenszel近似を受け入れます。基準値が5未満である場合、FREQプロシジャは警告を表示します。

調整済みオッズ比と相対リスク推定値CMHオプションを指定すると、層化された 表に対する調整済みオッズ比と相対リスク推定値を計算できます。これらの統計量のそれぞれに関して、FREQプロシジャはMantel-Haenszel推定値とロジット推定値を計算します。これらの推定値は、行変数と列変数が両方とも2つの水準を持つ場合、TABLESステートメントにおけるn元表の要求に対して適用されます。

たとえば、表の要求A*B*C*Dで、行変数Cおよび列変数Dの両方が2つの水準を持つ場合、FREQプロシジャは、交絡変数AおよびBを補正した上でオッズ比と相対リスク推定値を計算します。

適切な統計量の選択は、研究デザインにより異なります。ケースコントロール(後向き)研究の場合、オッズ比が適しています。コーホート(前向き)研究またはクロスセクション研究の場合、相対リスクが適しています。これらの統計量に関する詳細は、「2 x 2表に対するオッズ比と相対リスク」(183ページ)のセクションを参照してください。

本セクション全体で、zは標準正規分布の 番目のパーセント点を表します。

オッズ比、ケースコントロール研究 FREQプロシジャは、層化された 表の共通オッズ比のMantel-Haenszel推定値およびロジット推定値を計算します。

Mantel-Haenszel推定量 

共通オッズ比のMantel-Haenszel推定値は次のように計算されます。

これは、分母が0でない限り必ず計算されます。詳細は、Mantel and Haenszel (1959)およびAgresti(2002)を参照してください。

共通オッズ比の信頼限界を計算する場合、FREQプロシジャは のRobins, Breslow, and Greenland(1986)の分散推定値を使用します。共通オッズ比の %の信頼限界は、次のように計算されます。

ここで、

Mantel-Haenszelのオッズ比推定量は、ロジット推定量に比べて、小さい に影響を受けにくくなります。

2 2×

100 1 a 2⁄–( )

2 2×

100 1 2α–( )

nh

Page 208: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

204 第 3章 : FREQプロシジャ

ロジット推定量 共通オッズ比の調整済みロジット推定値(Woolf, 1955)は、次のように計算されます。

対応する %の信頼限界は次のように計算されます。

ここで、 は層hのオッズ比であり、次の式が成り立ちます。

層hにおける任意の表のセル頻度が0である場合、FREQプロシジャはその層の各セルに0.5を加算した後、ロジット推定値の および を計算します(Haldane, 1955)。これが発生すると、このプロシジャは警告を表示します。

相対リスク、コーホート研究 FREQプロシジャは、層化された 表の共通相対リスクのMantel-Haenszel推定値およびロジット推定値を計算します。

Mantel-Haenszel推定量 列1の共通相対リスクのMantel-Haenszel推定値は次のように計算されます。

これは、分母が0でない限り必ず計算されます。詳細は、Mantel and Haenszel (1959)およびAgresti (2002)を参照してください。

共通相対リスクの信頼限界を計算する場合、FREQプロシジャは、 のGreenland and Robins(1985)の分散推定値を使用します。共通相対リスクの %の信頼限界は、次のように計算されます。

ここで、

ロジット推定量 列1の共通相対リスクの調整済みロジット推定値は次のように計算されます。

対応する %の信頼限界は次のように計算されます。

100 1 a 2⁄–( )

ORh

ORh wh

2 2×

RRMH( )log100 1 a 2⁄–( )

100 1 a 2⁄–( )

Page 209: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 205

ここで、 は層hの列1の相対リスク推定値であり、次の式が成り立ちます。

または が0である場合、FREQプロシジャはその層の各セルに0.5を加算した後、ロジット推定値のおよび を計算します。これが発生すると、このプロシジャは警告を表示します。詳細は、

Kleinbaum, Kupper, and Morgenstern (1982, Sections 17.4 and 17.5)を参照してください。

オッズ比の等質性に対するBreslow-Day検定CMHオプションを指定すると、FREQプロシジャは、層化された 表に対するBreslow-Day検定を計算します。これは、q個の層でオッズ比が等しいという帰無仮説を検定します。この帰無仮説が真である場合、この統計量は、自由度がq–1のカイ2乗分布に近似的に従います。詳細は、Breslow and Day (1980)およびAgresti(2007)を参照してください。

Breslow-Day統計量は次のように計算されます。

ここで、EおよびVarは、それぞれ期待値と分散を表します。合計には、合計度数がゼロの行または列を含む表は含まれません。 が0に等しいかまたは未定義の場合、FREQプロシジャはこの統計量を計算せずに、警告メッセージを表示します。

Breslow-Day検定が妥当であるためには、標本サイズが各層で相対的に大きくなければならず、しかも期待されるセルカウントの最低80%が5よりも大きいことが必要です。これは、 表に対するCochran-Mantel-Haenszel検定の要件よりもさらに厳密な標本サイズ要件です。この場合、(全体的な標本サイズではなく)各層の標本サイズが相対的に大きいことが必要となります。Breslow-Day検定が妥当である場合でも、特定の対立仮説に照らした場合はそれほど強力でないことがあります。詳細はBreslow and Day (1980)を参照してください。

BDTオプションを指定すると、FREQプロシジャは、Taroneの調整を伴うBreslow-Day検定を計算します。これは、調整因子を から差し引くことで、結果として生成される統計量が漸近カイ2乗分布に従うようにします。Breslow-Day-Tarone統計量は次のように計算されます。

詳細については、 Tarone (1985)、Jones et al.(1989)、Breslow (1996)を参照してください。

オッズ比の等質性に対するZelenの正確検定EXACTステートメントでEQORオプションを指定すると、FREQプロシジャは、層化された 表でのオッズ比の等質性に対するZelenの正確検定を実施します。Zelenの検定は、オッズ比の等質性に対するBreslow-Dayの漸近検定を正確にしたものです。Zelenの検定の参照集合には、観測された多元クロス表と同じ行、列、および層合計を持ち、かつ観測された表と同じセル(1,1)の度数の合計を持つ、すべての可能な

表が含まれます。この検定統計量は、固定マージンの条件付きの観測された の確率になります。これは、超幾何確率の積で表されます。

RRh

nh11 nh21RRh wh

2 2×

ORMH

q 2× 2×

QBD

2 2×

q 2× 2× q 2× 2×

Page 210: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

206 第 3章 : FREQプロシジャ

Zelenの検定の p値は、観測された表確率以下のすべての表確率の合計になります。ここで、この合計は、固定マージンにより決定された参照集合内にあるすべての表と、セル(1,1)の度数の観測された合計を通じて計算されます。この検定は、二元表に対するFisherの正確検定に類似しています。詳細は、Zelen (1971)、Hirji (2006)、Agresti (1992)を参照してください。FREQプロシジャは、多項式の乗算アルゴリズムを使用してZelenの正確検定を計算します。(1996)を参照してください。

共通オッズ比の正確な信頼限界EXACTステートメントでCOMORオプションを指定すると、FREQプロシジャは、層化された 表での共通オッズ比の正確な信頼限界を計算します。この計算では、すべての 表でオッズ比が一定であることを仮定します。正確な信頼限界は、 の分布から作成されます。この分布の条件は、 表の周辺合計です。

これは離散的な問題であるため、これらの正確な信頼限界の信頼係数は、厳密には ではなく最小でとなります。このため、これらの信頼限界は保守的となります。詳細は、Agresti (1992)を参照してく

ださい。

FREQプロシジャは、Vollset, Hirji, and Elashoff (1991)に基づくアルゴリズムを使用して、共通オッズ比の正確な信頼限界を計算します。詳細は、Mehta, Patel, and Gray (1985)も参照してください。

表hの周辺合計に応じて、ランダム変数 が表セル(1,1)の度数を表すようにします。行合計が .および .で、列合計が および である場合、 の上限と下限である および は次のようになります。

は超幾何係数を表します。

は共通オッズ比を表します。 の条件付き分布は次のようになります。

すべての 表の合計は であり、Sの上限および下限であるlおよびuは次のようになります。

合計Sの条件付き分布は次のようになります。

ここで、

は、q表でのセル(1,1)の度数の合計を表します。次の2つの方程式を繰り返し解くことにより、共通オッズ比の上側および下側の信頼限界である および を決定できます。

2 2×2 2×

2 2×

1 α–1 α–

2 2× Sh nh1nh2 nh 1⋅ nh 2⋅ Sh lh uh

Csh

φ Sh

2 2×

s0φ1 φ2

Page 211: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 207

観測された合計 が下限lに等しい場合、FREQプロシジャは、下側信頼限界を0に設定し、水準 により上側信頼限界を決定します。同様に、観測された合計 が上限uに等しい場合、FREQプロシジャは、上側信頼限界を無限大に設定し、水準 により下側信頼限界を決定します。

EXACTステートメントでCOMORオプションを指定すると、FREQプロシジャは、共通オッズ比が1に等しいという帰無仮説の下での正確検定も計算します。 を設定すると、帰無仮説の下での合計Sの条件付き分布は次のようになります。

この正確検定の点確率は、帰無仮説の下での観測された合計 の確率であり、これは層化された 表の周辺の条件に基づいて、 で表されます。帰無仮説の下でのSの期待値は次のようになります。

片側の正確なp値は、条件付き分布から または として計算されます。これは、観測された合計 が より大きいか小さいかに応じて決定されます。

FREQプロシジャは、この検定の両側のp値を、3つの異なる定義に従って計算します。両側のp値は、片側のp値を2倍したものとして計算されます。結果が1を超えた場合は1に設定されます。

また、両側のp値は、観測された合計 の点確率以下であるすべての確率の合計として計算されます。sのすべての取りうる値が合計されます。ここで、 です。

また、両側のp値は、片側のp値と分布の反対側の裾(期待値から等距離)にある対応する領域の合計としても計算されます。

s0 αs0

α

φ 1=

s0 2 2×P0 s0( )

s0 E0 S( )

s0l s u≤ ≤

Page 212: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

208 第 3章 : FREQプロシジャ

質的交互作用の Gail-Simon検定

TABLESステートメントでGAILSIMONオプションを指定すると、層化された 表に対する質的交互作用のGail-Simon検定を実施できます。詳細は、Gail and Simon (1985)、Silvapulle (2001)、Dimitrienkoet al.(2005)を参照してください。

Gail-Simon検定は、層化された 表内のリスク差に基づいています。ここで、リスク差は、行1のリスク(列1の比率)から行2のリスクを差し引いたものとして定義されます。詳細は、「リスクとリスク差」(171ページ)のセクションを参照してください。デフォルトでは、FREQプロシジャは、列1のリスクを使用してGail-Simon検定を計算します。GAILSIMON(COLUMN=2)オプションを指定するとFREQプロシジャは列2のリスクを使用します。

FREQプロシジャは、Gail and Simon (1985)で示されている次のような方法により、Gail-Simon検定を計算します。

ここで、 は表h内のリスク差、 はリスク差の標準誤差、 は ならば1であり、それ以外の場合は0になります。同様に、 は ならば1であり、それ以外の場合は0になります。q 表(層)は

により添え字付けされます。

Gail-Simon統計量のp値は次のように計算されます。

ここで、 (.)は自由度がhの累積カイ2乗分布関数であり、B(h;n,p)はパラメータnおよびpを持つ二項確率関数です。統計量 は、質的交互作用が存在しないという帰無仮説の下で検定を実施します。統計量 は、リスク差が正であるという帰無仮説の下で検定を実施します。 のp値が小さい場合、 リスク差が負であることを示します。同様に、 のp値が小さい場合、リスク差が正であることを示します。

正確な統計量

正確な統計量は、漸近仮定が満たされないために、漸近p値が真のp値の近い近似とならないような場合に役立ちます。標準漸近方式では、標本サイズが十分に大きい場合に検定統計量は特定の分布に従うという仮定を置きます。標本サイズが大きくない場合、漸近p値が正確なp値から大きく異なっているため、漸近結果が妥当でないことがあります。データの分布が疎である場合や片寄った分布である場合にも、漸近結果が信頼できないことがあります。詳細は、Agresti (2007)およびBishop, Fienberg, and Holland (1975)を参照してください。正確な計算は、Agresti (1992)により見直された、分割表に対する条件付き推定の統計理論に基づいています。

2 2×

2 2×

dh sh I dh 0>( ) dh 0>I dh 0>( ) dh 0> 2 2×

h 1 2 … q, , ,=

FhQ Q –

Q –Q +

Page 213: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 209

正確なp値の計算に加えて、FREQプロシジャは、モンテカルロシミュレーションによる正確なp値を推定するオプションを提供します。これは、正確な計算をするためには大量の時間とメモリが必要となるが、漸近近似では十分でないような大きな問題に役立ちます。

正確な統計量は、多くのFREQプロシジャの検定で利用できます。一元表の場合、FREQプロシジャは、二項比率検定およびカイ2乗適合度検定のp値を計算します。正確な(Clopper-Pearson)信頼限界は、二項比率で使用できます。二元表の場合、FREQプロシジャは、Pearsonのカイ2乗検定、尤度比カイ2乗検定、Mantel-Haenszelのカイ2乗検定、Fisherの正確検定、Jonckheere-Terpstra検定、およびCochran-Armitageの傾向検定に関するp値を計算します。また、FREQプロシジャは、次の統計量の検定に対しての正確なp値も計算します。Kendallのtau-b、Stuartの tau-c、Somersの 、Somersの 、Pearson相関係数、Spearman相関係数、単純カッパ係数、重み付きカッパ係数。 表の場合、FREQプロシジャは、McNemarの正確検定と、オッズ比の正確な信頼限界を計算します。FREQプロシジャは、比率(リスク)の差および相対リスクの正確な無条件の信頼限界も計算します。層化された 表の場合、FREQプロシジャは、オッズ比の等質性に対するZelenの正確検定、共通オッズ比の正確な信頼限界、共通オッズ比の正確検定を提供します。

次の各セクションでは、正確な計算のアルゴリズムの要約と、FREQプロシジャが計算する正確なp値の定義を示し、計算リソース要件やモンテカルロ推定オプションについて説明します。

計算アルゴリズムFREQプロシジャは、Mehta and Patel (1983)によって開発されたネットワークアルゴリズムを使用して、一般的な 表の正確なp値を計算します。非常に時間がかかる上に小さな問題にしか適さない直接的な列挙に比べて、このアルゴリズムには大きな利点があります。正確なp値の計算方法についてはAgresti (1992)を参照してください。ネットワークアルゴリズムの性能に関する詳細は、Mehta, Patel, and Tsiatis (1984)およびMehta, Patel, and Senchaudhuri (1991)を参照してください。

与えられた分割表の参照集合は、観測された行および列の周辺合計を含むすべての分割表の集合になります。この参照集合に対応して、ネットワークアルゴリズムは、複数のステージ内のノードから構成される指示された非環式ネットワークを形成します。ネットワークを通じたパスは、参照集合内にある1つの表に対応します。ノード間の距離は、ネットワークを通じたパスの合計距離が検定統計量の対応する値となるように定義されます。各ノードで、このアルゴリズムにより、同ノードを経由するすべてのパスに関して、最短および最長パス距離が計算されます。増加する行スコアおよび列スコアを乗じたセル度数の線形の組み合わせとして表される統計量の場合、FREQプロシジャは、Agresti, Mehta, and Patel (1990)のアルゴリズムを使用して最短および最長パス距離を計算します。それ以外の形式の統計量の場合、FREQプロシジャは、Valz and Thompson (1994)の手法に従うことで、最長パスの上限と最短パスの下限を計算します。

あるノードの最長および最短パス距離または上限下限を検定統計量の値と比較することにより、そのノードを通じたすべてのパスがp値に寄与するか、それともそのノードを通じたいかなるパスもp値に寄与しない、あるいはどちらの状態も起こらないのいずれかが決定されます。そのノードを通じたすべてのパスが寄与する場合、それに従ってp値がインクリメントされ、それらのパスは以降の分析から除外されます。いかなるパスも寄与しない場合、それらのパスは分析から除外されます。それ以外の場合、このアルゴリズムは、そのノードと関連するパスを処理し続けます。すべてのノードが説明された時点で、このアルゴリズムは完了します。

ネットワークアルゴリズムの適用において、FREQプロシジャは完全な数値精度を使用して、すべての統計量、行スコアと列スコア、および計算に関係するその他の数量を表します。アルゴリズムの速度とメモリ要件を改善するために丸めを使用することは可能ですが、その結果としてp値の精度が低下するため、FREQプロシジャは丸めを使用しません。

一元表の場合、FREQプロシジャは、Radlow and Alf (1975)の方法を使用して、正確なカイ2乗適合度検定を計算します。FREQプロシジャは、観測された合計標本サイズとカテゴリ数を持つすべての可能な一元表を生成します。個々の可能な表に関して、FREQプロシジャは、そのカイ2乗値を、観測された表の値と比較します。ある表のカイ2乗値が観測されたカイ2乗値以上である場合、FREQプロシジャは、そのテーブルの

D C R( ) D R C( )2 2×

2 2×

R C×

Page 214: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

210 第 3章 : FREQプロシジャ

確率だけ正確なp値をインクリメントします。この確率は、多元度数分布を使用することにより帰無仮説の下で計算されます。デフォルトでは、この帰無仮説は、すべてのカテゴリが等しい比率を持つことを主張します。TABLESステートメントでTESTP=またはTESTF=オプションを使用して帰無仮説の比率や度数を指定すると、FREQプロシジャは、その帰無仮説に基づいて正確なカイ2乗検定を計算します。

その他の正確な計算については、各統計量について説明したセクションを参照してください。二項比率の正確な信頼限界および検定の計算に関する詳細は、「二項比率」(163ページ)のセクションを参照してください。オッズ比の正確な信頼限界の計算に関する詳細は、「オッズ比の信頼限界」(183ページ)セクションの「正確な信頼限界」サブセクションを参照してください。その他の正確な計算については、「リスク差の信頼限界」(172ページ)セクション内のサブセクション「正確な条件なしの信頼限界」、「相対リスクの信頼限界」(186ページ)セクション内のサブセクション「正確な条件なしの信頼限界」、および「オッズ比の等質性に対するZelenの正確検定」(205ページ)セクション内のサブセクション「共通オッズ比の正確な信頼限界」(206ページ)を参照してください。

p値の定義FREQプロシジャにおける複数の検定では、検定統計量は非負であり、検定統計量の大きい値は帰無仮説からの逸脱を意味します。このような無方向性の検定には、Pearsonカイ2乗、尤度比カイ2乗、Mantel-Haenszelのカイ2乗、 より大きい表のFisherの正確検定、McNemarの検定、一元カイ2乗適合度検定などが含まれます。無方向性の検定の正確なp値は、観測された検定統計量の値以上の検定統計量を持つ表における確率の合計になります。

片側または両側の対立仮説の検定に適している検定は、上記以外にも存在します。たとえば、真のパラメータが0に等しい( )という帰無仮説を検定する場合、対立仮説は片側の( 、または )になるか、または両側の( )になります。このような検定には、Pearson相関係数、Spearman相関係数、Jonckheere-Terpstra検定、Cochran-Armitageの傾向検定、単純カッパ係数、重み付きカッパ係数などが含まれます。これらの検定の場合、FREQプロシジャは、検定統計量の観測値が期待値より大きいならば、右側のp値を表示します。右側のp値は、観測された検定統計量値以上の検定統計量を持つ表における確率の合計になります。それ以外の場合、観測された検定統計量が期待値以下であるならば、FREQプロシジャは左側のp値を表示します。左側のp値は、観測された検定統計量値以下の検定統計量を持つ表における確率の合計になります。片側のp値 は、次のように計算されます。

ここで、tは検定統計量の観測値、 は帰無仮説の下での検定統計量の期待値です。FREQプロシジャは、両側のp値を、片側のpの合計および分布の反対側の裾にある対応する領域(期待値から等距離にある領域)としても計算します。両側のp値 は次のように計算されます。

EXACTステートメントでPOINTオプションを指定すると、FREQプロシジャは正確検定の正確な点確率を提供します。正確な点確率とは、検定統計量が観測値と等しくなる正確な確率です。

EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは正確なmid-p値を提供します。正確なmid p値は、正確なp値から正確な点確率の半分を差し引いた値として定義されます。これは右側検定の と の平均に等しくなります。正確なmid p値は、未調整の正確なp値よりも小さくてより保守的ではありません。詳細は、Agresti (2013, section 1.1.4)およびHirji(2006, sections 2.5 and 2.11.1)を参照してください。

2 2×

T 0= T 0≤ T 0≥T 0≠

P1

P2

Page 215: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 211

計算リソースFREQプロシジャは、比較的高速かつ効率的なアルゴリズムを使用して、正確な計算を行います。これらの近年開発されたアルゴリズムを性能が改善されたコンピュータ上で使用することにより、以前は漸近方式のみが適用されていたデータセットに対して現在では正確検定が行えるようになりました。それにもかかわらず、コンピュータ上で利用可能な速度とメモリによっては、正確な計算を行うのに法外な量の時間とメモリを必要とする大きな問題は依然として存在しています。大きな問題の場合、正確検定が本当に必要であるかどうか、漸近方式を使うことにより大幅に少ない時間とメモリで正確な結果にきわめて近い結果を提供できるかどうかについて検討する必要があります。漸近検定がそのような大きな問題に妥当でない場合、正確なp値のモンテカルロ推定の使用を検討します。詳細は、「モンテカルロ推定」(211ページ)のセクションを参照してください。

特定の問題の正確なp値を計算するのにどれくらいの量の時間やメモリが必要となるかを事前に予測できるような公式は存在しません。必要となる時間やメモリは、実施する検定の種類、合計標本サイズ、行と列の数、表セル内へのオブザベーションの具体的な配列のような複数の要因により決定されます。一般的に、(合計標本サイズ、行数、列数などが)大きな問題ほど、より多くの時間とメモリを必要とする傾向があります。合計標本サイズが固定されている場合、行数や列数が増えるほど、必要となる時間とメモリが増加する傾向があります。これは、行数や列数の増加が、参照集合内の表の数に対応しているためです。さらに、標本サイズが固定されている場合、行および列の周辺合計の等質性が高くなるほど、必要となる時間とメモリが増加する傾向にあります。詳細は、Agresti, Mehta, and Patel (1990)およびGail and Mantel (1977)を参照してください。

FREQプロシジャが正確なp値を計算している時点で同計算を中止するには、システム中断のショートカットキー(使用しているシステムのSAS 使用の手引きを参照)を押した後、計算の中止を選択します。正確な計算が中止されると、FREQプロシジャは残りのタスクを完了します。同プロシジャは要求された出力を生成し、終了時間までに計算が完了しなかった正確なp値に対して欠損値を報告します。

また、EXACTステートメントでMAXTIME=オプションを指定すると、FREQプロシジャが正確な計算に使用する時間量を制限できます。MAXTIME=オプションには、FREQプロシジャが正確なp値の計算に使用できるクロック時間(秒)の最大値を指定します。FREQプロシジャが正確なp値の計算をこの時間内に完了できなかった場合、同プロシジャは計算を中止した後、その他の残りのタスクを完了します。

モンテカルロ推定EXACTステートメントでMCオプションを指定すると、FREQプロシジャは、正確なp値を直接計算する代わりに、正確なp値のモンテカルロ推定値を計算します。モンテカルロ推定値は、正確な計算をするためには大量の時間とメモリが必要となるが、漸近近似では十分でないような、大きな問題の場合に役立ちます。各モンテカルロ推定値の精度を記述する場合、FREQプロシジャは漸近標準誤差と %の信頼限界を提供します。EXACTステートメントのALPHA=オプションは信頼水準 を決定します。デフォルトはALPHA=0.01で、99パーセントの信頼限界を作成します。EXACTステートメントのN=nオプションは、FREQプロシジャがモンテカルロ推定に使用する標本数を指定します。デフォルトでは標本数は10000になります。nに大きい値を指定するほど、モンテカルロ推定値の精度を高めることができます。nの値が大きいほど、より多くの標本が生成されるため、計算時間は増加します。または、nに小さい値を指定することで、計算時間を短縮できます。

正確なp値のモンテカルロ推定値を計算する場合、FREQプロシジャは、観測された表と同じ合計標本サイズ、行合計、列合計を持つ表のランダムな標本を生成します。FREQプロシジャは、Agresti, Wackerly,and Boyett (1979)のアルゴリズムを使用します。このアルゴリズムは、表を表の超幾何確率に比例させて、周辺度数を条件として生成します。個々の標本表に関して、FREQプロシジャは検定統計量の値を計算し、その値を観測された表の値と比較します。右側のp値を推定する場合、FREQプロシジャは、観測された検定統計量以上の検定統計量を持つすべての標本表をカウントします。この結果、p値の推定値は、これらの表の数を標本化された表の合計数で割った値に等しくなります。

100 1 α–( )α

Page 216: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

212 第 3章 : FREQプロシジャ

FREQプロシジャは、左側および両側のp値の推定値を同様の方法で計算します。左側のp値の場合、FREQプロシジャは、個々の標本化された表の検定統計量が観測された検定統計量以下であるかどうかを評価します。両側のp値の場合、FREQプロシジャは、 の式(「p値の定義」(210ページ)セクションで示されているもの)に従って標本検定統計量を調べます。

変数Mは、N回の試行で成功確率がpである二項分布変数です。この結果、モンテカルロ推定値の漸近標準誤差は次のようになります。

FREQプロシジャは、p値の漸近信頼限界を次の式に従って構成します。

ここで、 は、標準正規分布の 番目のパーセント点であり、信頼水準 は、EXACTステートメントのALPHA= オプションにより決定されます。

モンテカルロ推定値 が0である場合、FREQプロシジャはp値の信頼限界を次のように計算します。

モンテカルロ推定値 が1に等しい場合、FREQプロシジャは信頼限界を次のように計算します。

計算リソース

表の要求における変数ごとに、FREQプロシジャはその変数のすべての水準をメモリ内に格納します。すべての変数が数値でありかつフォーマットされていない場合、1つの変数水準につき約84バイトのメモリが必要となります。文字変数またはフォーマットされていない数値変数が存在する場合、必要となるメモリは、フォーマットされた変数の長さにより決まり、フォーマットされた長さが大きいほどより多くのメモリが必要となります。各変数の水準数の上限は、使用している動作環境で保存可能な整数の最大値になります。

要求された任意の1つの集計表に関して、FREQプロシジャは、その表が0のセル度数を持つかどうかに関わらず、表全体をメモリ内に構築します。このため、変数A、B、Cがそれぞれ10個の水準を持つ場合、FREQプロシジャは、表の要求A*B*Cにおける変数水準を格納するために2520バイトを必要とします。この計算式は次のようになります。

3 variables * 10 levels/variable * 84 bytes/level

それに加えて、FREQプロシジャは、表のセル度数を格納するために8000バイトを必要とします。この計算式は次のようになります。

1000 cells * 8 bytes/cell

これは、オブザベーション数が10個しかない場合でも当てはまります。

P2

za 2⁄ 100 1 α 2⁄–( ) α

PMC

PMC

Page 217: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 213

変数が多くの水準を持つ場合や多くの多元クロス表が存在する場合、使用しているコンピュータでは表を構築するためのメモリが不足することがあります。FREQプロシジャによる表の構築中にメモリが枯渇した場合、同プロシジャは多くの水準を持つ変数に関しては水準の収集を停止し、その変数により使用されていたメモリを解放します。続いて、同プロシジャは、このような無効化された変数を含んでいない表を構築します。

表要求を実施するのに十分なメモリがなく、利用可能なメモリを増やすことが現実的でない場合には、要求する多元表や変数水準の数を減らしてください。層全体の統計量を計算するのにTABLESステートメントでCMHオプションやAGREEオプションを使用しない場合、多元クロス表の数を減らすには、SORTプロシジャを使用してデータセットを1つまたは複数の変数を基準に並べ替えるか、またはDATAステップを使って変数のインデックスを作成します。続いて、それらの並べ替えられた変数またはインデックス付けされた変数を、TABLESステートメントから削除し、それらの変数を使用するBYを指定します。また、PROCFREQステートメント内でFORMATステートメントを使用して水準数を減らすことによっても、必要となるメモリ量を削減できます。さらに、フォーマットされた変数の長さを縮小することによっても、変数の水準を格納するためのメモリ量を削減できます。出力形式の使用方法に関する詳細は、「出力形式を使用したグループ化」(142ページ)のセクションを参照してください。

出力データセット

FREQプロシジャは、その他の統計およびレポート作成プロシジャで使用できる、2種類の出力データセットを作成します。これらのデータセットを要求するには次のようにします。

• TABLESステートメントのOUT=オプションを指定します。これにより、度数表やクロス集計表のカウントやパーセンテージを含む出力データセットが作成されます。

• OUTPUTステートメントを指定します。これにより、統計量を含む出力データセットが作成されます。

FREQプロシジャは出力データセットを表示しません。出力データセットを表示するには、PRINTプロシジャ、REPORTプロシジャ、またはその他のSASレポート作成ツールを使用します。

これらの2種類のデータセットに加えて、ODS (Output Delivery System)を使用することで、任意のFREQプロシジャ出力の要素からSASデータセットを作成できます。詳細は、「ODSテーブル名」(223ページ)のセクションを参照してください。

TABLESステートメントの出力データセットの内容

TABLESステートメントのOUT=オプションは、最後の表の要求における変数値(または表セル)の組み合わせごとに1つのオブザベーションを含むSASデータセットを作成します。デフォルトでは、各オブザベーションには、特定の表セルの度数やパーセンテージが含まれます。入力データセットに欠損値が含まれている場合、出力データセットにも、欠損値の度数を持つオブザベーションが含まれます。出力データセットには次の変数が含まれます。

• BY変数 • 表要求変数。表要求 A*B*C*Dにおける A、B、C、Dに相当します。• COUNT。表セルの度数を含む変数です。• PERCENT。表セルのパーセンテージを含む変数です。

二元表または多元クロス表に対してTABLESステートメントでOUTEXPECTオプションを指定すると、出力データセットには期待度数も含められます。二元表または多元クロス表に対してOUTPCTオプションを指定すると、出力データセットには行、列、表のパーセンテージも含められます。追加される変数は次のとおりです。

• EXPECTED。期待度数を含む変数です。

Page 218: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

214 第 3章 : FREQプロシジャ

• PCT_TABL。n元表 (n > 2)の場合、二元表度数のパーセンテージを含む変数です。• PCT_ROW。行度数のパーセンテージを含む変数です。• PCT_COL。列度数のパーセンテージを含む変数です。

一元表に対してTABLESステートメントでOUTCUMオプションを指定すると、出力データセットには累積度数と累積パーセンテージも含められます。追加される変数は次のとおりです。

• CUM_FREQ。累積度数を含む変数です。• CUM_PCT。累積パーセンテージを含む変数です。

OUTCUMオプションは、二元表や多元クロス表には効果がありません。

次のPROC FREQステートメントは、度数とパーセンテージを含む出力データセットを作成します。 proc freq;

tables A A*B / out=D;

run;

出力データセットDには、行がAで列がBの表の度数とパーセンテージが含まれます。この表は、TABLESステートメントにリストされた最後の表要求に対応します。Aが2つの水準(1と2)を持ち、Bが3つの水準(1、2、3)を持ち、かつ0または欠損値の表セルが存在しない場合、出力データセットDには、6個のオブザベーション(AとBの各水準の組み合わせごとに1つのオブザベーション)が含まれます。最初のオブザベーションはA=1およびB=1に対応、2番目のオブザベーションはA=1およびB=2に対応、という具合になります。このデータセットには、変数COUNTおよびPERCENTが含まれます。COUNTの値は、AとBの水準の指定の組み合わせを含むオブザベーションの数になります。PERCENTの値は、そのAとBの組み合わせを含むオブザベーションの合計数になります。

FREQプロシジャが複数の変数値を同じフォーマットされた水準へと結合する場合、出力データセットには、フォーマットされた水準の最小内部値が含まれます。たとえば、変数Xが値1.1、1.4、1.7、2.1、2.3を持つとします。この場合、PROC FREQステートメント内で次のステートメントをサブミットすると、

format X 1.;

FREQプロシジャのステップではXの度数表にリストされるフォーマットされた水準は、1と2になります。度数カウントを含む出力データセットを作成すると、Xの水準の内部値は1.1と1.7になります。出力データセットを表示する場合にXの内部値を報告するには、Xの出力形式として3.1を使用します。

OUTPUTステートメントの出力データセットの内容

OUTPUTステートメントは、FREQプロシジャにより計算される統計量を含むSASデータセットを作成します。表3.7に、出力データセット内に保存可能な統計量を示します。含めたい統計量を特定するには、output-optionsを指定します。詳細は、OUTPUTステートメントの説明を参照してください。

複数のTABLES ステートメントを指定した場合や、TABLESステートメントで複数の表を要求した場合、OUTPUTデータセットの内容は最後のTABLESステートメントに対応します。

一元表または二元表の場合、出力データセットには、当該表に関して要求された統計量を格納する1つのオブザベーションが含められます。多元クロス表の場合、出力データセットには、多元クロス集計の二元表(層)ごとに1つのオブザベーションが含められます。多元クロス表で要約統計量を要求すると、出力データセットには、層全体の要約統計量を格納する1つのオブザベーションも含められます。BYステートメントを使用すると、出力データセットには、BYグループごとに1つのオブザベーション(一元表や二元表の場合)またはオブザベーションのセット(多元クロス表の場合)が含められます。

出力データセットには次の変数が含まれます。

Page 219: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 215

• BY変数 • 多元クロス表の層を識別する変数。表要求 A*B*C*Dにおける Aと Bに相当します。• 指定された統計量を含む変数

指定の推定値や検定統計量に加えて、出力データセットには、標準誤差、信頼限界、p値、自由度のような関連付けられている値も含められます。

FREQプロシジャで出力データセット内の統計量の変数名を作成するには、output-option名を下線で囲んで指定します。標準誤差、信頼限界、p値、自由度に対応する変数名を作成するには、output-option名を、関連する値を識別する接頭辞を組み合わせて指定します。表3.21に、これらの接頭辞とその説明を示します。

たとえば、 OUTPUTステートメントでPCHI output-optionを指定すると、出力データセットにはPearsonカイ2乗検定が含められます。Pearsonカイ2乗統計量、その自由度、p値の変数名は、それぞれ_PCHI_、DF_PCHI、P_PCHIになります。SAS/STAT 8.2よりも前に出力データセットに追加された変数については、接頭辞にoutput-option名を加えた長さが8文字を超える場合、FREQプロシジャにより変数名が8文字に切り捨てられます。

表 3.21 出力データセット変数名の接頭辞

接頭辞 説明

E_ 漸近標準誤差(ASE)

L_ 下側信頼限界

U_ 上側信頼限界

E0_ 帰無仮説ASE

Z_ 標準化された値

DF_ 自由度

P_ p値

P2_ 両側のp値

PL_ 左側のp値

PR_ 右側のp値

XP_ 正確なp値

XP2_ 正確な両側のp値

XPL_ 正確な左側のp値

XPR_ 正確な右側のp値

XPT_ 正確な点確率

XMP_ 正確なmid p値

XL_ 正確な下側信頼限界

XU_ 正確な上側信頼限界

Page 220: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

216 第 3章 : FREQプロシジャ

表示される出力

変数の水準数表

PROC FREQステートメントでNLEVELSオプションを指定すると、FREQプロシジャは"Number ofVariable Levels"という名前の表を表示します。この表には、TABLESステートメントで指定されたすべての変数の水準の数が示されます。FREQプロシジャは、変数水準の数を、フォーマットされた変数値から判定します。詳細は、「出力形式を使用したグループ化」(142ページ)のセクションを参照してください。Number of Variable Levels"には次の情報が含まれます。

• 変数名 • Levelsは、変数が持つ水準の総数です。 • Number of Nonmissing Levelsは、変数に欠損水準が存在する場合に表示されます。 • Number of Missing Levelsは、変数に欠損水準が存在する場合に表示されます。

一元度数表

FREQプロシジャは、TABLESステートメントでのすべての一元度数表要求に対して一元度数表を表示します。ただし、PROC FREQステートメントでNOPRINTオプションが指定された場合や、TABLESステートメントでNOPRINTオプションが指定された場合は除きます。単一変数の度数分布を示す一元表の場合、FREQプロシジャは変数名とその値を表示します。各変数または各水準に関して、FREQプロシジャは次の情報を表示します。

• Frequency countは、特定の水準におけるオブザベーションの数です。 • Test Frequency countは、CHISQオプションおよび TESTF=オプションを指定して、指定の度数のカイ 2乗適合性検定を要求した場合に表示されます。

• Percent は、総オブザベーション数に対するパーセンテージです。( この情報の表示を抑制するには、NOPERCENTオプションを指定します )

• Test Percent は、CHISQ オプションおよび TESTP= オプションを指定して、指定のパーセントのカイ 2乗適合性検定を要求した場合に表示されます。(この情報の表示を抑制するには、NOPERCENTオプションを指定します )

• Cumulative Frequency countは、表内での指定の水準とその上にリスト表示されるその他すべての水準における度数の合計です。最後の累積度数は、欠損値でないオブザベーションの総数になります。(この情報の表示を抑制するには、NOCUMオプションを指定します )

• Cumulative Percentは、表内での指定の水準とその上にリスト表示されるその他すべての水準における総オブザベーション数に対するパーセンテージです。( この情報の表示を抑制するには、NOCUMまたはNOPERCENTオプションを指定します )

一元表にはFrequency Missing(欠損値を含むオブザベーションの数)も表示されます。

一元度数表の統計量

一元表の場合、TABLESステートメントで2種類の統計オプションが使用できます。CHISQオプションはカイ2乗適合性検定を提供します。BINOMIALオプションは二項比率の統計量と検定を提供します。PROC FREQステートメントでNOPRINTオプションを指定しない限り、FREQプロシジャは次の情報を表示します。

• 一元表に対して CHISQ オプションを指定すると、FREQ プロシジャは、カイ 2 乗適合性検定を計算し、カイ 2 乗統計量、自由度 (DF)、確率値 (Pr > ChiSq) を表示します。EXACT ステートメントでCHISQオプションを指定すると、FREQプロシジャはその検定の正確な確率値も表示します。EXACTステートメントで POINT オプションを CHISQ オプションとともに指定すると、FREQ プロシジャ

Page 221: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 217

はその検定統計量の正確な点確率を表示します。EXACT ステートメントで MIDP オプションを指定すると、FREQプロシジャはカイ 2乗検定の正確なmid p値を表示します。

• 一元表に対して BINOMIALオプションを指定すると、FREQプロシジャは二項比率の推定値を表示します。これは、一元表にリストされている最初のクラスのオブザベーションの比率になります。また、FREQプロシジャは、漸近標準誤差 (ASE)や、漸近 (Wald)信頼限界および正確な (Clopper-Pearson)信頼限界もデフォルトで表示します。二項比率の検定の場合、FREQプロシジャは、帰無仮説の下での漸近標準誤差 (ASE Under H0)、標準化された検定統計量 (Z)、片側および両側の確率値を表示します。EXACTステートメントで BINOMIALオプションを指定すると、FREQプロシジャはその検定の正確な片側および両側の確率値も表示します。また、EXACT ステートメントで POINT オプションをBINOMIAL オプションとともに指定すると、FREQ プロシジャはその検定の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは二項比率の検定の正確なmid p値を表示します。

• BINOMIAL(CL=) オプションを指定して二項比率の信頼限界を要求すると、FREQ プロシジャは、要求された信頼限界の種類ごとに上側および下側の信頼限界を含む " 二項分布の信頼限界 " 表を表示します。Wald信頼限界および Clopper-Pearson (正確な )信頼限界に加えて、二項比率の信頼限界の種類としてAgresti-Coull、Blaker、Jeffreys、尤度比、ロジット、mid-p、Wilson (スコア )を要求できます。

• NONINFまたはSUP binomial-optionを指定して二項比率の非劣性の検定または二項比率の優越性の検定を要求すると、FREQプロシジャは、二項比率、検定ASE (H0または Sampleに基づく )、検定統計量 Z、p値、非劣性または優越性の限界、検定の信頼限界などの情報を含む非劣性の分析表または優越性の分析表を表示します。EXACTステートメントでBINOMIALオプションを指定すると、FREQプロシジャはその検定の正確な確率値と正確検定の信頼限界も表示します。

• EQUIV binomial-option を指定して二項比率の同等性の検定を要求すると、FREQ プロシジャは、二項比率と検定ASE (H0または Sampleに基づく )などの情報を含む同等性分析表を表示します。FREQプロシジャは、同等性の 2つの片側検定 (TOST)を表示します。また、FREQプロシジャは、同等性の限界と、検定に基づく信頼限界も表示します。EXACTステートメントで BINOMIALオプションを指定すると、FREQプロシジャは TOSTの正確な確率値と、正確検定に基づく信頼限界を提供します。

二元表と多元クロス表

FREQプロシジャは、TABLESステートメントにおけるすべての多元クロス表要求に対応する多元クロス表を表示します。ただし、PROC FREQステートメントでNOPRINTオプションが指定された場合や、TABLESステートメントでNOPRINTオプションが指定された場合は除きます。

二元から多元クロス集計表の場合、表要求における最後の変数の値がその表の列となります。最後から2番目の変数が、その表の行になります。また、その他の変数の各水準(または水準の組み合わせ)が層を構成します。

FREQプロシジャで多元クロス表を表示するには3つの方法があります。デフォルトでは、FREQプロシジャは多元クロス表を、その多元クロス表の各層に関して別々の二元クロス集計表として表示します。また、デフォルトでは、FREQプロシジャはこれらの二元クロス集計表を表セル形式で表示します。あるいは、CROSSLISTオプションを指定すると、FREQプロシジャは、これらの二元クロス集計表をODS列形式で表示します。これは、多元クロス集計表全体を1つの表として提示するものです。LISTオプションを指定すると、FREQプロシジャは、多元クロス表をリスト形式で表示します。

クロス集計表デフォルトでは、FREQプロシジャは二元クロス集計表を表セル形式で表示します。行変数値は、表の端に縦方向にリストされます。列変数値は、表の最上部に横方向にリストされます。

個々の行変数と列変数の水準の組み合わせにより、1つの表セルが形成されます。クロス集計表の各セルには、次の情報を含めることができます。

• Frequencyは、この表のセル内のオブザベーションの数です。(この情報の表示を抑制するには、NOFREQオプションを指定します )

Page 222: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

218 第 3章 : FREQプロシジャ

• 独立性の仮説の下での期待度数 (EXPECTEDオプションを指定した場合 )• 期待値からのセル度数偏差 (DEVIATIONオプションを指定した場合 )• Cell Chi-Squareは、セルごとの合計カイ 2乗統計量です。(CELLCHI2オプションを指定した場合 )• Tot Pct は、多元クロス表の合計度数に対するセルのパーセンテージです。(n 元表 (n > 2) に対して、

TOTPCTオプションを指定した場合 )• Percent は、合計 ( 二元表 ) 度数に対するセルのパーセンテージです。( この情報の表示を抑制するには、NOPERCENTオプションを指定します )

• Row Pctすなわち行パーセンテージは、行の合計度数に対するセルのパーセンテージです。(この情報の表示を抑制するには、NOROWオプションを指定します )

• Col Pct すなわち列パーセンテージは、列の合計度数に対するセルのパーセンテージです。( この情報の表示を抑制するには、NOCOLオプションを指定します )

• Cumulative Col%すなわち累積列パーセンテージ (CUMCOLオプションを指定した場合 )

この表にはFrequency Missing(欠損値を含むオブザベーションの数)も表示されます。

CROSSLIST表CROSSLISTオプションを指定すると、FREQプロシジャは二元クロス集計表をODS列形式で表示します。CROSSLISTの列形式は、デフォルトのクロス集計表のセル形式とは異なりますが、CROSSLIST表はデフォルトのクロス集計表と同じ情報(度数、パーセンテージ、その他の統計量)を提供します。

CROSSLISTの表形式では、行がスロス集計表のセルに、列が記述統計量(度数やパーセンテージなど)にそれぞれ対応します。各表セルを識別するには、そのTABLES行変数および列変数の水準の値と、各行変数水準内にリストされているすべての列変数を組み合わせて使用します。CROSSLIST表は、行合計、列合計、全体的な表合計も提供します。

CROSSLIST形式のクロス集計表には、FREQプロシジャは次の情報を表示します。 • 行変数名とその値 • 列変数名とその値 • Frequencyは、この表のセル内のオブザベーションの数です。(この情報の表示を抑制するには、

NOFREQオプションを指定します )• 独立性の仮説の下での期待セル度数 (EXPECTEDオプションを指定した場合 )• 期待値からのセル度数偏差 (DEVIATIONオプションを指定した場合 )• 標準化残差 (CROSSLIST(STDRES)オプションを指定した場合 )• Pearson残差 (CROSSLIST(PEARSONRES)オプションを指定した場合 )• Cell Chi-Squareは、セルごとの合計カイ 2乗統計量です。(CELLCHI2オプションを指定した場合 )• Total Percentは、多元クロス表の合計度数に対するセルのパーセンテージです。(n元表 (n > 2)に対して、TOTPCTオプションを指定した場合 )

• Percent は、合計 ( 二元表 ) 度数に対するセルのパーセンテージです。( この情報の表示を抑制するには、NOPERCENTオプションを指定します )

• Row Percentは、その行の合計度数に対するセルのパーセンテージです。(この情報の表示を抑制するには、NOROWオプションを指定します )

• Column Percentは、その列の合計度数に対するセルのパーセンテージです。(この情報の表示を抑制するには、NOCOLオプションを指定します )

この表にはFrequency Missing(欠損値を含むオブザベーションの数)も表示されます。

Page 223: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 219

LIST表TABLESステートメントでLISTオプションを指定すると、FREQプロシジャは多元クロス表をクロス集計表としてではなく、リスト形式で表示します。LISTオプションは、層ごとに独立した二元表を表示する代わりに、多元クロス表全体を1つの表として表示します。LISTオプションは、統計オプションと一緒には指定できません。デフォルトのクロス集計表の出力とは異なり、LIST出力は行パーセンテージ、列パーセンテージ、オプション情報(期待度数やセルカイ2乗統計量など)を表示しません。

リスト形式の多元クロス表には、FREQプロシジャは次の情報を表示します。 • 変数名とその値 • Frequencyは、特定水準内にあるオブザベーション (指定の変数値を持つもの )の数です。 • Percent は、総オブザベーション数に対するこの水準のパーセンテージです。( この情報の表示を抑制するには、NOPERCENTオプションを指定します )

• Cumulative Frequencyは、表内での指定の水準とその上にリスト表示されるその他すべての水準における累積度数です。表内の最後の累積度数は、欠損値でないオブザベーションの総数になります。(この情報の表示を抑制するには、NOCUMオプションを指定します )

• Cumulative Percentは、表内での指定の水準とその上にリスト表示されるその他すべての水準における累積パーセンテージです。(この情報の表示を抑制するには、NOCUMまたはNOPERCENTオプションを指定します )

この表にはFrequency Missing(欠損値を含むオブザベーションの数)も表示されます。

二元表と多元クロス表に表示される統計量

FREQプロシジャは、指定したステートメントやオプションに基づいて、クロス集計表に表示する統計検定や統計量を計算します。これらの結果を表示しないようにするには、PROC FREQステートメントでNOPRINTオプションを指定します。次に示す情報の場合、FREQプロシジャはSample SizeとFrequencyMissingも表示します。

• TABLES ステートメントで SCOROUT オプションを指定すると、FREQ プロシジャは、統計量の計算に使用する Row Scoresと Column Scoresを表示します。Row Scores表には、行変数値と各値に対応するスコアが表示されます。Column Scores表には、列変数値とスコアが表示されます。FREQプロシジャは、行スコアと列スコアの計算に使用されるスコアの種類も指定します。スコアの種類を指定するには、TABLESステートメントで SCORES=オプションを使用します。

• CHISQオプションを指定すると、FREQプロシジャは、各二元表に対する Pearsonカイ 2乗、尤度比カイ 2乗、連続性補正カイ 2乗 ( 表の場合 )、Mantel-Haenszelカイ 2乗、ファイ係数、一致係数、Cramér の V などの統計量を表示します。各検定統計量に関して、FREQ プロシジャは自由度(DF)と確率値 (Prob)も表示します。

• 表に対して CHISQオプションを指定すると、FREQプロシジャは Fisherの正確検定も表示します。この検定出力には、セル (1,1)の度数 (F)、正確な左側および右側の確率値、表の確率 (P)、および正確な両側確率値が含まれます。EXACTステートメントで POINTオプションを指定すると、FREQプロシジャは Fisherの正確検定の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは検定のMid p値を表示します。

• TABLESステートメントでFISHERオプション (またはEXACTステートメントでFISHERオプション )を指定すると、FREQプロシジャは より大きい表の Fisherの正確検定を表示します。この検定出力には、表の確率 (P)と確率値が含まれます。EXACTステートメントで POINTオプションを指定すると、FREQプロシジャは Fisherの正確検定の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは検定のMid p値を表示します。

• EXACT ステートメントで PCHI、LRCHI、MHCHI の各オプションを指定すると、FREQ プロシジャは各オプションに対応する正確検定 (Pearsonカイ 2乗、尤度比カイ 2乗、Mantel-Haenszelカイ 2 乗 ) を表示します。この検定出力には、検定統計量、自由度 (DF)、漸近確率値および正確な確率

2 2×

2 2×

2 2×

Page 224: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

220 第 3章 : FREQプロシジャ

値が含まれます。また、EXACT ステートメントで POINT オプションを指定すると、FREQ プロシジャは要求された正確検定ごとの点確率を表示します。EXACT ステートメントで MIDP オプションを指定すると、FREQプロシジャは検定ごとの正確なmid p値を表示します。EXACTステートメントで CHISQ オプションを指定すると、FREQ プロシジャはこれら 3 種類のカイ 2 乗検定すべてに関する正確な確率値も表示します。

• MEASURES オプションを指定すると、FREQ プロシジャは、各二元表の統計量 ( ガンマ、Kendallの Tau-b、Stuartの Tau-c、Somersの 、Somersの 、Pearson相関、Spearman相関、非対称ラムダ 、非対称ラムダ 、対称ラムダ、不確定係数 、不確定係数 、対称不確定係数 )とその漸近標準誤差 (ASE)を表示します。CLオプションを指定すると、FREQプロシジャはこれらの統計量の信頼限界も表示します。

• PLCORRオプションを指定すると、FREQプロシジャは、ポリコリック相関係数とその漸近標準誤差(ASE)を表示します。 表の場合、この統計量はテトラコリック相関として知られているため、表示出力のラベルにはその名前が付けられます。CLオプションを指定すると、FREQプロシジャはポリコリック相関の信頼限界も表示します。TEST ステートメントで PLCORR オプションを指定すると、FREQ プロシジャは、ポリコリック相関係数、漸近標準誤差 (ASE)、信頼限界を表示するほか、標準化された検定統計量 (Z)、片側および両側確率値、尤度比 (LR)カイ 2乗、および確率値 (Pr > ChiSq)を表示します。

• TESTステートメントで GAMMA、KENTB、STUTC、SMDCR、SMDRC、PCORR、SCORRの各オプションを指定すると、FREQプロシジャは各オプションに対応する統計量 (ガンマ、KendallのTau-b、Stuart の Tau-c、Somers の 、Somers の 、Pearson 相関、Spearman 相関 )の漸近検定を表示します。TESTステートメントでMEASURESオプションを指定すると、FREQプロシジャはこれらの漸近検定をすべて表示します。この検定出力には、統計量、その漸近標準誤差(ASE)、信頼限界、帰無仮説H0の下でのASE、標準化された検定統計量 (Z)、片側および両側確率値が含まれます。

• EXACTステートメントで KENTB、STUTC、SMDCR、SMDRC、PCORR、SCORRの各オプションを指定すると、FREQ プロシジャは各オプションに対応する連関性の統計量 (Kendall の Tau-b、Stuartの Tau-c、Somersの 、Somersの 、Pearson相関、Spearman相関 )の漸近検定および正確検定を表示します。この検定出力には、相関、その漸近標準誤差 (ASE)、信頼限界、帰無仮説H0の下でのASE、標準化された検定統計量 (Z)、漸近片側 /両側確率値および正確な片側 /両側確率値が含まれます。また、EXACT ステートメントで POINT オプションを指定すると、FREQ プロシジャは要求された正確検定ごとの点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは検定ごとの正確なMid p値を表示します。

• 表に対して RISKDIFFオプションを指定すると、FREQプロシジャは列 1および列 2のリスク推定値を表示します。各列に関して、FREQプロシジャは、行 1リスク、行 2リスク、合計リスク、リスク差を、それらの漸近標準誤差 (ASE)および漸近信頼限界と共に表示します。また、FREQプロシジャは、行 1リスク、行 2リスク、合計リスクの正確な信頼限界も表示します。EXACTステートメントでRISKDIFFオプションを指定すると、FREQプロシジャは、リスク差の正確な条件なしの信頼限界を計算します。この表を表示しないようにするには、RISKDIFF(NORISKS)オプションを指定します。

• 表に対して RISKDIFF(CL=)オプションを指定すると、FREQプロシジャは、要求された信頼限界の種類 (Agresti-Caffo、正確、Hauck-Anderson、Miettinen-Nurminen、Newcombe、Waldのいずれか )ごとに上側および下側の信頼限界を含む "Confidence Limits for the Proportion (Risk)Difference"表を表示します。

• 表に対してRISKDIFF(NONINF)オプションを指定すると、FREQプロシジャは"Noninferiority Analysis for the Proportion (Risk) Difference"表を表示します。この表には、比率差、検定ASE、標準検定統計量 Z、確率値 (Pr > Z)、非劣性の限界、および検定ベースの信頼限界が含まれています。

• 表に対して RISKDIFF(SUP)オプションを指定すると、FREQプロシジャは "Superiority Analysis for the Proportion (Risk) Difference"表を表示します。この表には、比率差、検定ASE、標準検定統計量 Z、確率値 (Pr > Z)、優越性の限界、および検定ベースの信頼限界が含まれています。

D C R( ) D R C( )C R( ) R C( ) C R( ) R C( )

2 2×

D C R( ) D R C( )

D C R( ) D R C( )

2 2×

2 2×

2 2×

2 2×

Page 225: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 221

• 表に対して RISKDIFF(EQUIV) オプションを指定すると、FREQ プロシジャは "EquivalenceAnalysis for the Proportion (Risk) Difference"表を表示します。この表には、比率差、検定ASE、同等性の限界、および検定ベースの信頼限界が含まれています。また、FREQ プロシジャは、"TwoOne-Sided Tests (TOST)"表も表示します。この表には、下側と上側の検定の検定統計量 (Z)と p値をはじめ、全体の p値が含まれています。

• 表に対して RISKDIFF(EQUAL) オプションを指定すると、FREQ プロシジャは "Proportion(Risk) Difference Test"表を表示します。この表には、比率差、検定ASE 、標準検定統計量 Z、片側の p値 (Pr > Zまたは Pr < Z)、および両側の p値 (Pr > Z)が含まれています。

• 表に対して MEASURES オプションまたは RELRISK オプションを指定すると、FREQ プロシジャは、"Odds Ratio and Relative Risks"表を表示します。この表には、統計量 (オッズ比、相対リスク (列 1)、および相対リスク (列 2))とその信頼限界が含まれています。EXACTステートメントでORオプションを指定すると、FREQプロシジャは "Exact Confidence Limits for the Odds Ratio"表を表示します。EXACT ステートメントで RELRISK オプションを指定すると、FREQ プロシジャは "Exact Confidence Limits for the Relative Risk"表を表示します。

• 表に対して OR(CL=) オプションを指定すると、FREQ プロシジャは "Confidence Limits forthe Odds Ratio" 表を表示します。この表には、要求された信頼限界の種類 ( 正確、Mid-p、尤度比、スコア、Wald、またはWald Modified)ごとに上側および下側の信頼限界が含まれています。

• 表に対して RELRISK(CL=)オプションを指定すると、FREQプロシジャは "Confidence Limitsfor the Relative Risk"表を表示します。この表には、要求された信頼限界の種類 (正確、尤度比、スコア、Wald、またはWald Modified)ごとに上側および下側の信頼限界が含まれています。

• 表に対して RELRISK(NONINF) オプションを指定すると、FREQ プロシジャは "NoninferiorityAnalysis for the Relative Risk" 表を表示します。この表には、相対リスク、標準検定統計量 Z、確率値 (Pr > Z)、非劣性の限界、および信頼限界が含まれています。

• 表に対して RELRISK(SUP) オプションを指定すると、FREQ プロシジャは "Superiority Analysisfor the Relative Risk" 表を表示します。この表には、相対リスク、標準検定統計量 Z、確率値 (Pr >Z)、優越性の限界、および信頼限界が含まれています。

• 表に対してRELRISK(EQUIV)オプションを指定すると、FREQプロシジャは"Equivalence Analysisfor the Relative Risk"表を表示します。この表には、相対リスク、同等性の限界、および信頼限界が含まれています。また、FREQプロシジャは、"Two One-Sided Tests (TOST)"表も表示します。この表には、下側と上側の検定の検定統計量 (Z)と p値をはじめ、全体の p値が含まれています。

• RELRISK(EQUAL)オプションを指定すると、FREQプロシジャは "Relative Risk Test"表を表示します。この表には、相対リスク、標準検定統計量 Z、片側の p値 (Pr > Zまたは Pr < Z)、および両側の p値 (Pr > Z)が含まれています。

• TRENDオプションを指定すると、FREQプロシジャは、 表または 表に対する Cochran-Armitageの傾向検定を表示します。この検定の場合、FREQプロシジャは統計量 (Z)と、片側確率値および両側確率値を表示します。EXACTステートメントで TRENDオプションを指定すると、FREQプロシジャはその検定の正確な片側および両側の確率値も表示します。EXACT ステートメントでPOINT オプションを TREND オプションとともに指定すると、FREQ プロシジャはその検定統計量の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは傾向検定の正確なMid p値を表示します。

• JTオプションを指定すると、FREQプロシジャは Jonckheere-Terpstra検定を表示します。表示される情報には、統計量 (JT)、標準化された検定統計量 (Z)、片側および両側の確率値が含まれます。EXACTステートメントで JTオプションを指定すると、FREQプロシジャはその検定の正確な片側および両側の確率値も表示します。EXACTステートメントで POINTオプションを JTオプションとともに指定すると、FREQプロシジャはその検定統計量の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは、Jonckheere-Terpstra検定の正確なMid p値を表示します。

2 2×

2 2×

2 2×

2 2×

2 2×

2 C× R 2×

Page 226: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

222 第 3章 : FREQプロシジャ

• AGREE(PRINTKWTS)オプションを指定すると、FREQプロシジャは、次元が 2よりも大きい正方形の表に対するカッパ係数の重みを表示します。

• 二元表に対してAGREEオプションを指定すると、FREQプロシジャは 表に対するMcNemarの検定と、その表に対する単純カッパ係数を表示します。 より大きい正方形の表の場合、FREQ プロシジャは、Bowker の対称性の検定、単純カッパ係数、重み付きカッパ係数を表示します。McNemarの検定と Bowkerの対称性の検定では、FREQプロシジャは、統計量 (S)、自由度 (DF)、確率値 (Pr > S)を表示します。単純カッパ係数および重み付きカッパ係数の場合、FREQプロシジャは、カッパ値、漸近標準誤差 (ASE)、信頼限界を表示します。EXACTステートメントでMCNEMオプションを指定すると、FREQプロシジャはMcNemarの検定の正確な確率値も表示します。EXACTステートメントで POINTオプションをMCNEMオプションとともに指定すると、FREQプロシジャはその検定統計量の正確な点確率を表示します。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャはMcNemarの検定の正確なMidp値を表示します。

• TESTステートメントで KAPPAオプションまたはWTKAPオプションを指定すると、FREQプロシジャは、単純カッパ係数の漸近検定、または重み付きカッパ係数の漸近検定をそれぞれ表示します。TEST ステートメントで AGREE オプションを指定すると、FREQ プロシジャはこれらの漸近検定をすべて表示します。この検定出力には、カッパ係数、その漸近標準誤差 (ASE)、信頼限界、帰無仮説H0の下でのASE、標準化された検定統計量 (Z)、片側および両側確率値が含まれます。

• EXACT ステートメントで KAPPA オプションまたは WTKAP オプションを指定すると、FREQ プロシジャは、単純カッパ係数の漸近および正確検定、または重み付きカッパ係数の漸近および正確検定をそれぞれ表示します。この検定出力には、カッパ係数、その漸近標準誤差 (ASE)、信頼限界、帰無仮説H0の下でのASE、標準化された検定統計量 (Z)、漸近片側 /両側確率値および正確な片側 /両側確率値が含まれます。EXACT ステートメントで POINT オプションを指定すると、FREQ プロシジャは要求された正確検定ごとの点確率を表示します。EXACT ステートメントで MIDP オプションを指定すると、FREQプロシジャは正確検定ごとの正確なMid p値を表示します。

• EXACTステートメントでMCオプションを指定すると、FREQプロシジャは、EXACTステートメントの statistic-optionsで要求されたすべての正確な p値のモンテカルロ推定値を表示します。このモンテカルロ出力には、p値の推定値、その信頼限界、同モンテカルロ推定値の計算に使用された標本数、乱数生成用の初期シードが含まれます。

• 多元の正方形の表に対して AGREE オプションを指定すると、FREQ プロシジャは全体的な単純カッパ係数および重み付きカッパ係数を、それらの漸近標準誤差 (ASE) および信頼限界とともに表示します。また、FREQプロシジャは、カッパ係数が等しいかどうかの検定も表示します。表示される情報には、カイ 2乗統計量、自由度 (DF)、単純カッパ係数および重み付きカッパ係数の確率値 (Pr > ChiSq)が含まれます。 表の複数の層に対しては、FREQプロシジャは CochranのQを表示します。表示される情報には、統計量 (Q)、自由度 (DF)、確率値 (Pr > Q)が含まれます。

• 多元 表に対してRISKDIFF(COMMON)オプションを指定すると、FREQプロシジャは"Common Proportion (Risk) Difference"表を表示します。この表には、方法 (Mantel-Haenszelまたは要約スコア )、共通リスク差の値、標準誤差、信頼限界が含まれています。RISKDIFF(COMMON)オプションと RISKDIFF(CL=NEWCOMBE) オプションの両方を指定すると、この表に、共通リスク差のNewcombe信頼限界も表示されます。

• CMHオプションを指定すると、FREQプロシジャは、次の 3つの対立仮説の Cochran-Mantel-Haenszel 統計量を表示します : ゼロでない相関、行平均スコアの差異 (ANOVA 統計量 )、一般連関性。各検定統計量に関して、FREQ プロシジャは自由度 (DF) と確率値 (Prob) も表示します。MANTELFLEISS オプションを指定すると、FREQ プロシジャは 表の Mantel-Fleiss 基準を表示します。 表の場合、FREQプロシジャは、ケースコントロール研究およびコーホート研究の相対リスクの推定値を、それらの信頼限界とともに表示します。これには、共通オッズ比、1列目の相対リスク、2列目の相対リスクのMantel-Haenszel推定量およびロジット層補正推定値の両方が含まれます。また、 表の場合、FREQプロシジャは、オッズ比の等質性の Breslow-Dayの検定を表示しま

2 2×2 2×

2 2×

2 2×

2 2×2 2×

2 2×

Page 227: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 223

す。この検定の場合、FREQプロシジャは、カイ 2乗統計量、自由度 (DF)、確率値 (Pr > ChiSq)を表示します。

• 多元 表に対して TABLESステートメントで CMHオプションを指定し、かつ EXACTステートメントで COMORオプションを指定すると、FREQプロシジャは、共通オッズ比の正確な信頼限界を表示します。また、FREQ プロシジャは、H0: Common Odds Ratio = 1 の正確検定も表示します。この検定出力には、Cell (1,1) Sum (S)、Mean of S Under H0、One-sided Pr <= S、Point Pr = Sが含まれます。FREQプロシジャは、この検定に関する正確な両側の確率値も表示します。この確率値は、3種類の方法 (2 * One-sided、Sum of probabilities <= Point probability、Pr >= |S - Mean|)に従って計算されます。EXACTステートメントでMIDPオプションを指定すると、FREQプロシジャは共通オッズ比検定の正確なMid p値を提供します。

• 多元 表に対して TABLESステートメントで CMHオプションを指定し、かつ EXACTステートメントで EQORオプションを指定すると、FREQプロシジャは、オッズ比の等質性に対する Zelenの正確検定を計算します。FREQ プロシジャは、Zelen の検定を、CMH オプションにより生成される漸近 Breslow-Day検定と共に表示します。表示される情報には、検定統計量、Zelenの正確検定 (P)、確率値、Exact Pr <= Pが含まれます。

• TABLESステートメントのGAILSIMONオプションを多元 表に対して指定すると、FREQプロシジャは、質的交互作用の Gail-Simon 検定を表示します。表示される情報には、Q+ (Positive RiskDifferences)、Q- (Negative Risk Differences)、Q (Two-Sided)の各種統計量とその p値が含まれます。

ODSテーブル名

FREQプロシジャは、同プロシジャが作成する各テーブルに名前を割り当てます。ODS (Output DeliverySystem)を使用して表の選択や出力データセットの作成を行う場合、これらの名前を使用して表を参照できます。ODSの詳細については、SAS/STAT 14.1 User's GuideのChapter 20: Using the Output DeliverySystem を参照してください。

表3.22に、ODSテーブル名とその説明、および各テーブルを作成するために必要となるオプションを示します。TABLESステートメントでALLオプションを指定すると、CHISQ、MEASURES、CMHの各オプションが呼び出されます。

2 2×

2 2×

2 2×

表 3.22 FREQプロシジャにより作成される ODSテーブル

ODSテーブル名 説明 ステートメント

オプション

BarnardsTest Barnardの正確検定 EXACT BARNARD

BinomialCLs 二項比率の信頼限界 TABLES BINOMIAL(CL=)

BinomialEquiv 二項比率の同等性の分析 TABLES BINOMIAL(EQUIV)

BinomialEquivLimits 二項比率の同等性の限界 TABLES BINOMIAL(EQUIV)

BinomialEquivTest 二項比率の同等性の検定 TABLES BINOMIAL(EQUIV)

BinomialNoninf 二項比率の非劣性の検定 TABLES BINOMIAL(NONINF)

Binomial 二項比率 TABLES BINOMIAL

BinomialTest 二項比率検定 TABLES BINOMIAL

BinomialSup 二項比率の優越性の検定 TABLES BINOMIAL(SUP)

BnMeasure 一致の統計量 TABLES PLOTS=AGREEPLOT(STATS)

Page 228: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

224 第 3章 : FREQプロシジャ

BreslowDayTest Breslow-Dayの検定 TABLES CMH ( table)

CMH Cochran-Mantel-Haenszel統計量

TABLES CMH

ChiSq カイ2乗検定 TABLES CHISQ

CochransQ CochranのQ TABLES AGREE ( table)

ColScores 列スコア TABLES SCOROUT

CommonOddsRatioCl 正確な信頼限界 (共通オッズ比) EXACT COMOR ( table)

CommonOddsRatioTest 共通オッズ比の正確検定 EXACT COMOR ( table)

CommonPdiff 共通比率差 TABLES RISKDIFF(COMMON) ( table)

CommonRelRisks 共通相対リスク TABLES CMH ( table)

CrossList クロス集計表(列形式) TABLES CROSSLIST(n-way table, n > 1)

CrossTabFreqs クロス集計表 TABLES (n-way table, n > 1)

EqualKappaTest 単純カッパ係数の同等性の検定 TABLES AGREE ( table)

EqualKappaTests カッパ係数の同等性の検定 TABLES AGREE ( table, r > 2)

EqualOddsRatios オッズ比の等質性に対する正確検定

EXACT EQOR( table)

GailSimon Gail-Simon検定 TABLES GAILSIMON( table)

FishersExact Fisherの正確検定 EXACTまたはTABLESまたはTABLES

FISHERFISHERまたはEXACTCHISQ ( table)

FishersExactMC モンテカルロ推定値(Fisherの正確検定 )

EXACT FISHER / MC

Gamma Gamma TEST GAMMA

GammaTest ガンマ検定 TEST GAMMA

JTTest Jonckheere-Terpstraの検定 TABLES JT

JTTestMC モンテカルロ推定値(Jonckheere-Terpstraの正確検定)

EXACT JT / MC

Kappa 単純カッパ係数 TESTまたはEXACT

KAPPAKAPPA

KappaMC モンテカルロ法による正確検定単純カッパ係数

EXACT KAPPA / MC

表 3.22 FREQプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 ステートメント

オプション

h 2 2××

h 2 2××

h 2 2××

h 2 2××

h 2 2××

h 2 2××

h 2 2××

h r r××

h 2 2××

h 2 2××

2 2×

Page 229: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 225

KappaStatistics カッパ統計量 TABLES AGREE、TESTまたはEXACTは不可( table, r > 2)

KappaTest 単純なカッパ検定 TESTまたはEXACT

KAPPA

KAPPA

KappaWeights カッパ重み TABLES AGREE(PRINTKWTS)

一覧 リスト形式の多元クロス表 TABLES LIST

LRChiSq 尤度比カイ2乗正確検定 EXACT LRCHI

LRChiSqMC モンテカルロ法による正確検定尤度比カイ2乗

EXACT LRCHI / MC

MantelFleiss Mantel-Fleiss基準 TABLES CMH(MANTELFLEISS) ( table)

McNemarsTest McNemarの検定 TABLES AGREE ( table)

Measures 連関性の統計量 TABLES MEASURES

MHChiSq Mantel-Haenszel のカイ 2 乗正確検定

EXACT MHCHI

MHChiSqMC モンテカルロ法による正確検定Mantel-Haenszelのカイ2乗

EXACT MHCHI / MC

NLevels 変数水準の数 PROC NLEVELS

OddsRatioCLs オッズ比信頼限界 TABLES OR(CL=) ( table)

OddsRatioExactCL 正確な信頼限界(オッズ比) EXACT OR ( table)

OneWayChiSq 一元カイ2乗検定 TABLES CHISQ (one-way table)

OneWayChiSqMC モンテカルロ法による正確検定一元カイ2乗検定

EXACT CHISQ / MC (one-way table)

OneWayFreqs 一元度数 PROCまたはTABLES

(TABLESステートメントなし) (one-way table)

OneWayLRChiSq 一元尤度比カイ2乗検定 TABLES CHISQ(LRCHI) (one-way table)

OverallKappa 全体的な単純カッパ係数 TABLES AGREE( table)

OverallKappas 全体的なカッパ係数 TABLES AGREE( table, r > 2)

PdiffCLs 比率差信頼限界 TABLES RISKDIFF(CL=) ( table)

PdiffEquiv 同等性の分析比率差

TABLES RISKDIFF(EQUIV) ( table)

表 3.22 FREQプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 ステートメント

オプション

r r×

h 2 2××

2 2×

2 2×

2 2×

h 2 2××

h r r××

2 2×

2 2×

Page 230: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

226 第 3章 : FREQプロシジャ

PdiffEquivTest 同等性の検定比率差

TABLES RISKDIFF(EQUIV)( table)

PdiffNoninf 非劣性の検定比率差

TABLES RISKDIFF(NONINF)( table)

PdiffSup 優越性の検定比率差

TABLES RISKDIFF(SUP)( table)

PdiffTest 比率差の検定 TABLES RISKDIFF(EQUAL)( table)

PearsonChiSq 正確なPearsonカイ2乗検定 EXACT PCHI

PearsonChiSqMC モンテカルロ法による正確検定Pearsonカイ2乗

EXACT PCHI / MC

PearsonCorr Pearson相関 TESTまたはEXACT

PCORR

PCORR

PearsonCorrMC モンテカルロ法による正確検定Pearson相関

EXACT PCORR / MC

PearsonCorrTest Pearson相関検定 TESTまたはEXACT

PCORR

PCORR

PLCORR ポリコリック相関 TEST PLCORR

PlCorrTest ポリコリック相関検定 TEST PLCORR

RelativeRiskCLs 相対リスクの信頼限界 TABLES RELRISK(CL=) ( table)

RelativeRisks 相対リスク推定値 TABLES RELRISKまたはMEASURES( table)

RelRisk1ExactCL 正確な信頼限界(列1相対リスク) EXACT RELRISK( table)

RelRisk2ExactCL 正確な信頼限界(列2相対リスク) EXACT RELRISK( table)

RelriskEquiv 同等性の分析(相対リスク) TABLES RELRISK(EQUIV)( table)

RelriskEquivTest 同等性の検定(相対リスク) TABLES RELRISK(EQUIV) ( table)

RelriskNoninf 非劣性の検定(相対リスク) TABLES RELRISK(NONINF)( table)

RelriskSup 優越性の検定(相対リスク) TABLES RELRISK(SUP) ( table)

RelriskTest 相対リスク検定 TABLES RELRISK(EQUAL)( table)

RiskDiffCol1 列1リスク推定値 TABLES RISKDIFF ( table)

RiskDiffCol2 列2リスク推定値 TABLES RISKDIFF ( table)

RowScores 行スコア TABLES SCOROUT

表 3.22 FREQプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 ステートメント

オプション

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

2 2×

Page 231: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

詳細 : FREQプロシジャ 227

SomersDCR Somersの TESTまたはEXACT

SMDCR SMDCR

SomersDCRMC モンテカルロ法による正確検定Somersの

EXACT SMDCR / MC

SomersDCRTest Somersの 検定 TESTまたはEXACT

SMDCR SMDCR

SomersDRC Somersの TESTまたはEXACT

SMDRC SMDRC

SomersDRCMC モンテカルロ法による正確検定Somersの

EXACT SMDRC / MC

SomersDRCTest Somersの 検定 TESTまたはEXACT

SMDRCSMDRC

SpearmanCorr Spearmanの相関 TESTまたはEXACT

SCORRSCORR

SpearmanCorrMC モンテカルロ法による正確検定Spearmanの相関

EXACT SCORR / MC

SpearmanCorrTest Spearmanの相関検定 TESTまたはEXACT

SCORR SCORR

SymmetryTest 対称性の検定 TABLES AGREE

TauB KendallのTau-b TESTまたはEXACT

KENTB KENTB

TauBMC モンテカルロ法による正確検定KendallのTau-b

EXACT KENTB / MC

TauBTest KendallのTau-b検定 TESTまたはEXACT

KENTB KENTB

TauC Stuartのtau-c TESTまたはEXACT

STUTCSTUTC

TauCMC モンテカルロ法による正確検定Stuartのtau-c

EXACT STUTC / MC

表 3.22 FREQプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 ステートメント

オプション

D C R( )

D C R( )

D C R( )

D R C( )

D R C( )

D R C( )

Page 232: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

228 第 3章 : FREQプロシジャ

ODS Graphics

統計プロシジャは、ODS Graphicsを使用して、その出力に含まれるグラフを作成します。ODS Graphicsの詳細は、Chapter 21: Statistical Graphics Using ODS(SAS/STAT 14.1 User's Guide)を参照してください。

グラフを作成する前に、ODS Graphicsを有効にする必要があります(たとえば、ODS GRAPHICS ONステートメントを使用する)。ODS Graphicsを有効化/無効化する方法の詳細は、上記の章に含まれている"Enabling and Disabling ODS Graphics"のセクションを参照してください。

グラフの全体的な外観は、ODSスタイルにより制御されます。ODSスタイルやODS Graphicsのその他の使用法については、上記の章に含まれている"A Primer on ODS Statistical Graphics"のセクションを参照してください。

ODS Graphicsを有効にすると、TABLESステートメントのPLOTS=オプションを使用して特定のプロットを指定できるようになります。度数プロットまたは累積度数プロットを生成するには、PLOTS=オプションで、FREQPLOTまたはCUMFREQPLOT plot-requestをそれぞれ指定する必要があります。モザイクプロットを作成するには、PLOTS=オプションでMOSAICPLOT plot-requestを指定する必要があります。また、PLOTS=ALLオプションを指定すると、度数プロット、累積度数プロット、モザイクプロットを作成できます。デフォルトでは、FREQプロシジャは、TABLESステートメントで指定された分析に関連付けられているその他のすべてのプロットを生成します。デフォルトのプロットを表示せずに指定のプロットを指定するには、PLOTS(ONLY)=オプションを使用します。詳細は、PLOTS=オプションの説明を参照してください。

FREQプロシジャは、同プロシジャがODS Graphicsを使って作成する各グラフに名前を割り当てます。この名前を使うことで各グラフを参照できます。表3.23に、FREQプロシジャが生成するグラフの名前とその説明、およびそれを生成するために必要となるPLOTS=オプション(plot-requests)およびTABLESステートメントオプションを示します。

TauCTest StuartのTau-c検定 TESTまたはEXACT

STUTCSTUTC

TrendTest Cochran-Armitageの傾向検定 TABLES TREND

TrendTestMC モンテカルロ法による正確検定(傾向)

EXACT TREND / MC

WtKappa 重み付きカッパ係数 TESTまたはEXACT

WTKAPWTKAP

WtKappaMC モンテカルロ法による正確検定重み付きカッパ係数

EXACT WTKAP / MC

WtKappaTest 重み付きカッパ検定 TESTまたはEXACT

WTKAP WTKAP

表 3.22 FREQプロシジャにより作成される ODSテーブル(続き)

ODSテーブル名 説明 ステートメント

オプション

Page 233: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 229

例 : FREQプロシジャ

例 3.1 度数の出力データセット

ヨーロッパの異なる2地域に住んでいる子供の眼の色と髪の色をデータセットColorに記録するとします。子供1人につき1つのオブザベーションを記録するのではなく、データをセルカウントとして記録するため、変数Countには、それぞれ15種類の眼の色と髪の色の組み合わせを示す子供の数が含められます。このデータセットには欠損値の組み合わせは含まれません。

SASデータセットColorを作成するDATAステップステートメントは次のようになります。data Color;

input Region Eyes $ Hair $ Count @@;

label Eyes ='Eye Color'

Hair ='Hair Color'

Region='Geographic Region';

datalines;

1 blue fair 23 1 blue red 7 1 blue medium 24

1 blue dark 11 1 green fair 19 1 green red 7

1 green medium 18 1 green dark 14 1 brown fair 34

1 brown red 5 1 brown medium 41 1 brown dark 40

1 brown black 3 2 blue fair 46 2 blue red 21

2 blue medium 44 2 blue dark 40 2 blue black 6

2 green fair 50 2 green red 31 2 green medium 37

2 green dark 23 2 brown fair 56 2 brown red 42

2 brown medium 53 2 brown dark 54 2 brown black 13

;

表 3.23 FREQプロシジャにより作成される ODSテーブル

ODS Graph名 説明 PLOTS=オプション TABLESステートメントのオプション

AgreePlot 一致プロット AGREEPLOT AGREE ( table)

CumFreqPlot 累積度数プロット CUMFREQPLOT 一元表の要求

DeviationPlot 偏差プロット DEVIATIONPLOT CHISQ (one-way table)

FreqPlot 度数プロット FREQPLOT 任意の表の要求

KappaPlot カッパプロット KAPPAPLOT AGREE ( table)

MosaicPlot モザイクプロット MOSAICPLOT 二元表または多元クロス表の要求

ORPlot オッズ比図 ODDSRATIOPLOT MEASURES、OR または RELRISK( table)

RelRiskPlot 相対リスクプロット RELRISKPLOT MEASURESまたはRELRISK ( table)

RiskDiffPlot リスク差図 RISKDIFFPLOT RISKDIFF ( table)

WtKappaPlot 重み付きカッパ図 WTKAPPAPLOT AGREE ( table, r > 2)

r r×

h r r××

h 2 2××

h 2 2××

h 2 2××

h r r××

Page 234: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

230 第 3章 : FREQプロシジャ

次のPROC FREQステートメントは、Colorデータセットを読み取り、行がEyesで列がHairの二元表における度数、パーセンテージ、期待セル度数を含む出力データセットを作成します。次のTABLESステートメントは、3つの表を要求しています。すなわち、Eyesの度数表、Hairの度数表、および行がEyesで列がHairのクロス集計表です。OUT=オプションは、クロス集計表の度数を含むFreqCountデータセットを作成します。OUTEXPECTオプションは、表セルの期待度数をFreqCountデータセットに出力します。また、SPARSEオプションは0のセル度数をその出力データセットに含めます。WEIGHTステートメントでは、オブザベーションの重みを含む変数としてCountを指定しています。これらのステートメントが生成する出力を出力3.1.1から出力3.1.3に示します。

proc freq data=Color;

tables Eyes Hair Eyes*Hair / out=FreqCount outexpect sparse;

weight Count;

title 'Eye and Hair Color of European Children';

run;

proc print data=FreqCount noobs;

title2 'Output Data Set from PROC FREQ';

run;

出力3.1.1に、FREQプロシジャが作成する2つの度数表を示します。1つは眼の色の分布を示すものであり、もう1つは髪の色の分布を示すものです。デフォルトでは、FREQプロシジャは変数値をアルファベット順にリスト表示します。'Eyes*Hair'という指定は、出力3.1.2に示すような、行が眼の色で列が髪の色であるクロス集計表を作成します。眼の色が緑で髪の色が黒のセル度数が0であることは、そのような目の色と髪の色の組み合わせがデータ内に存在しないことを意味しています。

出力データセットFreqCount (出力3.1.3)は、TABLESステートメントで最後に要求された行がEyesで列がHairの表における度数カウントとパーセンテージを含んでいます。SPARSEオプションが指定されているため、このデータセットは、度数が0のオブザベーションを含みます。また、OUTEXPECTオプションが指定されているため、変数Expectedには期待度数が含められます。

出力 3.1.1 度数表Eye and Hair Color of European Children

The FREQ Procedure

Eye Color

Eyes Frequency PercentCumulativeFrequency

CumulativePercent

blue 222 29.13 222 29.13

brown 341 44.75 563 73.88

green 199 26.12 762 100.00

Hair Color

Hair Frequency PercentCumulativeFrequency

CumulativePercent

black 22 2.89 22 2.89

dark 182 23.88 204 26.77

fair 228 29.92 432 56.69

medium 217 28.48 649 85.17

red 113 14.83 762 100.00

Page 235: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 231

出力 3.1.2 クロス集計表

出力 3.1.3 度数の出力データセットEye and Hair Color of European Children

Output Data Set from PROC FREQ

Frequency Table of Eyes by Hair

PercentEyes(Eye Color)

Hair(Hair Color)

Row Pct black dark fair medium red Total

Col Pct blue 6 51 69 68 28 222

0.79 6.69 9.06 8.92 3.67 29.13

2.70 22.97 31.08 30.63 12.61

27.27 28.02 30.26 31.34 24.78

brown 16 94 90 94 47 341

2.10 12.34 11.81 12.34 6.17 44.75

4.69 27.57 26.39 27.57 13.78

72.73 51.65 39.47 43.32 41.59

green 0 37 69 55 38 199

0.00 4.86 9.06 7.22 4.99 26.12

0.00 18.59 34.67 27.64 19.10

0.00 20.33 30.26 25.35 33.63

Total 22 182 228 217 113 762

2.89 23.88 29.92 28.48 14.83 100.00

Eyes Hair COUNT EXPECTED PERCENT

blue black 6 6.409 0.7874

blue dark 51 53.024 6.6929

blue fair 69 66.425 9.0551

blue medium 68 63.220 8.9239

blue red 28 32.921 3.6745

brown black 16 9.845 2.0997

brown dark 94 81.446 12.3360

brown fair 90 102.031 11.8110

brown medium 4 97.109 12.3360

brown red 47 50.568 6.1680

green black 0 5.745 0.0000

green dark 37 47.530 4.8556

green fair 69 59.543 9.0551

green medium 55 56.671 7.2178

green red 38 29.510 4.9869

Page 236: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

232 第 3章 : FREQプロシジャ

例 3.2 度数散布図

この例では、例3.1に示した子供の眼の色と髪の色のデータの度数散布図を作成します。

FREQプロシジャは、ODS Graphicsを使用して、これらのプロットを同プロシジャ出力の一部として作成します。度数プロットは、任意の度数表やクロス集計表を要求する場合に利用できます。度数プロットは、棒グラフまたは散布図として表示できます。plot-optionsを使用することで、プロットの向き(縦または横)、尺度、レイアウトを指定できます。

次のPROC FREQステートメントは、度数表と散布図を要求します。最初のTABLESステートメントは、Hairの一元度数表と、行がEyesで列がHairのクロス集計表を要求します。PLOTS=オプションは、この表の度数プロットを要求します。TYPE=DOTPLOT plot-optionは、度数プロットを散布図として作成するよう指定します。デフォルトでは、度数プロットは棒グラフとして作成されます。プロットを作成する前に、ODSGraphicsを有効にする必要があります。

2番目のTABLESステートメントは、行がRegionで列がHairのクロス集計表と、その表の度数散布図を要求します。SCALE=PERCENT plot-optionは、度数カウントではなくパーセンテージをプロットするよう指示します。SCALE=LOGおよびSCALE=SQRT plot-optionsを使用すると、それぞれログ度数および度数の平方根をプロットできます。

PROC FREQステートメントのORDER=FREQオプションは、変数水準の順序を度数に基づいて並べ替えるよう指示します。この順序は、度数表やクロス表の表示に適用されるほか、対応する度数プロットにも適用されます。

ods graphics on;

proc freq data=Color order=freq;

tables Hair Hair*Eyes / plots=freqplot(type=dotplot);

tables Hair*Region / plots=freqplot(type=dotplot scale=percent);

weight Count;

title 'Eye and Hair Color of European Children';

run;

ods graphics off;

出力3.2.1、出力3.2.2、出力3.2.3に、FREQプロシジャが作成する散布図を示します。デフォルトでは、散布図の向きは横向きになり、変数水準は Y 軸上に配置されます。縦向きの散布図を要求するには、ORIENT=VERTICAL plot-optionを指定します。二元プロットの場合、プロットのレイアウトを指定するにはTWOWAY=plot-optionを使用します。デフォルトのレイアウト(出力3.2.2および出力3.2.3に示されているもの)はGROUPVERTICALになります。二元プロットのレイアウトとしては、STACKEDおよびGROUPHORIZONTALも使用できます。

Page 237: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 233

出力 3.2.1 一元度数散布図

Page 238: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

234 第 3章 : FREQプロシジャ

出力 3.2.2 二元度数散布図

Page 239: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 235

出力 3.2.3 二元パーセント散布図

例 3.3 カイ 2乗適合度検定

この例では、子供の髪の色(例3.1のデータを使用)が2つの地域に関して多項分布に従っているかどうかを調べます。仮定される髪の色の分布は、30%がfair、12%がred、30%がmedium、25%がdark、3%がblackになります。

この仮説を地域別に検定するために、Regionに基づいてデータを並べ替えます。続いて、FREQプロシジャはBYステートメントを使用して、BYグループ(Region)ごとに別々の表を作成します。ORDER=DATAオプションは、入力データセット内の順番に従って変数値(髪の色)を度数表に配置するよう指示します。TABLESステートメントは、髪の色の度数表を要求します。NOCUMオプションが指定されているため、累積度数および累積パーセンテージは表示されません。

CHISQオプションは、Hairの度数表に対するカイ2乗適合度検定を要求します。TESTP=オプションは、カイ2乗検定での仮説となる(または検定)パーセンテージを指定します。リストされているパーセンテージの数は表水準の数に等しく、パーセンテージの合計は100%になります。TESTP=オプションに指定した各パーセンテージは、対応する変数水準が度数表に現れる順番と同じ順番でリストされます。

PLOTS=オプションでは偏差図を要求しています。同オプションをCHISQオプションと関連付けることで、検定度数からの相対偏差が表示されます。TYPE=DOTPLOT plot-optionは、デフォルトの棒グラフではなく散布図を要求します。プロットを作成する前に、ODS Graphicsを有効にする必要があります。これらのステートメントが生成する出力を出力3.3.1から出力3.3.4に示します。

Page 240: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

236 第 3章 : FREQプロシジャ

proc sort data=Color;

by Region;

run;

ods graphics on;

proc freq data=Color order=data;

tables Hair / nocum chisq testp=(30 12 30 25 3)

plots(only)=deviationplot(type=dotplot);

weight Count;

by Region;

title 'Hair Color of European Children';

run;

ods graphics off;

出力 3.3.1 Region 1の度数表とカイ 2乗検定Hair Color of European Children

The FREQ Procedure

Geographic Region=1

Geographic Region=1

出力3.3.1に、Region 1の度数表とカイ2乗検定を示します。この度数表にリストされている変数値(髪の色)の順番は、データセット内にそれらが現れる順番と同じになります。"Test Percent"列には、カイ2乗検定で仮定されたパーセンテージがリストされます。TESTP=オプションに指定したパーセンテージの順番が、変数水準の順番と正確に一致していることを確認してください。

出力3.3.2に、Region 1の偏差図を示します。これは、仮定された値からの相対偏差を表すものです。ある水準の相対偏差は、観測されたパーセンテージと仮定された(検定)パーセンテージの差を検定パーセンテージで割った値になります。偏差図にはデフォルトでカイ2乗のp値が表示されます。これを表示しないようにするには、NOSTATS plot-optionを指定します。

Hair Color

Hair Frequency PercentTest

Percent

fair 76 30.89 30.00

red 19 7.72 12.00

medium 83 33.74 30.00

dark 65 26.42 25.00

black 3 1.22 3.00

Chi-Square Test for Specified Proportions

Chi-Square 7.7602

DF 4

Pr > ChiSq 0.1008

Page 241: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 237

出力 3.3.2 Region 1の偏差図

出力3.3.3および出力3.3.4に、Region 2の結果を示します。FREQプロシジャは、各地域のカイ2乗統計量を計算します。Region 2では水準0.05でカイ2乗検定が有意となります(p=0.0003)が、Region 1では有意となりません。これは、Region 2では仮定されたパーセンテージからの有意な逸脱があることを示しています。

出力 3.3.3 Region 2の度数表とカイ2乗検定Hair Color of European Children

The FREQ Procedure

Geographic Region=2

Hair Color

Hair Frequency PercentTest

Percent

fair 152 29.46 30.00

red 94 18.22 12.00

medium 134 25.97 30.00

dark 117 22.67 25.00

black 19 3.68 3.00

Page 242: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

238 第 3章 : FREQプロシジャ

Geographic Region=2

出力 3.3.4 Region 2の偏差図

例 3.4 二項比率

FREQプロシジャで二項比率、二項比率の信頼限界、および二項検定を計算する例を次に示します。この例では、例3.1で示した眼の色と髪の色のデータを使用します。デフォルトでは、FREQプロシジャは、一元表の最初の水準におけるオブザベーションの比率として二項比率を計算します。異なる水準を指定するには、LEVEL= binomial-optionを使用します。

次のPROC FREQステートメントは、眼の色がbrownである子供の比率(例3.1のデータセットを使用)を計算し、母集団比率が50%に等しいという帰無仮説の下で検定を行います。また、次のステートメントでは、髪の色がfairである子供の比率の同等性も計算します。

最初のTABLESステートメントは、変数Eyesの一元度数表を要求します。BINOMIALオプションは、二項比率、二項比率の信頼限界、二項検定を要求します。FREQプロシジャは、この表に示される最初の水準で

Chi-Square Test for Specified Proportions

Chi-Square 21.382

DF 4

Pr > ChiSq 0.0003

Page 243: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 239

あるEyes = 'brown'となる比率を計算します。AC、WILSON、EXACTの各binomial-optionsは、それぞれ信頼限界の種類として、Agresti-Coull信頼限界、Wilson (スコア)信頼限界、正確な(Clopper-Pearson)信頼限界を要求します。デフォルトでは、FREQプロシジャは、二項比率のWald信頼限界および正確な(Clopper-Pearson)信頼限界を提供します。また、BINOMIALオプションは、比率が0.5に等しいという帰無仮説の下での漸近Wald検定を実施します。異なる検定比率を指定するには、P= binomial-optionを使用します。ALPHA=0.1オプションは、 = 10%を指定します。これにより、90%の信頼限界が生成されます。

2番目のTABLESステートメントは、変数Hairの一元度数表を要求します。BINOMIALオプションは、最初の水準であるHair = 'fair'となる比率を要求します。EQUIV binomial-optionは、二項比率の同等性の検定を要求します。P=.28オプションは、帰無仮説の比率として0.28を指定します。MARGIN=.1オプションは、同等性の検定のマージンとして0.1を指定します。

proc freq data=Color order=freq;

tables Eyes / binomial(ac wilson exact) alpha=.1;

tables Hair / binomial(equiv p=.28 margin=.1);

weight Count;

title 'Hair and Eye Color of European Children';

run;

出力3.4.1に眼の色の結果を、出力3.4.2に髪の色の結果をそれぞれ示します。

出力 3.4.1 眼の色の二項比率Hair and Eye Color of European Children

The FREQ Procedure

Eye Color

Eye Frequency PercentCumulativeFrequency

CumulativePercent

brown 341 44.75 341 44.75

blue 222 29.13 563 73.88

green 199 26.12 762 100.00

Binomial Proportion

Eyes = brown

Proportion 0.4475

ASE 0.0180

Confidence Limits for the Binomial Proportion

Proportion = 0.4475

Type 90% Confidence Limits

Agresti-Coull 0.4181 0.4773

Clopper-Pearson (Exact) 0.4174 0.4779

Wilson 0.4181 0.4773

a

Page 244: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

240 第 3章 : FREQプロシジャ

出力3.4.1の度数表には、変数Eyesの値が、度数カウントの多い順に表示されています。FREQプロシジャは、この度数表に示される最初の水準であるEyes = 'brown'となる子供の比率を計算します。出力3.4.1に、二項比率の信頼限界と検定統計量を示します。この信頼限界は、90%の信頼限界となります。ALPHA=オプションを省略すると、FREQプロシジャはデフォルトで95%の信頼限界を計算します。Zの値が0より小さいため、FREQプロシジャは左側のp値(0.0019)を計算します。小さいp値は、眼の色がbrownである子供の比率の真の値が50%未満であるという対立仮説を支持します。

出力3.4.2に、2番目のTABLESステートメントが作成する同等性の検定の結果を示します。帰無仮説の比率は0.28であり、同等性のマージンは–0.1および0.1です。これにより、同等性の限界は0.18および0.38になります。FREQプロシジャは、同等性の2つの片側検定(TOST)を実施します。小さいp値は、帰無仮説を棄却し、比率がヌル値と等しいという対立仮説を支持します。

出力 3.4.2 髪の色の二項比率

Test of H0: Proportion = 0.5

ASE under H0 0.0181

Z -2.8981

One-sided Pr < Z 0.0019

Two-sided Pr > |Z| 0.0038

Hair Color

Hair Frequency PercentCumulativeCumulative

CumulativePercent

fair 228 29.92 228 29.92

medium 217 28.48 445 58.40

dark 182 23.88 627 82.28

red 113 14.83 740 97.11

black 22 2.89 762 100.00

Equivalence Analysis

H0: P - p0 <= Lower Margin or >= Upper Margin

Ha: Lower Margin < P - p0 < Upper Margin

p0 = 0.28 Lower Margin = -0.1 Upper Margin = 0.1

Proportion ASE (Sample)

0.2992 0.0166

Page 245: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 241

例 3.5 2x2分割表の分析

この例では、2種類の食習慣における冠状動脈性心臓病の発症リスクを比較するために、カイ2乗検定とFisherの正確検定を計算します。また、相対リスクを推定し、オッズ比の正確な信頼限界も計算します。

データセットFatCompには、高脂肪食と冠状動脈性心臓病の発症リスクのケースコントロール研究の仮説データが含まれています。これらのデータはセルカウントとして記録されるため、変数Countには、曝露量と反応の組み合わせごとの度数が含められます。このデータセットは、変数ExposureおよびResponseに基づいて降順で並べ替えられているため、 表の最初のセルには正の曝露と正の反応の組み合わせの度数が含められます。次のFORMATプロシジャは、曝露量と反応の種類を文字値で識別するための出力形式を作成します。

proc format;

value ExpFmt 1='High Cholesterol Diet'

0='Low Cholesterol Diet';

value RspFmt 1='Yes'

0='No';

run;

data FatComp;

input Exposure Response Count;

label Response='Heart Disease';

datalines;

0 0 6

0 1 2

1 0 4

1 1 11

;

proc sort data=FatComp;

by descending Exposure descending Response;

run;

Two One-Sided Tests (TOST)

Test Z P-Value

Lower Margin 7.1865 Pr > Z <.0001

Upper Margin -4.8701 Pr < Z <.0001

Overall <.0001

Equivalence Limits 90% Confidence Limits

0.1800 0.3800 0.2719 0.3265

2 2×

Page 246: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

242 第 3章 : FREQプロシジャ

次のPROC FREQステートメントでは、ORDER=DATAオプションにより、入力データセット内の順番に従って分割表の値を配置するよう指示しています。TABLES ステートメントは、行が Exposure で列がResponseの二元表を要求します。CHISQオプションは、複数のカイ2乗検定を要求します。RELRISKオプションは、相対リスク統計量を生成します。EXACTステートメントは、正確なPearsonカイ2乗検定と、オッズ比の信頼限界を要求します。

proc freq data=FatComp order=data;

format Exposure ExpFmt.Response RspFmt.;

tables Exposure*Response / chisq relrisk;

exact pchi or;

weight Count;

title 'Case-Control Study of High Fat/Cholesterol Diet';

run;

出力3.5.1の分割表には変数値が示されており、最初の表セルにはデータセット内の最初のセルの度数(正の曝露量と正の応答の組み合わせの度数)が含められます。

出力 3.5.1 分割表Case-Control Study of High Fat/Cholesterol Diet

The FREQ Procedure

出力3.5.2にカイ2乗統計量を示します。一部の表セルの期待カウントは小さいため、FREQプロシジャは、漸近カイ2乗検定は適切でないという警告を表示します。この場合、正確検定の方が適しています。この分析の対立仮説は、冠状動脈性心臓病は高脂肪食と連関している可能性が高いというものであるため、片側検定が適切になります。Fisherの正確な右側検定は、高脂肪食グループにおける心臓病の発症率が低脂肪食グループにおける心臓病の発症率を超えているかどうかを分析します。このp値は小さいため、対立仮説が支持されます。

出力3.5.3に示されているオッズ比は、事象が稀である場合の相対リスクの推定値を表します。この推定値は、心臓病のオッズが、高脂肪食グループでは8.25倍に高まることを示しています 。ただし、信頼限界が広いことは、この推定値の精度が低いことを意味します。

Frequency Table of Exposure by Response

Percent Response(Heart Disease)

Row Pct Exposure Yes No Total

Col Pct High Cholesterol Diet 11 4 1547.83 17.39 65.2273.33 26.6786.62 40.00

Low Cholesterol Diet 2 6 88.70 26.09 34.78

25.00 75.0015.38 60.00

Total 13 10 2356.52 43.48 100.00

Page 247: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 243

出力 3.5.2 カイ 2乗統計量

Statistic DF Value Prob

Chi-Square 1 4.9597 0.0259

Likelihood Ratio Chi-Square 1 5.0975 0.0240

Continuity Adj.Chi-Square 1 3.1879 0.0742

Mantel-Haenszel Chi-Square 1 4.7441 0.0294

Phi Coefficient 0.4644

Contingency Coefficient 0.4212

Cramer's V 0.4644

WARNING: 50% of the cells have expected counts less than 5.(Asymptotic) Chi-Square may not be a valid test.

Pearson Chi-Square Test

Chi-Square 4.9597

DF 1

Asymptotic Pr > ChiSq 0.0259

Exact Pr >= ChiSq 0.0393

Fisher's Exact Test

Cell (1,1) Frequency (F) 11

Left-sided Pr <= F 0.9967

Right-sided Pr >= F 0.0367

Table Probability (P) 0.0334

Two-sided Pr <= P 0.0393

Page 248: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

244 第 3章 : FREQプロシジャ

出力 3.5.3 相対リスク

例 3.6 カイ 2乗統計量の出力データセット

この例では、例3.1に示されているColorデータセットを使って、Pearsonカイ2乗統計量と尤度比カイ2乗統計量をSASデータセットに出力します。次のPROC FREQステートメントは、眼の色と髪の色の二元表を作成します。

proc freq data=Color order=data;

tables Eyes*Hair / expected cellchi2 norow nocol chisq;

output out=ChiSqData n nmiss pchi lrchi;

weight Count;

title 'Chi-Square Tests for 3 by 5 Table of Eye and Hair Color';

run;

proc print data=ChiSqData noobs;

title1 'Chi-Square Statistics for Eye and Hair Color';

title2 'Output Data Set from the FREQ Procedure';

run;

EXPECTEDオプションは、期待されるセル度数をクロス集計表に表示します。CELLCHI2オプションは、全体的なカイ2乗統計量に対する各セルの寄与分を表示します。またNOROWオプションおよびNOCOLオプションが指定されているため、行と列のパーセントがクロス集計表に表示されません。CHISQオプションはカイ2乗検定を実施します。

OUTPUTステートメントは、ChiSqData出力データセットを作成するとともに、同データセットに含める統計量を指定します。Nオプションは、欠損値でないオブザベーションの数を要求します。NMISSオプションは欠損値でないオブザベーションの数を保存します。PCHIおよびLRCHIの各オプションは、それぞれPearsonカイ2乗および尤度比カイ2乗統計量を、それらの自由度およびp値と共に要求します。

Odds Ratio and Relative Risks

Statistic Value 95% Confidence Limits

Odds Ratio 8.2500 1.1535 59.0029

Relative Risk (Column 1) 2.9333 0.8502 10.1204

Relative Risk (Column 2) 0.3556 0.1403 0.9009

Odds Ratio

Odds Ratio 8.2500

Asymptotic Conf Limits

95% Lower Conf Limit 1.1535

95% Upper Conf Limit 59.0029

Exact Conf Limits

95% Lower Conf Limit 0.8677

95% Upper Conf Limit 105.5488

Page 249: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 245

前述のステートメントの出力は、出力3.6.1および出力3.6.2になります。出力3.6.1の分割表には、眼の色と髪の色の値が、Colorデータセット内にそれらが現れるのと同じ順番で表示されます。出力3.6.2のPearsonカイ2乗統計量は、眼の色と髪の色の間の連関性の根拠(p=0.0073)を提供します。このセルのカイ2乗値は、ほとんどの連関性は、目の色がgreenの子供は髪の色がfairまたはredである場合が多く、髪の色がdarkまたはblackである場合は少ないという理由に起因していることを示しています。眼の色がbrownである子供に関しては、上記の逆が成り立ちます。

出力3.6.3に、OUTPUTステートメントが作成する出力データセットを示します。このデータセットには、標本サイズを含んでいる1つのオブザベーション、欠損値の数、カイ2乗統計量とその自由度およびp値が含まれています(出力3.6.2を参照)。

出力 3.6.1 分割表Chi-Square Tests for 3 by 5 Table of Eye and Hair Color

The FREQ Procedure

出力 3.6.2 カイ 2乗統計量

Frequency Table of Eyes by Hair

Expected Eyes(Eye Color)

Hair(Hair Color)

Cell Chi-Square fair red medium dark black Total

Percent blue 69 28 68 51 6 22266.425 32.921 63.22 53.024 6.40940.0998 0.7357 0.3613 0.0772 0.0262

9.06 3.67 8.92 6.69 0.79 29.13

green 69 38 55 37 0 19959.543 29.51 56.671 47.53 5.74541.5019 2.4422 0.0492 2.3329 5.7454

9.06 4.99 7.22 4.86 0.00 26.12

brown 90 47 94 94 16 341102.03 50.568 97.109 81.446 9.84511.4187 0.2518 0.0995 1.935 3.8478

11.81 6.17 2.34 12.34 2.10 44.75

total 228 113 217 182 22 76229.92 14.83 28.48 23.88 2.89 100.00

Statistic DF Value Prob

Chi-Square 8 20.9248 0.0073Likelihood Ratio Chi-Square 8 25.9733 0.0011Mantel-Haenszel Chi-Square 1 3.7838 0.0518Phi Coefficient 0.1657Contingency Coefficient 0.1635Cramer's V 0.1172

Page 250: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

246 第 3章 : FREQプロシジャ

出力 3.6.3 出力データセットChi-Square Statistics for Eye and Hair Color

Output Data Set from the FREQ Procedure

例 3.7 Cochran-Mantel-Haenszel統計量

データセットMigraineには、偏頭痛治療の臨床試験の仮説データが含まれています。この試験では、男女両方からなる複数の被験者が、新薬かプラシーボのいずれかによる処置を受けます。処置に対する被験者の反応は、'Better'または'Same'のいずれかでコード化されます。これらのデータはセルカウントとして記録され、処置と反応の組み合わせごとの被験者数が変数Countに記録されます。

data Migraine;

input Gender $ Treatment $ Response $ Count @@;

datalines;

female Active Better 16 female Active Same 11

female Placebo Better 5 female Placebo Same 20

male Active Better 12 male Active Same 16

male Placebo Better 7 male Placebo Same 19

;

次のPROC FREQステートメントは、Genderにより層化された多元クロス表を作成します。この表は、Treatmentが行でResponseが列になります。TABLESステートメントのRELRISKオプションは、行がTreatmentで列がResponseの二元表のオッズ比と相対リスクを要求します。PLOTS=オプションは、Genderの各水準および全体の相対リスクとその信頼限界を示す相対リスクプロットを要求します。CMHオプションは、この多元クロス表のCochran-Mantel-Haenszel統計量を要求します。この層化された

表の場合、CMHオプションは、共通相対リスクの推定値と、オッズ比の等質性のBreslow-Day検定も提供します。NOPRINTオプションが指定されているため、クロス集計表は表示されません。

ods graphics on;

proc freq data=Migraine;

tables Gender*Treatment*Response /

relrisk plots(only)=relriskplot(stats) cmh noprint;

weight Count;

title 'Clinical Trial for Treatment of Migraine Headaches';

run;

ods graphics off;

出力3.7.1から出力3.7.4に、分析結果を示します。相対リスクプロット(出力3.7.1)には、Genderの2つの水準の相対リスクと信頼限界、および全体的な(共通)相対リスクが示されています。出力3.7.2にCMH統計量を示します。層化された 表の場合、3つのCMH統計量により同じ仮説の検定が行われます。有意なp値(0.004)は、性別の補正を行った後に、処置と応答間に連関性が残ることを示しています。

CMHオプションは、出力3.7.3に示すような全体的な相対リスクの表も作成します。これは前向き研究であるため、相対リスクの推定値により新薬の効果が評価されます。"Cohort (Col1 Risk)"の値は、最初の列に対応する推定値(改善のリスク)となります。新薬により偏頭痛が改善される確率は、プラシーボにより偏頭痛が改善される確率よりも2倍以上高くなります。

N NMISS _PCHI_ DF_PCHI P_PCHI _LRCHI_ DF_LRCHI P_LRCHI

762 0 20.9248 8 .007349898 25.9733 8 0.001061424

2 2×

2 2×

Page 251: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 247

Breslow-Day検定での大きなp値(0.2218)は、オッズ比に関して有意な性差が存在しないことを示しています(出力3.7.4を参照)。

出力 3.7.1 相対リスクプロット

出力 3.7.2 Cochran-Mantel-Haenszel統計量

Cochran-Mantel-Haenszel Statistics (Based on Table Scores)

Statistic Alternative Hypothesis DF Value Prob

1 Nonzero Correlation 1 8.3052 0.0040

2 Row Mean Scores Differ 1 8.3052 0.0040

3 General Association 1 8.3052 0.0040

Page 252: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

248 第 3章 : FREQプロシジャ

出力 3.7.3 CMHオプション : 共通相対リスク

出力 3.7.4 CMHオプション : Breslow-Day検定

例 3.8 Cochran-Armitageの傾向検定

データセットPainには、痛みを抑えるための薬物治療の臨床試験の仮説データが含まれています。この臨床試験では、薬の投与量が多くなるほど有害な反応が増えるかどうかを調査します。被験者は、プラシーボか、または4種類の薬剤のいずれか1つを投与されます。有害な反応は、Adverse='Yes'として記録されます。それ以外の反応は、Adverse='No'として記録されます。薬剤投与と反応の各組み合わせに対応する被験者の数が、変数Countに含められます。

data pain;

input Dose Adverse $ Count @@;

datalines;

0 No 26 0 Yes 6

1 No 26 1 Yes 7

2 No 23 2 Yes 9

3 No 18 3 Yes 14

4 No 9 4 Yes 23

;

次のPROC FREQステートメントは、傾向分析を実施します。TABLESステートメントは、行がAdverseで列がDoseの表を要求します。MEASURESオプションは連関性の統計量を要求します。CLオプションは、それらの統計量の信頼限界を生成します。TRENDオプションは、Cochran-Armitage検定を使用して、変数Doseの順序尺度の値を通じた傾向の検定を実施します。PLOTS=オプションは、AdverseとDoseのモザイクプロットを要求します。

Common Odds Ratio and Relative Risks

Statistic Method Value 95% Confidence Limits

Odds Ratio Mantel-Haenszel 3.3132 1.4456 7.5934

Logit 3.2941 1.4182 7.6515

Relative Risk (Column 1) Mantel-Haenszel 2.1636 1.2336 3.7948

Logit 2.1059 1.1951 3.7108

Relative Risk (Column 2) Mantel-Haenszel 0.6420 0.4705 0.8761

Logit 0.6613 0.4852 0.9013

Breslow-Day Test forHomogeneity of the Odds Ratios

Chi-Square 1.4929

DF 1

Pr > ChiSq 0.2218

Page 253: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 249

EXACTステートメントは、この検定の正確なp値を生成します。MAXTIME=オプションは、正確な計算が60秒以内に完了しない場合、同計算を終了します。 TESTステートメントは、Somersの の漸近検定を計算します。

ods graphics on;

proc freq data=Pain;

tables Adverse*Dose / trend measures cl

plots=mosaicplot;

test smdrc;

exact trend / maxtime=60;

weight Count;

title 'Clinical Trial for Treatment of Pain';

run;

ods graphics off;

出力3.8.1から出力3.8.4に、分析結果を示します。出力3.8.1内にある"Col Pct"の値は、投与量が増加した場合の有害な影響の比率において期待される増加傾向(18.75%から71.88%へ)を示しています。対応するモザイクプロット(出力3.8.2)にも、このような増加傾向が示されています。

出力 3.8.1 分割表Clinical Trial for Treatment of Pain

The FREQ Procedure

Frequency Table of Adverse by Dose

Percent Dose

Row Pct Adverse 0 1 2 3 4 Total

Col Pct No 26 26 23 18 9 10216.15 16.15 14.29 11.18 5.59 63.35

25.49 25.49 22.55 17.65 8.82

81.25 78.79 71.88 56.25 28.13

Yes 6 7 9 14 23 59

3.73 4.35 5.59 8.70 14.29 36.65

10.17 11.86 15.25 23.73 38.98

18.75 21.21 28.13 43.75 71.88

Total 32 33 32 32 32 161

19.88 20.50 19.88 19.88 19.88 100.00

D R C( )

Page 254: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

250 第 3章 : FREQプロシジャ

出力 3.8.2 モザイクプロット

出力3.8.3に、MEASURESオプションが生成する連関性の統計量を示します。Somersの 、行変数(Adverse)を反応として、列変数(Dose)を予測値として扱うことにより連関性を測定します。95%の漸近信頼限界が0を含まないため、これは強い正の連関性を示します。同様に、PearsonおよびSpearman相関係数は、仮定されている通り、強い連関性の根拠があることを示しています。

Cochran-Armitage検定(出力3.8.4)は、傾向仮説を支持します。Cochran-Armitage検定における小さい左側p値は、Doseが増加すると行1水準 (Adverse='No') の確率が減ること、言い換えれば、Doseが増加すると行2水準(Adverse='Yes')の確率が増えることを意味します。両側のp値は、増加または減少の対立仮説の検定を行います。これは、方向性は不明だが、薬剤が有害な影響の確率に対して革新的な影響を及ぼすかどうかを判定したい場合に適切な仮説となります。

D R C( )

Page 255: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 251

出力 3.8.3 連関性の統計量

出力 3.8.4 傾向検定

Statistic Value ASE95%

Confidence Limits

Gamma 0.5313 0.0935 0.3480 0.7146Kendall's Tau-b 0.3373 0.0642 0.2114 0.4631Stuart's Tau-c 0.4111 0.0798 0.2547 0.5675Somers' D C|R 0.4427 0.0837 0.2786 0.6068Somers' D R|C 0.2569 0.0499 0.1592 0.3547Pearson Correlation 0.3776 0.0714 0.2378 0.5175Spearman Correlation 0.3771 0.0718 0.2363 0.5178Lambda Asymmetric C|R 0.1250 0.0662 0.0000 0.2547Lambda Asymmetric R|C 0.2373 0.0837 0.0732 0.4014Lambda Symmetric 0.1604 0.0621 0.0388 0.2821Uncertainty Coefficient C|R 0.0515 0.0191 0.0140 0.0890Uncertainty Coefficient R|C 0.1261 0.0467 0.0346 0.2175Uncertainty Coefficient Symmetric 0.0731 0.0271 0.0199 0.1262

Somers' D R|C

Somers' D R|C 0.2569ASE 0.049995% Lower Conf Limit 0.159295% Upper Conf Limit 0.3547

Test of H0: Somers' D R|C = 0

ASE under H0 0.0499Z 5.1511One-sided Pr > Z <.0001Two-sided Pr > |Z| <.0001

Cochran-Armitage Trend Test

Statistic (Z) -4.7918

Asymptotic Test

One-sided Pr < Z <.0001Two-sided Pr > |Z| <.0001

Exact Test

One-sided Pr <= Z <.0001Two-sided Pr >= |Z| <.0001

Page 256: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

252 第 3章 : FREQプロシジャ

例 3.9 Friedmanのカイ 2乗検定

Friedmanの検定は、ランダム化された完全なブロックデザインにおける治療の違いのノンパラメトリック検定です。デザインの各ブロックは、単一の被験者か、または複数の被験者からなる等質グループになります。ブロックが被験者のグループである場合、各ブロック内の被験者の数は、治療の数に等しくなければなりません。治療は、各ブロック内で、被験者に対してランダムに割り当てられます。ブロックごとに1名の被験者が存在する場合、各被験者は、各治療の下で1回ずつ繰り返し測定されます。治療の順番は、各被験者に関してランダム化されます。

この設定では、Friedmanの検定は、分析でランクスコアを使用する場合(SCORES=RANK)のANOVA (行平均スコア) CMH統計量と同じになります。三元表は被験者(または被験者グループ)を層化変数として、治療を行変数として、反応を列変数として使用します。FREQプロシジャは、タイの反応値に中ランクを割り当てることにより、各タイを処理します。各ブロック内で治療ごとに複数の被験者が存在する場合、ANOVACMH統計量は、Friedmanの検定の一般化となります。

データセットHypnosisには、催眠が4種類の感情に対応する皮膚電位(ミリボルト単位で測定)に関して同じ影響を与えるかどうかを調べた実験のデータが含まれています(Lehmann and D’Abrera 2006, p. 264)。この実験では、8名の被験者が、催眠下で、恐れ(fear)、喜び(joy)、悲しみ(sadness)、平穏(calmness)の各感情を示すよう求められます。データは、各感情につき被験者ごとに1つのオブザベーションとして記録されます。

data Hypnosis;

length Emotion $ 10;

input Subject Emotion $ SkinResponse @@;

datalines;

1 fear 23.1 1 joy 22.7 1 sadness 22.5 1 calmness 22.6

2 fear 57.6 2 joy 53.2 2 sadness 53.7 2 calmness 53.1

3 fear 10.5 3 joy 9.7 3 sadness 10.8 3 calmness 8.3

4 fear 23.6 4 joy 19.6 4 sadness 21.1 4 calmness 21.6

5 fear 11.9 5 joy 13.8 5 sadness 13.7 5 calmness 13.3

6 fear 54.6 6 joy 47.1 6 sadness 39.2 6 calmness 37.0

7 fear 21.0 7 joy 13.6 7 sadness 13.7 7 calmness 14.8

8 fear 20.3 8 joy 23.6 8 sadness 16.3 8 calmness 14.8

;

次のPROC FREQステートメントでは、TABLESステートメントが、Subjectにより層化された三元表と二元表を作成します。変数Emotionと変数SkinResponseが、それぞれこの表の行および列になります。CMH2オプションは、最初の2つのCochran-Mantel-Haenszel統計量を生成します。SCORES=RANKオプションは、スコアランクを使用してこれらの統計量を計算するよう指定します。NOPRINTオプションは分割表の表示を抑制します。これらのステートメントが生成する出力を出力3.9.1と出力3.9.2に示します。

proc freq data=Hypnosis;

tables Subject*Emotion*SkinResponse /

cmh2 scores=rank noprint;

run;

proc freq data=Hypnosis;

tables Emotion*SkinResponse /

cmh2 scores=rank noprint;

run;

出力3.9.1 に示されているCMH統計量はランクスコアに基づいているため、Row Mean Scores Differ統計量はFriedmanのカイ2乗統計量(Q = 6.45)と同じになります。p値が0.0917であるということは、異なる感情による皮膚電位反応の差異は、10%水準では有意であるが、5%水準では有意でないことを示しています。

Page 257: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 253

被験者別の層化を行わない場合、Row Mean Scores Differ CMH統計量はKruskal-Wallis検定と同じになり、有意ではありません(出力3.9.2ではp= 0.9038と示されている)。このため、被験者の差異に起因するバックグラウンド変動を削減するためには、被験者に対する補正を行うことが重要となります。

出力 3.9.1 CMH統計量: 被験者別の層化The FREQ Procedure

Summary Statistics for Emotion by SkinResponse Controlling for Subject

出力 3.9.2 CMH統計量 : 層化なしThe FREQ Procedure

Summary Statistics for Emotion by SkinResponse

Cochran-Mantel-Haenszel Statistics (Based on Rank Scores)

Statistic Alternative Hypothesis DF Value Prob

1 Nonzero Correlation 1 0.2400 0.6242

2 Row Mean Scores Differ 3 6.4500 0.0917

Cochran-Mantel-Haenszel Statistics (Based on Rank Scores)

Statistic Alternative Hypothesis DF Value Prob

1 Nonzero Correlation 1 0.0001 0.9933

2 Row Mean Scores Differ 3 0.5678 0.9038

Page 258: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

254 第 3章 : FREQプロシジャ

例 3.10 Cochranの Q検定

2値応答を同じ条件で何回も測定するか、または異なる条件下で測定する場合、CochranのQを使うと、肯定応答の周辺確率が回数や条件を通じて不変であるかどうかを検定できます。3つ以上の応答カテゴリが存在する場合、CATMODプロシジャを使用して反復測定モデルを当てはめることができます。

データセットDrugsには、慢性疾患を治療するための3種類の薬の実験データ(Agresti 2002)が含まれています。この実験では、46名の被験者に3種類の薬A、B、Cを投与します。各薬に対する反応は、favorable('F')かunfavorable ('U')のいずれかになります。

proc format;

value $ResponseFmt 'F'='Favorable'

'U'='Unfavorable';

run;

data drugs;

input Drug_A $ Drug_B $ Drug_C $ Count @@;

datalines;

F F F 6 U F F 2

F F U 16 U F U 4

F U F 2 U U F 6

F U U 4 U U U 6

;

次のステートメントは、各薬への反応の一元度数表を作成します。AGREEオプションは、CochranのQと、三元表に対するその他の一致の統計量を生成します。これらのステートメントが生成する出力を出力3.10.1から出力3.10.5に示します。

proc freq data=Drugs;

tables Drug_A Drug_B Drug_C / nocum;

tables Drug_A*Drug_B*Drug_C / agree noprint;

format Drug_A Drug_B Drug_C $ResponseFmt.;

weight Count;

title 'Study of Three Drug Treatments for a Chronic Disease';

run;

出力3.10.1の一元度数表は、各薬に対する周辺応答を提供します。薬AおよびBに関しては、被験者の61%がFavorableな応答を報告しましたが、薬Cに関してFavorableな応答を報告したのは被験者の35%でした。出力3.10.2と出力3.10.3には、それぞれ薬Aの'Favorable'水準と'Unfavorable'水準の一致の統計量が示されています。McNemarの検定は、薬Aに対する応答がFavorableである場合、薬Aと薬C間に強い不一致があることを示しています。

Page 259: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

例 : FREQプロシジャ 255

出力 3.10.1 一元度数表Study of Three Drug Treatments for a Chronic Disease

The FREQ Procedure

出力 3.10.2 薬 Aに Favorableと応答したケースの一致の統計量

Drug_A Frequency Percent

Favorable 28 60.87

Unfavorable 18 39.13

Drug_B Frequency Percent

Favorable 28 60.87

Unfavorable 18 39.13

Drug_C Frequency Percent

Favorable 16 34.78

Unfavorable 30 65.22

McNemar's Test

Statistic (S) 10.8889

DF 1

Pr > S 0.0010

Simple Kappa Coefficient

Kappa -0.0328

ASE 0.1167

95% Lower Conf Limit -0.2615

95% Upper Conf Limit 0.1960

Page 260: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

256 第 3章 : FREQプロシジャ

出力 3.10.3 薬 Aに Unfavorableと応答したケースの一致の統計量

出力3.10.4には、全体のカッパ係数が示されています。カッパ係数の値が小さい場合、薬Bへの応答と薬Cへの応答の間には一致がないことを示します。

出力 3.10.4 全体の一致の統計量

CochranのQは統計的に有意である(出力3.10.5でp=0.0145となっている)ため、肯定応答の確率は3種類の薬で同じであるという仮説は棄却されます。

出力 3.10.5 CochranのQ検定

McNemar's Test

Statistic (S) 0.4000

DF 1

Pr > S 0.5271

Simple Kappa Coefficient

Kappa -0.1538

ASE 0.2230

95% Lower Conf Limit -0.5909

95% Upper Conf Limit 0.2832

Overall Kappa Coefficient

Kappa -0.0588

ASE 0.1034

95% Lower Conf Limit -0.2615

95% Upper Conf Limit 0.1439

Test for Equal Kappa Coefficients

Chi-Square 0.2314

DF 1

Pr > ChiSq 0.6305

Cochran's Q, for Drug_A by

Drug_B by Drug_C

Statistic (Q) 8.4706

DF 2

Pr > Q 0.0145

Page 261: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

リファレンス 257

リファレンスAgresti, A. (1992).“A Survey of Exact Inference for Contingency Tables.”Statistical Science 7:131–177.

Agresti, A. (2002).Categorical Data Analysis.2nd ed. New York: John Wiley & Sons.

Agresti, A. (2007).An Introduction to Categorical Data Analysis.2nd ed. New York: John Wiley & Sons.

Agresti, A. (2013).Categorical Data Analysis.3rd ed. Hoboken, NJ: John Wiley & Sons.

Agresti, A., and Caffo, B. (2000).“Simple and Effective Confidence Intervals for Proportions andDifferences of Proportions Result from Adding Two Successes and Two Failures.”AmericanStatistician 54:280–288.

Agresti, A., and Coull, B. A. (1998).“Approximate Is Better Than 'Exact' for Interval Estimation ofBinomial Proportions.”American Statistician 52:119–126.

Agresti, A., and Gottard, A. (2007).“Nonconservative Exact Small-Sample Inference for DiscreteData.”Computational Statistics and Data Analysis 51:6447–6458.

Agresti, A., Mehta, C. R., and Patel, N. R. (1990).“Exact Inference for Contingency Tables withOrdered Categories.”Journal of the American Statistical Association 85:453-458.

Agresti, A., and Min, Y. (2001).“On Small-Sample Confidence Intervals for Parameters in DiscreteDistributions.”Biometrics 57:963-971.

Agresti, A., Wackerly, D., and Boyett, J. M. (1979).“Exact Conditional Tests for Cross-classifications:Approximation of Attained Significance Levels.”Psychometrika 44:75–83.

Bangdiwala, S. I. (1988).The Agreement Chart.Technical report, Department of Biostatistics,University of North Carolina at Chapel Hill.

Bangdiwala, S. I., and Bryan, H. E. (1987).“Using SAS Software Graphical Procedures for the ObserverAgreement Chart.”In Proceedings of the Twelfth Annual SAS Users Group International Conference,1083–1088.Cary, NC: SAS Institute Inc.

Bangdiwala, S. I., Haedo, A. S., Natal, M. L., and Villaveces, A. (2008).“The Agreement Chart as anAlternative to the Receiver-Operating Characteristic Curve for Diagnostic Tests.”Journal ofClinical Epidemiology 61:866–874.

Barker, L., Rolka, H., Rolka, D., and Brown, C. (2001).“Equivalence Testing for Binomial RandomVariables: Which Test to Use?”American Statistician 55:279–287.

Barnard, G. A. (1945).“A New Test for Tables.”Nature 156:177.

Barnard, G. A. (1947).“Significance Tests for Tables.”Biometrika 34:123-138.

Barnard, G. A. (1949).“Statistical Inference.”Journal of the Royal Statistical Society, Series B 11:115–139.

Berger, J. O. (1985).Statistical Decision Theory and Bayesian Analysis.2nd ed. New York: Springer-Verlag.

Birch, M. W. (1965).“The Detection of Partial Association, Part 2: The General Case.”Journal of theRoyal Statistical Society, Series B 27:111–124.

Bishop, Y. M. M., Fienberg, S. E., and Holland, P. W. (1975).Discrete Multivariate Analysis: Theory andPractice.Cambridge, MA: MIT Press.

Blaker, H. (2000).“Confidence Curves and Improved Exact Confidence Intervals for DiscreteDistributions.”Canadian Journal of Statistics 28:783–798.

Bowker, A. H. (1948).“Bowker’s Test for Symmetry.”Journal of the American Statistical Association43:572-574.

2 2×

2 2×

Page 262: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

258 第 3章 : FREQプロシジャ

Breslow, N. E. (1996).“Statistics in Epidemiology: The Case-Control Study.”Journal of the AmericanStatistical Association 91:14-26.

Breslow, N. E., and Day, N. E. (1980).The Analysis of Case-Control Studies.Statistical Methods in CancerResearch, IARC Scientific Publications, vol. 1, no. 32.Lyon: International Agency for Research onCancer.

Breslow, N. E., and Day, N. E. (1987).The Design and Analysis of Cohort Studies.Statistical Methods inCancer Research, IARC Scientific Publications, vol. 2, no. 82.Lyon: International Agency for Researchon Cancer.

Bross, I. D. J. (1958).“How to Use Ridit Analysis.”Biometrics 14:18–38.

Brown, L. D., Cai, T. T., and DasGupta, A. (2001).“Interval Estimation for a Binomial Proportion.”StatisticalScience 16:101–133.

Brown, M. B., and Benedetti, J. K. (1977).“Sampling Behavior of Tests for Correlation in Two-WayContingency Tables.”Journal of the American Statistical Association 72:309-315.

Chan, I. S. F. (1998).“Exact Tests of Equivalence and Efficacy with a Non-zero Lower Bound forComparative Studies.”Statistics in Medicine 17:1403–1413.

Chan, I. S. F. (2003).“Proving Non-inferiority or Equivalence of Two Treatments with DichotomousEndpoints Using Exact Methods.”Statistical Methods in Medical Research 12:37–58.

Chan, I. S. F., and Zhang, Z. (1999).“Test-Based Exact Confidence Intervals for the Difference ofTwo Binomial Proportions.”Biometrics 55:1202-1209.

Chow, S.-C., Shao, J., and Wang, H. (2003).Sample Size Calculations in Clinical Research. Boca Raton, FL:CRC Press.

Chow, S.-C., Shao, J., and Wang, H. (2008).Sample Size Calculations in Clinical Research. 2nd ed. BocaRaton, FL: Chapman & Hall/CRC.

Cicchetti, D. V., and Allison, T. (1971).“A New Procedure for Assessing Reliability of Scoring EEGSleep Recordings.”American Journal of EEG Technology 11:101–109.

Clopper, C. J., and Pearson, E. S. (1934).“The Use of Confidence or Fiducial Limits Illustrated in theCase of the Binomial.”Biometrika 26:404-413.

Cochran, W. G. (1950).“The Comparison of Percentages in Matched Samples. ”Biometrika37:256-266.

Cochran, W. G. (1954).“Some Methods for Strengthening the Common Tests.” Biometrics10:417-451.

Cohen, J. (1960).“A Coefficient of Agreement for Nominal Scales.”Educational and PsychologicalMeasurement 20:37–46.

Collett, D. (1991).Modelling Binary Data.London: Chapman & Hall.

Dann, R. S., and Koch, G. G. (2005).“Review and Evaluation of Methods for Computing ConfidenceIntervals for the Ratio of Two Proportions and Considerations for Non-inferiority ClinicalTrials.”Journal of Biopharmaceutical Statistics 15:85–107.

Dmitrienko, A., Molenberghs, G., Chuang-Stein, C., and Offen, W. (2005).Analysis of Clinical TrialsUsing SAS: A Practical Guide.Cary, NC: SAS Institute Inc.

Drasgow, F. (1986).“Polychoric and Polyserial Correlations.”In Encyclopedia of Statistical Sciences,vol. 7, edited by S. Kotz, N. L. Johnson, and C. B. Read.New York: John Wiley & Sons.

2x

Page 263: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

リファレンス 259

Dunnett, C. W., and Gent, M. (1977).“Significance Testing to Establish Equivalence betweenTreatments, with Special Reference to Data in the Form of Tables.” Biometrics 33:593-602.

Farrington, C. P., and Manning, G. (1990).“Test Statistics and Sample Size Formulae for Comparative Binomial Trials with Null Hypothesis of Non-zero Risk Difference or Non-unity RelativeRisk.”Statistics in Medicine 9:1447–1454.

Fienberg, S. E. (1980).The Analysis of Cross-classified Categorical Data.2nd ed. Cambridge, MA: MIT Press.

Fleiss, J. L., and Cohen, J. (1973).“The Equivalence of Weighted Kappa and the Intraclass CorrelationCoefficient as Measures of Reliability.”Educational and Psychological Measurement 33:613–619.

Fleiss, J. L., Cohen, J., and Everitt, B. S. (1969).“Large-Sample Standard Errors of Kappa andWeighted Kappa.”Psychological Bulletin 72:323–327.

Fleiss, J. L., Levin, B., and Paik, M. C. (2003).Statistical Methods for Rates and Proportions. 3rd ed.Hoboken, NJ: John Wiley & Sons.

Freeman, G. H., and Halton, J. H. (1951).“Note on an Exact Treatment of Contingency, Goodness ofFit, and Other Problems of Significance.”Biometrika 38:141-149.

Friendly, M. (2000).Visualizing Categorical Data.Cary, NC: SAS Institute Inc.

Gail, M. H., and Mantel, N. (1977).“Counting the Number of Contingency Tables with FixedMargins.”Journal of the American Statistical Association 72:859-862.

Gail, M. H., and Simon, R. (1985).“Tests for Qualitative Interactions between Treatment Effects andPatient Subsets.”Biometrics 41:361-372.

Gart, J. J. (1971).“The Comparison of Proportions: A Review of Significance Tests, ConfidenceIntervals, and Adjustments for Stratification.”Review of the International Statistical Institute39:148–169.

Gart, J. J., and Nam, J. (1988).“Approximate Interval Estimation of the Ratio of BinomialParameters: A Review and Corrections for Skewness.”Biometrics 44:323-338.

Goodman, L. A., and Kruskal, W. H. (1979).Measures of Association for Cross Classification. New York:Springer-Verlag.

Greenland, S., and Robins, J. M. (1985).“Estimation of a Common Effect Parameter from SparseFollow-Up Data.”Biometrics 41:55-68.

Haldane, J. B. S. (1955).“The Estimation and Significance of the Logarithm of a Ratio ofFrequencies.”Annals of Human Genetics 20:309–314.

Hauck, W. W., and Anderson, S. (1986).“A Comparison of Large-Sample Confidence IntervalMethods for the Difference of Two Binomial Probabilities.” American Statistician 40:318–322.

Hirji, K. F. (2006).Exact Analysis of Discrete Data.Boca Raton, FL: Chapman & Hall/CRC.

Hirji, K. F., Vollset, S. E., Reis, I. M., and Afifi, A. A. (1996).“Exact Tests for Interaction in Several Tables.”Journal of Computational and Graphical Statistics 5:209–224.

Hollander, M., and Wolfe, D. A. (1999).Nonparametric Statistical Methods.2nd ed. New York: JohnWiley & Sons.

Jones, M. P., O’Gorman, T. W., Lemka, J. H., and Woolson, R. F. (1989).“A Monte Carlo Investigationof Homogeneity Tests of the Odds Ratio under Various Sample Size Configurations.”Biometrics 45:171-181.

Kendall, M. G. (1955).Rank Correlation Methods.2nd ed. London: Charles Griffin.

2 2×

r c×

2 2×

Page 264: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

260 第 3章 : FREQプロシジャ

Kendall, M. G., and Stuart, A. (1979).The Advanced Theory of Statistics.4th ed. Vol. 2.New York:Macmillan.

Kim, Y., and Won, S. (2013).“Adjusted Proportion Difference and Confidence Interval in StratifiedRandomized Trials.”In Proceedings of PharmaSUG 2013 (Pharmaceutical Industry SAS UsersGroup).Paper SP04.Cary, NC: SAS Institute Inc.

Kleinbaum, D. G., Kupper, L. L., and Morgenstern, H. (1982).Epidemiologic Research: Principles andQuantitative Methods.New York: Van Nostrand Reinhold.

Korn, E. L., and Graubard, B. I. (1998).“Confidence Intervals for Proportions with Small ExpectedNumber of Positive Counts Estimated from Survey Data.”Survey Methodology 24:193–201.

Landis, J. R., Heyman, E. R., and Koch, G. G. (1978).“Average Partial Association in Three-WayContingency Tables: A Review and Discussion of Alternative Tests.” International StatisticalReview 46:237–254.

Leemis, L. M., and Trivedi, K. S. (1996).“A Comparison of Approximate Interval Estimators for theBernoulli Parameter.”American Statistician 50:63–68.

Lehmann, E. L., and D’Abrera, H. J. M. (2006).Nonparametrics: Statistical Methods Based on Ranks.Rev. ed. New York: Springer Science & Business Media.

Liebetrau, A. M. (1983).Measures of Association.Vol. 32 of Quantitative Applications in the SocialSciences.Beverly Hills, CA: Sage Publications.

Mack, G. A., and Skillings, J. H. (1980).“A Friedman-Type Rank Test for Main Effects in aTwo-Factor ANOVA.”Journal of the American Statistical Association 75:947-951.

Mantel, N. (1963).“Chi-Square Tests with One Degree of Freedom: Extensions of the Mantel-HaenszelProcedure.”Journal of the American Statistical Association 58:690-700.

Mantel, N., and Fleiss, J. L. (1980).“Minimum Expected Cell Size Requirements for the Mantel-Haenszel One-Degree-of-Freedom Chi-Square Test and a Related Rapid Procedure.”AmericanJournal of Epidemiology 112:129–134.

Mantel, N., and Haenszel, W. (1959).“Statistical Aspects of Analysis of Data from RetrospectiveStudies of Disease.”Journal of the National Cancer Institute 22:719–748.

Margolin, B. H. (1988).“Test for Trend in Proportions.”In Encyclopedia of Statistical Sciences, vol. 9,edited by S. Kotz, N. L. Johnson, and C. B. Read.New York: John Wiley & Sons.

McNemar, Q. (1947).“Note on the Sampling Error of the Difference between Correlated Proportions or Percentages.”Psychometrika 12:153–157.

Mee, R. W. (1984).“Confidence Bounds for the Difference between Two Probabilities.” Biometrics40:1175-1176.

Mehta, C. R., and Patel, N. R. (1983).“A Network Algorithm for Performing Fisher’ s Exact Test inContingency Tables.”Journal of the American Statistical Association 78:427-434.

Mehta, C. R., Patel, N. R., and Gray, R. J. (1985).“Computing an Exact Confidence Interval for theCommon Odds Ratio in Several Contingency Tables.”Journal of the American StatisticalAssociation 80:969-973.

Mehta, C. R., Patel, N. R., and Senchaudhuri, P. (1991).“Exact Stratified Linear Rank Tests for Binary Data.”In Computing Science and Statistics: Proceedings of the Twenty-Third Symposium on theInterface, edited by E. M. Keramidas, 200–207.Fairfax Station, VA: Interface Foundation.

r c×

2 2×

Page 265: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

リファレンス 261

Mehta, C. R., Patel, N. R., and Tsiatis, A. A. (1984).“Exact Significance Testing to Establish Treatment Equivalence with Ordered Categorical Data.”Biometrics 40:819-825.

Mehta, C. R., and Senchaudhuri, P. (2003).“Conditional versus Unconditional Exact Tests forComparing Two Binomials.”Cambridge, MA: Cytel Software Corporation.

Miettinen, O. S. (1985).Theoretical Epidemiology: Principles of Occurrence in Research Medicine.NewYork: John Wiley & Sons.

Miettinen, O. S., and Nurminen, M. M. (1985).“Comparative Analysis of Two Rates.” Statistics inMedicine 4:213–226.

Newcombe, R. G. (1998a).“Interval Estimation for the Difference between Independent Proportions: Comparison of Eleven Methods.” Statistics in Medicine 17:873–890.

Newcombe, R. G. (1998b).“Two-Sided Confidence Intervals for the Single Proportion: Comparison ofSeven Methods.”Statistics in Medicine 17:857–872.

Newcombe, R. G., and Nurminen, M. M. (2011).“In Defence of Score Intervals for Proportions andTheir Differences.”Communications in Statistics—Theory and Methods 40:1271–1282.

Olsson, U. (1979).“Maximum Likelihood Estimation of the Polychoric Correlation Coefficient.”Psychometrika 12:443–460.

Pirie, W. (1983).“Jonckheere Tests for Ordered Alternatives.”In Encyclopedia of Statistical Sciences, vol. 4,edited by S. Kotz, N. L. Johnson, and C. B. Read.New York: John Wiley & Sons.

Radlow, R., and Alf, E. F. (1975).“An Alternate Multinomial Assessment of the Accuracy of theChi-Square Test of Goodness of Fit.”Journal of the American Statistical Association 70:811-813.

Robins, J. M., Breslow, N., and Greenland, S. (1986).“Estimators of the Mantel-Haenszel VarianceConsistent in Both Sparse Data and Large-Strata Limiting Models.” Biometrics 42:311-323.

Santner, T. J., Pradhan, V., Senchaudhuri, P., Mehta, C. R., and Tamhane, A. (2007).“ Small-SampleComparisons of Confidence Intervals for the Difference of Two Independent Binomial Proportions.”Computational Statistics and Data Analysis 51:5791–5799.

Santner, T. J., and Snell, M. K. (1980).“Small-Sample Confidence Intervals for and in Contingency Tables.”Journal of the American Statistical Association 75:386-394.

Sato, T. (1989).“On the Variance Estimator of the Mantel-Haenszel Risk Difference.” Biometrics45:1323-1324.Letter to the editor.

Schuirmann, D. J. (1987).“A Comparison of the Two One-Sided Tests Procedure and the PowerApproach for Assessing the Equivalence of Average Bioavailability.” Journal of Pharmacokineticsand Biopharmaceutics 15:657–680.

Schuirmann, D. J. (1999).“Confidence Interval Methods for Bioequivalence Testing with BinomialEndpoints.”In Proceedings of the Biopharmaceutical Section, 227–232. Alexandria, VA: AmericanStatistical Association.

Silvapulle, M. J. (2001).“Tests against Qualitative Interaction: Exact Critical Values and RobustTests.”Biometrics 57:1157-1165.

Snedecor, G. W., and Cochran, W. G. (1989).Statistical Methods.8th ed. Ames: Iowa State UniversityPress.

Somers, R. H. (1962).“A New Asymmetric Measure of Association for Ordinal Variables.” AmericanSociological Review 27:799–811.

p1 p2– p1 p2⁄

2 2×

Page 266: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

262 第 3章 : FREQプロシジャ

Stokes, M. E., Davis, C. S., and Koch, G. G. (2012).Categorical Data Analysis Using SAS.3rd ed. Cary,NC: SAS Institute Inc.

Suissa, S., and Shuster, J. J. (1985).“Exact Unconditional Sample Sizes for the Binomial Trial.”Journal of the Royal Statistical Society, Series A 148:317–327.

Tarone, R. E. (1985).“On Heterogeneity Tests Based on Efficient Scores.”Biometrika 72:91-95.

Theil, H. (1972).Statistical Decomposition Analysis.Amsterdam: North-Holland.

Thomas, D. G. (1971).“Algorithm AS-36: Exact Confidence Limits for the Odds Ratio in a Table.”Journal of the Royal Statistical Society, Series C 20:105–110.

Valz, P. D., and Thompson, M. E. (1994).“Exact Inference for Kendall’s S and Spearman’s withExtensions to Fisher’s Exact Test in Contingency Tables.” Journal of Computational andGraphical Statistics 3:459–472.

Van Elteren, P. H. (1960).“On the Combination of Independent Two-Sample Tests of Wilcoxon.”Bulletin of the International Statistical Institute 37:351–361.

Vollset, S. E., Hirji, K. F., and Elashoff, R. M. (1991).“Fast Computation of Exact Confidence Limitsfor the Common Odds Ratio in a Series of Tables.”Journal of the American StatisticalAssociation 86:404-409.

Wilson, E. B. (1927).“Probable Inference, the Law of Succession, and Statistical Inference.”Journal ofthe American Statistical Association 22:209-212.

Woolf, B. (1955).“On Estimating the Relationship between Blood Group and Disease.”Annals ofHuman Genetics 19:251–253.

Yan, X., and Su, X. G. (2010).“Stratified Wilson and Newcombe Confidence Intervals for MultipleBinomial Proportions.”Statistics in Biopharmaceutical Research 2:329–335.

Zelen, M. (1971).“The Analysis of Several Contingency Tables.”Biometrika 58:129-137.

2 2×

2 2×

p

r c×

2 2×

2 2×

Page 267: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

第 4章UNIVARIATEプロシジャ

目次入門ガイド : UNIVARIATEプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

UNIVARIATEプロシジャの機能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

データ分布の要約 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

データ分布の活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

データ分布のモデル化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

構文 : UNIVARIATEプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

PROC UNIVARIATEステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

BYステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

CDFPLOTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

CLASSステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

FREQステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295

HISTOGRAMステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

IDステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

INSETステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

OUTPUTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327

PPPLOTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

PROBPLOTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345

QQPLOTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356

VARステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

WEIGHTステートメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

共通オプションのリファレンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369

UNIVARIATEプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

記述統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379

モードの計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382

パーセント点の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382

位置の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384

正規分布のパラメータに対する信頼限界 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386

ロバスト推定量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387

ラインプリンタプロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389

高解像度グラフの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

CLASSステートメントを使用した比較プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

インセットの配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396

当てはめた連続分布の計算式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400

レイリー分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

Page 268: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

264 第 4章 : UNIVARIATEプロシジャ

適合度検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

核密度推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414

Q-Qプロットと確率プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416

Q-Qプロットと確率プロットの解釈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417

確率プロットとQ-Qプロットの分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

Q-Qプロットを使用した形状パラメータの推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

Q-Qプロットを使用した位置パラメータと尺度パラメータの推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . 424

Q-Qプロットを使用したパーセント点の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

入力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

OUTPUTステートメントのOUT=出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

OUTHISTOGRAM=出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428

OUTKERNEL=出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429

OUTTABLE=出力データセット . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430

要約統計量のテーブル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433

ODSテーブル名 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433

当てはめた分布のODSテーブル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434ODS Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435

計算リソース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435

UNIVARIATEプロシジャ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436

例 4.1 複数の変数に対する記述統計量の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436

例 4.2 モードの計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438

例 4.3 極値オブザベーションと極値の識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440

例 4.4 度数表の作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

例 4.5 基本要約プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443

例 4.6 FREQ変数を使用したデータセットの分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451

例 4.7 OUT=出力データセットへの要約統計量の保存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452

例 4.8 出力データセットへのパーセント点の保存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454

例 4.9 平均、標準偏差、分散に対する信頼限界の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

例 4.10 分位点とパーセント点に対する信頼限界の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456

例 4.11 ロバスト推定の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

例 4.12 位置の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460

例 4.13 ペアのデータを使用した符号検定の実行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461

例 4.14 ヒストグラムの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462

例 4.15 一元比較ヒストグラムの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463

例 4.16 二元比較ヒストグラムの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465

例 4.17 記述統計量を含むインセットの追加 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467

例 4.18 ヒストグラムのビン幅の指定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469

例 4.19 ヒストグラムへの正規曲線の追加 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472

例 4.20 比較ヒストグラムへの当てはめた正規曲線の追加 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474

例 4.21 ベータ曲線の当てはめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475

例 4.22 対数正規曲線、Weibull曲線、ガンマ曲線の当てはめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477

Page 269: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

概要 : UNIVARIATEプロシジャ 265

例 4.23 核密度推定の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482

例 4.24 3パラメータ対数正規曲線の当てはめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483

例 4.25 折り重ねられた正規曲線の追加表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485

例 4.26 対数正規確率プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489

例 4.27 対数正規分布の当てはめを表示するヒストグラムの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493

例 4.28 正規分位点プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495

例 4.29 分布参照線の追加 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496

例 4.30 正規分位点プロットの解釈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497

例 4.31 対数正規分位点プロットからの 3パラメータの推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499

例 4.32 対数正規分位点プロットからのパーセント点の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502

例 4.33 対数正規分位点プロットからのパラメータの推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503

例 4.34 Weibull分位点プロットの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504

例 4.35 累積分布プロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506

例 4.36 P-Pプロットの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507

リファレンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509

概要 : UNIVARIATEプロシジャUNIVARIATEプロシジャは次を提供します。

• 積率 (歪度および尖度を含む )、分位点またはパーセント点 (中央値など )、度数表、極値に基づく記述統計量

• オプションでさまざまな分布の確率密度曲線および核密度推定に当てはめることができるヒストグラム • 累積分布関数プロット (CDFプロット )。オプションで、さまざまな分布の確率分布曲線に重ね打ちできます。

• Q-Qプロット、確率プロットおよび P-Pプロット。これらのプロットを使用すると、データ分布をさまざまな理論分布と簡単に比較できます。

• 正規分布を含むさまざまな分布の適合度検定 • 要約統計量をプロットに挿入する機能 • 度数変数を含むデータセットを分析する機能 • 要約統計量、ヒストグラム間隔および当てはめた曲線のパラメータを含む出力データセットを作成する機能

PROC UNIVARIATEステートメントとVARステートメントを併用して、要約統計量を計算できます。導入例は、入門ガイド: 「入門ガイド: UNIVARIATEプロシジャ」(266ページ) のセクションを参照してください。さらに、次のステートメントを使用してプロットを要求できます。

• CDFPLOTステートメントを使用して、CDFプロットを作成• HISTOGRAMステートメントを使用して、ヒストグラムを作成• PPPLOTステートメントを使用して、P-Pプロットを作成• PROBPLOTステートメントを使用して、確率プロットを作成• QQPLOTステートメントを使用して、Q-Qプロットを作成• CLASSステートメントと上記のいずれかのプロットステートメントを併用して、比較プロットを作成

Page 270: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

266 第 4章 : UNIVARIATEプロシジャ

• INSET ステートメントといずれかのプロットステートメントを併用して、要約統計量のインセットテーブルでプロットを拡張

UNIVARIATEプロシジャは2種類のグラフ出力を作成します。

• ODS Statistical Graphics出力。プロシジャステートメントの前にODS Graphicsを有効にした場合に作成されます。従来的なグラフ。

• ODS Graphicsを有効にしていない場合に作成されます。 従来的なグラフおよびODS Graphics出力の作成の詳細は、「高解像度グラフの作成」(391ページ)のセクションを参照してください。

入門ガイド : UNIVARIATEプロシジャ次の例では、UNIVARIATEプロシジャで、ヒストグラムなどの記述統計量とグラフ表示を使用して変数の分布を分析する方法を示します。

UNIVARIATEプロシジャの機能

UNIVARIATEプロシジャは、さまざまな記述統計量、グラフ表示および統計方法を提供します。これらを使用して、数値変数の統計分布を要約、視覚化、分析、モデル化できます。これらのツールは幅広いタスクおよびアプリケーションに対応しています。

• データセットの変数の分布を活用することは、データ分析、データウェアハウジングおよびデータマイニングの重要な予備的ステップです。UNIVARIATE プロシジャでは、ヒストグラムやノンパラメトリックな密度推定などのテーブルおよびグラフ表示を使用して、分布の主要な特徴を見つけ、外れ値および極値オブザベーションを識別し、データ変換が必要かどうかを調べ、分布を比較することができます。

• データの分布をモデル化して分布の前提を検証することは、統計分析の基本的なステップです。UNIVARIATEプロシジャを使用して、パラメトリック法の分布 (ベータ、指数、ガンマ、Gumbel、逆ガウス、対数正規、正規、一般化パレート、べき関数、レイリー、Johnson 、Johnson 、Weibull)を当てはめ、これらのモデルから確率とパーセント点を計算できます。仮説検定と、確率プロットやQ-Qプロットなどのグラフ表示を使用して、適合度を評価できます。また、UNIVARIATEプロシジャを使用して、その他の種類の統計分析の分散の前提を検証することもできます。標準の前提が満たされない場合、UNIVARIATE プロシジャを使用して、ノンパラメトリックな検定を実行し、位置と尺度のロバスト推定量を計算できます。

• データの分布を要約すると、多くの場合、効果的な統計レポートやプレゼンテーションを作成するのに役立ちます。UNIVARIATEプロシジャを使用し、平均やパーセント点などの要約統計量テーブルと、ヒストグラムや比較ヒストグラムなどのグラフ表示を作成して、解釈しやすいレポートにすることができます。

次の例は、UNIVARIATEプロシジャで実行できるいくつかのタスクを示しています。

SB SU

Page 271: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : UNIVARIATEプロシジャ 267

データ分布の要約図 4.1は、5,840件の住宅ローンのLTV比率の基本要約統計量のテーブルおよび極値オブザベーションのテーブルを示します。この比率は、HomeLoansという名前のデータセットの変数LoanToValueRatioの値として保存されます。次のステートメントは単変量分析を要求します。

ods select BasicMeasures ExtremeObs; proc univariate data=HomeLoans;

var LoanToValueRatio; run;

ODS SELECTステートメントは、デフォルトの出力を基本統計量および極値オブザベーションのテーブルに制限します。

図 4.1 : 基本統計量および極値オブザベーションThe UNIVARIATE Procedure

Variable: LoanToValueRatio (Loan to Value Ratio)

図 4.1のテーブルは、特に、平均比が0.2925、最小比は0.06518で最大比が1.1398であることを示しています。

Basic Statistical Measures

Location Variability

Mean 0.292512 Std Deviation 0.16476

Median 0.248050 Variance 0.02715

Mode 0.250000 Range 1.24780

Interquartile Range 0.16419

Extreme Observations

Lowest Highest

Value Obs Value Obs

0.0651786 1 1.13976 5776

0.0690157 3 1.14209 5791

0.0699755 59 1.14286 5801

0.0702412 84 1.17090 5799

0.0704787 4 1.31298 5811

Page 272: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

268 第 4章 : UNIVARIATEプロシジャ

データ分布の活用図 4.2はLTV比率のヒストグラムを示します。ヒストグラムは、前の例のテーブルでははっきりしない、歪度や最大値が0.175であることなど、比率分布の特徴を明らかにします。次のステートメントはヒストグラムを作成します。

title 'Home Loan Analysis'; ods graphics on; proc univariate data=HomeLoans noprint;

histogram LoanToValueRatio / odstitle = title; inset n = 'Number of Homes' / position=ne;

run;

ODS GRAPHICS ONステートメントはODS Graphicsを有効化し、UNIVARIATEプロシジャでODS Graphics出力を生成できるようにします。(従来のグラフおよびODS Graphicsの詳細は、「グラフを作成する別の方法」(392ページ)のセクションを参照してください。)

NOPRINTオプションは要約統計量を非表示にし、ODSTITLE=オプションではSAS TITLEステートメントに指定されたタイトルをグラフのタイトルに使用します。INSETステートメントは、プロットの上辺右端(北東)に分析対象の住宅ローンの合計数を挿入します。

図 4.2 : LTV比率の比較ヒストグラム

データセットHomeLoansは、ローンを2種類(GoldおよびPlatinum)に分類するLoanTypeという名前の変数を含んでいます。2種類のLoanToValueRatioの分布を比較するのは有効です。次のステートメントは、図 4.3および図4.4に示す、各分布の分位点と比較ヒストグラムを要求します。

title 'Comparison of Loan Types';ods select Histogram Quantiles;proc univariate data=HomeLoans;

var LoanToValueRatio; class LoanType; histogram LoanToValueRatio / kernel odstitle = title;

Page 273: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : UNIVARIATEプロシジャ 269

inset n='Number of Homes' median='Median Ratio' (5.3) / position=ne; label LoanType = 'Type of Loan';

run;options gstyle;

ODS SELECTステートメントは、デフォルトの出力を、分位点のテーブルとHISTOGRAMステートメントで作成されるグラフに制限します。CLASSステートメントは、分位点の計算と比較ヒストグラムで使用する分類変数として、LoanTypeを指定します。KERNEL<(kernel-options)>オプションは、比率密度の平滑でノンパラメトリックな推定を各ヒストグラムに追加します。INSETステートメントは、要約統計量をグラフに直接表示するときに指定します。

図 4.3 : LTV比率の分位点Comparison of Loan Types

The UNIVARIATE ProcedureVariable: LoanToValueRatio (Loan to Value Ratio)

LoanType = Gold

Comparison of Loan Types

The UNIVARIATE ProcedureVariable: LoanToValueRatio (Loan to Value Ratio)

LoanType = Platinum

Quantiles (Definition 5)

Level Quantile

100% Max 1.0617647

99% 0.8974576

95% 0.6385908

90% 0.4471369

75% Q3 0.2985099

50% Median 0.2217033

25% Q1 0.1734568

10% 0.1411130

5% 0.1213079

1% 0.0942167

0% Min 0.0651786

Quantiles (Definition 5)

Level Quantile

100% Max 1.312981

99% 1.050000

95% 0.691803

Page 274: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

270 第 4章 : UNIVARIATEプロシジャ

図 4.3の出力は、Platinumローンの中央比率(0.366)がGoldローンの中央比率(0.222)よりも大きいことを示しています。図 4.4の比較ヒストグラムでは、より簡単に2つの分布を比較できます。このヒストグラムは、比率分布が約0.14シフトしていることを除いて似ていることを示しています。

図 4.4 : LTV比率の比較ヒストグラム

この例のサンプルプログラムunivar1.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

90% 0.549273

75% Q3 0.430160

50% Median 0.366168

25% Q1 0.314452

10% 0.273670

5% 0.253124

1% 0.231114

0% Min 0.215504

Quantiles (Definition 5)

Page 275: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

入門ガイド : UNIVARIATEプロシジャ 271

データ分布のモデル化前の例のようなデータ分布の要約に加えて、UNIVARIATEプロシジャを使用して、データの無作為抽出に基づき、分布を統計的にモデル化することができます。次のステートメントは、30個の航空機部品サンプルの位置偏差の測定値を含む、Aircraftという名前のデータセットを作成します。

data Aircraft; input Deviation @@; label Deviation = 'Position Deviation'; datalines;

-.00653 0.00141 -.00702 -.00734 -.00649 -.00601 -.00631 -.00148 -.00731 -.00764 -.00275 -.00497 -.00741 -.00673 -.00573 -.00629 -.00671 -.00246 -.00222 -.00807 -.00621 -.00785 -.00544 -.00511 -.00138 -.00609 0.00038 -.00758 -.00731 -.00455;

分析では、測定値の分布が正規分布であるかどうかがまず問題になります。次のステートメントは、図 4.5および図 4.6に示す、積率のテーブル、正規性の検定および正規確率プロットを要求します。

title 'Position Deviation Analysis'; ods graphics on;ods select Moments TestsForNormality ProbPlot; proc univariate data=Aircraft normaltest;

var Deviation;probplot Deviation / normal(mu=est sigma=est)

square odstitle = title;

label Deviation = 'Position Deviation';

inset mean std / format=6.4;

run;

UNIVARIATEプロシジャは、変数Deviationに関連付けられたラベルを確率プロットの垂直軸ラベルとして使用します。INSETステートメントは、標本平均および標本標準偏差を確率プロットに表示します。

図 4.5 積率および正規性の検定Position Deviation Analysis

The UNIVARIATE ProcedureVariable: Deviation (Position Deviation)

Moments

N 30 Sum Weights 30

Mean -0.0053067 Sum Observations -0.1592

Std Deviation 0.00254362 Variance 6.47002E-6

Skewness 1.2562507 Kurtosis 0.69790426

Uncorrected SS 0.00103245 Corrected SS 0.00018763

Coeff Variation -47.932613 Std Error Mean 0.0004644

Page 276: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

272 第 4章 : UNIVARIATEプロシジャ

図 4.5の4つすべての適合度検定は、測定値が正規分布であるという仮定を棄却します。

図 4.6は測定の正規確率プロットを示します。対角方向の参照線に沿った線形の点のパターンは、測定が正規分布であることを示します。一方、曲線の点のパターンは、正規分布よりも対数正規などの片寄った分布が適していることを示します。

例4.1では、Deviationの対数正規分布が当てはめられます。

この例のサンプルプログラムunivar2.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

図 4.6 正規確率プロット

Tests for Normality

Test Statistic p Value

Shapiro-Wilk W 0.845364 Pr < W 0.0005

Kolmogorov-Smirnov D 0.208921 Pr > D <0.0100

Cramer-von Mises W-Sq 0.329274 Pr > W-Sq <0.0050

Anderson-Darling A-Sq 1.784881 Pr > A-Sq <0.0050

Page 277: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 273

構文 : UNIVARIATEプロシジャPROC UNIVARIATE <options>;

BY variables ;CDFPLOT <variables> < / options>;CLASSvariable-1 <(v-options)> <variable-2 <(v-options)>>

</ KEYLEVEL= value1 | (value1 value2 )>;FREQ variable;HISTOGRAM <variables> < / options>;ID variables;INSET keyword-list </ options>;出力 <OUT=SAS-data-set> <keyword1=names …keywordk=names><percentile-options>

;PPPLOT <variables> < / options>;PROBPLOT <variables> < / options>;QQPLOT <variables> < / options>;VAR variables;WEIGHT variable;

PROC UNIVARIATEステートメントは、UNIVARIATEプロシジャを呼び出します。VARステートメントは、分析対象とする数値変数を指定します。また、VARステートメントは、OUTPUTステートメントを使って要約統計量を出力データセットに保存する場合に必要となります。VARステートメントを省略すると、データセット内のすべての数値変数が分析対象となります。CDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTの各プロットステートメントは、グラフ表示を作成します。INSETステートメントは、要約統計量のテーブルをグラフに直接追加することにより、これらの表示を強化します。1つ以上のプロットステートメント、INSETステートメント、OUTPUTステートメントを指定できます。VARステートメントを使用する場合、プロットステートメント内に指定されている変数はVARステートメント内に指定されている変数のサブセットでなければなりません。

CLASSステートメントを使うと、データを分類水準にグループ化するのに使用する1つまたは2つの変数を指定できます。分析は、水準の組み合わせごとに実施されます。CLASSステートメントとプロットステートメントを組み合わせて使用すると、各セルに分類水準の1つの組み合わせのプロットを含むような、比較表示を作成できます。

BYステートメントを指定すると、BYグループごとの独立した分析を取得できます。FREQステートメントは、各オブザベーションの度数を提供する値を含む変数を指定します。WEIGHTステートメントは、特定の統計量の重み付けに使用される値を含む変数を指定します。IDステートメントは、極値オブザベーションを識別する1つ以上の変数を指定します。

Page 278: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

274 第 4章 : UNIVARIATEプロシジャ

PROC UNIVARIATEステートメントPROC UNIVARIATE <options>;

UNIVARIATEプロシジャを呼び出すには、PROC UNIVARIATEステートメントを使用する必要があります。PROC UNIVARIATEステートメント自体を使用してさまざまな統計量を要求し、各分析変数のデータ分布を要約することができます。

• 標本積率 • 位置とばらつきの基本統計量 • 平均、標準偏差、分散に対する信頼区間 • 位置の検定 • 正規性の検定 • トリム平均とウィンザー化平均 • 尺度のロバスト推定 • 分位点と関連信頼区間 • 極値オブザベーションと極値 • オブザベーションの度数 • 欠損値

さらに、PROC UNIVARIATEステートメントのオプションを使用して、次のことができます。 • 分析する入力データセットを指定 • グラフカタログを指定して、従来的なグラフ出力を保存 • 変数値の丸め単位を指定 • パーセント点の計算に使用する定義を指定 • 分散および標準偏差の計算に使用する分母を指定 • ラインプリンタでプロットが作成されるように要求し、特徴に使用する特殊な印刷文字を定義 • テーブルを抑制 • 出力データセットの統計量を保存

PROC UNIVARIATEステートメントで使用できるオプションは次のとおりです。 ALL

FREQ 、MODES 、NEXTRVAL= 5、PLOTS 、CIBASIC オプションが生成するすべての統計量とテーブルを要求します。分析変数に重みが与えられていない場合、このオプションも、 CIPCTLDF 、CIPCTLNORMAL 、LOCCOUNT 、NORMAL 、ROBUSTSCALE 、TRIMMED= .25、WINSORIZED= .25 オプションが生成する統計量とテーブルを要求します。UNIVARIATE プロシジャは、また、ALPHA= 、MU0= 、NEXTRVAL=、CIBASIC、CIPCTLDF、CIPCTLNORMAL、TRIMMED=、WINSORIZED=のいずれかに指定した任意の値を使用して出力を生成します。

ALPHA=α

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05であり、これは 95%の信頼区間を生成します。

いくつかの信頼区間オプションで、特殊なALPHA=オプションが使用できます。たとえば、 CIBASIC(ALPHA=0.10)を指定して、90%水準の基本信頼限界のテーブルを要求できます。これらのオプションのデフォルト値は、PROCステートメントのALPHA=オプションの値です。

α 100 1 α–( ) α

Page 279: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 275

ANNOTATE=SAS-data-set

ANNO=SAS-data-set

SAS/GRAPH: Referenceで説明されているように、注釈変数を含む入力データセットを指定します。従来的なグラフに特徴を追加するには、このデータセットを使用します。プロシジャで作成されたすべてのグラフに対して、このデータセットの特徴が追加されます。プロットステートメントで従来的なグラフを作成しない場合、ANNOTATE= データセットは使用されません。このオプションは、ODSGraphics出力には適用されません。ステートメントで作成された特定のグラフに対して特徴を追加する場合は、プロットステートメントのANNOTATE=オプションを使用します。

CIBASIC <(<TYPE=keyword> <ALPHA=α>)>

データが正規分布であることを前提にして、平均値、標準偏差および分散の信頼限界を要求します。CIBASICオプションを使用する場合は、VARDEF= のデフォルト値 (DF)を使用する必要があります。TYPE=keyword

信頼限界の種類を指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値は TWOSIDEDです。

ALPHA=α

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。デフォルト値は、PROCステートメントで指定された ALPHA= の値になります。

CIPCTLDF <(<TYPE=keyword> <ALPHA=α>)> k

CIQUANTDF <(<TYPE=keyword> <ALPHA=α>)>

分布によらない手法に基づく分位点の信頼限界を要求します。つまり、正規分布などのパラメトリックな分布データを前提としません。UNIVARIATEプロシジャは、Hahn and Meeker (1991)の説明に基づき、順序統計量 (順位 )を使用して信頼限界を計算します。このオプションは、WEIGHTステートメントを使用する場合には適用されません。TYPE=keyword

信頼限界の種類を指定します。keywordには、LOWER、UPPER、SYMMETRIC、ASYMMETRICのいずれかを指定できます。デフォルト値は SYMMETRICです。

ALPHA=α

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。デフォルト値は、PROCステートメントで指定された ALPHA= の値になります。

CIPCTLNORMAL <(<TYPE=keyword> <ALPHA=α>)>

CIQUANTNORMAL <(<TYPE=keyword> <ALPHA=α>)>

データが正規分布であることを前提にして、パーセント点の信頼限界を要求します。計算方法は、Hahn and Meeker (1991)のセクション 4.4.1で説明されており、Odeh and Owen (1980)によって提唱された非心分布を使用します。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。

TYPE=keyword

信頼限界の種類を指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値は TWOSIDEDです。

α 100 1 α–( ) α

α 100 1 α–( ) α

Page 280: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

276 第 4章 : UNIVARIATEプロシジャ

ALPHA=

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。デフォルト値は、PROCステートメントで指定された ALPHA= の値になります。

DATA=SAS-data-set

分析する入力 SAS データセットを指定します。DATA= オプションを省略すると、最後に作成されたSASデータセットが使用されます。

EXCLNPWGT

EXCLNPWGTS

重み値が非正数 (0 または負数 ) のオブザベーションを分析から除外します。デフォルトでは、重みが負または 0 のオブザベーションがオブザベーションの合計数にカウントされます。このオプションは、WEIGHT ステートメントを使用する場合のみ適用されます。

FREQ

変数値、度数、パーセンテージ、累積パーセンテージで構成される度数表を要求します。

WEIGHTステートメントを指定すると、UNIVARIATEプロシジャでは、重み付きの度数が度数表に含まれ、この値を使用してパーセンテージが計算されます。

GOUT=graphics-catalog

UNIVARIATE プロシジャが従来的なグラフ出力の保存に使用する SAS カタログを指定します。graphics-catalogの名前のライブラリ参照名を省略すると、UNIVARIATEプロシジャでは、WORKと呼ばれる一時ライブラリからカタログが検索されます。存在しない場合はカタログが作成されます。このオプションは、ODS Graphics出力には適用されません。

IDOUT

出力ステートメントで作成される出力データセットに、ID変数を含めます。出力データセットの ID変数の値は、入力データセットまたは BYグループの最初の値です。デフォルトでは、ID変数はOUTPUTステートメントのデータセットに含まれません。

LOCCOUNT

MU0=の値より大きい、等しくない、小さいオブザベーション数が表示されたテーブルを要求します。UNIVARIATE プロシジャでは、符号検定および符号付き順位検定にこれらの値を使用します。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。

MODES|MODE

あらゆるモードのテーブルを要求します。デフォルトでは、データに複数のモードが含まれるときは、すべての基本統計量解析のうちで最も低水準のモードが表示されます。すべての値が重複しない場合は、モードのテーブルは作成されません。

MU0=values

LOCATION=values

"Tests for Location: Mu0=value"というラベルのテーブルに要約される位置検定の帰無仮説の平均値または位置パラメータ ( ) を指定します。1 つの値を指定すると、すべての分析変数に対して同じ帰無仮説が検定されます。複数の値を指定すると、VAR ステートメントが要求され、2 つのリストの順序で、分析変数、マッチング変数および位置の値ごとに異なる帰無仮説を UNIVARIATE プロシジャでは検定します。デフォルトの valueは 0です。

次のステートメントは、最初の変数に対して仮定 =0を、2番目の変数に対して仮定 =0.5を検定します。

α

α 100 1 α–( ) α

μ0

μ0 μ0

Page 281: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 277

proc univariate mu0=0 0.5;

NEXTROBS=n

極値オブザベーションテーブルに表示される極値オブザベーションの数を指定します。このテーブルには、最小値のオブザベーションが n 個、最大値のオブザベーションが n 個リストされます。デフォルト値は、5です。NEXTROBS=0を指定すると、極値オブザベーションテーブルを抑制できます。

NEXTRVAL=n

極値テーブルに表示される極値の数を指定します。このテーブルには、重複のない最小値が n個、重複のない最大値が n個リストされます。デフォルトは n = 0で、テーブルは表示されません。

NOBYPLOT

BY ステートメントを使用した場合と、PROC ステートメントで ALL オプションまたは PLOTS オプションを使用した場合にデフォルトで作成される、ラインプリンタの横に並べた箱ひげ図を抑制します。

NOPRINT

PROC UNIVARIATE ステートメントで作成される記述統計量のテーブルをすべて抑制します。NOPRINT を指定しても、HISTOGRAM ステートメントで作成されるテーブルは抑制されません。HISTOGRAM ステートメントのテーブルの作成を抑制するには、HISTOGRAM ステートメントのNOPRINTオプションを使用します。OUT=またはOUTTABLE=出力データセットのみを作成する場合は、NOPRINTを使用します。

NORMAL

NORMALTEST

経験分布関数に基づいて、適合度検定などの正規性の検定を要求します。Shapiro-Wilk検定 (指定された標本サイズが 2000以下 )、Kolmogorov-Smirnov検定、Anderson-Darling検定、Cramér-vonMises 検定の検定統計量と p 値がテーブルに示されます。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。

NOTABCONTENTS

PROC UNIVARIATEステートメントで作成される要約統計量テーブルの目次エントリのテーブルを抑制します。

NOVARCONTENTS

目次の分析変数に関連付けられたグループエントリを抑制します。デフォルトでは、目次には、変数名を持つグループの分析変数に関連付けられた結果が表示されます。

OUTTABLE=SAS-data-set

分析変数ごとに 1つのオブザベーションの表形式にまとめられた、単変量統計量を含む出力データセットを作成します。詳細は、「OUTTABLE=出力データセット」(430ページ)のセクションを参照してください。

PCTLDEF=value

DEF=value

パーセント点を計算するときに使用される定義を指定します。デフォルト値は 5 です。値は 1、2、3、4、5のいずれかです。重み付き分位点を計算する場合、PCTLDEF=は使用できません。分位点の定義の詳細は、「パーセント点の計算」(382ページ)のセクションを参照してください。

PLOTS | PLOT< ( <plot-options> <SSPLOT(plot-options)> ) >

分析変数ごとに複数のプロットから構成される 1 つのパネルを作成します。ODS Graphics が有効である場合、このパネルには、水平ヒストグラム、箱ひげ図、正規確率プロットが含められます。それ以外の場合、ラインプリンタ出力を使用して、幹葉プロット ( 横棒グラフ )、箱ひげ図、正規確率プロッ

Page 282: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

278 第 4章 : UNIVARIATEプロシジャ

トが作成されます。BYステートメントを指定すると、最後の BYグループの単変量出力に続いて、BYグループ内のデータの箱ひげ図が横に並べて表示されます。

ODS Graphics が有効である場合、次のプロットオプションを指定することにより、プロットのタイトルやフットノートを作成できます。SSPLOTサブオプション内で指定したプロットオプションは、横に並べられた BYグループデータの箱ひげ図に適用されます。

ODSFOOTNOTE=FOOTNOTE | FOOTNOTE1 | 'string'

ODS Graphics出力にフットノートを追加します。FOOTNOTE (または FOOTNOTE1)キーワードを指定すると、SAS FOOTNOTE ステートメントを使用してグラフのフットノートが生成されます。引用符付きの文字列を指定すると、その文字列がフットノートとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

ODSFOOTNOTE2=FOOTNOTE2 | 'string'

ODS Graphics 出力にセカンダリフットノートを追加します。FOOTNOTE2 キーワードを指定すると、SAS FOOTNOTE2ステートメントを使用してグラフのセカンダリフットノートが生成されます。引用符付きの文字列を指定すると、その文字列がセカンダリフットノートとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

ODSTITLE=TITLE | TITLE1 | NONE | DEFAULT | LABELFMT | 'string'

ODS Graphics出力のタイトルを指定します。

引用符付きの文字列を指定すると、その文字列がグラフのタイトルとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

\n 分析変数名で置き換えられます。

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

\n 分析変数名で置き換えられます。

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

TITLE (またはTITLE1) SAS TITLEステートメントの値をグラフのタイトルとして使用します。

NONE グラフのタイトルを一切表示しません。

デフォルト デフォルトのODS Graphicsタイトル(プロットの種類と分析変数名から構成されるタイトル)を使用します。

LABELFMT 変数名の代わりに変数ラベルを含むデフォルトのODS Graphicsタイトルを使用します。

\n 分析変数名で置き換えられます。

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

Page 283: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 279

ODSTITLE2=TITLE2 | 'string'

ODS Graphics 出力のセカンダリタイトルを指定します。TITLE2 キーワードを指定すると、SASTITLE2ステートメントを使用してグラフのセカンダリタイトルが生成されます。引用符付きの文字列を指定すると、その文字列がグラフのセカンダリタイトルとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

注:ODSTITLE=LABELFMTオプションと、分析変数名や分析変数ラベルの置き換えは、SSPLOTサブオプション内で指定するプロットオプションではサポートされません。

PLOTSIZE=n

PLOTS オプションで要求したラインプリンタプロットに使用される大体の行数を指定します。n がSAS システムオプションの PAGESIZE= の値より大きい場合、UNIVARIATE プロシジャではPAGESIZE=の値が使用されます。nが 8未満の場合は、8行でプロットされます。

ROBUSTSCALE

ロバスト (頑健 )な尺度推定値でテーブルを作成します。統計量には、四分位範囲、Giniの平均差、中央絶対偏差 (MAD)、Rousseeuw と Croux (1993) が提唱した 2 つの統計量 および が含まれます。詳細は、「尺度のロバスト推定」(388ページ)のセクションを参照してください。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。

ROUND=units

統計計算を実行する前に、分析変数を丸める単位を指定します。1つの単位を指定すると、その単位ですべての分析変数が丸められます。複数の単位を指定すると、VAR ステートメントが要求され、それぞれの単位により分析変数値が丸められます。ROUND=0の場合は、丸められません。ROUND=オプションを指定すると、重複しない変数値の数が減少するため、プロシジャのメモリの消費量も減少します。たとえば、最初の分析変数の丸め単位を 1にし、2番目の分析変数の丸め単位を 0.5にするには、次のステートメントをサブミットします。proc univariate round=1 0.5;

var Yieldstrength tenstren; run;

変数値が、2つの最も近い丸められたポイントの中間にある場合、値は丸め値の最も近い偶数の倍数に丸められます。たとえば、丸め値が 1の場合、変数値 -2.5、-2.2および -1.5は -2に丸められます。同様に、値 -0.5、0.2および 0.5は 0に、値 0.6、1.2および 1.4は 1に丸められます。

SUMMARYCONTENTS=’ string’

PROC UNIVARIATEステートメントで作成される要約統計量のグループ化に使用する目次エントリを指定します。グループエントリを抑制するには、SUMMARYCONTENTS=''を指定します。

TRIMMED=values <(<TYPE=keyword> <ALPHA= >)>

TRIM=values <(<TYPE=keyword> <ALPHA= >)>

トリム平均のテーブルを要求します。valueには、UNIVARIATEプロシジャがトリムするオブザベーションの数または割合を指定します。valueが、トリムされるオブザベーションの数 nである場合、nは 0から非欠損値のオブザベーション数の半数の範囲にある必要があります。valueが 0から ½の間にある割合 pである場合、UNIVARIATEプロシジャがトリムするオブザベーションの数は、np以上の最小の整数値と等しくなり、ここで nはオブザベーション数です。平均値の信頼限界およびスチュー

\n 分析変数名で置き換えられます。

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

Qn Sn

α

α

Page 284: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

280 第 4章 : UNIVARIATEプロシジャ

デントの t検定をテーブルに含めるには、VARDEF=のデフォルト値 (DF)を使用する必要があります。トリム平均の計算の詳細は、「トリム平均」(388 ページ)のセクションを参照してください。TRIMMED=オプションは、WEIGHTステートメントを使用する場合には適用されません。TYPE=keyword

平均値の信頼限界の種類を指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値は TWOSIDEDです。

ALPHA=

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05であり、これは 95%の信頼区間を生成します。

VARDEF=divisor

分散および標準偏差の計算に使用する分母を指定します。デフォルトでは、VARDEF=DFです。表 4.1は、divisorに使用できる値と関連する分母を示します。

表 4.1 VARDEF=に使用できる値

プロシジャでは、分散は で計算され、ここで CSは修正済平方和であり、 に等しくなります。分析変数に重みを付加する場合は、 になります。ここで、 は重み付き平均です。

デフォルト値はDFです。平均値、信頼限界およびスチューデントの t検定の標準誤差を計算するには、VARDEF=のデフォルト値を使用します。

WEIGHTステートメントと VARDEF=DFを使用するとき、分散は、 の推定値になり、ここで i番目のオブザベーションの分散は であり、 は i番目のオブザベーションの重みです。この結果は、ユニットの重みが与えられたオブザベーションの分散の推定値になります。

WEIGHTステートメントと VARDEF=WGTを使用すると、計算される分散は (nが大きい場合 )漸近的に の推定値になり、ここで は平均の重みです。この結果は、平均の重みが与えられたオブザベーションの分散の漸近推定値になります。

WINSORIZED=values <(<TYPE=keyword> <ALPHA= >)>

WINSOR=values <(<TYPE=keyword> <ALPHA= >)>

ウィンザー化平均のテーブルを要求します。value には、ウィンザー化平均の計算に UNIVARIATEプロシジャが使用するオブザベーションの数または割合を指定します。value がウィンザー化オブザベーションの数 nである場合、nは 0から非欠損値のオブザベーション数の半数の範囲にある必要があります。valueが 0から½の間にある割合 pである場合、UNIVARIATEプロシジャが使用するオブザベーションの数は、np 以上の最小の整数値と等しくなり、ここで nはオブザベーション数です。平均値の信頼限界およびスチューデントの t 検定をテーブルに含めるには、VARDEF= のデフォルト値(DF) を使用する必要があります。ウィンザー化平均の計算の詳細は、「ウィンザー化平均」(387 ページ)のセクションを参照してください。WINSORIZED=オプションは、WEIGHTステートメントを使用する場合には適用されません。

値 分母 分母の式

DF 自由度 n - 1

N オブザベーションの数 n

WDF 重みの合計から1を差し引いた値

WEIGHT | WGT 重みの合計

α

α 100 1 α–( ) α

σ2

Wi

α

α

Page 285: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 281

TYPE=keyword

平均値の信頼限界の種類を指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値は TWOSIDEDです。

ALPHA=

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05であり、これは 95%の信頼区間を生成します。

BYステートメントBY variables ;

BYステートメントとUNIVARIATEプロシジャを組み合わせて指定すると、BYグループごとの独立した分析を取得できます。BYステートメントは、BYグループを構成するときに使用されるvariablesを指定します。複数のvariablesを指定できます。BYステートメントでNOTSORTEDオプションを使用しない場合は、データセット内のオブザベーションは、指定したすべてのvariablesで並べ替えられているか、適切にインデックス付けされている必要があります。DESCENDING

データセットを、BYステートメント内のDESCENDINGに続く変数で、降順で並べ替えられていることを指定します。

NOTSORTED

オブザベーションが、アルファベットまたは数値の順に必ずしも並べ替えられていないことを指定します。データは、日付順など、別の方法でグループ化されている必要があります。

NOTSORTEDオプションを指定した場合、オブザベーションが、BYグループ処理のために BY変数の値に従って並んでいる、またはインデックス付けされている必要はありません。実際、NOTSORTEDを指定した場合、プロシジャはインデックスを使用しません。BYグループは、すべての BY変数に同じ値が設定された隣接するオブザベーションの集合として定義されます。オブザベーションの BY変数の値が同じときでも、それらが隣接していない場合、隣接する各オブザベーションは、別個の BY グループとして扱われます。

CDFPLOTステートメントCDFPLOT <variables> < / options>;

CDFPLOTステートメントは、次の定義に従って、変数の観測された累積分布関数(CDF)をプロットします。

ここでNは非欠損値のオブザベーション数です。CDFは、xが測定値と等しい値になるたびに1/Nが垂直方向に急増する、増加型のステップ関数です。CDFは経験累積分布関数(ECDF)とも呼ばれます。

CDFPLOTステートメントは、UNIVARIATEプロシジャ内でいくつでも使用できます。CDFPLOTステートメントの構成要素は次のとおりです。

variables

CDFプロットを作成する変数を指定します。VAR ステートメントを指定する場合、variablesをそのVAR ステートメント内にリストする必要があります。含めない場合、variables は、入力データセッ

α

α 100 1 α–( ) α

Page 286: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

282 第 4章 : UNIVARIATEプロシジャ

ト内にある任意の数値変数になります。variablesのリストを指定しなかった場合、デフォルトではプロシジャによって、VARステートメント内にリストされた各変数の CDFプロットが作成され、VARステートメントが指定されていない場合は、DATA=データセット内の各数値変数の CDFプロットが作成されます。

たとえば、Steel という名前のデータセットに、Length、Width および Height という、ちょうど3つの数値変数が含まれているとします。次のステートメントは、3つの変数それぞれの CDFプロットを作成します。proc univariate data=Steel;

cdfplot; run;

次のステートメントは、Lengthの CDFプロットとWidthの CDFプロットを作成します。proc univariate data=Steel; var Length Width;

cdfplot; run;

次のステートメントは、Widthの CDFプロットを作成します。proc univariate data=Steel;var Length Width;cdfplot Width;run;

options

プロットの理論的分布を指定するか、またはプロットに特徴を追加します。1つ以上の変数を指定した場合、各変数に対して optionsが等しく適用されます。CDFPLOTステートメントの optionsは、すべてスラッシュ (/)の後に指定します。分布の名前を指定する optionは、各 CDFPLOTステートメントで 1つのみ指定できます。その他の optionsは任意の数だけ指定できます。使用できる分布は表 4.2のとおりです。デフォルトでは、このプロシジャは正規分散のプロットを作成します。

表 4.2 から表 4.4 は、関数別の CDFPLOT options の一覧です。詳細は、「オプションのリファレンス」(338ページ)および共通「オプションのリファレンス」(351ページ)の各セクションを参照してください。Optionsには次のいずれかを指定します。

•1次オプション •2次オプション •一般オプション

分布オプション

表4.2は理論分布を要求するための1次オプションの一覧です。

表 4.2 理論分布の 1次オプション

オプション 説明

BETA<(beta-options )> 2パラメータのベータ分布関数 (パラメータ および は既知であることが前提 )をプロット

EXPONENTIAL<(exponential-options )> 1パラメータの指数分布関数 (パラメータは既知であることが前提 )をプロット

GAMMA<(gamma-options)> 2パラメータのガンマ分布関数 (パラメータ は既知であることが前提 )をプロット

θ σ

θ

θ

Page 287: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 283

表4.3に、分布のパラメータの指定と理論分布関数の表示の制御を行う、2次オプションの一覧を示します。これらのオプションは、分布キーワードの後にかっこで囲んで指定します。たとえば、分布参照線付きの正規確率を要求する場合、次のようなNORMALオプションを指定します。

proc univariate; cdfplot / normal(mu=10 sigma=0.5 color=red); run;

COLOR=オプションは曲線の色を指定し、MU= / SIGMA= normal-optionsは分布関数のパラメータおよび を指定します。これらのパラメータを指定しなかった場合、最尤推定値が計算されます。

GUMBEL<(Gumbel-options)> Gumbel分布(位置パラメータ および尺度パラメータ)をプロット

IGAUSS <(iGauss-options)> 逆ガウス分布 ( 平均 および形状パラメータ )をプロット

LOGNORMAL<(lognormal-options)> 2 パラメータの対数正規分布関数 ( パラメータ は既知であることが前提 ) をプロット

NORMAL<(normal-options)> 正規分布関数をプロット

PARETO<(Pareto-options)> 一般化パレート分布 (しきい値パラメータ、尺度パラメータ 、形状パラメータ )をプロット

POWER<(power-options)> べき関数分布 (しきい値パラメータ 、尺度パラメータ 、形状パラメータ ) をプロット

RAYLEIGH<(Rayleigh-options)> レイリー分布 (しきい値パラメータ および尺度パラメータ )をプロット

WEIBULL<(Weibull-options)> 2パラメータのWeibull分布関数(パラメータ は既知であることが前提 )をプロット

表 4.3 分布に関する 2次オプション

オプション 説明

すべての分布で使用されるオプション

COLOR= 理論分布関数の色を指定

L= 理論分布関数の線の種類を指定

W= 理論分布関数の幅を指定

beta-options

ALPHA= ベータ分布関数の 1番目の形状パラメータ を指定

BETA= ベータ分布関数の 2番目の形状パラメータ を指定

SIGMA= ベータ分布関数の尺度パラメータ を指定

THETA= ベータ分布関数のしきい値パラメータ を指定

表 4.2 理論分布の 1次オプション(続き)

オプション 説明

μσ

μθ

θ

θ σα

θσ

α

θσ

θ

μ 1= σ 0.5=

α

β

σ

θ

Page 288: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

284 第 4章 : UNIVARIATEプロシジャ

exponential-options

SIGMA= 指数分布関数の尺度パラメータ を指定

THETA= 指数分布関数のしきい値パラメータ を指定

gamma-options

ALPHA= ガンマ分布関数の形状パラメータ を指定

ALPHADELTA= 連続推定値 の変化を指定 ( その値で の Newton-Raphson近似が終了 )

ALPHAINITIAL= の初期値 (Newton-Raphson近似が の場合 )を指定

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= ガンマ分布関数の尺度パラメータ を指定

THETA= ガンマ分布関数のしきい値パラメータ を指定

Gumbel-options

MU= Gumbel分布関数の位置パラメータ を指定

SIGMA= Gumbel分布関数の尺度パラメータ を指定

iGauss-options

LAMBDA= 逆ガウス分布関数の形状パラメータ を指定

MU= 逆ガウス分布関数の平均 を指定

lognormal-options

SIGMA= 対数正規分布関数の形状パラメータ を指定

THETA= 対数正規分布関数のしきい値パラメータ を指定

ZETA= 対数正規分布関数の尺度パラメータ を指定

normal-options

MU= 正規分布関数の平均値 を指定

SIGMA= 正規分布関数の標準偏差 を指定

Pareto-options

ALPHA= 一般化パレート分布関数の形状パラメータ を指定

SIGMA= 一般化パレート分布関数の尺度パラメータ を指定

THETA= 一般化パレート分布関数のしきい値パラメータ を指定

power-options

ALPHA= べき関数分布の形状パラメータ を指定

SIGMA= べき関数分布の尺度パラメータ を指定

THETA= べき関数分布のしきい値パラメータ を指定

表 4.3 分布に関する 2次オプション(続き)

オプション 説明

σ

θ

α

α α

α

σ

θ

μ

σ

λ

μ

σ

θ

ζ

μ

σ

α

σ

θ

α

σ

θ

Page 289: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 285

一般オプション

表4.4はCDFプロットを拡張するための一般オプションの要約です。

Rayleigh-options

SIGMA= レイリー分布関数の尺度パラメータ を指定

THETA= レイリー分布関数のしきい値パラメータ を指定

2次Weibull-options

C= Weibull分布関数の形状パラメータ cを指定

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= Weibull分布関数の尺度パラメータ を指定

THETA= Weibull分布関数のしきい値パラメータ を指定

表 4.3 分布に関する 2次オプション(続き)

オプション 説明

σ

θ

c

σ

θ

表 4.4 一般グラフオプション

オプション 説明

一般グラフオプション

HREF= 水平軸に垂直な参照線を指定

HREFLABELS= HREF=で指定した参照線のラベルを指定

HREFLABPOS= HREF=で指定した参照線のラベルの位置を指定

NOECDF 経験 (観測された )分布関数のプロットを抑制

NOHLABEL 水平軸のラベルを抑制

NOHLABEL 垂直軸のラベルを抑制

NOVTICK 垂直軸の目盛りおよび目盛りラベルを抑制

STATREF= 要約統計量の値に参照線を指定

STATREFLABELS= STATREF=で指定した参照線のラベルを指定

STATREFSUBCHAR= STATREFLABELS= ラベルに統計値を表示するための置き換え文字を指定

VAXISLABEL= 垂直軸にラベルを指定

VREF= 垂直軸に垂直な参照線を指定

VREFLABELS= VREF=で指定した参照線のラベルを指定

VREFLABPOS= VREF=で指定した参照線のラベルの位置を指定

VSCALE= 垂直軸のスケールを指定

従来的なグラフ出力のオプション

Page 290: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

286 第 4章 : UNIVARIATEプロシジャ

ANNOTATE= ANNOTATEのデータセットを指定

CAXIS= 軸の色を指定

CFRAME= 枠の色を指定

CHREF= HREF=で指定した参照線の色を指定

CSTATREF= STATREF=で指定した参照線の色を指定

CTEXT= テキストの色を指定

CVREF= VREF=で指定した参照線の色を指定

DESCRIPTION= グラフカタログメンバに対する説明を指定

FONT= テキストフォントを指定

HAXIS= 水平軸の AXISステートメントを指定

HEIGHT= 枠外の領域で使用されるテキストの高さを指定

HMINOR= 水平軸の小目盛りの数を指定

INFONT= 枠領域内のテキストに対してソフトウェアフォントを指定

INHEIGHT= 枠領域内のテキストの高さを指定

LHREF= HREF=で指定した参照線の種類を指定

LSTATREF= STATREF=で指定した参照線の種類を指定

LVREF= VREF=で指定した参照線の種類を指定

NAME= グラフカタログ内のプロットに対して名前を指定

NOFRAME プロット領域の周囲の枠の表示を抑制

TURNVLABELS 垂直軸のラベルの文字列を縦書きに

VAXIS= 垂直軸の AXISステートメントを指定

VMINOR= 垂直軸の小目盛りの数を指定

WAXIS= 軸と枠の線の太さを指定

ODS Graphics出力のオプション

ODSFOOTNOTE= プロットに表示するフットノートを指定

ODSFOOTNOTE2= プロットに表示するセカンダリフットノートを指定

ODSTITLE= プロットに表示するタイトルを指定

ODSTITLE2= プロットに表示するセカンダリタイトルを指定

OVERLAY 異なるクラス水準のプロットを重ね合わせる

比較プロットのオプション

表 4.4 一般グラフオプション(続き)

オプション 説明

Page 291: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 287

オプションのリファレンス

CDFPLOTステートメント特有のオプションの詳細は次のとおりです。すべてのプロットステートメントに共通するオプションの詳細は、「共通オプションのリファレンス」(369ページ)のセクションを参照してください。ALPHA=value

BETA 、GAMMA 、PARETO 、POWER オプションで要求された分布関数の形状パラメータ を指定します。ALPHA=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。 の値を省略すると、最尤推定値が計算されます。例は、BETA および GAMMA オプションの項目を参照してください。

BETA<(beta-options )>

CDFプロットに、当てはめたベータ分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 は不完全なベータ関数です。

=下限しきい値パラメータ (下限端点 ) =尺度パラメータ ( >0) =形状パラメータ ( >0) =形状パラメータ ( >0)

ベータ分布の下限はパラメータ で、上限は値 + です。および は、THETA= および SIGMA=beta-options を使用して指定しますが、次のステートメントに示すように、50 から 75 の間の値を取りうるベータ分布を当てはめます。のデフォルト値は 0、 のデフォルト値は 1です。proc univariate;

cdfplot / beta(theta=50 sigma=25);

ANNOKEY ANNOTATE= データセットで要求された注釈をキーセルに対してのみ適用

CFRAMESIDE= 行ラベルの枠を塗りつぶす色を指定

CFRAMETOP= 列ラベルの枠を塗りつぶす色を指定

CPROP= 度数のバーの割合の色を指定

CTEXTSIDE= 行ラベルの色を指定

CTEXTTOP= 列ラベルの色を指定

INTERTILE= 比較プロットのタイル間の距離を指定

NCOLS= 比較プロットの列数を指定

NROWS= 比較プロットの列数を指定

その他のオプション

CONTENTS= CDFプロットグループの目次エントリを指定

表 4.4 一般グラフオプション(続き)

オプション 説明

αα

θ

σ σ

α α

β β

θ θ σ θ σ

θ σ

Page 292: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

288 第 4章 : UNIVARIATEプロシジャ

run;

ベータ分布には、2つの形状パラメータ および があります。これらのパラメータが判明している場合、その値をALPHA= および BETA= beta-optionsに指定できます。 および に値を指定しない場合、最尤推定値が計算されます。

BETAオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、BETA分布オプションと共に指定できるオプションの一覧を示します。

BETA=value

B=value

BETAオプションで要求したベータ分布関数の 2番目の形状パラメータ を指定します。BETA=オプションは、BETA キーワードの後にかっこで囲んで指定します。 の値を省略すると、最尤推定値が計算されます。例は、前の BETAオプションの項目を参照してください。

C=value

WEIBULL オプションで要求した Weibull 分布関数の形状パラメータ c を指定します。C= オプションは、WEIBULLキーワードの後にかっこで囲んで指定します。c値を指定しない場合、最尤推定値がプロシジャによって計算されます。SHAPE=オプションは、C=オプションの別名として指定できます。

EXPONENTIAL<(exponential-options )>

EXP<(exponential-options )>

CDFプロットに、当てはめた指数分布関数を表示します。適合 CDFの式は次のようになります。

ここで、

=しきい値パラメータ

=尺度パラメータ ( >0)

パラメータ は最小データ値以下である必要があります。は、THETA= exponential-option で指定できます。のデフォルト値は 0です。 は、SIGMA= exponential-optionで指定できます。デフォルトでは、 の最尤推定値が計算されます。たとえば、次のステートメントは、 = 10で が最尤推定値の指数分布を当てはめます。proc univariate;

cdfplot / exponential(theta=10 l=2 color=green);

run;

指数曲線の色は緑で、線の種類は 2です。

EXPONENTIAL オプションは、CDFPLOT ステートメントに 1 回だけ指定できます。表 4.3 に、EXPONENTIALオプションと共に指定できるオプションの一覧を示します。

α βα β

ββ

θ

σ σ

θ θθ σ

σ θ σ

Page 293: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 289

GAMMA<(gamma-options)>

CDFプロットに、当てはめたガンマ分布関数を表示します。適合 CDFの式は次のようになります。

ここで、

=しきい値パラメータ

=尺度パラメータ ( >0)

=形状パラメータ ( >0)

ガンマ分布のパラメータ は、最小データ値未満である必要があります。は、THETA=gamma-option で指定できます。のデフォルト値は 0 です。また、ガンマ分布は、形状パラメータおよび尺度パラメータ を持ちます。これらのパラメータは、ALPHA= および SIGMA=

gamma-options で指定できます。デフォルトでは、 および の最尤推定値が計算されます。たとえば、次のステートメントは、 =4で、 および が最尤推定値のガンマ分布関数を当てはめます。proc univariate;

cdfplot / gamma(theta=4);

run;

の最尤推定値はNewton-Raphson近似を使用して計算されることに注意してください。ALPHADELTA= 、ALPHAINITIAL= 、およびMAXITER= の gamma-optionsが近似を制御します。

GAMMAオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、GAMMAオプションと共に指定できるオプションの一覧を示します。

GUMBEL<(Gumbel-options)>

CDFプロットに、当てはめたGumbel分布 (Type 1極値分布とも呼ばれます )関数を表示します。適合 CDFの式は次のようになります。

ここで、

=位置パラメータ

=尺度パラメータ ( >0)

および の既知の値を指定するには、MU= および SIGMA= Gumbel-options を使用します。デフォルトでは、 および の最尤推定値が計算されます。

GUMBELオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、GUMBELオプションと共に指定できる 2次オプションの一覧を示します。

θ

σ σ

α α

θ θθ

α σα σ

θ α σ

α

μ

σ σ

μ σμ σ

Page 294: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

290 第 4章 : UNIVARIATEプロシジャ

IGAUSS<(iGauss-options)>

CDFプロットに、当てはめた逆ガウス分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 (.)は標準正規累積分布関数です。

=平均パラメータ ( > 0) =形状パラメータ ( >0)

および の既知の値を指定するには、MU= およびLAMBDA= iGauss-optionsを使用できます。デフォルトでは、 および の最尤推定値が計算されます。

IGAUSSオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、IGAUSSオプションと共に指定できる 2次オプションの一覧を示します。

LAMBDA=value

IGAUSSオプションで要求した分布関数の形状パラメータ を指定します。LAMBDA=オプションは、分布を表すキーワード IGAUSSの後にかっこで囲んで指定します。 の値を指定しない場合、最尤推定値がプロシジャによって計算されます。

LOGNORMAL<(lognormal-options)>

CDFプロットに、当てはめた対数正規分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 (.)は標準正規累積分布関数であり、各パラメータは次のとおりです。

=しきい値パラメータ

=尺度パラメータ

=形状パラメータ ( >0)

対数正規分布のパラメータ は、最小データ値未満である必要があります。は、THETA=lognormal-optionで指定できます。のデフォルト値は 0です。また、対数正規分布は、形状パラメータ および尺度パラメータ を持ちます。これらのパラメータは、SIGMA= および ZETA=lognormal-optionsで指定できます。デフォルトでは、 および の最尤推定値が計算されます。たとえば、次のステートメントは、 =10で、 および が最尤推定値のガンマ分布関数を当てはめます。proc univariate;

cdfplot / lognormal(theta = 10);

run;

LOGNORMAL オプションは、CDFPLOT ステートメントに 1 回だけ指定できます。表 4.3 に、LOGNORMALオプションと共に指定できるオプションの一覧を示します。

MU=value

GUMBEL 、IGAUSS 、およびNORMAL オプションで要求した理論累積分布関数のパラメータ を指定します。MU=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。逆ガウス分布および正規分布の場合、デフォルト値は標本平均です。 の値を省略すると、最尤推定値が計算されます。例は、NORMALオプションの項目を参照してください。

Φ

μ μλ λ

μ λμ λ

λλ

Φ

θ

ζ

σ σ

θ θθ

σ ζσ ζ

θ σ ζ

μ

μ

Page 295: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 291

NOECDF

デフォルトで描画される、変数の観測された分布関数 ( 経験累積分布関数 ) を抑制します。このオプションを使用すると、データ分布を表示せずに理論 CDF プロットを作成できます。NOECDF オプションは、理論分布 (NORMALオプションなど )でのみ使用できます。

NORMAL<(normal-options)>

CDFプロットに、当てはめた正規分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 (.)は標準正規累積分布関数であり、各パラメータは次のとおりです。

=平均

=標準偏差 ( >0)

=および の既知の値を指定するには、MU= およびSIGMA= normal-optionsを次のステートメントに示すように、使用します。proc univariate;

cdfplot / normal(mu=14 sigma=.05);

run;

デフォルトでは、 および の標本平均および標本標準偏差が計算されます。NORMAL オプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、NORMALオプションと共に指定できるオプションの一覧を示します。

PARETO<(Pareto-options)>

CDF プロットに、当てはめた一般化パレート分布関数を表示します。適合 CDF の式は次のようになります。

ここで、 =しきい値パラメータ =尺度パラメータ ( >0) =形状パラメータ

一般パレート分布のパラメータ は、最小データ値未満である必要があります。は、THETA=Pareto-optionで指定できます。のデフォルト値は 0です。また、一般パレート分布は、形状パラメータ および尺度パラメータ を持ちます。これらのパラメータには、ALPHA= および SIGMA=Pareto-optionsを指定できます。デフォルトでは、 および の最尤推定値が計算されます。

PARETOオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、PARETOオプションと共に指定できるオプションの一覧を示します。

POWER<(power-options)>

CDFプロットに、当てはめたべき分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 =下限しきい値パラメータ (下限端点 )

Φ

μ

σ σ

μ σ

μ σ

θσ σα

θ θθ

α σα σ

θ

Page 296: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

292 第 4章 : UNIVARIATEプロシジャ

=尺度パラメータ ( > 0) =形状パラメータ ( > 0)

べき関数分布の下限はパラメータ で、上限は値 + です。および を指定するには、THETA=および SIGMA=power-optionsを使用します。のデフォルト値は 0、 のデフォルト値は 1です。

形状パラメータ の値を指定するには、ALPHA= power-optionを使用します。 の値を指定しない場合、最尤推定値がプロシジャによって計算されます。

べき関数分布は、2番目の形状パラメータ = 1を持つ、ベータ分布の特殊なケースです。

POWERオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、POWERオプションと共に指定できるオプションの一覧を示します。

RAYLEIGH<(Rayleigh-options)>

CDFプロットに、当てはめたレイリー分布関数を表示します。適合 CDFの式は次のようになります。

ここで、 =しきい値パラメータ =尺度パラメータ ( >0)

レイリー分布のパラメータ は、最小データ値未満である必要があります。は、THETA=Rayleigh-optionで指定できます。 のデフォルト値は 0です。 は、SIGMA=Rayleigh-optionで指定できます。デフォルトでは、 の最尤推定値が計算されます。

RAYLEIGHオプションは、CDFPLOTステートメントに1回だけ指定できます。表4.3に、RAYLEIGHオプションと共に指定できるオプションの一覧を示します。

SIGMA=value | EST

BETA、EXPONENTIAL、GAMMA、LOGNORMAL、NORMAL、WEIBULLオプションで要求した分布関数のパラメータ を指定します。SIGMA= オプションは、分布を表すキーワードの後にかっこで囲んで指定します。次の表は SIGMA=オプションの使用方法の要約です。

THETA=value | EST

分布オプション SIGMA=に指定する値 デフォルト値 別名

BETA 尺度パラメータ 1 SCALE=

EXPONENTIAL 尺度パラメータ 最尤推定値 SCALE=

GAMMA 尺度パラメータ 最尤推定値 SCALE=

GUMBEL 尺度パラメータ 最尤推定値

LOGNORMAL 形状パラメータ 最尤推定値 SHAPE=

NORMAL 尺度パラメータ 標準偏差

PARETO 尺度パラメータ 最尤推定値

POWER 尺度パラメータ 1

RAYLEIGH 尺度パラメータ 最尤推定値

WEIBULL 尺度パラメータ 最尤推定値 SCALE=

σ σα α

θ θ σ θ σθ σ

α α

β

θσ σ

θ θσ σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

Page 297: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 293

THRESHOLD=value | EST

BETA 、EXPONENTIAL 、GAMMA 、LOGNORMAL 、PARETO 、POWER 、RAYLEIGH 、WEIBULL の各オプションで要求した理論累積分布関数の下限しきい値パラメータ を指定します。THETA= オプションは、分布を表すキーワードの後にかっこで囲んで指定します。デフォルト値は 0です。

VSCALE=PERCENT | PROPORTION

垂直軸の尺度を指定します。値 PERCENTは、データ単位をデータユニットごとのオブザベーションのパーセントに変換します。値 PROPORTION は、データ単位をデータユニットごとのオブザベーションの比率に変換します。デフォルト値は PERCENTです。

WEIBULL<(Weibull-options)>

CDFプロットに、当てはめたWeibull分布関数を表示します。適合 CDFの式は次のようになります。

ここで、

=しきい値パラメータ =尺度パラメータ ( >0)

c = 形状パラメータ (c>0)パラメータ は最小データ値未満である必要があります。は、THETA= Weibull-option で指定できます。のデフォルト値は 0 です。また、Weibull 分布には、形状パラメータ c および尺度パラメータがあります。これらのパラメータは、SIGMA= および C= Weibull-optionsで指定できます。デフォルトでは、c および の最尤推定値が計算されます。たとえば、次のステートメントは、 =15 で、 および cが最尤推定値のWeibull分布関数を当てはめます。proc univariate;

cdfplot / weibull(theta=15);

run;

WEIBULLオプションは、CDFPLOTステートメントに 1回だけ指定できます。表 4.3に、WEIBULLオプションと共に指定できるオプションの一覧を示します。

ZETA=value

LOGNORMAL オプションで要求した対数正規分布関数の尺度パラメータ の値を指定します。ZETA=オプションは、LOGNORMALキーワードの後にかっこで囲んで指定します。 の値を省略すると、最尤推定値が計算されます。SCALE=オプションは、ZETA=オプションの別名として指定できます。

CLASSステートメントCLASS variable-1 <(v-options)> <variable-2 <(v-options)>>

< / KEYLEVEL= value1 | (value1 value2 )>;

UNIVARIATEプロシジャを呼び出すには、PROC UNIVARIATEステートメントを使用する必要があります。PROC UNIVARIATEステートメント自体を使用してさまざまな統計量を要求し、各分析変数のデータ分布を要約することができます。

CLASSステートメントは、データを各分類水準にグループ化するときに使用する変数を、1つまたは2つ指定します。CLASSステートメント内の変数はCLASS変数と呼ばれます。CLASS変数は、数値または文字です。CLASS変数は浮動小数点値を取ることができますが、通常は変数水準を定義する数個の離散値を取りま

θ

θ

σ σ

θ θθ

σσ θ σ

ζζ

Page 298: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

294 第 4章 : UNIVARIATEプロシジャ

す。データをCLASS変数でソートする必要はありません。UNIVARIATEプロシジャでは、CLASS変数のフォーマットされた値を使用して分類水準が決定されます。

CLASS変数の後に、次のv-optionsをかっこで囲んで指定できます。MISSING

CLASS 変数の欠損値を有効な分類として扱うように指定します。数値を表す特別な欠損値 ('.A' から'.Z' および '._') は それぞれ、別個の値と見なされます。MISSING を省略すると、欠損 CLASS 変数値があるオブザベーションは分析から除外されます。このオプションは、CLASS変数に続けてかっこ内に記述します。

ORDER=DATA | FORMATTED | FREQ | INTERNAL

CLASS変数値の表示順序を指定します。デフォルト値はINTERNALです。次の値を、ORDER=optionオプションで指定できます。

DATA 入力データセットの順序に従って値を並べかえます。プロットステートメントを使用する場合、UNIVARIATEプロシジャは、比較プロットの行(列)を上から下(左から右)方向に、CLASS変数値が入力データセットに最初に出現する順序で表示します。

FORMATTED フォーマットされた値の昇順で値を並べ換えます。この順序は、操作環境によって異なることがあります。プロットステートメントを使用する場合、UNIVARIATEプロシジャは、比較プロットの行(列)を上から下(左から右)方向に、フォーマットされたCLASS変数値の昇順で表示します。たとえば、数値CLASS変数のDay(値は1、2、3)で、値1に水曜日、値2に木曜日、値3に金曜日を割り当てるユーザー定義出力形式が割り当てられているとします。比較プロットの行は、アルファベット順(金曜日、木曜日、水曜日)に上から下方向に表示されます。

フォーマットされた値が同じ、重複しない内部値が複数存在する場合は、入力データセットでの内部値の発生順に基づいて順序が決定されます。フォーマットが明示的に指定されていない数値変数の場合は、内部値で水準が並べ替えられます。

FREQ 度数により降順で値を並べ換えます。この並べ替えによって、大半のオブザベーション水準がリストの最初に表示されます。複数の値で度数が同じ場合は、フォーマットされた値を使用して順序が決定されます。

プロットステートメントを使用する場合、UNIVARIATEプロシジャは、比較プロットの行(列)を上から下(左から右)方向に、CLASS変数値の度数の降順で表示します。

INTERNAL フォーマットされていない値に基づいて値を並べます。順序はSORTプロシジャと同じです。この順序は、操作環境によって異なることがあります。

プロットステートメントを使用する場合、UNIVARIATEプロシジャは、比較プロットの行(列)を上から下(左から右)方向に、CLASS変数値の内部(フォーマットされていない)値の昇順で表示します。最初のCLASS変数は、比較プロットの行(上から下方向)のラベルに使用されます。2番目のCLASS変数は、比較プロットの列(左から右方向)のラベルに使用されます。たとえば、数値CLASS変数のDay(値は1、2、3)で、値1に水曜日、値2に木曜日、値3に金曜日を割り当てるユーザー定義出力形式が割り当てられているとします。比較プロットの行は、曜日順(水曜日、木曜日、金曜日)に上から下方向に表示されます。

Page 299: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 295

CLASSステートメントで、スラッシュ(/)の後に次のoptionを指定できます。KEYLEVEL=value | ( value1 value2 )

比較プロットのキーセルを指定します。プロットごとに、UNIVARIATE プロシジャは、最初にキーセルに対して水平軸の尺度を決定します。次に、確定した目盛りの間隔を使用して、残りのセルのデータ範囲に適応するよう、必要に応じて軸が延長されます。つまり、キーセルを選択すると、すべてのセルで使用される同一の水平軸が決まります。

CLASS変数を 1つだけ指定してプロットステートメントを使用する場合は、CLASS変数が valueに等しくなるため、KEYLEVEL=valueでキーセルを特定します。デフォルトでは、ORDER=オプションに指定した順序で水準が並べ替えられ、キーセルはこの順序での最初の水準になります。セルは、上から下方向または左から右方向に表示されます。キーセルは、最上位または左端に表示されます。KEYLEVEL=オプションでキーセルを変更すると、そのセルが最上位または左端に表示されます。

CLASS変数を 2つ指定する場合は、KEYLEVEL= (value1 value2)を使用し、CLASS変数 nの水準が valuenと等しいとみなすことでキーセルを指定します。デフォルトでは、ORDER=オプションに指定した順序で最初の CLASS変数の水準が並べ替えられます。次に、各水準で、そのORDER=オプションに指定した順序で 2番目の CLASS変数の水準が並べ替えられます。デフォルトのキーセルは、この順序での、2 つの変数の水準を組み合わせた中の最初の組み合わせになります。セルは、最初のCLASS変数の順序で上から下方向に表示されてから、2番目の CLASS変数の順序で左から右方向に表示されます。デフォルトのキーセルは、左上端に表示されます。KEYLEVEL= オプションでキーセルを変更すると、そのセルが左上端に表示されます。

KEYLEVEL=の値の長さは、16文字以内にする必要があります。また、フォーマットされた値を指定する必要があります。

プロットステートメントを指定しない場合、KEYLEVEL=オプションは無効になります。 NOKEYMOVE

比較プロットのキーセルの位置がCLASSステートメントのKEYLEVEL=オプションによって変更されないように指定します。デフォルトでは、キーセルの位置は比較プロットの最初のセルです。

プロットステートメントを指定しない場合、NOKEYMOVEオプションは無効になります。

FREQステートメントFREQ variable;

FREQステートメントは数値変数を指定します。この数値変数の値は、オブザベーションの度数を表します。FREQステートメントを使用する場合、プロシジャは、各オブザベーションがn個のオブザベーションを表し、nは変数の値であると仮定します。変数が整数でない場合は、小数点以下を切り捨てた整数が使用されます。variableが1よりも小さいか指定されていない場合、分析からオブザベーションが除外されます。例4.6を参照してください。

注:FREQステートメントは自由度に影響しますが、WEIGHTステートメントは影響を与えません。

Page 300: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

296 第 4章 : UNIVARIATEプロシジャ

HISTOGRAMステートメントHISTOGRAM <variables> < / options>;

HISTOGRAMステートメントはヒストグラムを作成します。また、オプションで、推定したパラメトリックおよびノンパラメトリックの確率密度曲線を重ねて表示します。WEIGHT ステートメントをHISTOGRAMステートメントと併用することはできません。HISTOGRAMステートメントは、PROCUNIVARIATEステートメントの後に任意の数だけ使用できます。HISTOGRAMステートメントの構成要素は次のとおりです。

variables

ヒストグラムを作成する変数です。VAR ステートメントを指定する場合、variables をその VAR ステートメント内にリストする必要があります。含めない場合、variablesは、入力データセット内にある任意の数値変数になります。VARステートメントまたはHISTGRAMステートメントで variablesを指定しなかった場合、デフォルトでは、DATA=データセット内に各数値変数のヒストグラムが作成されます。VARステートメントを使用するがHISTGRAMステートメントには variablesを指定していない場合、デフォルトでは、VAR ステートメントにリストされた各変数のヒストグラムが作成されます。

たとえば、Steelという名前のデータセットに、LengthおよびWidthという、ちょうど 2つの数値変数が含まれているとします。次のステートメントは , LengthとWidthに関して 1つずつで、2つのヒストグラムを作成します。

proc univariate data=Steel;

histogram;

run;

同様に、次のステートメントは LengthとWidthに関するヒストグラムを作成します。proc univariate data=Steel;

var Length Width;

histogram;

run;

次のステートメントは Lengthに対するヒストグラム 1つのみを作成します。proc univariate data=Steel;

var Length Width;

histogram Length;

run;

options

ヒストグラムに特徴を追加します。HISTOGRAM ステートメントの options は、すべてスラッシュ(/)の後に指定します。optionsには次のいずれかを指定します。

•当てはめたパラメトリック法の分布および核密度推定に対する 1次オプション •当てはめたパラメトリック法の分布および核密度推定に対する 2次オプション •グラフおよび出力データセットに対する一般オプション

たとえば、次のステートメントで、NORMAL オプションは当てはめた正規分布曲線をヒストグラムで表示し、MIDPOINTS= オプションはヒストグラムの中間点を指定し、CTEXT= オプションはテキストの色を指定します。

proc univariate data=Steel;

Page 301: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 297

histogram Length / normal midpoints = 5.6 5.8 6.0 6.2 6.4 ctext = blue;

run;

表 4.5 から表 4.8 は、関数別の HISTOGRAM options の一覧です。詳細は、オプションのリファレンスおよび「共通オプションのリファレンス」(369ページ)の各セクションを参照してください。

パラメトリック法密度推定量オプション

表4.5は、ヒストグラムでパラメトリック法の密度推定を表示する1次オプションです。各1次オプションは、指定したHISTOGRAMステートメントに1回だけ指定できます。また、ヒストグラムに各1次オプションの分布族の複数の曲線を表示できます。

表 4.5 パラメトリック法の当てはめた分布の1次オプション

表4.6に、当てはめたパラメトリック法の分布のパラメータの指定と当てはめた曲線の表示の制御を行う、2次オプションの一覧を示します。これらの2次オプションは、1次分布オプションの後にかっこで囲んで指定します。たとえば、正規分布曲線を当てはめるには、次のようにNORMALオプションを指定します。

オプション 説明

BETA(beta-options) ベータ分布 ( しきい値パラメータ 尺度パラメータ形状パラメータ および )を当てはめ

EXPONENTIAL(exponential-options) 指数分布 ( しきい値パラメータ および尺度パラメータ )を当てはめ

GAMMA(gamma-options) ガンマ分布 ( しきい値パラメータ 、尺度パラメータ、形状パラメータ )を当てはめ

GUMBEL(Gumbel-options) Gumbel分布 (位置パラメータ および尺度パラメータ )を当てはめ

IGAUSS(iGauss-options) 逆ガウス分布 (位置パラメータ および形状パラメータ )を当てはめ

LOGNORMAL(lognormal-options) 対数正規分布 ( しきい値パラメータ 尺度パラメータ、形状パラメータ )を当てはめ

NORMAL(normal-options) 正規分布 (平均 および標準偏差 )を当てはめ

PARETO(Pareto-options) 一般化パレート分布 ( しきい値パラメータ 、尺度パラメータ 、形状パラメータ )を当てはめ

POWER(power-options) べき関数分布 ( しきい値パラメータ 、尺度パラメータ 、形状パラメータ )を当てはめ

RAYLEIGH(Rayleigh-options) レイリー分布 ( しきい値パラメータ および尺度パラメータ )を当てはめ

SB( -options) Johnson 分布 ( しきい値パラメータ 、尺度パラメータ 、形状パラメータ および )を当てはめ

SU( -options) Johnson 分布 ( しきい値パラメータ 、尺度パラメータ 、形状パラメータ および )を当てはめ

WEIBULL(Weibull-options) Weibull分布 (しきい値パラメータ 、尺度パラメータ、形状パラメータ c)を当てはめ

θσ α β

θσ

θσ α

μσ

μλ

θζ σ

μ σ

θσ α

θσ α

θσ

SB SB θσ δ γ

SU SU θσ δ γ

θσ

Page 302: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

298 第 4章 : UNIVARIATEプロシジャ

proc univariate;

histogram / normal(color=red mu=10 sigma=0.5);

run;

COLOR= normal-optionでは曲線の色(赤)を指定し、MU= およびSIGMA= normal-optionsは曲線のパラメータ 10および =0.5を指定しています。MU= /SIGMA= normal-optionsが指定されていない場合は、標本平均および標本標準偏差を使用して、 および がそれぞれ推定されます。

2次オプションの値のリストを指定すると、同じ分布族の複数の当てはめた曲線をヒストグラムに表示できます。オプションの値はリストの位置と一致します。分布パラメータ値のリストで値ESTを指定すると、パラメータの推定値を使用できます。

たとえば、次のコードは2つの正規分布曲線をヒストグラムに表示します。 proc univariate;

histogram / normal(color=(red blue) mu=10 est sigma=0.5 est);

run;

1番目の曲線は、 =10および =0.5の赤色の曲線です。2番目の曲線は、 が標本平均に等しく が標本標準偏差に等しい、青色の曲線です。

HISTOGRAMステートメントで当てはめることができるパラメトリック法の分布族の詳細は、「当てはめた連続分布の計算式」(400ページ)のセクションを参照してください。

表 4.6 パラメトリック法の分布の 2次オプション

オプション 説明

すべての分布で使用されるオプション

COLOR= 密度曲線の色を指定

CONTENTS= 密度曲線グループの目次エントリを指定

FILL 密度曲線の下の領域を塗りつぶし

L= 密度曲線の線の種類を指定

MIDPERCENTS ヒストグラム間隔の中間点のテーブルを出力

NOPRINT 曲線を要約するテーブルを抑制

PERCENTS= データから計算された分位点と曲線から推定された分位点の表が作成されるパーセントの一覧を表示

W= 密度曲線の幅を指定

beta-options

ALPHA= ベータ曲線の1番目の形状パラメータ を指定

BETA= ベータ曲線の2番目の形状パラメータ を指定

SIGMA= ベータ曲線の尺度パラメータ を指定

THETA= ベータ曲線の下限しきい値パラメータ を指定

exponential-options

SIGMA= 指数曲線の尺度パラメータ を指定

THETA= 指数曲線のしきい値パラメータ を指定

μ σμ σ

μ σ μ σ

α

β

σ

θ

σ

θ

Page 303: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 299

gamma-options

ALPHA= ガンマ曲線の形状パラメータ を指定

ALPHADELTA= 連続推定値 の変化を指定(その値で のNewton-Raphson近似が終了)

ALPHAINITIAL= の初期値(Newton-Raphson近似が の場合)を指定

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= ガンマ曲線の尺度パラメータ を指定

THETA= ガンマ曲線のしきい値パラメータ を指定

Gumbel-options

EDFNSAMPLES= EDF適合度検定シミュレーションの標本数を指定

EDFSEED= EDF適合度検定シミュレーションのシード値を指定

MU= Gumbel曲線の位置パラメータ を指定

SIGMA= Gumbel曲線の尺度パラメータ を指定

iGauss-options

EDFNSAMPLES= EDF適合度検定シミュレーションの標本数を指定

EDFSEED= EDF適合度検定シミュレーションのシード値を指定

LAMBDA= 逆ガウス曲線の形状パラメータ を指定

MU= 逆ガウス曲線の位置パラメータ を指定

lognormal-options

SIGMA= 対数正規曲線の形状パラメータ を指定

THETA= 対数正規曲線のしきい値パラメータ を指定

ZETA= 対数正規曲線の尺度パラメータ を指定

normal-options

MU= 正規曲線の平均値 を指定

SIGMA= 正規曲線の標準偏差 を指定

Pareto-options

EDFNSAMPLES= EDF適合度検定シミュレーションの標本数を指定

EDFSEED= EDF適合度検定シミュレーションのシード値を指定

ALPHA= 一般化パレート曲線の形状パラメータ を指定

SIGMA= 一般化パレート曲線の尺度パラメータ を指定

THETA= 一般化パレート曲線のしきい値パラメータ を指定

power-options

表 4.6 パラメトリック法の分布の 2次オプション(続き)

オプション 説明

α

α α

α α

α

σ

θ

μ

σ

λ

μ

σ

θ

ζ

μ

σ

α

σ

θ

Page 304: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

300 第 4章 : UNIVARIATEプロシジャ

ALPHA= べき関数曲線の形状パラメータ を指定

SIGMA= べき関数曲線の尺度パラメータ を指定

THETA= べき関数曲線のしきい値パラメータ を指定

Rayleigh-options

EDFNSAMPLES= EDF適合度検定シミュレーションの標本数を指定

EDFSEED= EDF適合度検定シミュレーションのシード値を指定

SIGMA= レイリー曲線の尺度パラメータ を指定

THETA= レイリー曲線のしきい値パラメータ を指定

Johnson -options

DELTA= Johnson 曲線の1番目の形状パラメータ を指定

FITINTERVAL= パーセント方式のz値を指定

FITMETHOD= パラメータ推定の方法を指定

FITTOLERANCE= パーセント方式のトレランスを指定

GAMMA= Johnson 曲線の2番目の形状パラメータ を指定

SIGMA= Johnson 曲線の尺度パラメータ を指定

THETA= Johnson 曲線の下限しきい値パラメータ を指定

Johnson -options

DELTA= Johnson 曲線の1番目の形状パラメータ を指定

FITINTERVAL= パーセント方式のz値を指定

FITMETHOD= パラメータ推定の方法を指定

FITTOLERANCE= パーセント方式のトレランスを指定

GAMMA= Johnson 曲線の2番目の形状パラメータ を指定

OPTBOUNDRANGE= MLE最適化でのパラメータ開始値のサンプリング範囲を指定

OPTMAXITER= MLE最適化の反復の制限を指定

OPTMAXSTARTS= MLE最適化に使用される開始点の最大数を指定

OPTPRINT MLE最適化の反復履歴を印刷

SIGMA= Johnson 曲線の尺度パラメータ を指定

THETA= Johnson 曲線の下限しきい値パラメータ を指定

Weibull-Options

C= Weibull曲線の形状パラメータcを指定

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

表 4.6 パラメトリック法の分布の 2次オプション(続き)

オプション 説明

α

σ

θ

σ

θ

SB

SB δ

SBγ

SB σ

SB θ

SU

SU δ

SUγ

SU σ

SU θ

c

Page 305: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 301

ノンパラメトリックの密度推定量オプション

ノ ン パ ラ メ ト リ ッ ク の 密 度 推 定 量 オ プ シ ョ ン 核 密 度 推 定 を 計 算 す る に は、optionKERNEL(kernel-options)を使用します。次の2次オプションをKERNELオプションの後にかっこで囲んで指定し、KERNELオプションで要求した密度推定の機能を制御します。

一般オプション

表4.8に、ヒストグラムの拡張オプションの要約を示します。

SIGMA= Weibull曲線の尺度パラメータ を指定

THETA= Weibull曲線のしきい値パラメータ を指定

表 4.6 パラメトリック法の分布の 2次オプション(続き)

オプション 説明

σ

θ

表 4.7 Kernel-Options

オプション 説明

C= 標準化区間幅パラメータcを指定

COLOR= 核密度曲線の色を指定

FILL 核密度曲線の下の領域を塗りつぶし

K= 核関数の種類を指定

L= 核密度曲線に使用する線の種類を指定

LOWER= 核密度曲線の下限を指定

UPPER= 核密度曲線の上限を指定

W= 核密度曲線の線の幅を指定

表 4.8 一般グラフオプション

オプション 説明

一般グラフオプション

BARLABEL= ヒストグラムのバーの上にラベルを作成

CLIPCURVES 当てはめた曲線を考慮せずに垂直軸のスケールを指定

ENDPOINTS= ヒストグラム間隔の端点の一覧を表示

GRID グリッドを作成

HANGING 釣り鐘型ヒストグラムを作成

HREF= 水平軸に垂直な参照線を指定

HREFLABELS= HREF=で指定した参照線のラベルを指定

HREFLABPOS= HREF=で指定した参照線のラベルの垂直位置を指定

MIDPOINTS= ヒストグラム間隔の中間点を指定

Page 306: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

302 第 4章 : UNIVARIATEプロシジャ

NENDPOINTS= ヒストグラム間隔の端点の数を指定

NMIDPOINTS= ヒストグラム間隔の中間点の数を指定

NOBARS ヒストグラムのバーを抑制

NOHLABEL 水平軸のラベルを抑制

NOPLOT プロットを抑制

NOVLABEL 垂直軸のラベルを抑制

NOVTICK 垂直軸の目盛りおよび目盛りラベルを抑制

RTINCLUDE 間隔に右の端点を包含

STATREF= 要約統計量の値に参照線を指定

STATREFLABELS= STATREF=で指定した参照線のラベルを指定

STATREFSUBCHAR= STATREFLABELS=ラベルに統計値を表示するための置き換え文字を指定

VAXISLABEL= 垂直軸にラベルを指定

VREF= 垂直軸に垂直な参照線を指定

VREFLABELS= VREF=で指定した参照線のラベルを指定

VREFLABPOS= VREF=で指定した参照線のラベルの水平位置を指定

VSCALE= 垂直軸のスケールを指定

従来的なグラフ出力のオプション

ANNOTATE= ANNOTATEのデータセットを指定

BARWIDTH= バーの幅を指定

CAXIS= 軸の色を指定

CBARLINE= ヒストグラムのバーの外側の線の色を指定

CFILL= 曲線の下の領域を塗りつぶす色を指定

CFRAME= 枠の色を指定

CGRID= グリッド線の色を指定

CHREF= HREF=で指定した参照線の色を指定

CLIPREF ヒストグラムのバーの背後に参照線を描画

CSTATREF= STATREF=で指定した参照線の色を指定

CTEXT= テキストの色を指定

CVREF= VREF=で指定した参照線の色を指定

DESCRIPTION= グラフカタログ内のプロットに対する説明を指定

FONT= テキストのソフトウェアフォントを指定

表 4.8 一般グラフオプション(続き)

オプション 説明

Page 307: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 303

FRONTREF ヒストグラムのバーの前に参照線を描画

HAXIS= 水平軸のAXISステートメントを指定

HEIGHT= 枠外の領域で使用されるテキストの高さを指定

HMINOR= 水平軸の小目盛りの数を指定

HOFFSET= 水平軸にオフセットを指定

INFONT= 枠領域内のテキストに対してソフトウェアフォントを指定

INHEIGHT= 枠領域内のテキストの高さを指定

INTERBAR= ヒストグラムのバーの間の間隔を指定

LGRID= グリッド線の種類を指定

LHREF= HREF=で指定した参照線の種類を指定

LSTATREF= STATREF=で指定した参照線の種類を指定

LVREF= VREF=で指定した参照線の種類を指定

NAME= グラフカタログ内のプロットに対して名前を指定

NOFRAME プロット領域の周囲の枠の表示を抑制

PFILL= 曲線の下の領域に対する塗りつぶしパターンを指定

TURNVLABELS 垂直軸のラベルの文字列を縦書きに

VAXIS= 垂直軸のAXISステートメントまたは値を指定

VMINOR= 垂直軸の小目盛りの数を指定

VOFFSET= 垂直軸の上端のオフセット長を指定

WAXIS= 軸と枠の線の太さを指定

WBARLINE= バーの外側の線の太さを指定

WGRID= グリッド線の太さを指定

ODS Graphics出力のオプション

ODSFOOTNOTE= ヒストグラムに表示するフットノートを指定

ODSFOOTNOTE2= ヒストグラムに表示するセカンダリフットノートを指定

ODSTITLE= ヒストグラムに表示するタイトルを指定

ODSTITLE2= ヒストグラムに表示するセカンダリタイトルを指定

OVERLAY 異なるクラス水準のヒストグラムを重ね合わせる

比較プロットのオプション

ANNOKEY ANNOTATE=データセットで要求された注釈をキーセルに対してのみ適用

CFRAMESIDE= 行ラベルの枠を塗りつぶす色を指定

表 4.8 一般グラフオプション(続き)

オプション 説明

Page 308: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

304 第 4章 : UNIVARIATEプロシジャ

オプションのリファレンス

HISTOGRAMステートメントのオプションの詳細は次のとおりです。†マークが付けられたオプションは、従来的なグラフを作成する場合にのみ適用できます。すべてのプロットステートメントに共通するオプションの詳細は、「共通オプションのリファレンス」(369ページ)のセクションを参照してください。ALPHA=value-list

BETA 、GAMMA 、PARETO 、POWER オプションで要求された当てはめ曲線の形状パラメータを指定します。ALPHA=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。 デフォルトでは ( または値 EST を指定した場合 )、 の最尤推定値が計算されます。beta-option として使用する場合、A= を ALPHA= の別名として指定できます。gamma-option として使用する場合、SHAPE=をALPHA=の別名として指定できます。

BARLABEL=COUNT | PERCENT | PROPORTION

ヒストグラムのバーの上にラベルを表示します。BARLABEL=COUNTを指定すると、指定したバーに関連付けられたオブザベーションの数がラベルに表示されます。 BARLABEL=PERCENTを指定すると、そのバーが表すオブザベーションのパーセンテージがラベルに表示されます。BARLABEL=PROPORTIONを指定すると、バーに関連付けられたオブザベーションの比率がラベルに表示されます。

† BARWIDTH=value

ヒストグラムのバーの幅を画面のパーセンテージ単位で指定します。 BARWIDTH= オプションとINTERBAR=オプションが両方指定されている場合は、INTERBAR=オプションが優先されます。

CFRAMETOP= 列ラベルの枠を塗りつぶす色を指定

CPROP= 度数のバーの割合の色を指定

CTEXTSIDE= 比較ヒストグラムの行ラベルの色を指定

CTEXTTOP= 比較ヒストグラムの列ラベルの色を指定

INTERTILE= タイルの間隔を指定

MAXNBIN= 表示されるビンの最大数を指定

MAXSIGMAS= キーセルのデータの平均から指定した標準偏差値をプライスマイナスした範囲内のビンが表示されるようにビン数を限定

NCOLS= 比較ヒストグラムの列数を指定

NROWS= 比較ヒストグラムの行数を指定

その他のオプション

CONTENTS= ヒストグラムグループの目次エントリを指定

MIDPERCENTS ヒストグラム間隔のテーブルを作成

NOTABCONTENTS HISTOGRAMステートメントで作成されるテーブルの目次エントリを抑制

OUTHISTOGRAM= ヒストグラム間隔に関する情報を含むデータセットを作成

OUTKERNEL= 核密度推定を含むデータセットを作成

表 4.8 一般グラフオプション(続き)

オプション 説明

αα

Page 309: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 305

BETA <(beta-options)>

当てはめたベータ密度曲線をヒストグラムに表示します。BETAオプションは、HISTOGRAMステートメントに 1回だけ指定できます。ただし、ベータ曲線をいくつでも要求できます。ベータ分布の下限はパラメータ で、上限は値 + です。これらのパラメータは、THETA= および SIGMA=beta-options を使用して指定します。 デフォルトでは、THETA=0 および SIGMA=1 になります。THETA=ESTおよび SIGMA=ESTを指定すると、および の最尤推定値を要求できます。

ベータ分布には、2つの形状パラメータ および があります。これらのパラメータが判明している場合、その値をALPHA= および BETA= beta-optionsに指定できます。デフォルトでは、 および の最尤推定値が計算されます。注 : 3パラメータおよび 4パラメータの最尤推定値は、収束するとは限りません。

表 4.6に、BETAオプションと共に指定できる 2次オプションの一覧を示します。詳細は、「ベータ分布」(400ページ)のセクションを参照してください。BETAオプションの使用例は、例 4.21を参照してください。

BETA=value-list

B=value-list

BETAオプションで要求したベータ密度曲線の 2番目の形状パラメータ を指定します。 BETA=オプションは、BETA オプションの後にかっこで囲んで指定します。デフォルトでは ( または値 EST を指定した場合 )、 の最尤推定値が計算されます。

C=value-list

WEIBULL オプションで要求した Weibull 密度曲線の形状パラメータ c を指定します。 C=Weibull-optionは、WEIBULLオプションの後にかっこで囲んで指定します。デフォルトでは (または値 EST を指定した場合 )、c の最尤推定値がプロシジャによって計算されます。SHAPE=Weibull-optionを、C= Weibull-optionの別名として指定できます。

C=value-list

KERNEL オプションで要求した核密度推定の標準化区間幅パラメータ c を指定します。 C=kernel-optionは、KERNELオプションの後にかっこで囲んで指定します。複数の推定値を求めるには、値のリストを指定します。値MISEを指定すると、漸近的な平均積分平方誤差 (MISE)が最小になる区間幅の推定を作成できます。また、SJPIを指定すると、Sheather-Jonesプラグイン法を使用して区間幅を選択できます。

C= kernel-optionと K= kernel-option (核関数を指定します )を併用して、複数の推定を計算することもできます。指定した核関数がビン幅の指定数よりも多い場合、最後の区間幅が残りの推定に繰り返し利用されます。同様に、指定した区間幅が核関数の指定数よりも多い場合、最後の核関数が残りの推定に繰り返し利用されます。C= kernel-optionを指定しない場合、漸近的なMISEが最小となる区間幅がすべての推定に使用されます。

核密度推定の詳細は、「核密度推定」(414ページ)のセクションを参照してください。† CBARLINE=color

従来的なグラフを作成する場合のヒストグラムのバーの外側の線の色を指定します。 このオプションは、ODS Graphics出力には適用されません。

† CFILL=color

従来的なグラフを作成する場合のヒストグラムのバー(またはFILL オプションも指定している場合は、当てはめた密度曲線の下の領域 )を塗りつぶす色を指定します。 詳細は、FILLおよび PFILL=オプションの項目を参照してください。色の一覧については SAS/GRAPH: Referenceを参照してください。このオプションは、ODS Graphics出力には適用されません。

θ θ σ

θ σ

α βα β

β

β

Page 310: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

306 第 4章 : UNIVARIATEプロシジャ

† CGRID=color

従来的なグラフのヒストグラムにグリッドを表示する場合のグリッドの色を指定します。 このオプションを指定すると、GRID=オプションが指定されていなくてもグリッドが作成されます。

CLIPCURVES

当てはめた曲線を考慮せずに垂直軸のスケールを指定します。 最も高いヒストグラムバーを超える曲線は切り取られます。これにより、当てはめ曲線の極度に高い頂点によって引き起こされるヒストグラムバーの圧縮が防げます。

† CLIPREF

ヒストグラムのバーの背後に、HREF= および VREF= オプションで要求した参照線を描画します。 従来的なグラフに対してGSTYLEシステムオプションが有効である場合、デフォルトではバーの前に参照線が描画されます。

CONTENTS=

密度曲線に関連付けられたテーブルの目次グループエントリを指定します。 CONTENTS= オプションは、分布オプションの後にかっこで囲んで指定します。グループエントリを抑制するには、CONTENTS=を指定します。

DELTA=value-list

SBオプションおよび SUオプションを指定して要求される Johnson および Johnson 分布関数の 1 番目の形状パラメータ を指定します。DELTA= オプションは、SB または SU オプションの後にかっこで囲んで指定します。 の値を省略した場合、または値 ESTを指定した場合、推定値が計算されます。

EDFNSAMPLES=value

GUMBEL 、IGAUSS 、PARETO 、RAYLEIGH オプションで要求した密度曲線の EDF適合度統計量の p 値の計算に使用する、シミュレーションの標本数を指定します。EDFNSAMPLES= オプションは、分布オプションの後にかっこで囲んで指定します。デフォルト値は 500です。

EDFSEED=value

GUMBEL 、IGAUSS 、PARETO 、RAYLEIGH オプションで要求した密度曲線の EDF適合度統計量の p値の計算に使用するシミュレーション標本を作成するとき、擬似乱数生成器の開始に使用される整数値を指定します。 EDFSEED= プションは、分布オプションの後にかっこで囲んで指定します。デフォルトでは、コンピュータの内部時計における時刻の読み取りから生成された乱数シードが使用されます。

ENDPOINTS <=values | KEY | UNIFORM>

ヒストグラムビンの端点を水平軸の目盛り値として使用し、ヒストグラムのバーのビン幅を計算する方法を決定します。 values は、各ヒストグラム間隔の左右両方の端点を指定します。ヒストグラムのバーの幅は、連続する端点の間の差です。このプロシジャは、すべての変数で同じ値を使用します。

端点の範囲は、データの範囲を含んでいなければなりません。たとえば、 endpoints=2 to 10 by 2

オブザベーションのすべてが、間隔 [2,4) [4,6) [6,8) [8,10] に入る必要があります。また、均等間隔の端点を昇順で指定する必要があります。

SB SUδ

δ

Page 311: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 307

CLASSステートメントを使用しない場合、KEYおよびUNIFORMのどちらも適用されません。

ENDPOINTS を省略すると、ヒストグラムの中間点が水平軸の目盛り値として使用されます。ENDPOINTS を指定すると、(Terrell and Scott 1985) のアルゴリズムを使用して端点が計算されます。この計算は、主に、ほぼ正規分布を示す連続データに適用できます。

MIDPOINTS= と ENDPOINTS を両方指定すると、警告メッセージが出され、ENDPOINTS が使用されます。

RTINCLUDEを指定すると、それぞれのヒストグラム間隔で右の端点はその間隔に含まれますが、左の端点は含まれません。

CLASSステートメントを使用し、ENDPOINTSを指定した場合、ENDPOINTS=KEYがデフォルトとして使用されます。ただし、キーセルが空であれば、ENDPOINTS=UNIFORMが使用されます。

EXPONENTIAL <(exponential-options)>

EXP <(exponential-options)>

当てはめた指数密度曲線をヒストグラムに表示します。EXPONENTIALオプションは、HISTOGRAMステートメントに 1 回のみ指定可能です。ただし、指数曲線を任意の数だけ要求できます。 パラメータは最小データ値以下である必要があります。を指定するには、THETA= exponential-optionを使用します。デフォルトでは、THETA=0になります。THETA=ESTを指定すると、の最尤推定値が計算されます。 を指定するには、SIGMA= exponential-optionを使用します。デフォルトでは、 の最尤推定値が計算されます。表 4.6 に、EXPONENTIAL オプションと共に指定できるオプションの一覧を示します。詳細は、「指数分布」(401ページ)のセクションを参照してください。

FILL

当てはめた密度曲線または核密度推定曲線を色とパターンで塗りつぶします。 FILLオプションは、1つの当てはめた曲線だけに指定できます。FILLオプションは、密度曲線オプションまたは KERNELオプションの後にかっこで囲んで指定します。CFILL=オプションと PFILL=オプションは、従来的なグラフを作成する場合の曲線の下の領域を塗りつぶす色とパターンを指定します。CFILL= オプションとPFILL= オプションは、従来的なグラフの作成時にその曲線の下の領域を塗りつぶす色とパターンを指定します。使用できる色およびパターンの一覧は、SAS/GRAPH: Referenceを参照してください。

† FRONTREF

HREF= および VREF= オプションで要求した参照線をヒストグラムのバーの前に描画します。 従来的なグラフに対して NOGSTYLE システムオプションが有効である場合、デフォルトではヒストグラムのバーの背後に参照線が描画され、塗りつぶされたバーで隠れる場合があります。

GAMMA <(gamma-options)>

当てはめたガンマ密度曲線をヒストグラムに表示します。GAMMA オプションは、HISTOGRAM ステートメントに 1 回のみ指定可能です。ただし、ガンマ曲線を任意の数だけ要求できます。 パラメータは最小データ値未満である必要があります。を指定するには、THETA= gamma-option を使用します。デフォルトでは、THETA=0になります。THETA=ESTを指定すると、の最尤推定値が計算されます。形状パラメータ および尺度パラメータ を指定するには、ALPHA= および SIGMA=

KEY キーセル内のデータから端点を決定します。端点の数の初期値は、Terrell andScott (1985)の方法を使用して、キーセル内のオブザベーション数を基に決定されます。必要に応じて、データが残りのセルに収まるように、いずれかの方向にキーセルの端点リストが延ばされます。

UNIFORM すべてのオブザベーションを使用し、セルが存在しないものとして端点を決定します。言い換えると、端点の数はTerrell and Scott (1985)の方法を使用して全セルの標本サイズを基に決定されます。

θ θθ

σ σ

θ θθ

θ σ

Page 312: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

308 第 4章 : UNIVARIATEプロシジャ

gamma-options を使用します。デフォルトでは、および の最尤推定値が計算されます。の最尤推定値は、Newton-Raphson近似を使用して反復的に計算されます。表 4.6に、GAMMAオプションと共に指定できるオプションの一覧を示します。詳細は、「ガンマ分布」(420ページ)のセクションを参照してください。GAMMAオプションの使用例は、例 4.22を参照してください。

GAMMA=value-list

SBオプションおよび SUオプションを指定して要求される Johnson および Johnson 分布関数の 2番目の形状パラメータ を指定します。 GAMMA=オプションは、SBまたは SUオプションの後にかっこで囲んで指定します。 の値を省略した場合、または値 ESTを指定した場合、推定値が計算されます。

GRID

ヒストグラムにグリッドを表示します。 グリッド線とは、垂直軸の主目盛りの位置に描かれる水平の線です。

GUMBEL <(Gumbel-options)>

当てはめたGumbel密度曲線をヒストグラムに表示します。GUMBELオプションは、HISTOGRAMステートメントに 1回のみ指定可能です。ただし、Gumbel曲線を任意の数だけ要求できます。 位置パラメータ および尺度パラメータ を指定するには、MU=および SIGMA= Gumbel-optionsを使用します。デフォルトでは、 および の最尤推定値が計算されます。表 4.6 に、GUMBEL オプションと共に指定できるオプションの一覧を示します。Gumbel 分布の詳細は、「Gumbel 分布」(402 ページ)のセクションを参照してください。

HANGING

HANG

図 4.7に示すような釣り鐘型ヒストグラムを要求します。

θ σ θ

SB SUγ

γ

μ σμ σ

Page 313: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 309

図 4.7 釣り鐘型ヒストグラム

HANGINGオプションは、当てはめた密度曲線を 1つだけ要求する場合のみ使用できます。釣り鐘型ヒストグラムでは、ヒストグラムのバーの頂点 (線で表示されます )が当てはめた曲線に揃います。線の位置はヒストグラムビンの中間点になります。線が水平軸に近いほどよく適合するという点で、釣り鐘型ヒストグラムは適合度診断です。釣り鐘型ヒストグラムの説明については、Tukey (1977)、Wainer(1974)および Velleman and Hoaglin (1981)を参照してください。

† HOFFSET=value

水平軸の両端のオフセットを画面のパーセンテージ単位で指定します。 HOFFSET=0 に指定すると、デフォルトのオフセットを破棄できます。

IGAUSS <(iGauss-options)>

当てはめた逆ガウス密度曲線をヒストグラムに表示します。 IGAUSS オプションは、HISTOGRAMステートメントに 1回だけ指定できます。ただし、逆ガウス曲線をいくつでも要求できます。位置パラメータ および形状ラメータ を指定するには、MU=および LAMBDA= iGauss-optionsを使用します。デフォルトでは、 の標本平均が使用され、 の最尤推定値が計算されます。表 4.6に、IGAUSSオプションと共に指定できるオプションの一覧を示します。詳細は、「逆ガウス分布」(403ページ)のセクションを参照してください。

† INTERBAR=value

ヒストグラムのバーの間隔を画面のパーセンテージ単位で指定します。 INTERBAR= オプションとBARWIDTH=オプションが両方指定されている場合、INTERBAR=オプションが優先されます。

K=NORMAL | QUADRATIC | TRIANGULAR

核密度推定の計算で使用する核関数 (正規、2次、3次 )を指定します。複数の推定値を求めるには、値のリストを指定します。 このオプションは、KERNEL オプションに続けてかっこ内に記述する必要があります。K= kernel-option と C= kernel-option を併用して、標準化区間幅を指定することもできます。指定した核関数がビン幅の指定数よりも多い場合、最後の区間幅が残りの推定に繰り返し利用さ

μ λμ λ

Page 314: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

310 第 4章 : UNIVARIATEプロシジャ

れます。同様に、指定した区間幅が核関数の指定数よりも多い場合、最後の核関数が残りの推定に繰り返し利用されます。デフォルトでは、K=NORMALです。

KERNEL<(kernel-options)>

ヒストグラムに、核密度推定値を重ねて表示します。デフォルトでは、AMISE法を使用して核密度推定値を計算します。 同一ヒストグラム上に複数の核密度推定値を重ねて表示するには、C=kernel-optionまたは K= kernel-optionに値のリストを指定します。表 4.7は、KERNELオプションとともに指定できるオプションの一覧です。核密度推定の詳細は、「核密度推定」(414ページ)のセクションを参照してください。また、例 4.23を参照してください。

LAMBDA=value

IGAUSS オプションで要求した当てはめ曲線の形状パラメータ を指定します。 LAMBDA= オプションは、分布を表すキーワード IGAUSS の後にかっこで囲んで指定します。 の値を指定しない場合、最尤推定値がプロシジャによって計算されます。

† LGRID=linetype

ヒストグラムにグリッドを表示する場合のグリッドの線の種類を指定します。 このオプションを指定すると、GRIDオプションが指定されていなくてもグリッドが作成されます。

LOGNORMAL<(lognormal-options)>

当てはめた対数正規密度曲線をヒストグラムに表示します。LOGNORMAL オプションは、HISTOGRAM ステートメントに 1 回のみ指定可能です。ただし、対数正規分布曲線を任意の数だけ要求できます。 パラメータ は最小データ値未満である必要があります。を指定するには、THETA=lognormal-optionを使用します。デフォルトでは、THETA=0になります。THETA=ESTを指定すると、の最尤推定値が計算されます。 および を指定するには、SIGMA= および ZETA=lognormal-options を使用します。デフォルトでは、 および の最尤推定値が計算されます。表 4.6に、LOGNORMAL オプションと共に指定できるオプションの一覧を示します。詳細は、「対数正規分布」(403 ページ)のセクションを参照してください。LOGNORMAL オプションの使用例は、例4.22および例 4.24を参照してください。

LOWER=value-list

KERNELオプションで要求した核密度推定の下限を指定します。LOWER=オプションは、KERNELオプションの後にかっこで囲んで指定します。 指定した核推定が下限よりも多いと、最後の下限が残りの推定に繰り返し利用されます。デフォルトは欠損値で、当てはめた核密度曲線に下限がないことを示します。

MAXNBIN=n

比較ヒストグラムに表示されるビンの数を制限します。このオプションは、データ分布の尺度や範囲が、セルによって大きく異なる場合に有用です。 デフォルトでは、キーとなっているセルに対してビンサイズと中間点が決定されます。次に、残りのセルのデータ範囲に合うように中間点が外挿されていきます。ただし、セルの尺度が大幅に異なる場合、結果として作成されるビンの数が膨大になるため、各セルのヒストグラムは狭い領域に縮尺されます。MAXNBIN=を使用してビンの数を制限すると、キーとなっているセルのデータ分布の表示が小さくなりすぎることを回避できます。CLASSステートメントを指定しないと、このオプションは使用できません。MAXNBIN=オプションは、MAXSIGMAS=オプションの代替として使用できます。

MAXSIGMAS=value

キーセルのデータの平均から value( 標準偏差 ) をプラスマイナスした範囲内のビンが比較ヒストグラムに表示されるようにビン数を限定します。このオプションは、データ分布の尺度や範囲が、セルによって大きく異なる場合に有用です。 デフォルトでは、キーとなっているセルに対してビンサイズと中間点が決定されます。次に、残りのセルのデータ範囲に合うように中間点が外挿されていきます。ただし、セルの尺度が大幅に異なる場合、結果として作成されるビンの数が膨大になるため、各セルのヒス

λλ

θ θ

θ σ ζσ ζ

Page 315: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 311

トグラムは狭い領域に縮尺されます。MAXSIGMAS=を使用してビンの数を制限すると、キーとなっているセルのデータ分布の表示が小さくなり過ぎることを回避できます。CLASSステートメントを指定しないと、このオプションは使用できません。

MIDPERCENTS

各ヒストグラム間隔の中間点とオブザベーションのパーセンテージを一覧にしたテーブルを要求します。MIDPERCENTS を密度推定オプションの後のかっこ内に指定すると、各間隔の中間点、オブザベーションの観測されたパーセンテージ、( 当てはめた分布から ) 推定された母集団のパーセンテージを一覧にしたテーブルが表示されます。例 4.18を参照してください。

MIDPOINTS=values | KEY | UNIFORM

ヒストグラム間隔の中間点を決定する方法を指定します。values は、ヒストグラムのバーの幅を、隣り合う中間点の間の差として定義します。 このプロシジャは、すべての変数で同じ値を使用します。

中間点の範囲は、両端がバーの幅の半分ずつ延長されますが、データ範囲はこの範囲内に収まる必要があります。たとえば、midpoints=2 to 10 by 0.5

このとき、全オブザベーションが 1.75 と 10.25 の範囲内に収まる必要があります。均等間隔の中間点を昇順で指定します。

CLASS ステートメントを使用しない場合、KEY および UNIFORM のどちらも適用されません。デフォルトでは、CLASS ステートメントで MIDPOINTS=KEY を使用しても、キーセルが空だとMIDPOINTS=UNIFORM となります。それ以外の場合、(Terrell and Scott 1985) のアルゴリズムを使用して中間点が計算されます。この計算は、主に、ほぼ正規分布を示す連続データに適用できます。

MU=value-list

GUMBEL 、IGAUSS 、NORMAL オプションでそれぞれ要求した Gumbel 曲線、逆ガウス曲線、正規密度曲線のパラメータ を指定します。 MU=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。デフォルトの場合または値 EST を指定した場合、正規分布および逆ガウス分布の の標本平均を使用して、Gumbel 分布の の最尤推定値が計算されます。詳細は、「逆ガウス分布」(403ページ)および Gumbel分布を参照してください。

NENDPOINTS=n

ヒストグラム間隔の端点を水平軸の目盛り値として使用し、ビンの数を決定します。NMIDPOINTS=n

ヒストグラム間隔の数を指定します。NOBARS

ヒストグラムのバーの描画を抑制します。これは、当てはめた曲線のみを表示する場合に有用です。NOPLOT

KEY キーセル内のデータだけから中間点を決定します。中間点の数の初期値は、Terrell and Scott (1985)の方法を使用して、キーセル内だけのオブザベーション数を基に決定されます。必要に応じて、データが残りのセルに収まるように、いずれかの方向にキーセルの中間点リストが延ばされます。

UNIFORM セルが存在しないものとし、すべてのオブザベーションを使用して、中間点を決定します。言い換えると、中間点の数はTerrell and Scott (1985)の方法を使用して全セルの標本サイズを基に決定されます。

μ

μ μ

Page 316: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

312 第 4章 : UNIVARIATEプロシジャ

NOCHART

プロット作成を抑制します。 このオプションは、当てはめた密度の要約統計量の表だけを作成したい場合や、OUTHISTOGRAM=データセットだけ作成したい場合に使用します。

NOPRINT

当てはめた曲線を要約するテーブルを抑制します。 NOPRINT オプションは、分布オプションの後にかっこで囲んで指定します。

NORMAL<(normal-options)>

当てはめた正規密度曲線をヒストグラムに表示します。NORMALオプションは、HISTOGRAMステートメントに 1回のみ指定可能です。ただし、正規曲線を任意の数だけ要求できます。 および を指定するには、MU=および SIGMA= normal-optionsを使用します。デフォルトでは、 および の標本平均および標本標準偏差が計算されます。表 4.6 に、NORMAL オプションと共に指定できるオプションの一覧を示します。詳細は、「正規分布」(404 ページ)のセクションを参照してください。NORMAL オプションの使用例は、例 4.19を参照してください。

NOTABCONTENTS

HISTOGRAMステートメントで作成されるテーブルの目次エントリを抑制します。OPTBOUNDRANGE=value

Johnson 分布の最尤推定量における、各パラメータのサンプリング範囲を定義します。UNIVARIATEプロシジャは、パーセント点法を使用して各パラメータの初期推定値を計算します。valueは、ローカル最適化の開始値のためにサンプリングできる初期推定値の辺りにパラメータ値の範囲を決定します。デフォルトは 100です。

OPTMAXITER=value

Johnson 分布の最尤推定量でオプティマイザが使用する反復数を制限します。デフォルトは500です。OPTMAXSTARTS=N

Johnson 分布の最尤推定量でローカルの最適化に使用される開始点の最大数を定義します。したがって、Nローカル最適化は複数アルゴリズムでは今後使用されません。デフォルト値は 100です。

OPTPRINT

Johnson 分布の最尤推定量に関する反復履歴を印刷します。OPTSEED=value

Johnson 分布の最尤推定量で乱数順序を生成するために正整数シードを指定します。このオプションは、別の実行結果からの複製に使用できます。

OPTTOLERANCE=value

Johnson 分布で最尤推定量に最適化を示すトレランスを指定します。デフォルトは 1E–8です。OUTHISTOGRAM=SAS-data-set

OUTHIST=SAS-data-set

ヒストグラム間隔に関する情報を含む SAS データセットを作成します。 特に、データセットには、ヒストグラム間隔の中間点 (ENDPOINTSオプションを指定した場合は、間隔の下限端点 )、各間隔のオブザベーションの観測されたパーセンテージ、(指定した当てはめた曲線それぞれから推定された )各間隔のオブザベーションの推定されたパーセンテージが含まれています。

OUTKERNEL=SAS-data-set

核密度推定に関する情報を含む SASデータセットを作成します。

μ σμ σ

SU

SU

SU

SU

SU

SU

Page 317: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 313

PARETO <(Pareto-options)>

当てはめた一般化パレート密度曲線をヒストグラムに表示します。PARETO オプションは、HISTOGRAM ステートメントに 1 回のみ指定可能です。ただし、一般化パレート曲線を任意の数だけ要求できます。パラメータ は最小データ値未満である必要があります。を指定するには、THETA=Pareto-optionを使用します。デフォルトでは、THETA=0になります。尺度パラメータ および形状パラメータ を指定するには、SIGMA=およびALPHA= Pareto-optionsを使用します。デフォルトでは、 および の最尤推定値が計算されます。表 4.6に、PARETOオプションと共に指定できるオプションの一覧を示します。詳細は、「一般化パレート分布」(404ページ)のセクションを参照してください。

PERCENTS=values

PERCENT=values

データから計算された分位点と当てはめた曲線から推定された分位点の表が作成されるパーセントの一覧を指定します。 パーセントは 0から 100までである必要があります。PERCENTS=オプションは、曲線オプションの後にかっこで囲んで指定します。デフォルトのパーセントは、1、5、10、25、50、75、90、95、99です。

† PFILL=pattern

従来的なグラフを作成する場合のヒストグラムのバー ( または FILL オプションも指定していれば、当てはめた曲線の下の領域 ) の塗りつぶしに使用するパターンを指定します。 詳細は、CFILL= および FILLオプションの項目を参照してください。パターン値の一覧は SAS/GRAPH: Referenceを参照してください。このオプションは、ODS Graphics出力には適用されません。

POWER <(power-options)>

当てはめたべき関数密度曲線をヒストグラムに表示します。 POWER オプションは、HISTOGRAM ステートメントに 1回だけ指定できます。ただし、べき関数曲線をいくつでも要求できます。パラメータ は最小データ値未満である必要があります。および を指定するには、 THETA= および SIGMA=power-optionsを使用します。デフォルト値は、それぞれ 0および 1です。形状パラメータ を指定するには、ALPHA= power-optionを使用します。デフォルトでは、の最尤推定値がUNIVARIATEプロシジャによって計算されます。表 4.6に、POWERオプションと共に指定できるオプションの一覧を示します。詳細は、「べき関数分布」(405ページ)のセクションを参照してください。

RAYLEIGH <(Rayleigh-options)>

当てはめたレイリー密度曲線をヒストグラムに表示します。RAYLEIGH オプションは、HISTOGRAMステートメントに 1 回のみ指定可能です。ただし、レイリー曲線を任意の数だけ要求できます。 パラメータ は最小データ値未満である必要があります。を指定するには、THETA= Rayleigh-optionを使用します。デフォルトでは、THETA=0になります。尺度パラメータ を指定するには、SIGMA= Rayleigh-optionを使用します。デフォルトでは、 の最尤推定値が計算されます。表 4.6に、RAYLEIGHオプションと共に指定できるオプションの一覧を示します。詳細は、「レイリー分布」(422ページ)のセクションを参照してください。

RTINCLUDE

各ヒストグラム間隔の右の端点がそのヒストグラム間隔に含まれます。デフォルトでは、左の端点がヒストグラム間隔に含まれます。

SB<( -options)>

当てはめた Johnson 密度曲線をヒストグラム上に表示します。 SB オプションは、HISTOGRAMステートメントに 1回だけ指定できます。ただし、Johnson 曲線はいくつでも要求できます。および を指定するには、 THETA= および SIGMA= normal-optionsを使用します。デフォルトでは、および の最尤推定値が計算されます。表 4.6 に、SB オプションと共に指定できるオプションの一覧を示します。詳細は、「Johnson SB分布」(407ページ)のセクションを参照してください。

θ θσ

θσ θ

θθ σ

θθ

θ θσ

σ

SB

SBSB θ

σ θσ

Page 318: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

314 第 4章 : UNIVARIATEプロシジャ

SIGMA=value-list

BETA , EXPONENTIAL , GAMMA , GUMBEL , LOGNORMAL , NORMAL , PARETO , POWER ,RAYLEIGH , SB , SU , or WEIBULL のいずれかのオプションを要求する場合の当てはめた曲線のパラメータ を指定します。

SIGMA=オプションの使用方法の概要は、表 4.9を参照してください。このオプションは、密度曲線のオプションに続けてかっこ内に記述します。値 EST値 ESTを指定すると、 の最尤推定値を要求できます。

SU<( -options)>

当てはめた Johnson 密度曲線をヒストグラム上に表示します。 SUオプションは、HISTOGRAMステートメントに 1 回だけ指定できます。ただし、Johnson 曲線はいくつでも要求できます。および を指定するには、 THETA= および SIGMA= normal-options を使用します。デフォルトでは、および の最尤推定値が計算されます。表 4.6に、SUオプションと共に指定できるオプションの一覧を示します。詳細は、「Johnson SU分布」(408ページ)分布のセクションを参照してください。

THETA=value-list

THRESHOLD= value-list

BETA、EXPONENTIAL、GAMMA、LOGNORMAL、PARETO、POWER、RAYLEIGH、SB、SU、WEIBULLオプションで要求した曲線の下限しきい値パラメータ を指定します。 THETA=オプションは、曲線オプションの後にかっこで囲んで指定します。デフォルトでは、THETA=0 になります。値 ESTを指定した場合、の推定値が計算されます。

UPPER=value-list

KERNEL オプションで要求した核密度推定の上限を指定します。 UPPER=オプションは、KERNELオプションの後にかっこで囲んで指定します。指定した核推定が上限よりも多いと、最後の上限が残りの推定に繰り返し利用されます。デフォルトは欠損値で、当てはめた核密度曲線に上限がないことを示します。

表 4.9 SIGMA=オプションの使用方法

密度曲線のオプション SIGMA=に指定する値 デフォルト値 別名

BETA 尺度パラメータ 1 SCALE=

EXPONENTIAL 尺度パラメータ 最尤推定値 SCALE=

GAMMA 尺度パラメータ 最尤推定値 SCALE=

GUMBEL 尺度パラメータ 最尤推定値

LOGNORMAL 形状パラメータ 最尤推定値 SHAPE=

NORMAL 尺度パラメータ 標準偏差

PARETO 尺度パラメータ 1

POWER 尺度パラメータ 最尤推定値

RAYLEIGH 尺度パラメータ 最尤推定値

SB 尺度パラメータ 1 SCALE=

SU 尺度パラメータ パーセント点に基づく推定値

WEIBULL 尺度パラメータ 最尤推定値 SCALE=

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

σ

SU

SUSU θ

σθ σ

θ

θ

Page 319: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 315

† VOFFSET=value

垂直軸の上端のオフセットを画面のパーセンテージ単位で指定します。VSCALE=COUNT | PERCENT | PROPORTION

ヒストグラムの垂直軸の尺度を指定します。 値 COUNTは、データ単位をデータユニットごとのオブザベーション数に変換するよう要求します。値 PERCENT は、データ単位をデータユニットごとのオブザベーションのパーセントに変換するよう要求します。値 PROPORTION は、データ単位をデータユニットごとのオブザベーションの比率に変換するよう要求します。デフォルト値は PERCENTです。

† WBARLINE=n

従来のグラフを作成する場合のバーの外側の線の幅を指定します。このオプションは、ODS Graphics出力には適用されません。

WEIBULL<(Weibull-options)>

当てはめたWeibull密度曲線をヒストグラムに表示します。WEIBULLオプションは、HISTOGRAMステートメントに 1回だけ指定できます。ただし、Weibull曲線をいくつでも要求できます。パラメータ は最小データ値未満である必要があります。を指定するには、THETA= Weibull-option を使用します。デフォルトでは、THETA=0になります。THETA=ESTを指定すると、の最尤推定値が計算されます。形状パラメータ c および尺度パラメータ を指定するには、C= および SIGMA=Weibull-options を使用します。デフォルトでは、プロシジャが c および の最尤推定値を計算します。表 4.6に、WEIBULLオプションと共に指定できるオプションの一覧を示します。詳細は、「Weibull分布」(409ページ)のセクションを参照してください。WEIBULLオプションの使用例は、例 4.22を参照してください。

UNIVARIATEプロシジャは、 の最尤推定値をNewton-Raphson近似を使用して反復的に計算します。C=、SIGMA=、および THETA= Weibull-optionsも参照してください。

† WGRID=n

従来的なグラフを作成する場合のグリッド線の太さを指定します。 このオプションは、ODSGraphics出力には適用されません。

ZETA= value-list

LOGNORMAL オプションで要求した対数正規密度曲線の尺度パラメータ の値を指定します。ZETA= lognormal-optionは、LOGNORMALオプションの後にかっこで囲んで指定します。デフォルトでは (または値 ESTを指定した場合 )、 の最尤推定値が計算されます。SCALE= オプションは、ZETA=オプションの別名として指定できます。

IDステートメントID variables;

IDステートメントは、極値オブザベーションのテーブルに含める変数を1つ以上指定します。ID変数の値が、n個の最大オブザベーションとn個の最小オブザベーションの隣に表示され、ここでのnはNEXTROBS=オプションの値です。例4.3を参照してください。

また、PROC UNIVARIATEステートメントのIDOUTオプションを指定すると、OUTPUTステートメントで作成される出力データセットにID変数を含めることができます。

θ θθ

σσ

σ

ζ

ζ

Page 320: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

316 第 4章 : UNIVARIATEプロシジャ

INSETステートメントINSET keywords </ options>;

INSETステートメントは、CDFPLOT 、HISTOGRAM 、PPPLOT 、PROBPLOT 、QQPLOT のいずれかのステートメントで作成されたグラフ内に直接、インセットと呼ばれる要約統計量のボックスまたはテーブルを配置します。INSETステートメントは、拡張したいプロットを作成するプロットステートメントの後に使用する必要があります。インセットは、前のプロットステートメントが作成するすべてのグラフに表示されます。

プロットステートメントの後に複数のINSETステートメントを使用すると、複数のインセットをプロットに挿入できます。例4.17を参照してください。

INSETステートメントには、インセットに表示する情報を特定するキーワードを1つ以上指定します。情報はキーワードの要求順に表示されます。次のキーワードを指定できます。

• 統計キーワード • 1次キーワード • 2次キーワード

統計キーワード

利用できる統計キーワードを表4.10に示します。

表 4.10 PR統計キーワード

オプション 説明

記述統計キーワード

CSS 修正済み平方和

CV 変動係数

GEOMEAN 幾何平均

KURTOSIS|KURT 尖度

MAX 最大値

MEAN 標本平均

MIN 最小値

MODE 最も度数の高い値

N 標本サイズ

NEXCL MAXNBIN=またはMAXSIGMAS=オプションによって除外されるオブザベーションの数

NMISS 欠損値の数

NOBS オブザベーションの数

RANGE 範囲

SKEWNESS|SKEW 歪度

STD | STDDEV 標準偏差

Page 321: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 317

STDMEAN | STDERR 平均の標準誤差

SUM オブザベーションの合計

SUMWGT 重みの合計

USS 無修正平方和

VAR 分散

パーセント点統計キーワード

P1 1番目のパーセント点

P5 5番目のパーセント点

P10 10番目のパーセント点

Q1

P25 下位四分位点(25番目のパーセント点)

MEDIAN

Q2

P50 中央値(50番目のパーセント点)

Q3

P75 上位四分位点(75番目のパーセント点)

P90 90番目のパーセント点

P95 95番目のパーセント点

P99 99番目のパーセント点

QRANGE 四分位範囲(Q3‒Q1)

分布によらないパーセント点の信頼限界に関するキーワード (CIPCTLDFオプション)

P1_LCL_DF 1番目のパーセント点の下側信頼限界

P1_UCL_DF 1番目のパーセント点の上側信頼限界

P5_LCL_DF 5番目のパーセント点の下側信頼限界

P5_UCL_DF 5番目のパーセント点の上側信頼限界

P10_LCL_DF 10番目のパーセント点の下側信頼限界

P10_UCL_DF 10番目のパーセント点の上側信頼限界

Q1_LCL_DF

P25_LCL_DF 下位四分位点(25番目のパーセント点)の下側信頼限界

Q1_UCL_DF

P25_UCL_DF 下位四分位点(25番目のパーセント点)の上側信頼限界

MEDIAN_LCL_DF

表 4.10 PR統計キーワード(続き)

オプション 説明

Page 322: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

318 第 4章 : UNIVARIATEプロシジャ

Q2_LCL_DF

P50_LCL_DF 中央値(50番目のパーセント点)の下側信頼限界

MEDIAN_UCL_DF

Q2_UCL_DF

P50_UCL_DF 中央値(50番目のパーセント点)の上側信頼限界

MEDIAN_UCL_DF

Q2_UCL_DF

P50_UCL_DF 中央値(50番目のパーセント点)の上側信頼限界

Q3_LCL_DF

P75_LCL_DF 上位四分位点(75番目のパーセント点)の下側信頼限界

Q3_UCL_DF

P75_UCL_DF 上位四分位点(75番目のパーセント点)の上側信頼限界

P90_LCL_DF 90番目のパーセント点の下側信頼限界

P90_UCL_DF 90番目のパーセント点の上側信頼限界

P95_LCL_DF 95番目のパーセント点の下側信頼限界

P95_UCL_DF 95番目のパーセント点の上側信頼限界

P99_LCL_DF 99番目のパーセント点の下側信頼限界

P99_UCL_DF 99番目のパーセント点の上側信頼限界

正規分布を仮定した場合のパーセント点の信頼限界に関するキーワード (CIPCTLNORMALオプション)

P1_LCL 1番目のパーセント点の下側信頼限界

P1_UCL 1番目のパーセント点の上側信頼限界

P5_LCL 5番目のパーセント点の下側信頼限界

P5_UCL 5番目のパーセント点の上側信頼限界

P10_LCL 10番目のパーセント点の下側信頼限界

P10_UCL 10番目のパーセント点の上側信頼限界

Q1_LCL

P25_LCL 下位四分位点(25番目のパーセント点)の下側信頼限界

Q1_UCL

P25_UCL 下位四分位点(25番目のパーセント点)の上側信頼限界

MEDIAN_LCL

Q2_LCL

表 4.10 PR統計キーワード(続き)

オプション 説明

Page 323: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 319

P50_LCL 中央値(50番目のパーセント点)の下側信頼限界

MEDIAN_UCL

Q2_UCL

P50_UCL 中央値(50番目のパーセント点)の上側信頼限界

Q3_LCL

P75_LCL 上位四分位点(75番目のパーセント点)の下側信頼限界

Q3_UCL

P75_UCL 上位四分位点(75番目のパーセント点)の上側信頼限界

P90_LCL 90番目のパーセント点の下側信頼限界

P90_UCL 90番目のパーセント点の上側信頼限界

P95_LCL 95番目のパーセント点の下側信頼限界

P95_UCL 95番目のパーセント点の上側信頼限界

P99_LCL 99番目のパーセント点の下側信頼限界

P99_UCL 99番目のパーセント点の上側信頼限界

ロバスト統計量キーワード

GINI Giniの平均差

MAD 中央絶対偏差

QN 、MADの代替

SN 、MADの代替

STD_GINI Giniの標準偏差

STD_MAD MAD標準偏差

STD_QN 標準偏差

STD_QRANGE 四分位範囲標準偏差

STD_SN 標準偏差

仮説検定キーワード

MSIGN 符号統計量

NORMALTEST 正規性の検定

PNORMAL 正規性の検定の確率値

SIGNRANK 符号付き順位統計量

PROBM 符号検定でのより大きな絶対値の確率

PROBN 正規性の検定の確率値

PROBS 符号付き順位検定の確率値

表 4.10 PR統計キーワード(続き)

オプション 説明

Qn

Sn

Page 324: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

320 第 4章 : UNIVARIATEプロシジャ

完全にカスタマイズされたインセットを作成するには、DATA=データセットを使用します。 DATA=SAS-data-set

UNIVARIATE プロシジャで、SAS データセットのカスタマイズされた統計をインセットテーブルに表示するよう要求します。データセットには、次の 2つの変数を含める必要があります。

_LABEL_ インセットエントリのラベルの値を保存する文字列変数

_VALUE_ インセットエントリの値を保存する文字変数または数値変数

データセット内の各オブザベーションのラベルと値は、インセット内の各行に対応しています。キーワードリスト内のDATA=キーワードの位置によって、インセット内の行の位置が決まります。

1次および 2次キーワード

1次キーワードは、当てはめる分布を指定します。これは、パラメトリック法の分布または核密度推定のいずれかになります。1次キーワードに続いて2次キーワードをかっこで囲んで指定することで、分布に関連付けられている特定の統計量を要求できます。

注:従来的なグラフ出力を生成する場合、2次キーワードなしで 1次キーワードを指定すると、色付きの線や、分布名を密度曲線のキーとして表示できます。

HISTOGRAMステートメントでは、当てはめる分布を同じファミリから複数(たとえば2つの正規分布など)を要求できます。1次キーワードの直後に曲線のインデックスを角かっこで囲んで指定することにより、個々の曲線に対応するインセット統計量を表示できます。

次のステートメントは、3つの当てはめた正規曲線を表示し、さらに2番目の曲線に関してのみ適合度統計量を含むインセットを表示します。

proc univariate data=score; histogram final / normal(sigma=1 2 3); inset normal[2](ad adpval);

run;

表4.11に、1次キーワードと、それらを指定できるプロットステートメントを示します。

PROBT スチューデントのt検定の確率値

T スチューデントのt検定の統計量

入力データセットの読み取りに関するキーワード

DATA= 入力データセットの(ラベル、値の)ペア

表 4.10 PR統計キーワード(続き)

オプション 説明

表 4.11 1次キーワード

キーワード 分布 使用できるプロットステートメント

BETA ベータ すべてのプロットステートメント

EXPONENTIAL

指数 すべてのプロットステートメント

GAMMA ガンマ すべてのプロットステートメント

Page 325: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 321

表4.12に、表4.11に示した1次キーワードと共に使用できる2次キーワードを示します。

GUMBEL Gumbel すべてのプロットステートメント

IGAUSS 逆ガウス CDFPLOT、HISTOGRAM、PPPLOT

KERNEL 核密度推定 HISTOGRAM

LOGNORMAL 対数正規 すべてのプロットステートメント

NORMAL 正規 すべてのプロットステートメント

PARETO パレート すべてのプロットステートメント

POWER べき関数 すべてのプロットステートメント

RAYLEIGH レイリー すべてのプロットステートメント

SB Johnson HISTOGRAM

SU Johnson HISTOGRAM

WEIBULL Weibull (3 つのパラメータ) すべてのプロットステートメント

WEIBULL2 Weibull (2 つのパラメータ) PROBPLOT、QQPLOT

表 4.12 2次キーワード

2次キーワード 別名 説明

BETAの 2次キーワード

ALPHA SHAPE1 1番目の形状パラメータ

BETA SHAPE2 2番目の形状パラメータ

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD 下限しきい値パラメータ

EXPONENTIALの 2次キーワード

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

GAMMAの 2次キーワード

ALPHA SHAPE 形状パラメータ

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

表 4.11 1次キーワード(続き)

キーワード 分布 使用できるプロットステートメント

SB

SU

α

β

σ

θ

σ

θ

α

σ

Page 326: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

322 第 4章 : UNIVARIATEプロシジャ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

GUMBELの 2次キーワード

MEAN 当てはめた分布の平均

MU 位置パラメータ

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

IGAUSSの 2次キーワード

LAMBDA 形状パラメータ

MEAN 当てはめた分布の平均

MU 平均パラメータ

STD 当てはめた分布の標準偏差

KERNELの 2次キーワード

AMISE カーネル密度の誤差平均平方和(MISE)の機算平均

BANDWIDTH BANDWIDTHの別名

C 密度推定の標準化区間幅

TYPE カーネルの種類:標準、2次、3次

LOGNORMALの 2次キーワード

MEAN 当てはめた分布の平均

SIGMA SHAPE 形状パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

ZETA SCALE 尺度パラメータ

NORMALの 2次キーワード

MU MEAN 平均パラメータ

SIGMA STD 尺度パラメータ

PARETOの2次キーワード

ALPHA 形状パラメータ

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

表 4.12 2次キーワード(続き)

2次キーワード 別名 説明

θ

μ

σ

λ

μ

σ

θ

ζ

μ

σ

α

σ

Page 327: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 323

THETA THRESHOLD しきい値パラメータ

POWERの 2次キーワード

ALPHA 形状パラメータ

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

RAYLEIGHの 2次キーワード

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

SBおよび SUの 2次キーワード

DELTA SHAPE1 1番目の形状パラメータ

GAMMA SHAPE2 2番目の形状パラメータ

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD 下限しきい値パラメータ

WEIBULLの 2次キーワード

C SHAPE 形状パラメータc

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD しきい値パラメータ

WEIBULL2の 2次キーワード

C SHAPE 形状パラメータc

MEAN 当てはめた分布の平均

SIGMA SCALE 尺度パラメータ

STD 当てはめた分布の標準偏差

THETA THRESHOLD 既知の下限しきい値 0

すべてのパラメトリック法 (KERNEL以外 )の分布で使用できるキーワード

表 4.12 2次キーワード(続き)

2次キーワード 別名 説明

θ

α

σ

θ

σ

θ

δ

γ

σ

θ

σ

θ

σ

θ

Page 328: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

324 第 4章 : UNIVARIATEプロシジャ

表4.12に示されているインセット統計量を取得するには、プロットステートメントと各統計量を計算するオプションを要求する必要があります。例として、次のステートメントについて考えてみます。

proc univariate data=score; histogram final / normal; inset mean std normal(ad adpval);

run;

MEANおよびSTDキーワードは、それぞれfinalの標本平均および標準偏差を表示します。NORMALキーワードと2次キーワードADおよびADPVALを指定すると、Anderson-Darling適合度検定統計量およびp値がそれぞれ表示されます。HISTOGRAMステートメントでNORMALオプションが要求されるため、NORMALキーワードで指定した統計量のみが使用できます。

KERNELキーワードは、HISTOGRAMステートメントで、核密度推定を要求した場合にのみ利用できます。WEIBULL2キーワードは、PROBPLOTステートメントまたはQQPLOTステートメントで、2パラメータWeibull分布を要求する場合にのみ使用できます。

INSET統計ラベルと出力形式

デフォルトでは、UNIVARIATEプロシジャでは、インセット統計量と該当するラベルが関係付けられ、適切な出力形式を使用して数値が出力されます。ラベルをカスタマイズするには、等号(=)の後にキーワードと目的のラベルを指定し、引用符で囲みます。出力形式をカスタマイズするには、キーワードの後に数値出力形式を指定し、かっこで囲みます。ラベルには、最大24文字まで指定できます。統計量に対してラベルと出力形式の両方を指定する場合は、ラベルの後に出力形式を指定します。たとえば、次のステートメントは、2つの統計のラベルのカスタマイズを要求し、標準偏差をフィールドの幅が5、小数点以下2桁で表示します。

inset n='Sample Size' std='Std Dev' (5.2);

オプションの概要

表4.13はINSETステートメントのoptionsのリストで、INSETステートメントでスラッシュ(/)の後に指定します。詳細は、「オプションのリファレンス」(325ページ)オプションのリファレンスセクションを参照してください。

AD Anderson-Darling EDF検定統計量

ADPVAL Anderson-Darling EDF検定のp値

CVM Cramér-von Mises EDF検定統計量

CVMPVAL Cramér‒von Mises EDF検定のp値

KSD Kolmogorov-Smirnov EDF検定統計量

KSDPVAL Kolmogorov-Smirnov EDF検定のp値

表 4.12 2次キーワード(続き)

2次キーワード 別名 説明

表 4.13 INSETオプション

オプション 説明

CFILL=color | BLANK インセットの背景色を指定

CFILLH=color ヘッダーの背景色を指定

CFRAME=color 枠の色を指定

Page 329: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 325

オプションのリファレンス

INSETステートメントのオプションの詳細は次のとおりです。†マークが付けられたオプションは、従来的なグラフを作成する場合にのみ適用できます。† CFILL=color | BLANK

従来的なグラフの背景色を指定します。CFILLH=オプションを省略すると、ヘッダーの背景が含まれます。デフォルトでは、背景は空白です。このため、インセットに重なっているアイテム (曲線やヒストグラムのバーなど )がインセットを透過して表示されます。

CFILL=オプションの値を指定すると、重なっているアイテムがインセットを透過して表示されなくなります。背景色のないまま、アイテムがインセットを透過して表示されないようにするには、CFILL=BLANKを使用します。

† CFILLH=color

従来的なグラフのヘッダーの背景色を指定します。デフォルト値は CFILL=の色です。† CFRAME=color

従来的なグラフの枠の色を指定します。デフォルト値はプロットの軸と同じ色です。 † CHEADER=color

従来的なグラフのヘッダーテキストの色を指定します。デフォルト値は CTEXT=の色です。† CSHADOW=color

従来的なグラフの影付き色を指定します。デフォルトでは、CSHADOW=オプションが指定されていない場合、影付きは表示されません。

CHEADER=color ヘッダーテキストの色を指定

CSHADOW=color 影付き色を指定

CTEXT=color インセットのテキスト色を指定

DATA POSITION=(x,y)座標のデータ単位を指定

FONT=font テキストフォントを指定

FORMAT=format インセット内の値の出力形式を指定

GUTTER=value 上下の余白のインセットのとじしろ幅を指定

HEADER='string' ヘッダーテキストを指定

HEIGHT=value インセットのテキストの高さを指定

NCOLS= 上下の余白のインセットの列数を指定

NOFRAME インセットの周囲の枠を抑制

POSITION=position インセットの位置を指定

REFPOINT=BR | BL |TR | TL

POSITION=(x,y)座標で配置したインセットの参照ポイントを指定

表 4.13 INSETオプション(続き)

オプション 説明

Page 330: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

326 第 4章 : UNIVARIATEプロシジャ

† CTEXT=color

従来的なグラフのテキスト色を指定します。デフォルト値はプロットの他のテキストと同じ色です。DATA

POSITION= オプションでインセットを配置するときに使用するデータ座標を指定します。DATA オプションは、POSITION=(x,y)を指定する場合のみ使用できます。座標 (x,y)の直後にDATAを指定します。注 : 座標によるインセットの配置は、ODS Graphics出力ではサポートされていません。

† FONT=font

従来的なグラフのテキストフォントを指定します。デフォルトでは、インセットをプロット内に配置する場合、フォントは SIMPLEX です。インセットをプロット外に配置する場合、プロットの他のテキストと同じフォントです。

FORMAT=format

インセット内のすべての値の出力形式を指定します。特定の統計量に出形式を指定した場合、その出形式が FORMAT= オプションで指定した出形式より優先されます。SAS 出力形式の詳細は、SAS 出力形式と入植形式 : リファレンスを参照してください。

GUTTER=value

上下の余白にあるインセットのとじしろ幅を画面のパーセント単位で指定します。とじしろは、インセットの (ラベル、値の )ペアの列の間隔です。デフォルト値は 4です。注 : GUTTER=オプションは、ODS Graphicsが有効な場合にのみ適用されます。

HEADER=string

ヘッダーテキストを指定します。string は 40 文字以下で指定する必要があります。デフォルトでは、インセットにヘッダー行は表示されません。INSET ステートメントでリストしたすべてのキーワードが、ヒストグラムの当てはめた曲線に対応する 2次キーワードである場合、UNIVARIATEプロシジャは、分布を表し曲線を識別するデフォルトのヘッダーを表示します。

† HEIGHT=value

従来的なグラフのテキストの高さを指定します。 NCOLS=n

上下の余白にあるインセットに表示される (ラベル、値の )ペアの列数を指定します。デフォルト値は3です。注 : NCOLS=オプションは、ODS Graphicsが有効な場合にのみ適用されます。

NOFRAME

テキストの周りに描かれたフレームを非表示にします。 POSITION=position

POS=position

インセットの位置を指定します。位置は、方位点キーワード、余白キーワードまたは座標ペア (x,y)です。座標は、軸のパーセント単位またはデータ単位で指定できます。デフォルト値は NW です。この場合、インセットは画面の左上端 (北西 )に配置されます。詳細は、「インセットの配置」(396ページ)セクションを参照してください。

注:座標によるインセットの配置は、ODS Graphics出力ではサポートされていません。† REFPOINT=BR | BL | TR | TL

UNIVARIATEプロシジャが POSITION=オプションの座標ペアによって配置する、インセットの参照ポイントを指定します。REFPOINT=オプションは、座標 (x,y)に配置するインセットの枠の端を指定します。キーワードは、BL、BR、TL、TRです。それぞれ、左下端、右下端、左上端、右上端に対

Page 331: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 327

応します。デフォルト値は BLです。REFPOINT=は、POSITION=(x,y)の座標とともに使用する必要があります。このオプションは、ODS Graphics出力には適用されません。

OUTPUTステートメントOUTPUT <OUT=SAS-data-set> < keyword1=names …keywordk=names > < percentile-options >;

OUTPUTステートメントは、統計量とBY変数を出力データセットに保存します。BYステートメントを使用する場合、出力データセットの各オブザベーションはBYグループのいずれか1つに対応します。それ以外の場合、出力データセットには1つのオブザベーションのみが含まれます。

OUTPUTステートメントは、UNIVARIATEプロシジャ内でいくつでも使用できます。OUTPUTステートメントごとに、そのステートメントで指定した統計量を含む新しいデータセットが作成されます。VARステートメントをOUTPUTステートメントとともに使用する必要があります。OUTPUTステートメントには、キーワード=名前形式の指定か、またはPCTLPTS=オプションおよびPCTLPRE=オプションの指定が含まれている必要があります。例4.7および例4.8を参照してください。

OUT=オプションを使用すると、出力データセットの名前を指定できます。

OUT=SAS-data-set

出力データセットを指定します。SAS-data-setが存在しない場合は、UNIVARIATEプロシジャによって作成されます。OUT=を省略すると、データセットの名前はDATAnになります。nは、名前が重複しないための最も小さい整数です。

キーワード=名前形式の指定では、出力データセットに含める統計量を選択し、その統計量を含む新しい変数に名前を付けることができます。目的の統計量ごとにkeywordを指定し、その後ろに、等号と、統計量を格納する変数であるnamesを指定します。出力データセットでは、OUTPUTステートメントのキーワードの後ろのリストの最初の変数にVARステートメントのリストの最初の変数の統計量が格納され、2番目の変数にVARステートメントの2番目の変数の統計量が格納されます。等号に続くnamesのリストがVARステートメントの変数のリストより短い場合、プロシジャは、VARステートメントにリストされている変数の順番でnamesを使用します。利用できるキーワードを表4.14に示します。

表 4.14 統計キーワード

オプション 説明

記述統計キーワード

CSS 修正済み平方和

CV 変動係数

GEOMEAN 幾何平均

KURTOSIS|KURT 尖度

MAX 最大値

MEAN 標本平均

MIN 最小値

MODE 最も度数の高い値

N 標本サイズ

Page 332: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

328 第 4章 : UNIVARIATEプロシジャ

NMISS 欠損値の数

NOBS オブザベーションの数

RANGE 範囲

SKEWNESS|SKEW 歪度

STD | STDDEV 標準偏差

STDMEAN | STDERR 平均の標準誤差

SUM オブザベーションの合計

SUMWGT 重みの合計

USS 無修正平方和

VAR 分散

分位点統計キーワード

P1 1番目のパーセント点

P5 5番目のパーセント点

P10 10番目のパーセント点

Q1 | P25 下位四分位点(25番目のパーセント点)

MEDIAN | Q2 | P50 中央値(50番目のパーセント点)

Q3 | P75 上位四分位点(75番目のパーセント点)

P90 90番目のパーセント点

P95 95番目のパーセント点

P99 99番目のパーセント点

QRANGE 四分位範囲(Q3‒Q1)

ロバスト統計量キーワード

GINI Giniの平均差

MAD 中央絶対偏差

QN 、MADの代替

SN 、MADの代替

STD_GINI Giniの標準偏差

STD_MAD MAD標準偏差

STD_QN 標準偏差

STD_QRANGE 四分位範囲標準偏差

STD_SN 標準偏差

仮説検定キーワード

表 4.14 統計キーワード(続き)

オプション 説明

Qn

Sn

Qn

Sn

Page 333: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 329

UNIVARIATEプロシジャは、データの1番目、5番目、10番目、25番目、50番目、75番目、90番目、95番目、99番目のパーセント点を自動的に計算します。keyword=namesの指定を使用して、これらを出力データセットに保存できます。追加のパーセント点を要求するにはPCTLPTS=オプションを使用できます。次に示すpercentile-optionsは、このような追加のパーセント点に関係します。CIPCTLDF=(cipctl-options)

CIQUANTDF=(cipctl-options)

PCTLPTS= オプションで要求されるパーセント点の分布によらない信頼限界を要求します。つまり、正規分布などのパラメトリックな分布データを前提としません。UNIVARIATEプロシジャは、Hahnand Meeker (1991)の説明に基づき、順序統計量 (順位 )を使用して信頼限界を計算します。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。cipctl-optionsには次のオプションを指定できます。ALPHA=

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。デフォルト値は、PROCステートメントで指定された ALPHA= の値になります。

LOWERPRE=prefixes

下側信頼限界を含む変数の名前の作成に使用される 1つまたは複数の接頭辞を指定します。複数の分析変数に下側信頼限界を保存するには、接頭辞のリストを指定します。接頭辞の順序は、VARステートメント内の分析変数の順序に対応しています。

LOWERNAME=suffixes

下側信頼限界を含む変数の名前の作成に使用される 1 つまたは複数の接尾辞を指定します。UNIVARIATE プロシジャは、LOWERPRE= 値と接尾辞名を組み合わせて変数名を作成します。接尾辞は要求されたパーセント点に関連付けられているため、PCTLPTS= に指定したパーセント点と同じ順序でリストされます。

TYPE=keyword

信頼限界の種類を指定します。keywordには、LOWER、UPPER、SYMMETRIC、ASYMMETRICのいずれかを指定できます。デフォルト値は SYMMETRICです。

MSIGN 符号統計量

NORMALTEST 正規性の検定

SIGNRANK 符号付き順位統計量

PROBM 符号検定でのより大きな絶対値の確率

PROBN 正規性の検定の確率値

PROBS 符号付き順位検定の確率値

PROBT スチューデントのt検定の確率値

T スチューデントのt検定の統計量

表 4.14 統計キーワード(続き)

オプション 説明

α

α 100 1 α–( ) α

Page 334: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

330 第 4章 : UNIVARIATEプロシジャ

UPPERPRE=prefixes

上側信頼限界を含む変数の名前の作成に使用される 1つまたは複数の接頭辞を指定します。複数の分析変数に上側信頼限界を保存するには、接頭辞のリストを指定します。接頭辞の順序は、VARステートメント内の分析変数の順序に対応しています。

UPPERNAME=suffixes

上側信頼限界を含む変数の名前の作成に使用される 1 つまたは複数の接尾辞を指定します。UNIVARIATEプロシジャは、UPPERPRE=値と接尾辞名を組み合わせて変数名を作成します。接尾辞は要求されたパーセント点に関連付けられているため、PCTLPTS= に指定したパーセント点と同じ順序でリストされます。

注:接頭辞、パーセント点の値、接尾辞を使用して変数名を作成する方法に関する詳細は、PCTLPTS=、PCTLPRE=、PCTLNAME=オプションの項目を参照してください。

CIPCTLNORMAL=(cipctl-options)

CIQUANTNORMAL=(cipctl-options)

PCTLPTS= オプションで要求されるパーセント点においてデータが正規分布に従うという仮説に基づく信頼限界を要求します。計算方法は、 Hahn and Meeker (1991)のセクション 4.4.1で説明されており、t Odeh and Owen (1980) によって提唱された非心分布を使用します。このオプションは、WEIGHT ステートメントを使用する場合には適用されません。cipctl-options には次のオプションを指定できます。ALPHA=

有意水準 ( %信頼区間 )を指定します。値 は、0から 1までの間でなければなりません。デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。デフォルト値は、PROCステートメントで指定された ALPHA= の値になります。

LOWERPRE=prefixes

下側信頼限界を含む変数の名前の作成に使用される 1つまたは複数の接頭辞を指定します。複数の分析変数に下側信頼限界を保存するには、接頭辞のリストを指定します。接頭辞の順序は、VARステートメント内の分析変数の順序に対応しています。

TYPE=keyword

信頼限界の種類を指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値は TWOSIDEDです。

UPPERPRE=prefixes

上側信頼限界を含む変数の名前の作成に使用される 1つまたは複数の接頭辞を指定します。複数の分析変数に上側信頼限界を保存するには、接頭辞のリストを指定します。接頭辞の順序は、VARステートメント内の分析変数の順序に対応しています。

UPPERNAME=suffixes

上側信頼限界を含む変数の名前の作成に使用される 1 つまたは複数の接尾辞を指定します。UNIVARIATEプロシジャは、UPPERPRE=値と接尾辞名を組み合わせて変数名を作成します。接尾辞は要求されたパーセント点に関連付けられているため、PCTLPTS= に指定したパーセント点と同じ順序でリストされます。

注:接頭辞、パーセント点の値、接尾辞を使用して変数名を作成する方法に関する詳細は、PCTLPTS=、PCTLPRE=、PCTLNAME=オプションの項目を参照してください。

α

α 100 1 α–( ) α

Page 335: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 331

PCTLGROUP=BYSTAT | BYVAR

VARステートメントで複数の分析変数をリストする場合に、PCTLPTS=オプションで要求する変数がOUT=データセットに追加される順序を指定します。デフォルトでは(またはPCTLGROUP=BYSTATを指定した場合 )、パーセント点の値に関連付けられているすべての変数が連続して作成されます。PCTLGROUP=BYVAR を指定すると、分析変数に関連付けられているすべての変数が連続して作成されます。

たとえば、次のステートメントを考えます。 proc univariate data=Score;

var PreTest PostTest; output out=ByStat pctlpts=20 40 pctlpre=Pre_ Post_;output out=ByVar pctlgroup=byvar pctlpts=20 40 pctlpre=Pre_ Post_;

run;

データセット ByStat 内の変数の順序は、Pre_20、Post_20、Pre_40、Post_40 です。データセットByVar内の変数の順序は、Pre_20、Pre_40、Post_20、Post_40です。

PCTLNAME=suffixes

PCTLPTS= パーセント点が格納される変数の名前を作成するために、接尾辞を 1 つ以上指定します。UNIVARIATEプロシジャは、PCTLPRE=値と接尾辞名を組み合わせて変数名を作成します。接尾辞名は、要求されたパーセント点に割り当てられます。このため、接尾辞名は、PCTLPTS= パーセント点と同じ順序で指定してください。PCTLNAME=オプションで n個の suffixesを指定し、PCTLPTS=オプションでm個のパーセント点の値を指定する場合、m > nならば、最初の n個のパーセント点の名前には suffixes が使用され、残りの m - n 個のパーセント点にはデフォルト名が使用されます。例として、次のステートメントについて考えてみます。

proc univariate; var Length Width Height; output pctlpts = 20 40

pctlpre = pl pw ph pctlname = twenty;

run;

PCTLNAME=オプションの値 twentyは、PCTLPTS=リストの最初のパーセント点に対してのみ使用されます。PCTLPRE=オプションの値にこの接尾辞を付加して、新しい変数名pltwenty、pwtwentyおよび phtwentyが作成されます。それぞれ、Length、WidthおよびHeightの 20番目のパーセント点が格納されます。PCTLNAME= 接尾辞の指定は 1 つのみであるため、Length、Width およびHeight の 40 番目のパーセント点に対する変数名は、接頭辞とパーセント点の値を使用して作成されます。つまり、出力データセットには、変数 pltwenty、pl40、pwtwenty、pw40、phtwenty、ph40が含まれます。

PCTLPTS= パーセント点が格納される変数の接頭辞名を指定するには、PCTLPRE= を指定する必要があります。

PCTLNAME= 値の数がパーセント点の数より少ない場合や PCTLNAME= を省略した場合は、UNIVARIATE プロシジャはパーセント点を接尾辞に使用して、パーセント点を格納する変数の名前を作成します。パーセント点が整数の場合は、パーセント点が使用されます。それ以外の場合は、パーセント点は小数点以下 2桁の小数に切り捨てられ、小数点がアンダースコアに置き換えられます。

接頭辞と接尾辞の組み合わせまたは接頭辞とパーセント点の組み合わせが 32 文字を超える場合は、変数名が 32文字になるように接頭辞名が切り捨てられます。

PCTLNDEC=value

パーセント点の変数名に取り込まれるパーセント点の値の小数点桁数を指定します。デフォルト値は 2です。たとえば、次のステートメントは、パーセント点の変数を 1つずつ含む出力データセットを 2つ

Page 336: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

332 第 4章 : UNIVARIATEプロシジャ

作成します。データセット short 内の変数名は、pwid85_12 になり、データセット long 内の変数名は pwid85_125になります。

proc univariate; var width;output out=short pctlpts=85.125 pctlpre=pwid;output out=long pctlpts=85.125 pctlpre=pwid pctlndec=3;

run;

PCTLPRE=prefixes

PCTLPTS=パーセント点が格納される変数の名前を作成するために、接頭辞を 1つ以上指定します。複数の分析変数に対して同じパーセント点を保存するには、接頭辞のリストを指定します。接頭辞の順序は、VARステートメント内の分析変数の順序に対応しています。PCTLPRE=および PCTLPTS=の両オプションを指定する必要があります。

新しい変数名は、prefix とパーセント点の値を使用してプロシジャにより生成されます。指定されたパーセント点が整数の場合は、prefixの後ろに値が付いたものがそのまま変数名になります。指定された値が整数以外の場合は、変数名では小数点がアンダースコアに置き換えられ、小数点以下 1桁の小数値に切り捨てられます。たとえば、次のステートメントは、Widthの 20番目、33.33番目、66.67番目、80番目の各パーセント点の変数 pwid20、pwid33_3、pwid66_6、pwid80を作成します。

proc univariate noprint; var Width; output pctlpts=20 33.33 66.67 80 pctlpre=pwid;

run;

複数の変数のパーセント点を要求する場合は、VAR ステートメントの変数の出現順と同じ順番で、接頭辞をリストする必要があります。prefixとパーセント点の値を結合してできる名前の長さが 32文字を超える場合、変数名が 32文字になるように接頭辞が切り捨てられます。

PCTLPTS=percentiles

UNIVARIATEプロシジャで自動的に計算されないパーセント点を 1つ以上指定します。PCTLPRE=および PCTLPTS= の両オプションを指定する必要があります。パーセント点は、start TO stop BYincrement形式の式で指定できます。startは開始番号、stopは終了番号、incrementは増分値です。PCTLPTS= オプションは、追加のパーセント点を作成してデータセットへ出力します。これらの追加のパーセント点は表示されません。

50番目、95番目、97.5番目、および 100番目のパーセント点を計算するには、次のステートメントをサブミットします。

output pctlpre=P_ pctlpts=50,95 to 100 by 2.5;

要求したパーセント点は、PROC UNIVARIATEステートメントの PCTLDEF=オプションで指定した方法に基づいて計算されます。PCTLPRE= (オプションで、PCTLNAME=)を使用して、パーセント点の変数名を指定する必要があります。たとえば、次のステートメントは、分析変数 PreTestおよびPostTestの 20番目と 40番目のパーセント点を格納する、Pctlsという名前の出力データセットを作成します。

proc univariate data=Score; var PreTest PostTest; output out=Pctls pctlpts=20 40 pctlpre=PreTest_ PostTest_

pctlname=P20 P40; run;

UNIVARIATE プロシジャは、PreTest および PostTest に関する 20 番目と 40 番目のパーセント点を、変数 PreTest_P20、PostTest_P20、PreTest_P40、PostTest_P40に保存します。

Page 337: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 333

PPPLOTステートメントPPPLOT <variables> < / options>;

PPPLOTステートメントは、P-Pプロット(パーセントプロット)を作成します。P-Pプロットは変数の経験累積分布関数(ECDF)を、指定した正規分布などの理論累積分布関数と比較します。2つの分布が一致する場合、プロット上の点は原点を通り、単位勾配を形成する線形を形成します。したがって、P-Pプロットを使うと、理論分布に測定値の組み合わせのモデルがどの程度当てはまっているかを判定することができます。

PPPLOTステートメントでは次のいずれかの理論分布を指定できます。 • ベータ • 指数 • ガンマ • Gumbel • 一般化パレート • 逆ガウス • 対数正規 • 正規 • べき関数 • レイリー • Weibull

注:P-Pプロットを確率プロットと混同しないでください。確率プロットは、並べ替えられた一連の測定値を指定した分布のパーセント点と比較するものです。確率プロットは PROBPLOTステートメントで作成できます。

PPPLOTステートメントは、UNIVARIATEプロシジャ内でいくつでも使用できます。PPPLOTステートメントの構成要素は次のとおりです。variables

P-P プロットを作成するプロセス変数です。VAR ステートメントを指定する場合、variables をそのVAR ステートメント内にリストする必要があります。含めない場合、variables は、入力データセット内にある任意の数値変数になります。variables のリストを指定しなかった場合、デフォルトではVAR ステートメント内でリストされた各変数の P-P プロットが作成され、VAR ステートメントを指定していない場合は、入力データセット内の各数値変数の P-P プロットが作成されます。たとえば、データセットmeasuresが 2つの数値変数 lengthおよびwidthを含む場合、次の 2つの PPPLOTステートメントはそれぞれの変数について P-Pプロットを作成します。

proc univariate data=measures; var length width; ppplot;

run;

proc univariate data=measures;ppplot length width;

run;

オプション

プロットの理論的分布を指定するか、またはプロットに特徴を追加します。1つ以上の変数を指定した場合、各変数に対してオプションが等しく適用されます。PPPLOTステートメントの optionsは、すべてスラッシュ (/)の後に指定します。分布を指定するオプションは 1つだけ指定できます。その他の

Page 338: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

334 第 4章 : UNIVARIATEプロシジャ

オプションはいくつでも指定できます。デフォルトでは、正規分布に基づく P-P プロットが作成されます。

次の例では、NORMAL 、MU= 、および SIGMA= オプションを使って、平均値が 10、標準偏差が0.3の正規分布に基づく P-Pプロットを要求しています。SQUARE オプションは、正方形の枠内に確率プロットを表示します。CTEXT= オプションはテキストの色を指定します。

proc univariate data=measures; ppplot length width / normal(mu=10 sigma=0.3)

square ctext=blue;

run;

表 4.15 から表 4.17 は、関数別の PPPLOT options の一覧です。詳細は、「オプションのリファレンス」(325ページ)および「共通オプションのリファレンス」(369ページ)の各セクションを参照してください。Optionsには次のいずれかを指定します。

•1次オプション •2次オプション •一般オプション

分布オプション

表4.15は、特定の理論分布を要求するための1次オプションの要約です。表 4.15 理論分布の指定オプション

表4.16に、分布のパラメータの指定と対角方向の分布参照線の表示の制御を行うオプションの要約を示します。これらのオプションは、分布オプションの後にかっこで囲んで指定します。たとえば、次のステートメントは、NORMALオプションを使用して正規P-Pプロットを要求します。

proc univariate data=measures; ppplot length / normal(mu=10 sigma=0.3 color=red);

run;

MU=およびSIGMA=normal-optionsでは、正規分布 および を指定し、COLOR= normal-optionでは線の色を指定します。

オプション 説明

BETA(beta-options) ベータ P-Pプロットを指定

EXPONENTIAL(exponential-options) 指数 P-Pプロットを指定

GAMMA(gamma-options) ガンマ P-Pプロットを指定

GUMBEL(Gumbel-options) Gumbel P-Pプロットを指定

PARETO(Pareto-options) 一般化パレート P-Pプロットを指定

IGAUSS(iGauss-options) 逆ガウス P-Pプロットを指定

LOGNORMAL(lognormal-options) 対数正規 P-Pプロットを指定

NORMAL(normal-options) 正規 P-Pプロットを指定

POWER(power-options) べき関数 P-Pプロットを指定

RAYLEIGH(Rayleigh-options) レイリー P-Pプロットを指定

WEIBULL(Weibull-options) Weibull P-Pプロットを指定

μ σ

Page 339: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 335

表 4.16 分布参照線の 2次オプション

オプション 説明

すべての分布で使用されるオプション

COLOR= (分布の )参照線の色を指定

L= (分布の )参照線の種類を指定

NOLINE 分布参照線を抑制

W= (分布の )参照線の幅を指定

beta-options

ALPHA= 形状パラメータを指定

BETA= 形状パラメータを指定

SIGMA= 尺度パラメータを指定

THETA= 下限しきい値パラメータを指定

exponential-options

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

gamma-options

ALPHA= 形状パラメータを指定

ALPHADELTA= 連続推定値 の変化を指定 (その値で の Newton-Raphson近似が終了 )

ALPHAINITIAL= の初期値 (Newton-Raphson近似が の場合 )を指定

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

Gumbel-options

MU= 位置パラメータを指定

SIGMA= 尺度パラメータを指定

iGauss-options

LAMBDA= 形状パラメータを指定

MU= 平均パラメータを指定

lognormal-options

SIGMA= 形状パラメータを指定

THETA= しきい値パラメータを指定

ZETA= 尺度パラメータを指定

normal-options

α

β

σ

θ

σ

α

α

α α

α α

α

σ

θ

μ

σ

λ

μ

σ

θ

ζ

Page 340: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

336 第 4章 : UNIVARIATEプロシジャ

一般オプション

表4.17は、プロットの外観を制御するオプションの一覧です。詳細は、「オプションのリファレンス」(325ページ)および「共通オプションのリファレンス」(369ページ)の各セクションを参照してください。

MU= 平均パラメータを指定

SIGMA= 標準偏差を指定

Pareto-options

ALPHA= 形状パラメータを指定

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

power-options

ALPHA= 形状パラメータを指定

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

Rayleigh-options

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

Weibull-options

C= 形状パラメータ cを指定

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 尺度パラメータを指定

THETA= しきい値パラメータを指定

表 4.16 分布参照線の 2次オプション(続き)

オプション 説明

μ

σ

α

σ

θ

α

σ

θ

σ

θ

c

σ

θ

表 4.17 一般グラフオプション

オプション 説明

一般グラフオプション

HREF= 水平軸に垂直な参照線を指定

HREFLABELS= HREF=行の線のラベルを指定

HREFLABPOS= HREF=で指定した参照線のラベルの位置を指定

NOHLABEL 水平軸のラベルを抑制

NOVLABEL 垂直軸のラベルを抑制

NOVTICK 垂直軸の目盛りおよび目盛りラベルを抑制

Page 341: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 337

SQUARE P-Pプロットを正方形の枠の中で表示

VAXISLABEL= 垂直軸にラベルを指定

VREF= 垂直軸に垂直な参照線を指定

VREFLABELS= VREF=行の線のラベルを指定

VREFLABPOS= VREF=で指定した参照線のラベルの位置を指定

従来的なグラフ出力のオプション

ANNOTATE= 注釈データセットを提供

CAXIS= 軸の色を指定

CFRAME= 枠の色を指定

CHREF= HREF=で指定した参照線の色を指定

CTEXT= テキストの色を指定

CVREF= VREF=で指定した参照線の色を指定

DESCRIPTION= グラフカタログ内のプロットに対する説明を指定

FONT= テキストのソフトウェアフォントを指定

HAXIS= 水平軸の AXISステートメントを指定

HEIGHT= 枠外の領域で使用されるテキストの高さを指定

HMINOR= 水平軸の小目盛りの数を指定

INFONT= 枠領域内のテキストに対してソフトウェアフォントを指定

INHEIGHT= 枠領域内のテキストの高さを指定

LHREF= HREF=で指定した参照線の種類を指定

LVREF= VREF=で指定した参照線の種類を指定

NAME= グラフカタログ内のプロットに対して名前を指定

NOFRAME プロット領域の周囲の枠の表示を抑制

TURNVLABELS 垂直軸のラベルの文字列を縦書きに

VAXIS= 垂直軸の AXISステートメントを指定

VMINOR= 垂直軸の小目盛りの数を指定

WAXIS= 軸と枠の線の太さを指定

ODS Graphics出力のオプション

ODSFOOTNOTE= プロットに表示するフットノートを指定

ODSFOOTNOTE2= プロットに表示するセカンダリフットノートを指定

ODSTITLE= プロットに表示するタイトルを指定

ODSTITLE2= プロットに表示するセカンダリタイトルを指定

表 4.17 一般グラフオプション(続き)

オプション 説明

Page 342: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

338 第 4章 : UNIVARIATEプロシジャ

オプションのリファレンス

PPPLOTステートメントのオプションの詳細は次のとおりです。すべてのプロットステートメントに共通するオプションの詳細は、「共通オプションのリファレンス」(369ページ)のセクションを参照してください。ALPHA=value

BETA 、GAMMA 、PARETO 、POWER オプションで要求した P-P プロットの形状パラメータ( > 0)を指定します。

BETA<(beta-options)>

ベータ P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論ベータ CDF値になります。

ここで、 は正規化された不完全なベータ関数 であり、各値は次のとおりです。

=下限のしきい値パラメータ

=尺度パラメータ ( >0)

=番目の形状パラメータ ( >0)

=2番目の形状パラメータ ( >0)

次の例に示すように、 、 、 、を指定するには、ALPHA= 、BETA= 、SIGMA= 、THETA=beta-optionsを使用します。

OVERLAY 異なるクラス水準のプロットを重ね合わせる (ODS Graphicsのみ )

比較プロットのオプション

ANNOKEY ANNOTATE= データセットで要求された注釈をキーセルに対してのみ適用

CFRAMESIDE= 行ラベルの枠を塗りつぶす色を指定

CFRAMETOP= 列ラベルの枠を塗りつぶす色を指定

CPROP= 度数のバーの割合の色を指定

CTEXTSIDE= 行ラベルの色を指定

CTEXTTOP= 列ラベルの色を指定

INTERTILE= 比較プロットのタイル間の距離を指定

NCOLS= 比較プロットの列数を指定

NROWS= 比較プロットの列数を指定

その他のオプション

CONTENTS= P-Pプロットグループの目次エントリを指定

表 4.17 一般グラフオプション(続き)

オプション 説明

αα

θ

σ σ

α α

β β

α β σ θ

Page 343: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 339

proc univariate data=measures;ppplot width / beta(theta=1 sigma=2 alpha=3 beta=4);

run;

これらのパラメータ値を省略した場合、デフォルトで =0、 =1 となり、 および に関しては最尤推定値が計算されます。

重要 : フォルトの単位間隔 (0,1)でデータ範囲が適切に示されない場合は、データが間隔 ( , + )に収まるように THETA= および SIGMA= を指定する必要があります。

データ分布がパラメータ 、 、 、を持つベータ分布である場合、ALPHA= 、BETA= 、SIGMA= 、THETA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定したベータ分布が適合していることが証明されます。SCALE= オプションを SIGMA= オプションの別名として、THRESHOLD=オプションを THETA=オプションの別名として指定できます。

BETA=value

BETA 分布オプションで要求した P-P プロットの形状パラメータ ( > 0) を指定します。例は、前の BETAオプションの項目を参照してください。

C=value

WEIBULL オプションで要求した P-P プロットの形状パラメータ c (c>0) を指定します。例は、WEIBULLオプションの項目を参照してください。

EXPONENTIAL<(exponential-options)>

EXP<(exponential-options)>

指数 P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論指数 CDF値になります。

ここで、

=しきい値パラメータ =尺度パラメータ ( >0)

次の例に示すように、 および を指定するには、SIGMA= および THETA= exponential-optionsを使用します。

proc univariate data=measures; ppplot width / exponential(theta=1 sigma=2);

run;

これらのパラメータ値を省略した場合、デフォルトで =0 となり、 に関しては最尤推定値が計算されます。

重要 : 使用するデータは、下限しきい値 以上でなければなりません。デフォルトの =0 が使用するデータの下限値として適切でない場合、THETA= オプションで を指定します。

データ分布がパラメータ および を持つ指数分布である場合、SIGMA= および THETA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。 対角線と点のパターンが一致することにより、指定した指数分布が適合していることが証明されます。SCALE=オプションを SIGMA=オプションの別名として、THRESHOLD=オプションを THETA=オプションの別名として指定できます。

θ σ α β

θ θ σθ σ

α β σ θ α β σθ

β β

θ

σ σ

σ θ

θ σ

θ θθ

σ θ σ θ

Page 344: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

340 第 4章 : UNIVARIATEプロシジャ

GAMMA<(gamma-options)>

ガンマ P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論Gumbel CDF値になります。

ここで、 は正規化された不完全なガンマ関数であり、各値は次のとおりです。

=しきい値パラメータ

=尺度パラメータ ( >0)

=形状パラメータ ( >0)

次の例に示すように、 、 、および を指定するには、ALPHA= 、SIGMA= 、および THETA=gamma-optionsを使用します。

proc univariate data=measures; ppplot width / gamma(alpha=1 sigma=2 theta=3);

run;

これらのパラメータ値を省略した場合、デフォルトで となり、 および に関しては最尤推定値が計算されます。

重要 : 使用するデータは、下限しきい値 以上でなければなりません。デフォルトの =0 が使用するデータの下限値として適切でない場合、THETA= オプションで を指定します。

データ分布がパラメータ 、 、を持つガンマ分布である場合、ALPHA= 、SIGMA= 、THETA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定したガンマ分布が適合していることが証明されます。SHAPE=オプションをALPHA=オプションの別名として、SCALE=オプションを SIGMA= オプションの別名として、THRESHOLD= オプションを THETA= オプションの別名として指定できます。

GUMBEL<(Gumbel-options)>

Gumbel P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論Gumbel CDF値になります。

ここで、

= 位置パラメータ

= 尺度パラメータ ( >0)

次の例に示すように、 および を指定するには、MU= および SIGMA= Gumbel-optionsを使用します。

θ

σ σ

α α

α σ θ

α σ θ

θ θθ

α σ θ α σ θ

μ

σ σ

μ σ

Page 345: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 341

proc univariate data=measures;ppplot width / gumbel(mu=1 sigma=2);

run;

これらのパラメータ値を省略した場合、デフォルトで、 および の最尤推定値が計算されます。

データ分布がパラメータ および を持つ Gumbel分布である場合、MU= および SIGMA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定した Gumbel 分布が適合していることが証明されます。

IGAUSS<(iGauss-options)>

逆ガウス P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論逆ガウス CDF値になります。

ここで、 (.)は標準正規分布関数であり、各パラメータ値は次のとおりです。

=平均パラメータ ( >0)

=形状パラメータ ( >0)

次の例に示すように、 および を指定するには、LAMBDA= およびMU= IGauss-optionsを使用します。proc univariate data=measures;

ppplot width / igauss(lambda=1 mu=2);run;

これらのパラメータ値を省略した場合、デフォルトで、 および の最尤推定値が計算されます。

データ分布がパラメータ および を持つ逆ガウス分布である場合、LAMBDA= およびMU= に対応するプロット上の点は、デフォルトで表示される対角線 y=x上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定した逆ガウス分布が適合していることが証明されます。

LAMBDA=value

IGAUSSオプションで要求した当てはめ曲線の形状パラメータ を指定します。LAMBDA=オプションは、分布を表すキーワード IGAUSSの後にかっこで囲んで指定します。 の値を指定しない場合、最尤推定値がプロシジャによって計算されます。

LOGNORMAL<(lognormal-options)>

μ σ

μ σ μ σ

Φ

μ μ

λ λ

λ μ

λ μ

λ μ λ μ

λλ

Page 346: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

342 第 4章 : UNIVARIATEプロシジャ

LNORM<(lognormal-options)>

対数正規 P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論対数正規 CDF値になります。

ここで、 (.)は累積標準正規分布関数であり、各パラメータは次のとおりです。

= しきい値パラメータ

= 尺度パラメータ

= 形状パラメータ ( > 0)

次の例に示すように、、 、および を指定するには、THETA= 、ZETA= 、および SIGMA=lognormal-optionsを使用します。

proc univariate data=measures; ppplot width / lognormal(theta=1 zeta=2);

run;

これらのパラメータ値を省略した場合、デフォルトで =0となり、 および に関しては最尤推定値が計算されます。

重要 : 使用するデータは、下限しきい値 よりも大きくなければなりません。デフォルトの =0が使用するデータの下限値として適切でない場合、THETA= オプションで を指定します。

データ分布がパラメータ 、、 を持つ対数正規分布である場合、SIGMA= 、THETA= 、ZETA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定した対数正規分布が適合していることが証明されます。SHAPE=オプションを SIGMA=オプションの別名として、SCALE=オプションを ZETA=オプションの別名として、THRESHOLD=オプションを THETA=オプションの別名として指定できます。

MU=value

対角方向の参照線を抑制します。 NORMAL<(normal-options )>

Φ

θ

ζ

σ σ

θ ζ σ

θ σ ζ

θ θθ

σ θ ζ σ θζ

Page 347: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 343

NORM<(normal-options )>

正規 P-P プロットを作成します。デフォルトでは、分布オプションを指定しなかった場合、正規 P-Pプロットが表示されます。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論正規 CDF値になります。

ここで、 (.)は累積標準正規分布関数であり、各パラメータは次のとおりです。

= 位置パラメータまたは平均値

= 尺度パラメータまたは標準偏差 ( > 0)

次の例に示すように、 および を指定するには、MU= および SIGMA= normal-optionsを使用します。proc univariate data=measures;

ppplot width / normal(mu=1 sigma=2); run;

デフォルトでは、 および の標本平均および標本標準偏差が計算されます。

データ分布がパラメータ および を持つ正規分布である場合、MU= および SIGMA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定した正規分布が適合していることが証明されます。例 l4.36を参照してください。

PARETO<(Pareto-options)>

一般化パレート P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点のy座標は、経験CDF値i/nになります。x座標は、次の理論一般化パレートCDF値になります。

ここで、 =しきい値パラメータ =尺度パラメータ ( >0) =形状パラメータ

一般パレート分布のパラメータ は、最小データ値未満である必要があります。は、THETA=Pareto-optionで指定できます。のデフォルト値は 0です。また、一般パレート分布は、形状パラメータ および尺度パラメータ を持ちます。これらのパラメータには、ALPHA= および SIGMA=Pareto-optionsを指定できます。デフォルトでは、 および の最尤推定値が計算されます。

データ分布がパラメータ 、 、 を持つ一般化パレート分布である場合、THETA= 、SIGMA= 、ALPHA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定した一般化パレート分布が適合していることが証明されます。

Φ

μ

σ σ

μ σ

μ σ

μ σ μ σ

θσ σα

θ θθ

α σα σ

θ σ α θ σα

Page 348: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

344 第 4章 : UNIVARIATEプロシジャ

POWER<(Power-options)>

べき関数 P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論べき関数 CDF値になります。

ここで、=下限しきい値パラメータ (下限端点 )=尺度パラメータ ( > 0) =形状パラメータ ( > 0)

べき関数分布の下限はパラメータ で、上限は値 + です。および を指定するには、THETA=および SIGMA=power-optionsを使用します。のデフォルト値は 0、 のデフォルト値は 1です。

形状パラメータ の値を指定するには、ALPHA= power-optionを使用します。 の値を指定しない場合、最尤推定値がプロシジャによって計算されます。

べき関数分布は、2番目の形状パラメータ = 1を持つ、ベータ分布の特殊なケースです。

データ分布がパラメータ 、 、 を持つべき関数分布である場合、THETA= 、SIGMA= 、ALPHA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定したべき関数分布が適合していることが証明されます。

RAYLEIGH<(Rayleigh-options)>

レイリーP-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論レイリーCDF値になります。

ここで、=しきい値パラメータ =尺度パラメータ ( >0)

レイリー分布のパラメータ は、最小データ値未満である必要があります。は、THETA= Rayleigh-optionで指定できます。のデフォルト値は 0です。 は、SIGMA=Rayleigh-optionで指定できます。デフォルトでは、 の最尤推定値が計算されます。

データ分布がパラメータ および を持つレイリー分布である場合、THETA= および SIGMA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定したレイリー分布が適合していることが証明されます。

SIGMA=value

パラメータ ( >0)を指定します。BETA 、EXPONENTIAL 、GAMMA 、GUMBEL , NORMAL 、PARETO 、POWER 、RAYLEIGH 、WEIBULL の各オプションとともに使用する場合、SIGMA=オプションは尺度パラメータを指定します。LOGNORMAL オプションとともに使用する場合、SIGMA=オプションは形状パラメータを指定します。例 l4.36を参照してください。

θσ σα α

θ θ σ θ σθ σ

α α

β

θ σ α θ σα

θσ σ

θ θθ σ

σ

θ σ θ σ

σ σ

Page 349: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 345

SQUARE

正方形の枠内にP-Pプロットを表示します。デフォルトは長方形の枠です。例l4.36を参照してください。THETA=value

THRESHOLD=value

BETA 、EXPONENTIAL 、GAMMA 、LOGNORMAL 、PARETO 、POWER 、RAYLEIGH 、WEIBULL の各オプションで要求したプロットの下限しきい値パラメータ を指定します。

WEIBULL<(Weibull-options)>

WEIB<(Weibull-options)>

Weibull P-Pプロットを作成します。プロットを作成する場合、n個の非欠損オブザベーションが昇順に並べられます。

i番目の点の y座標は、経験 CDF値 i/nになります。x座標は、次の理論Weibull CDF値になります。

ここで、

= しきい値パラメータ

= 尺度パラメータ ( >0)

c = 形状パラメータ (c >0)

次の例に示すように、c、 、および を指定するには、C= 、SIGMA= および THETA= Weibull-optionsを使用します。

proc univariate data=measures; ppplot width / weibull(theta=1 sigma=2);

run;

これらのパラメータ値を省略した場合、デフォルトでは =0 となり、 および c に関しては最尤推定値が計算されます。

重要 : 使用するデータは、下限しきい値 以上でなければなりません。デフォルトの =0 が使用するデータの下限値として適切でない場合、THETA= オプションで を指定します。

データ分布がパラメータ c、 、および を持つ Weibull 分布である場合、C=c、SIGMA= 、およびTHETA= に対応するプロット上の点は、デフォルトで表示される対角線 y=x 上かまたはその対角線の近くにプロットされやすくなります。対角線と点のパターンが一致することにより、指定したWeibull 分布が適合していることが証明されます。SHAPE= オプションを C= オプションの別名として、SCALE=オプションをSIGMA=オプションの別名として、THRESHOLD=オプションをTHETA=オプションの別名として指定できます。

ZETA=value

LOGNORMALオプションで要求した対数正規 P-Pプロットの尺度パラメータ の値を指定します。

PROBPLOTステートメントPROBPLOT <variables> </options>;

PROBPLOTステートメントは確率プロットを作成します。この確率プロットは、並べ替えられた変数値を、指定した理論分布から計算されるパーセント点と比較します。データ分布が理論分布に一致する場合、

θ

θ

σ σ

σ θ

θ σ

θ θθ

σ θ σθ

ζ

Page 350: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

346 第 4章 : UNIVARIATEプロシジャ

プロットの点は線形パターンを形成します。したがって、確率プロットを使うと、理論分布に測定値の組み合わせのモデルがどの程度当てはまっているかを判定することができます。

確率プロットは、QQPLOTステートメントで作成できるQ-Qプロットに似ています。Q-Qプロットが分布パラメータを視覚的に推定することに適しているのに対し、確率プロットはパーセント点を視覚的に推定することに適しています。

PROBPLOTステートメントは、UNIVARIATEプロシジャ内でいくつでも使用できます。PROBPLOTステートメントの構成要素は次のとおりです。variables

確率プロットを作成する変数です。VAR ステートメントを指定する場合、variables をその VAR ステートメント内にリストする必要があります。含めない場合、variablesは、入力データセット内にある任意の数値変数になります。variablesのリストを指定しなかった場合、デフォルトでは VARステートメント内でリストされた各変数の確率プロットが作成され、VAR ステートメントを指定していない場合は、DATA= データセット内の各数値変数の確率プロットが作成されます。たとえば、次の各PROBPLOTステートメントは、LengthとWidthに対する 2つの確率プロットを作成します。

proc univariate data=Measures; var Length Width;probplot;

proc univariate data=Measures;probplot Length Width; run;

options

プロットの理論的分布を指定するか、またはプロットに特徴を追加します。1つ以上の変数を指定した場合、各変数に対して options が等しく適用されます。PROBPLOT ステートメントの options は、すべてスラッシュ (/)の後に指定します。分布の名前を指定する optionは、各 PROBPLOTステートメントで 1つのみ指定できます。その他の optionsは任意の数だけ指定できます。利用できる分布は、ベータ、指数、ガンマ、一般化パレート、Gumbel、対数正規、正規、レイリー、2パラメータWeibull、3パラメータWeibullです。デフォルトでは、このプロシジャは正規分散のプロットを作成します。

次の例で、NORMAL オプションは各変数の正規確率プロットを要求し、MU= および SIGMA=normal-options は =10 および =0.3 の正規分布に対応する分布参照線を要求します。SQUAREオプションは、正方形の枠内に確率プロットを表示します。CTEXT= オプションはテキストの色を指定します。

proc univariate data=Measures;probplot Length1 Length2 / normal(mu=10 sigma=0.3)

square ctext=blue; run;

表4.18から表4.20は、関数別のPROBPLOT optionsの一覧です。詳細は、「オプションのリファレンス」(325ページ)および「共通オプションのリファレンス」(369ページ)の各セクションを参照してください。Optionsには次のいずれかを指定します。

• 1次オプション • 2次オプション • 一般オプション

分布オプション

表4.18は理論分布を要求するためのoptionsの一覧です。

μ σ

Page 351: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 347

表4.19に、分布のパラメータの指定と分布参照線の表示の制御を行う、2次オプションの一覧を示します。これらのオプションは、分布キーワードの後にかっこで囲んで指定します。たとえば、分布参照線付きの正規確率を要求する場合、次のようなNORMALオプションを指定します。

proc univariate; probplot Length / normal(mu=10 sigma=0.3 color=red);

run;

MU= / SIGMA= normal-optionsでは平均が = 10で標準偏差が = 0.3の正規分布に対応する分布参照線を表示し、COLOR= normal-optionでは線の色を指定します。

表 4.18 理論分布の 1次オプション

オプション 説明

BETA(beta-options) 必須のALPHA= / BETA= beta-optionsで指定した形状パラメータ および のベータ確率プロットを指定

EXPONENTIAL(exponential-options)

指数確率プロットを指定

GAMMA(gamma-options) 必須のALPHA= gamma-optionで指定した形状パラメータ のガンマ確率プロットを指定

GUMBEL(Gumbel-options) Gumbel確率プロットを指定

LOGNORMAL(lognormal-options)

必須のSIGMA= lognormal-optionで指定した形状パラメータ の対数正規確率プロットを指定

NORMAL(normal-options) 正規確率プロットを指定

PARETO(Pareto-options) 必須のALPHA= Pareto-optionで指定した形状パラメータ の一般化パレート確率プロットを指定

POWER(power-options) 必須のALPHA= power-optionで指定した形状パラメータのべき関数確率プロットを指定

RAYLEIGH(Rayleigh-options) レイリー確率プロットを指定

WEIBULL(Weibull-options) 必須のC= Weibull-optionで指定した形状パラメータcの3パラメータWeibull確率プロットを指定

WEIBULL2(Weibull2-options) 2パラメータWeibull確率プロットを指定

表 4.19 分布に関する 2次オプション

オプション 説明

すべての分布で使用されるオプション

COLOR= (分布の)参照線の色を指定

L= (分布の)参照線の種類を指定

W= (分布の)参照線の幅を指定

beta-options

ALPHA= 必須の形状パラメータを指定

BETA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

α β

α

σ

α

α

μ0 σ0

α

β

σ0

Page 352: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

348 第 4章 : UNIVARIATEプロシジャ

THETA= 分布参照線の を指定

exponential-options

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

gamma-options

ALPHA= 必須の形状パラメータを指定

ALPHADELTA= 連続推定値 の変化を指定(その値で のNewton-Raphson近似が終了)

ALPHAINITIAL= の初期値(Newton-Raphson近似が の場合)を指定

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Gumbel-options

MU= 分布参照線の を指定

SIGMA= 分布参照線の を指定

lognormal-options

SIGMA= 必須の形状パラメータを指定

SLOPE= 分布参照線の傾きを指定

THETA= 分布参照線の を指定

ZETA= 分布参照線の を指定(参照線の傾きは ( ))

normal-options

MU= 分布参照線の を指定

SIGMA= 分布参照線の を指定

Pareto-options

ALPHA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

power-options

ALPHA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Rayleigh-options

表 4.19 分布に関する 2次オプション(続き)

オプション 説明θ0

σ0

θ0

α

α α

α α

α

σ0

θ0

μ0

σ0

σ

θ0

ζ0 ζ0

μ0

σ0

α

σ0

θ0

α

σ0

θ0

Page 353: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 349

一般グラフオプション

表4.20は確率プロットを拡張するための一般オプションの要約です。

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Weibull-options

C= 必須形状パラメータcを指定

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 分布参照線の を指定(参照線の切片は ( ))

SLOPE= 分布参照線の傾きを指定

THETA= 既知の下限しきい値を指定

表 4.19 分布に関する 2次オプション(続き)

オプション 説明

σ0

θ0

c

σ0 σ0

θ0

表 4.20 一般グラフオプション

オプション 説明

一般グラフオプション

GRID グリッドを作成

HREF= 水平軸に垂直な参照線を指定

HREFLABELS= HREF=で指定した参照線のラベルを指定

HREFLABPOS= HREF=で指定した参照線のラベルの位置を指定

NOHLABEL 水平軸のラベルを抑制

NOVLABEL 垂直軸のラベルを抑制

NOVTICK 垂直軸の目盛りおよび目盛りラベルを抑制

PCTLORDER= パーセント点軸の目盛りラベルを指定

ROTATE 水平軸と垂直軸を切り替え

SQUARE プロットを正方形の枠の中に表示

VREF= 垂直軸に垂直な参照線を指定

VREFLABELS= VREF=で指定した参照線のラベルを指定

VREFLABPOS= VREF=で指定した参照線のラベルの水平位置を指定

VAXISLABEL= 垂直軸にラベルを指定

従来的なグラフ出力のオプション

ANNOTATE= ANNOTATEのデータセットを指定

CAXIS= 軸の色を指定

Page 354: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

350 第 4章 : UNIVARIATEプロシジャ

CFRAME= 枠の色を指定

CGRID= グリッド線の色を指定

CHREF= HREF=で指定した参照線の色を指定

CSTATREF= STATREF=で指定した参照線の色を指定

CTEXT= テキストの色を指定

CVREF= VREF=で指定した参照線の色を指定

DESCRIPTION= グラフカタログ内のプロットに対する説明を指定

FONT= テキストのソフトウェアフォントを指定

HAXIS= 水平軸のAXISステートメントを指定

HEIGHT= 枠外の領域で使用されるテキストの高さを指定

HMINOR= 水平軸の小目盛りの数を指定

INFONT= 枠領域内のテキストに対してソフトウェアフォントを指定

INHEIGHT= 枠領域内のテキストの高さを指定

LGRID= グリッド線の種類を指定

LHREF= HREF=で指定した参照線の線の種類を指定

LSTATREF= STATREF=で指定した参照線の線の種類を指定

LVREF= VREF=で指定した参照線の線の種類を指定

NAME= グラフカタログ内のプロットに対して名前を指定

NOFRAME プロット領域の周囲の枠の表示を抑制

PCTLMINOR パーセント点を表す軸の小目盛りを要求

WAXIS= 軸と枠の線の太さを指定

WGRID= グリッド線の太さを指定

TURNVLABELS 垂直軸のラベルの文字列を縦書きに

VAXIS= 垂直軸のAXISステートメントを指定

VMINOR= 垂直軸の小目盛りの数を指定

ODS Graphics出力のオプション

ODSFOOTNOTE= プロットに表示するフットノートを指定

ODSFOOTNOTE2= プロットに表示するセカンダリフットノートを指定

ODSTITLE= プロットに表示するタイトルを指定

ODSTITLE2= プロットに表示するセカンダリタイトルを指定

OVERLAY 異なるクラス水準のプロットを重ね合わせる(ODS Graphicsのみ)

比較プロットのオプション

表 4.20 一般グラフオプション(続き)

オプション 説明

Page 355: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 351

オプションのリファレンス

PROBPLOTステートメントのoptionsの詳細は次のとおりです。†マークが付けられたオプションは、従来的なグラフを作成する場合にのみ適用できます。すべてのプロットステートメントに共通するオプションの詳細は、「共通オプションのリファレンス」(369ページ)のセクションを参照してください。ALPHA=value-list | EST

BETA、GAMMA、PARETO、POWER オプションで要求した確率プロットの必須の形状パラメータ を指定します。ALPHA=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。ALPHA=ESTを指定すると、 の最尤推定値が計算されます。

BETA(ALPHA=value | EST BETA=value | EST <beta-options>)

必須のALPHA= / BETA= beta-optionsで指定した必須の形状パラメータ および の各組み合わせのベータ確率プロットを作成します。ALPHA=ESTおよび BETA=ESTを指定すると、 および の最尤推定値に基づくプロットが作成されます。SCALE= beta-optionを SIGMA= beta-optionの別名として、THRESHOLD= beta-option を THETA= beta-option の別名として使用できます。 およびの最尤推定値に基づくプロットを作成するには、ALPHA=ESTおよび BETA=ESTを指定します。

および をグラフから推定するには、ALPHA= / BETA= beta-options に値のリストを指定し、点のパターンが最も線形に近くなる および の組み合わせを選択します。点のパターンを評価するには、下限しきい値パラメータ および尺度パラメータ に対応する対角方向の分布参照線を、THETA=および SIGMA= beta-optionsで追加します。または、 および の推定値に対応する参照線を、THETA=EST / SIGMA=EST beta-options で追加します。参照線と点のパターンが一致すれば、パラメータ 、 、 、 によるベータ分布が適合しています。

BETA=value-list | EST

ANNOKEY ANNOTATE=データセットで要求された注釈をキーセルに対してのみ適用

CFRAMESIDE= 行ラベルの枠を塗りつぶす色を指定

CFRAMETOP= 列ラベルの枠を塗りつぶす色を指定

CPROP= 度数のバーの割合の色を指定

CTEXTSIDE= 行ラベルの色を指定

CTEXTTOP= 列ラベルの色を指定

INTERTILE= タイルの間隔を指定

NCOLS= 比較確率プロットの列数を指定

NROWS= 比較確率プロットの行数を指定

その他のオプション

CONTENTS= 確率プロットグループの目次エントリを指定

NADJ= パーセント点の計算時に標本サイズを調整

RANKADJ= パーセント点の計算時に順位を調整

表 4.20 一般グラフオプション(続き)

オプション 説明

αα

α βα β

αβ

α βα β

θ0 σ0θ0 σ0

α β θ0 σ0

Page 356: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

352 第 4章 : UNIVARIATEプロシジャ

B=value-list | EST

BETAオプションで要求した確率プロットの必須の形状パラメータ を指定します。BETA=オプションは、BETA オプションの後にかっこで囲んで指定します。BETA=EST を指定すると、 の最尤推定値が計算されます。

C=value-list | EST

WEIBULLおよびWEIBULL2オプションで要求した確率プロットの形状パラメータ cを指定します。このオプションは、WEIBULLまたはWEIBULL2オプションの後にかっこで囲んで指定します。C=は、WEIBULLオプションの必須Weibull-optionであり、右辺には値のリストを指定可能ですが、または C=ESTを指定すると cの最尤推定値が計算されます。オプションで、C=valueまたは C=ESTをWEIBULLオプションのWeibull2-optionとして指定することで、参照線を要求できます。この場合、Weibull2-optionの SIGMA=valueまたは SIGMA=ESTも指定する必要があります。

† CGRID=color

プロットにグリッドを表示する場合のグリッドの色を指定します。このオプションはグリッドも作成します。

EXPONENTIAL<(exponential-options)>

EXP<(exponential-options)>

指数確率プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および SIGMA= exponential-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=ESTexponential-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。SCALE= exponential-optionを SIGMA= exponential-optionの別名として、THRESHOLD= exponential-optionを THETA= exponential-optionの別名として指定できます。

GAMMA(ALPHA=value | EST <gamma-options>)

必須の ALPHA= gamma-option で指定した形状パラメータ の各値に対応するガンマ確率プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= gamma-option に値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= および SIGMA= gamma-options で追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=ESTgamma-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および によるガンマ分布が適合しています。SCALE= gamma-option を SIGMA= gamma-option の別名として、THRESHOLD= gamma-optionを THETA= gamma-optionの別名として指定できます。

GRID

グリッドを表示します。グリッド線は、パーセント点の主目盛りの位置に軸に対して垂直に描かれる参照線です。

GUMBEL<(Gumbel-options)>

Gumbel 確率プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、MU= / SIGMA= Gumbel-options で追加します。または、位置パラメータ および尺度パラメータ の推定値に対応する参照線を、MU=EST / SIGMA=EST Gumbel-options で追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。

ββ

θ0 σ0

θ0 σ0θ0 σ0

αα

αθ0 σ0

θ0 σ0α θ0 σ0

μ0 σ0μ0

σ0μ0 σ0

Page 357: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 353

† LGRID=linetype

GRID=オプションで要求したグリッド線の種類を指定します。デフォルトでは LGRID=1であり、実線が作成されます。

LOGNORMAL(SIGMA=value | EST <lognormal-options>)

LNORM(SIGMA=value | EST <lognormal-options>)

必須の SIGMA= lognormal-option で指定した形状パラメータ の各値に対応する対数正規確率プロットを作成します。SIGMA=EST を指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、SIGMA= lognormal-option に値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および ZETA= lognormal-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / ZETA=ESTlognormal-options で追加します。参照線と点のパターンが一致すれば、パラメータ 、 、およびによる対数正規分布が適合しています。THRESHOLD= lognormal-option を THETA=

lognormal-optionの別名として、SCALE= lognormal-option を ZETA= lognormal-optionの別名として指定できます。例 4.26を参照してください。

MU=value | EST

GUMBELおよびNORMALオプションで要求した確率プロットの平均 を指定します。MU=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。MU=ESTを指定すると、正規分布の標本平均に等しい を持つ分布参照線を要求できます。Gumbel分布でMU=ESTを指定すると、最尤推定値が計算されます。

NADJ=value

理論パーセント点を計算する時に用いる標本サイズに追加する調整値を指定します。デフォルトでは、NADJ=1/4です。詳細は、Chambers et al.(1983)を参照してください。

NORMAL<(normal-options)>

正規確率プロットを作成します。分布に関するオプションを省略している場合はこれがデフォルトになります。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、MU= /SIGMA= normal-optionsで追加します。または、 および の推定値に対応する参照線を、MU=EST/ SIGMA=EST normal-optionsで追加します。平均 および標準偏差 の推定値は、それぞれ標本平均および標本標準偏差になります。参照線と点のパターンが一致すれば、パラメータ および による正規分布が適合しています。

PARETO(ALPHA=value | EST <Pareto-options>)

必須のALPHA= Pareto-optionで指定した形状パラメータ の各値に対応する一般化パレート確率プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= Pareto-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= Pareto-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST Pareto-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および による一般化パレート分布が適合しています。

† PCTLMINOR

パーセント点の軸の小目盛りを要求します。HMINORオプションを指定した場合、PCTLMINORオプションで要求した小目盛りは無効になります。

σσ

σθ0 ζ0

θ0 ζ0σ θ0

ζ0

μ0

μ0

μ0 σ0μ0 σ0

μ0 σ0μ0 σ0

αα

αθ0 σ0

θ0 σ0α θ0 σ0

Page 358: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

354 第 4章 : UNIVARIATEプロシジャ

PCTLORDER=values

理論パーセント点の軸に付ける目盛りを指定します。値はパーセント点であるため、ラベルは必ず 0から 100までの範囲である必要があります。値は昇順でリストし、プロットされるパーセント点の範囲をカバーする必要があります。指定しなかった場合、デフォルト値の 1、5、10、25、50、75、90、95、99が使用されます。

POWER(ALPHA=value | EST <power-options>)

必須のALPHA= power-optionで指定した形状パラメータ の各値に対応するべき関数確率プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= power-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= power-optionsで追加します。または、しきい値パラメータおよび尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST

power-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および によるべき関数分布が適合しています。

RANKADJ=value

理論パーセント点を計算する時に用いる順位に追加する調整値を指定します。デフォルトではRANKADJ= -3/8 であり、これは Blom (1958) により推奨されています。詳細は、Chambers etal.(1983)を参照してください。

RAYLEIGH<(Rayleigh-options)>

レイリー確率プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= Rayleigh-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=ESTRayleigh-options で追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。

ROTATE

水平軸と垂直軸を入れ替え、理論パーセント点が垂直方向に、データが水平方向にプロットされるようにします。プロットが回転されているかどうかにかかわらず、水平軸オプション (HAXIS=など )は水平軸を、垂直軸オプション (VAXIS=など )は垂直軸を参照し続けます。軸の配置に依存するその他のオプションはすべて、回転された軸に対して調整を行います。

SIGMA=value-list | EST

パラメータ ( >0) を指定します。SIGMA=EST を指定すると、 の最尤推定値が計算されます。SIGMA=オプションの解釈と使用方法は、併用する分布オプションによって異なります。SIGMA=オプションの使用方法の概要は、表 4.21 を参照してください。このオプションは、分布オプションの後にかっこで囲んで指定する必要があります。

表 4.21 SIGMA=オプションの使用方法

分布オプション SIGMA=オプションの使用方法

BETA EXPONENTIAL GAMMA PARETO POWER RAYLEIGH WEIBULL

THETA= およびSIGMA= は、 および に対応する分布参照線を要求します。

GUMBEL MU= およびSIGMA= は、 および に対応する分布参照線を要求します。

αα

αθ0 σ0

θ0 σ0α θ0 σ0

θ0 σ0

θ0 σ0θ0 σ0

σ0 σ0 σ0

θ0 σ0 θ0 σ0

μ0 σ0 μ0 σ0

Page 359: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 355

SLOPE=value | EST

LOGNORMALおよびWEIBULL2オプションで要求される参照線の傾きを指定します。SLOPE=オプションは、分布オプションの後にかっこで囲んで指定します。LOGNORMALオプションと共に SLOPE= lognormal-optionを使用する場合、しきい値パラメータ値 を THETA= lognormal-optionで指定して参照線を要求する必要があります。SLOPE= lognormal-optionをZETA= lognormal-optionの代わりに使用することで、 を指定できます。これは、傾きが exp ( )に等しいためです。

WEIBULL2 オプションと共に SLOPE= Weibull2-option を使用する場合、尺度パラメータ値 をSIGMA= Weibull2-optionで指定して参照線を要求する必要があります。SLOPE= Weibull2-optionを C= Weibull2-optionの代わりに使用することで、c0を指定できます。これは、傾きが 1/c0に等しいためです。

次の例では、最初と 2 番目の PROBPLOT ステートメントが同じ確率プロットを作成し、3 番目と 4番目の PROBPLOTステートメントが同じ確率プロットを作成します。

proc univariate data=Measures; probplot Width / lognormal(sigma=2 theta=0 zeta=0);probplot Width / lognormal(sigma=2 theta=0 slope=1);probplot Width / weibull2(sigma=2 theta=0 c=.25); probplot Width / weibull2(sigma=2 theta=0 slope=4);

run;

SQUARE

正方形の枠内に確率プロットを表示します。デフォルトでは、プロットの枠は長方形です。 THETA=value | EST

THRESHOLD=value | EST

BETA、EXPONENTIAL、GAMMA、LOGNORMAL、PARETO、POWER、RAYLEIGH、LOGNORMAL、WEIBULL、WEIBULL2 の各オプションで要求したプロットの下限しきい値パラメータ を指定します。THETA= オプションは、分布オプションの後にかっこで囲んで指定します。WEIBULL2オプションと共に使用する場合、THETA=オプションは既知の下限しきい値 (デフォルト値はゼロ ) を指定します。それ以外の分布オプションで使用する場合、THETA= オプションは参照線の を指定します。または、THETA=ESTを指定して、 の最尤推定値を要求することもできます。参照線を要求する場合、尺度パラメータを指定する必要があります。

WEIBULL(C=value | EST <Weibull-options>)

WEIB(C=value | EST <Weibull-options>)

必須の C= Weibull-optionで指定した必須の形状パラメータ cの各値に関する 3パラメータWeibull確率プロットを作成します。cの最尤推定値に基づくプロットを作成するには、C=ESTを指

LOGNORMAL SIGMA= ...... は、形状パラメータ ...... を持つn個の確率プロットを要求します。SIGMA=オプションを指定する必要があります。

NORMAL MU= およびSIGMA= は、 および に対応する分布参照線を要求します。SIGMA=ESTは、標本標準偏差に等しい を持つ参照線を要求します。

WEIBULL2 SIGMA= およびC=c0は、 およびc0に対応する分布参照線を要求します。

表 4.21 SIGMA=オプションの使用方法(続き)

分布オプション SIGMA=オプションの使用方法

σ1 σn σ1 σn

μ0 σ0 μ0 σ0σ0

σ0 σ0

θ0

ζ0ζ0

σ0

θ0θ0

θ0 θ0

Page 360: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

356 第 4章 : UNIVARIATEプロシジャ

定します。グラフから cの値を推定する場合には、C= Weibull-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および SIGMA= Weibull-optionsで追加します。または、および の推定値に対応する参照線を、THETA=EST / SIGMA=EST Weibull-optionsで追加し

ます。参照線と点のパターンが一致すれば、パラメータ c、 、および によるWeibull分布が適合しています。SCALE= Weibull-optionを SIGMA= Weibull-optionの別名として、THRESHOLD= Weibull-optionを THETA= Weibull-optionの別名として指定できます。

WEIBULL2<(Weibull2-options)>

W2<(Weibull2-options)>

2パラメータのワイブル分布の確率プロットを作成します。使用するデータに既知の下限しきい値 が含まれる場合、WEIBULL2 オプションを指定します ( デフォルト値はゼロ )。しきい値 を指定するには、THETA= Weibull2-optionを使用します。デフォルトでは、THETA=0になります。2パラメータのWeibullプロットが、3パラメータのWeibullプロットよりも優れている点は、 パラメータ cおよび を、点のパターンの傾きと切片から推定できるという点です。一方、2パラメータ構成のQ-Qワイブル分布は、いき値パラメータがわかっている場合にのみ使用できない点が短所になります。グラフから の値を推定するには、THETA= Weibull2-option に値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および c0 に対応する対角方向の分布参照線を、SIGMA=/C= Weibull2-options で追加します。または、 および c0 の推定値に対応する分布参照線を、SIGMA=EST / C=ESTWeibull2-options で追加します。参照線と点のパターンが一致すれば、パラメータ c0、 、および よる Weibull 分布が適合しています。SCALE=Weibull2-option を SIGMA= Weibull2-option の別名として、SHAPE= Weibull2-option を C=Weibull2-optionの別名として指定できます。

† WGRID=n

従来的なグラフを作成する場合のグリッド線の太さを指定します。このオプションは、ODS Graphics出力には適用されません。

ZETA=value | EST

LOGNORMAL オプションで要求した対数正規確率プロットの尺度パラメータ の値を指定します。ZETA= lognormal-optionは、LOGNORMALオプションの後にかっこで囲んで指定します。切片が で傾きが exp ( )の参照線を作成するには、THETA= および ZETA= を指定します。

QQPLOTステートメントQQPLOT <variables> < / options>;

QQPLOTステートメントは、Q-Qプロットを作成し、並べ替えられた変数値を指定した理論分布の分位点と比較します。データ分布が理論分布に一致する場合、プロットの点は線形パターンを形成します。したがって、Q-Q プロットを使うと、理論分布に測定値の組み合わせのモデルがどの程度当てはまっているかを判定することができます。

Q-Qプロットは、PROBPLOTステートメントで作成できる確率プロットに似ています。確率プロットがパーセント点を視覚的に推定することに適しているのに対し、Q-Qプロットは分布パラメータを視覚的に推定することに適しています。

QQPLOTステートメントは、UNIVARIATEプロシジャ内でいくつでも使用できます。QQPLOTステートメントの構成要素は次のとおりです。

θ0 σ0

θ0 σ0θ0 σ0

θ0θ0

σ0

θ0σ0

σ0

θ0 σ0

ζ

θ0 ζ0 θ0 ζ0

Page 361: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 357

variables

Q-Q プロットを作成する変数です。VAR ステートメントを指定する場合、variables をその VAR ステートメント内に含める必要があります。含めない場合、variablesは、入力データセット内にある任意の数値変数になります。変数のリストを指定しなかった場合、デフォルトではプロシジャによって、VARステートメント内にリストされた各変数のQ-Qプロットが作成され、VARステートメントが指定されていない場合は、DATA=データセット内の各数値変数の Q-Q プロットが作成されます。たとえば、次の各QQPLOTステートメントは、LengthとWidthに対する2つのQ-Qプロットを作成します。

proc univariate data=Measures; var Length Width;qqplot;

proc univariate data=Measures; qqplot Length Width;

run;

options

プロットの理論的分布を指定するか、またはプロットに特徴を追加します。1つ以上の変数を指定した場合、各変数に対して options が等しく適用されます。QQPLOT ステートメントの options は、すべてスラッシュ (/)の後に指定します。分布の名前を指定する optionは、各 QQPLOTステートメントで 1つのみ指定できます。その他の optionsは任意の数だけ指定できます。利用できる分布は、ベータ、指数、ガンマ、対数正規、正規、2パラメータWeibull、3パラメータWeibullです。デフォルトでは、このプロシジャは正規分散のプロットを作成します。

次の例で、NORMAL オプションは各変数の Q-Q プロットを要求します。MU= / SIGMA=normal-options は、平均 =10 および標準偏差 =0.3 の正規分布に対応する、切片が 10 で傾きが0.3 の各プロットの分布参照線を要求します。SQUARE オプションは、正方形の枠内に確率プロットを表示します。CTEXT=オプションはテキストの色を指定します。

proc univariate data=measures; qqplot length1 length2 / normal(mu=10 sigma=0.3)

square ctext=blue; run;

表4.22から表4.24は、QQPLOT optionsの機能別一覧です。詳細は、「オプションのリファレンス」(325ページ)および「共通オプションのリファレンス」(369ページ)の各セクションを参照してください。

Optionsには次のいずれかを指定します。• 1次オプション • 2次オプション • 一般オプション

分布オプション

表4.22は理論分布を要求するための1次オプションの一覧です。これらの分布の詳細は、「確率プロットとQ-Qプロットの分布」(418ページ)のセクションを参照してください。

μ σ

表 4.22 PR理論分布の 1次オプション

オプション 説明

BETA(beta-options) 必須のALPHA= / BETA= beta-optionsで指定した形状パラメータ および のベータQ-Qプロットを指定

EXPONENTIAL(exponential-options) 指数Q-Qプロットを指定

α β

Page 362: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

358 第 4章 : UNIVARIATEプロシジャ

表4.23に、分布のパラメータの指定と分布参照線の表示の制御を行う、2次オプションの一覧を示します。これらのオプションは、分布キーワードの後にかっこで囲んで指定します。たとえば、分布参照線付きの正規Q-Qプロットを要求する場合、次のようなNORMALオプションを指定します。

proc univariate; qqplot Length / normal(mu=10 sigma=0.3 color=red);

run;

MU= / SIGMA= normal-optionsでは平均が = 10で標準偏差が = 0.3の正規分布に対応する分布参照線を表示し、COLOR= normal-optionでは線の色を指定します。

GAMMA(gamma-options) 必須のALPHA= gamma-optionで指定した形状パラメータ のガンマQ-Qプロットを指定

GUMBEL(Gumbel-options) Gumbel Q-Qプロットを指定

LOGNORMAL(lognormal-options) 必須のSIGMA= lognormal-optionで指定した形状パラメータ の対数正規Q-Qプロットを指定

NORMAL(normal-options) 必須のSIGMA= lognormal-optionで指定した形状パラメータ の対数正規Q-Qプロットを指定

NORMAL(normal-options) 正規Q-Qプロットを指定

PARETO(Pareto-options) 必須のALPHA= Pareto-optionで指定した形状パラメータ の一般化パレートQ-Qプロットを指定

POWER(power-options) 必須のALPHA= power-optionで指定した形状パラメータ のべき関数Q-Qプロットを指定

RAYLEIGH(Rayleigh-options) レイリーQ-Qプロットを指定

WEIBULL(Weibull-options) 必須のC= Weibull-optionで指定した形状パラメータcの3パラメータWeibull Q-Qプロットを指定

WEIBULL2(Weibull2-options) 2パラメータWeibull Q-Qプロットを指定

表 4.23 分布参照線の 2次オプション

オプション 説明

すべての分布で使用されるオプション

COLOR= (分布の)参照線の色を指定

L= (分布の)参照線の種類を指定

W= (分布の)参照線の幅を指定

beta-options

ALPHA= 必須の形状パラメータを指定

BETA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

exponential-options

表 4.22 PR理論分布の 1次オプション(続き)

オプション 説明

α

σ

σ

α

α

μ0 σ0

α

β

σ0

θ0

Page 363: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 359

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

gamma-options

ALPHA= 必須の形状パラメータを指定

ALPHADELTA= 連続推定値 の変化を指定(その値で のNewton-Raphson近似が終了)

ALPHAINITIAL= の初期値(Newton-Raphson近似が の場合)を指定

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Gumbel-options

MU= 分布参照線の を指定

SIGMA= 分布参照線の を指定

lognormal-options

SIGMA= 必須の形状パラメータを指定

SLOPE= 分布参照線の傾きを指定

THETA= 分布参照線の を指定

ZETA= 分布参照線の を指定(参照線の傾きはexp ( )

normal-options

MU= 分布参照線の を指定

SIGMA= 分布参照線の を指定

Pareto-options

ALPHA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

power-options

ALPHA= 必須の形状パラメータを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Rayleigh-options

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

表 4.23 分布参照線の 2次オプション(続き)

オプション 説明

σ0

θ0

α

α α

α α

α

σ0

θ0

μ0

σ0

σ

θ0

ζ0 ζ0

μ0

σ0

α

σ0

θ0

α

σ0

θ0

σ0

θ0

Page 364: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

360 第 4章 : UNIVARIATEプロシジャ

一般オプション

表4.24はQ-Qプロットを拡張するための一般オプションの要約です。

Weibull-options

C= 必須形状パラメータcを指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Weibull2-options

C= 分布参照線のc0を指定(参照線の傾きは1/c0)

SIGMA= 分布参照線の を指定(参照線の切片はlog ( ))

SLOPE= 分布参照線の傾きを指定

THETA= 既知の下限しきい値を指定

Weibull-options

C= 必須形状パラメータcを指定

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 分布参照線の を指定

THETA= 分布参照線の を指定

Weibull2-options

C= 分布参照線のc0を指定(参照線の傾きは1/c0)

ITPRINT 反復履歴とオプティマイザの詳細に関するテーブルを要求

MAXITER= Newton-Raphson近似がの場合の反復の最大数を指定

SIGMA= 分布参照線の を指定(参照線の切片はlog ( ))

SLOPE= 分布参照線の傾きを指定

THETA= 既知の下限しきい値を指定

表 4.23 分布参照線の 2次オプション(続き)

オプション 説明

σ0

θ0

σ0 σ0

θ0

c

σ0

θ0

c

σ0 σ0

θ0

表 4.24 一般グラフオプション

オプション 説明

一般グラフオプション

GRID グリッドを作成

HREF= 水平軸に垂直な参照線を指定

HREFLABELS= HREF=で指定した参照線のラベルを指定

HREFLABPOS= HREF=で指定した参照線のラベルの垂直位置を指定

Page 365: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 361

NOHLABEL 水平軸のラベルを抑制

NOVLABEL 垂直軸のラベルを抑制

NOVTICK 垂直軸の目盛りおよび目盛りラベルを抑制

PCTLAXIS 非線形のパーセント点軸を表示

PCTLSCALE 理論分位点をパーセント点に置き換え

ROTATE 水平軸と垂直軸を切り替え

SQUARE プロットを正方形の枠の中に表示

VAXISLABEL= 垂直軸にラベルを指定

VREF= 垂直軸に垂直な参照線を指定

VREFLABELS= VREF=で指定した参照線のラベルを指定

VREFLABPOS= VREF=で指定した参照線のラベルの水平位置を指定

従来的なグラフ出力のオプション

ANNOTATE= ANNOTATEのデータセットを指定

CAXIS= 軸の色を指定

CFRAME= 枠の色を指定

CGRID= グリッド線の色を指定

CHREF= HREF=で指定した参照線の色を指定

CSTATREF= STATREF=で指定した参照線の色を指定

CTEXT= テキストの色を指定

CVREF= VREF=で指定した参照線の色を指定

DESCRIPTION= グラフカタログ内のプロットに対する説明を指定

FONT= テキストのソフトウェアフォントを指定

HEIGHT= 枠外の領域で使用されるテキストの高さを指定

HMINOR= 水平軸の小目盛りの数を指定

INFONT= 枠領域内のテキストに対してソフトウェアフォントを指定

INHEIGHT= 枠領域内のテキストの高さを指定

LGRID= グリッド線の種類を指定

LHREF= HREF=で指定した参照線の線の種類を指定

LSTATREF= STATREF=で指定した参照線の線の種類を指定

LVREF= VREF=で指定した参照線の線の種類を指定

NAME= グラフカタログ内のプロットに対して名前を指定

NOFRAME プロット領域の周囲の枠の表示を抑制

表 4.24 一般グラフオプション(続き)

オプション 説明

Page 366: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

362 第 4章 : UNIVARIATEプロシジャ

オプションのリファレンス

QQPLOTステートメントのoptionsの詳細は次のとおりです。†マークが付けられたオプションは、従来的なグラフを作成する場合にのみ適用できます。すべてのプロットステートメントに共通するオプションの詳細は、「共通オプションのリファレンス」(369ページ)共のセクションを参照してください。ALPHA=value-list | EST

BETA、GAMMA、PARETO、POWERオプションで要求した分位点プロットの必須の形状パラメータ を指定します。ALPHA=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。ALPHA=ESTを指定すると、 の最尤推定値が計算されます。

PCTLMINOR パーセント点を表す軸の小目盛りを要求

VAXIS= 垂直軸のAXISステートメントを指定

VMINOR= 垂直軸の小目盛りの数を指定

WAXIS= 軸と枠の線の太さを指定

WGRID= グリッド線の太さを指定

ODS Graphics出力のオプション

ODSFOOTNOTE= プロットに表示するフットノートを指定

ODSFOOTNOTE2= プロットに表示するセカンダリフットノートを指定

ODSTITLE= プロットに表示するタイトルを指定

ODSTITLE2= プロットに表示するセカンダリタイトルを指定

比較プロットのオプション

ANNOKEY ANNOTATE=データセットで要求された注釈をキーセルに対してのみ適用

CFRAMESIDE= 行ラベルの枠を塗りつぶす色を指定

CFRAMETOP= 列ラベルの枠を塗りつぶす色を指定

CPROP= 度数のバーの割合の色を指定

INTERTILE= タイルの間隔を指定

NCOLS= 比較Q-Qプロットの列数を指定

NROWS= 比較Q-Qプロットの行数を指定

その他のオプション

CONTENTS= Q-Qプロットグループの目次エントリを指定

NADJ= パーセント点の計算時に標本サイズを調整

RANKADJ= パーセント点の計算時に順位を調整

RANKADJ= パーセント点の計算時に順位を調整

表 4.24 一般グラフオプション(続き)

オプション 説明

αα

Page 367: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 363

BETA(ALPHA=value | EST BETA=value | EST <beta-options>)

必須のALPHA= / BETA= beta-optionsで指定した必須の形状パラメータ および の各組み合わせのベータ分位点プロットを作成します。ALPHA=ESTおよび BETA=ESTを指定すると、 および の最尤推定値に基づくプロットが作成されます。SCALE= beta-optionを SIGMA= beta-optionの別名として、THRESHOLD= beta-optionを THETA= beta-optionの別名として使用できます。 およびの最尤推定値に基づくプロットを作成するには、ALPHA=ESTおよび BETA=ESTを指定します。詳

細は、「ベータ分布」(400ページ)のセクションを参照してください。

および をグラフから推定するには、ALPHA= / BETA= beta-options に値のリストを指定し、点のパターンが最も線形に近くなる および の組み合わせを選択します。点のパターンを評価するには、下限しきい値パラメータ および尺度パラメータ に対応する対角方向の分布参照線を、THETA=および SIGMA= beta-optionsで追加します。または、 および の推定値に対応する参照線を、THETA=EST / SIGMA=EST beta-options で追加します。参照線と点のパターンが一致すれば、パラメータ 、 、 、 によるベータ分布が適合しています。

BETA=value-list | EST

B=value | EST

BETA オプションで要求した分位点プロットの必須の形状パラメータ を指定します。BETA= オプションは、BETA オプションの後にかっこで囲んで指定します。BETA=EST を指定すると、 の最尤推定値が計算されます。

C=value-list | EST

WEIBULLおよびWEIBULL2オプションで要求した分位点プロットの形状パラメータ cを指定します。このオプションは、WEIBULLまたはWEIBULL2オプションの後にかっこで囲んで指定します。C=は、WEIBULLオプションの必須Weibull-optionであり、右辺には値のリストを指定可能ですが、または C=ESTを指定すると cの最尤推定値が計算されます。オプションで、C=valueまたは C=ESTをWEIBULLオプションのWeibull2-optionとして指定することで、参照線を要求できます。この場合、Weibull2-optionの SIGMA=valueまたは SIGMA=ESTも指定する必要があります。

† CGRID=color

プロットにグリッドを表示する場合のグリッドの色を指定します。このオプションはグリッドも作成します。

EXPONENTIAL<(exponential-options)>

EXP<(exponential-options)>

指数分位点プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および SIGMA= exponential-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=ESTexponential-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。SCALE= exponential-optionを SIGMA= exponential-optionの別名として、THRESHOLD= exponential-optionを THETA= exponential-optionの別名として指定できます。詳細は、「指数分布」(401ページ)のセクションを参照してください。

GAMMA(ALPHA=value | EST <gamma-options>)

必須のALPHA= gamma-optionで指定した形状パラメータ の各値に対応するガンマ分位点プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= gamma-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および SIGMA= gamma-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST gamma-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および

α βα β

αβ

α βα β

θ0 σ0θ0 σ0

α β θ0 σ0

ββ

θ0 σ0

θ0 σ0θ0 σ0

αα

αθ0 σ0

θ0 σ0α θ0

Page 368: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

364 第 4章 : UNIVARIATEプロシジャ

によるガンマ分布が適合しています。SCALE= gamma-optionを SIGMA= gamma-optionの別名として、THRESHOLD= gamma-optionを THETA= gamma-optionの別名として指定できます。詳細は、「ガンマ分布」(420ページ)のセクションを参照してください。

GRID

垂直軸の主目盛りの位置に水平なグリッド線を表示します。 GUMBEL<(Gumbel-options)>

Gumbel 分位点プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、MU= / SIGMA= Gumbel-optionsで追加します。または、位置パラメータ および尺度パラメータ の推定値に対応する参照線を、MU=EST / SIGMA=EST Gumbel-options で追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。詳細は、「Gumbel分布」(402ページ)Gumbel分布のセクションを参照してください。

† LGRID=linetype

GRID オプションで要求したグリッド線の種類を指定します。デフォルトでは LGRID=1 であり、実線が作成されます。LGRID=オプションはグリッドも作成します。

LOGNORMAL(SIGMA=value | EST <lognormal-options>)

LNORM(SIGMA=value | EST <lognormal-options>)

必須の SIGMA= lognormal-optionで指定した形状パラメータ の各値に対応する対数正規分位点プロットを作成します。SIGMA=EST を指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、SIGMA= lognormal-option に値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および ZETA= lognormal-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / ZETA=ESTlognormal-options で追加します。参照線と点のパターンが一致すれば、パラメータ 、 、およびによる対数正規分布が適合しています。THRESHOLD= lognormal-option を THETA=

lognormal-optionの別名として、SCALE= lognormal-option を ZETA= lognormal-optionの別名として指定できます。詳細は、「対数正規分布」(403 ページ)のセクションを参照してください。LOGNORMALオプションの使用例は、例 4.31から例 4.33を参照してください。

MU=value | EST

GUMBELおよびNORMALオプションで要求した分位点プロットの平均 を指定します。MU=オプションは、分布を表すキーワードの後にかっこで囲んで指定します。MU=ESTを指定すると、正規分布の標本平均に等しい を持つ分布参照線を要求できます。Gumbel分布でMU=ESTを指定すると、最尤推定値が計算されます。

NADJ=value

理論パーセント点を計算する時に用いる標本サイズに追加する調整値を指定します。デフォルトでは、NADJ=1/4}です。詳細は、Chambers et al.(1983)を参照してください。

NORMAL<(normal-options)>

正規分位点プロットを作成します。分布に関するオプションを省略している場合はこれがデフォルトになります。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、MU= /SIGMA= normal-optionsで追加します。または、 および の推定値に対応する参照線を、MU=EST/ SIGMA=EST normal-optionsで追加します。平均 および標準偏差 の推定値は、それぞれ標本平均および標本標準偏差になります。参照線と点のパターンが一致すれば、パラメータ および による正規分布が適合しています。詳細は、「正規分布」(404ページ)のセクションを参照してください。NORMALオプションの使用例は、例 4.28および例 4.30を参照してください。

σ0

μ0 σ0μ0

σ0μ0 σ0

σσ

σθ0 ζ0

θ0 ζ0σ θ0

ζ0

μ0

μ0

μ0 σ0μ0 σ0

μ0 σ0μ0 σ0

Page 369: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 365

PARETO(ALPHA=value | EST <Pareto-options>)

必須のALPHA= Pareto-optionで指定した形状パラメータ の各値に対応する一般化パレート分位点プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= Pareto-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= Pareto-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST Pareto-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および による一般化パレート分布が適合しています。詳細は、「一般化パレート分布」(404ページ)のセクションを参照してください。

PCTLAXIS<(axis-options)>

理論分位点軸の反対側の Q-Q プロットの枠に沿って、非線形のパーセント点軸を追加します。追加される軸は、PROBPLOTステートメントで作成される確率プロットの軸と同じです。PCTLAXISオプションを使用する場合、HREF=値を分位点単位で指定する必要があり、NOFRAMEオプションは使用できません。axis-optionsには次のオプションを指定できます。

† PCTLMINOR

PCTLAXIS を指定する場合のパーセント点軸の小目盛りを要求します。HMINOR オプションは、PCTLMINORオプションより優先されます。

PCTLSCALE

理論パーセント軸のスケールラベルをパーセントの単位で要求し、非線形の軸のスケールを取得します。軸の目盛りは、パーセントスケールに基づいて軸全体に均等に刻まれます。それ以外では、プロットに変更はありません。HREF=値はパーセント点の値で指定する必要があります。真に非線形の軸を得るには、PCTLAXISオプションまたは PROBPLOTステートメントを使用します。

POWER(ALPHA=value | EST <power-options>)

必須のALPHA= power-optionで指定した形状パラメータ の各値に対応するべき関数分位点プロットを作成します。ALPHA=ESTを指定すると、 の最尤推定値に基づくプロットが作成されます。グラフから の値を推定するには、ALPHA= power-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= power-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST power-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ 、 、および によるべき関数分布が適合しています。詳細は、「べき関数分布」(405ページ)のセクションを参照してください。

表 4.25 PCTLAXIS軸オプション

オプション 説明

CGRID= グリッド線の色を指定

GRID 主要パーセント点にグリッド線を描画

LABEL='string' パーセント点軸のラベルを指定

LGRID=linetype グリッド線の種類を指定

WGRID=n グリッド線の太さを指定

αα

αθ0 σ0

θ0 σ0α θ0 σ0

αα

αθ0 σ0

θ0 σ0α θ0 σ0

Page 370: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

366 第 4章 : UNIVARIATEプロシジャ

RAYLEIGH<(Rayleigh-options)>

レイリー分位点プロットを作成します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA= / SIGMA= Rayleigh-optionsで追加します。または、しきい値パラメータ および尺度パラメータ の推定値に対応する参照線を、THETA=EST / SIGMA=EST Rayleigh-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ および による指数分布が適合しています。詳細は、「レイリー分布」(422ページ)のセクションを参照してください。

RANKADJ=value

理論パーセント点を計算する時に用いる順位に追加する調整値を指定します。デフォルトではRANKADJ= 3/8であり、これは Blom (1958)により推奨されています。詳細は、Chambers et al.(1983)を参照してください。

ROTATE

水平軸と垂直軸を入れ替え、理論分位点が垂直方向に、データが水平方向にプロットされるようにします。プロットが回転されているかどうかにかかわらず、水平軸オプション (HAXIS=など )は水平軸を、垂直軸オプション (VAXIS=など )は垂直軸を参照し続けます。軸の配置に依存するその他のオプションはすべて、回転された軸に対して調整を行います。

SIGMA=value | EST

パラメータ ( >0)を指定します。SIGMA=ESTを指定すると、 の最尤推定値が計算されます。SIGMA=オプションの解釈と使用方法は、表 4.26にまとめられているように、併用する分布オプションによって異なります。このオプションは分布オプションの後にかっこで囲んで指定します。

SLOPE=value | EST

LOGNORMALおよびWEIBULL2オプションで要求される参照線の傾きを指定します。SLOPE=オプションは、分布オプションの後にかっこで囲んで指定します。LOGNORMALオプションと共に SLOPE= lognormal-optionを使用する場合、しきい値パラメータ値 を THETA= lognormal-optionで指定して参照線を要求する必要があります。SLOPE= lognormal-optionを

表 4.26 SIGMA=オプションの使用方法

分布オプション SIGMA=オプションの使用方法

BETA EXPONENTIAL GAMMA PARETO POWER RAYLEIGH WEIBULL

THETA= およびSIGMA= は、 および に対応する分布参照線を要求します。

GUMBEL MU= およびSIGMA= は、 および に対応する分布参照線を要求します。

LOGNORMAL SIGMA= ...... は、形状パラメータ ...... を持つn個の確率プロットを要求します。SIGMA=オプションを指定する必要があります。

NORMAL MU= およびSIGMA= は、 および に対応する分布参照線を要求します。SIGMA=ESTは、標本標準偏差に等しい を持つ参照線を要求します。

WEIBULL2 SIGMA= およびC=c0は、 およびc0に対応する分布参照線を要求します。

θ0 σ0

θ0 σ0θ0 σ0

σ σ σ0

θ0 σ0 θ0 σ0

μ0 σ0 μ0 σ0

σ1 σn σ1 σn

μ0 σ0 μ0 σ0σ0

σ0 σ0

θ0

Page 371: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 367

ZETA= lognormal-optionの代わりに使用することで、 を指定できます。これは、傾きが exp ( )に等しいためです。

WEIBULL2 オプションと共に SLOPE= Weibull2-option を使用する場合、尺度パラメータ値 をSIGMA= Weibull2-optionで指定して参照線を要求する必要があります。SLOPE= Weibull2-optionを C= Weibull2-optionの代わりに使用することで、c0を指定できます。これは、傾きが 1/c0に等しいためです。

次の例では、最初と 2番目のQQPLOTステートメントが同じ分位点プロットを作成し、3番目と 4番目のQQPLOTステートメントが同じ分位点プロットを作成します。

proc univariate data=Measures; qqplot Width / lognormal(sigma=2 theta=0 zeta=0); qqplot Width / lognormal(sigma=2 theta=0 slope=1);qqplot Width / weibull2(sigma=2 theta=0 c=.25); qqplot Width / weibull2(sigma=2 theta=0 slope=4);

SQUARE

正方形の枠内に分位点プロットを表示します。デフォルトでは、枠は長方形です。 THETA=value | EST

THRESHOLD=value | EST

BETA、EXPONENTIAL、GAMMA、LOGNORMAL、PARETO、POWER、RAYLEIGH、LOGNORMAL、WEIBULL、WEIBULL2 の各オプションで要求したプロットの下限しきい値パラメータ を指定します。THETA= オプションは、分布オプションの後にかっこで囲んで指定します。WEIBULL2オプションと共に使用する場合、THETA=オプションは既知の下限しきい値 (デフォルト値はゼロ ) を指定します。それ以外の分布オプションで使用する場合、THETA= オプションは参照線の を指定します。または、THETA=ESTを指定して、 の最尤推定値を要求することもできます。参照線を要求する場合、尺度パラメータを指定する必要があります。

WEIBULL(C=value | EST <Weibull-options>)

WEIB(C=value | EST <Weibull-options>)

必須の C= Weibull-optionで指定した必須の形状パラメータ cの各値に関する 3パラメータWeibull分位点プロットを作成します。cの最尤推定値に基づくプロットを作成するには、C=ESTを指定します。グラフから cの値を推定する場合には、C= Weibull-optionに値のリストを指定し、点のパターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および に対応する対角方向の分布参照線を、THETA=および SIGMA= Weibull-optionsで追加します。または、および の推定値に対応する参照線を、THETA=EST / SIGMA=EST Weibull-optionsで追加し

ます。参照線と点のパターンが一致すれば、パラメータ c、 、および によるWeibull分布が適合しています。SCALE= Weibull-optionを SIGMA= Weibull-optionの別名として、THRESHOLD= Weibull-optionを THETA= Weibull-optionの別名として指定できます。例 l4.34を参照してください。

WEIBULL2<(Weibull2-options)>

W2<(Weibull2-options)>

2パラメータWeibull分位点プロットを作成します。使用するデータに既知の下限しきい値 が含まれる場合、WEIBULL2オプションを指定します (デフォルト値はゼロ )。しきい値 を指定するには、THETA= Weibull2-optionを使用します。デフォルトでは、THETA=0になります。2パラメータのWeibullプロットが、3パラメータのWeibullプロットよりも優れている点は、 パラメータ cおよび を、点のパターンの傾きと切片から推定できるという点です。一方、2パラメータ構成のQ-Qワイブル分布は、いき値パラメータがわかっている場合にのみ使用できない点が短所になります。グラフから の値を推定するには、THETA= Weibull2-optionに値のリストを指定し、点のパ

ζ0ζ0

σ0

θ0θ0

θ0 θ0

θ0 σ0

θ0 σ0θ0 σ0

θ0θ0

σ0

θ0

Page 372: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

368 第 4章 : UNIVARIATEプロシジャ

ターンが最も直線に近くなる値を選択します。点のパターンを評価するには、 および c0に対応する対角方向の分布参照線を、SIGMA=/C= Weibull2-optionsで追加します。または、 および c0の推定値に対応する分布参照線を、SIGMA=EST / C=ESTWeibull2-optionsで追加します。参照線と点のパターンが一致すれば、パラメータ c0、 、および によるWeibull分布が適合しています。SCALE= Weibull2-optionを SIGMA= Weibull2-optionの別名として、SHAPE= Weibull2-optionを C= Weibull2-optionの別名として指定できます。例 l4.34を参照してください。

† WGRID=n

従来的なグラフを作成する場合のグリッド線の太さを指定します。このオプションは、ODS Graphics出力には適用されません。

ZETA=value | EST

LOGNORMAL オプションで要求した対数正規分位点プロットの尺度パラメータ の値を指定します。ZETA= lognormal-option は、LOGNORMAL オプションの後にかっこで囲んで指定します。切片が で傾きが exp ( )の参照線を作成するには、THETA= および ZETA= を指定します。

VARステートメント

VAR variables;

VARステートメントは、分析変数とその結果の出力順序を指定します。デフォルトでは、VAPステートメントを省略すると、他のステートメント内でリストされていないすべての数値変数が分析されます。

VARステートメントとともに OUTPUTステートメントを使用する

OUTPUTステートメントを使用する場合、VARステートメントも指定する必要があります。OUT=データセット内の複数の分析変数に同じ統計量を格納するには、OUTPUTステートメントで名前のリストを指定します。UNIVARIATEプロシジャは、VARステートメント内の分析変数の順序と統計キーワードの後ろにある名前のリストを1対1に対応付けます。

WEIGHTステートメントWEIGHT variable;

WEIGHTステートメントは、統計量計算における分析変数の数値の重みを指定します。UNIVARIATEプロシジャは、WEIGHT変数の値wiを使用し、分析変数のi番目の値xiの分散が 2/wiに等しいと仮定して、いくつかの要約統計量の計算を変更します。ここで、 は未知のパラメータです。WEIGHT変数の値は整数である必要はありませんが、通常は正の数です。デフォルトでは、WEIGHT変数が正ではない値または欠損値であるオブザベーションは、次のように処理されます。

• 値が 0である場合、そのオブザベーションはオブザベーションの合計数にカウントされます。 • 値が負の数である場合、値は 0に変換され、そのオブザベーションはオブザベーションの合計数にカウントされます。

• 値が欠損値である場合、そのオブザベーションは分析から除外されます。

負およびゼロの重みを含むオブザベーションを分析から除外するには、EXCLNPWGTを使用します。GLMプロシジャなど、ほとんどのSAS/STATプロシジャは、負およびゼロの重みをデフォルトで除外します。重み変数を指定しても、プロシジャによる範囲、モード、外れ値、極値オブザベーション、または欠損値数の決定方法は変更されません。WEIGHTステートメントを指定した場合、重み付き標準誤差とス

σ0σ0

θ0 σ0

ζ

θ0 ζ0 θ0 ζ0

σσ

Page 373: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 369

チューデントのt検定の重み付きバージョンも計算します。スチューデントのt検定は、分析変数を重み付けした場合にUNIVARIATEプロシジャが計算する位置のみの検定です。

WEIGHT変数を指定した場合、その変数値wiを使用して、積率テーブルに示される統計量の重み付きバージョンが計算されます。たとえば、重み付き平均 と重み付き分散 は次のように計算されます。

および

ここで、xiはi番目の変数値です。分母dは、PROC UNIVARIATEステートメントのVARDEF=オプションで制御されます。

WEIGHTステートメントは、モード、極値、極値オブザベーション、分析変数の欠損値数の判定には影響しません。ただし、重み付きパーセント点の計算には、重みwiが使用されます。WEIGHT変数は、プロットステートメントで作成されるグラフの表示には影響を与えません。

CIPCTLDF 、CIPCTLNORMAL 、LOCCOUNT 、NORMAL 、ROBUSTSCALE 、TRIMMED= 、WINSORIZED=オプションは、WEIGHTステートメントでは使用できません。

重み付き歪度または尖度を計算するには、PROCステートメントでVARDEF=DFまたはVARDEF=Nを使用します。

HISTOGRAM 、PROBPLOT 、QQPLOT ステートメントを、WEIGHTステートメントとともに指定することはできません。

WEIGHTステートメントを使用するときには、VARDEF=オプションのどの値が適切か考慮してください。詳細は、VARDEF=および重み付き統計量の計算を参照してください。

共通オプションのリファレンス

CDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTの各プロットステートメントすべてに共通するoptionsの詳細は次のとおりです。マークが付けられたオプションは、従来的なグラフを作成する場合にのみ適用できます。ALPHADELTA=value

GAMMAオプションで要求したガンマ分布で使用する の最尤推定値のNewton-Raphson近似の反復が終了する、 の連続推定値における変化を指定します。ALPHADELTA=オプションは、GAMMAキーワードの後にかっこで囲んで指定します。 の変化が指定した値を下回るか、または反復回数がMAXITER=オプションの値を超えるまで、反復が継続されます。デフォルト値は 0.00001です。

ALPHAINITIAL=value

GAMMAオプションで要求したガンマ分布で使用する の最尤推定値のNewton-Raphson近似における の初期値を指定します。ALPHAINITIAL=オプションは、GAMMAキーワードの後にかっこで囲んで指定します。デフォルト値は、 の推定値の Thomの近似です。詳細は、Johnson, Kotz, and Balakrishnan (1995)を参照してください。

† ANNOKEY

ANNOTATE=オプションで要求した注釈を、比較プロットのキーセルにのみ適用します。デフォルトでは、すべてのセルに注釈を適用します。CLASS ステートメントを使用していない場合、このオプ

α

αα

α

αα

Page 374: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

370 第 4章 : UNIVARIATEプロシジャ

ションは使用できません。CLASSステートメントの KEYLEVEL=オプションを使用して、キーセルを指定できます。

† ANNOTATE=SAS-data-set

† ANNO=SAS-data-set

SAS/GRAPH: Referenceで説明されているように、注釈変数を含む入力データセットを指定します。プロットステートメントに指定した ANNOTATE= データセットは、ステートメントが作成するすべてのプロットで使用されます。また、PROC UNIVARIATEステートメントにANNOTATE=データセットを指定すると、プロシジャが作成するすべてのプロットを拡張できます (ANNOTATE=データセットのセクションを参照してください )。

† CAXIS=color

† CAXES=color

† CA=color

軸と目盛りの色を指定します。このオプションは、AXISステートメント内の他のすべての COLOR=の指定より優先されます。

† CFRAME=color

軸と枠に囲まれた領域の色を指定します。デフォルトでは、この領域は塗りつぶされません。 † CFRAMESIDE=color

比較プロットの左側に表示される行ラベルの枠領域を塗りつぶす色を指定します。この色は、クラス変数のラベル領域の塗りつぶしにも使用されます ( 変数とラベルを割り当てている場合 )。デフォルトでは、これらの領域は塗りつぶしされません。CLASSステートメントを使用していない場合、このオプションは使用できません。

† CFRAMETOP=color

比較プロットの一番上に表示される列ラベルの枠領域を塗りつぶす色を指定します。この色は、クラス変数のラベル領域の塗りつぶしにも使用されます ( 変数とラベルを割り当てている場合 )。デフォルトでは、これらの領域は塗りつぶしされません。CLASSステートメントを使用していない場合、このオプションは使用できません。

† CHREF=color | (color-list)

† CH=color | (color-list)

HREF=オプションで要求した水平軸の参照線の色を指定します。単一の色を指定した場合、その色がすべてのHREF=参照線で使用されます。それ以外の場合、指定された色の数が要求された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の色で表示されます。デフォルトの色を要求するには、color-listに値 _defaultを指定します。

† COLOR=color

† COLOR=color-list

分布または核密度推定に関連付けられた曲線または参照線の色を指定します。COLOR=オプションは、分布オプションまたはKERNELオプションの後にかっこで囲んで指定します。HISTOGRAMステートメントでは、複数の密度曲線に対する色のリストをかっこ内に指定できます。

CONTENTS='string'

プロットステートメントで作成される出力の目次グループエントリを指定します。グループエントリを抑制するには、CONTENTS=を指定します。

† CPROP=color | EMPTY

Page 375: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 371

CPROP

比較プロット内のセルで表される合計度数の比率を (タイルの幅に対する相対的な )長さで示す横バーの色を指定します。デフォルトでは、比率を示すバーは表示されません。CLASSステートメントを使用していない場合、このオプションは使用できません。キーワード EMPTYを指定すると、空白のバーを表示できます。例 4.20を参照してください。

GSTYLEシステムオプションでODS Graphicsおよび従来的なグラフが有効な場合、CPROPを引数なしで指定すると、ODSスタイルから適切な色を使用して比率を示すバーを作成できます。

† CSTATREF=color | (color-list)

STATREF= オプションで要求した参照線の色を指定します。単一の色を指定した場合、その色がすべての STATREF=参照線で使用されます。それ以外の場合、指定された色の数が要求された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の色で表示されます。デフォルトの色を要求するには、color-listに値 _defaultを指定します。

† CTEXT=color

† CT=color

目盛りの値と軸のラベルの色を指定します。デフォルトは、GOPTIONS ステートメントの CTEXT=オプションで指定した色です。

† CTEXTSIDE=color

比較プロットの左側に表示される行ラベルの色を指定します。デフォルトでは、CTEXT= オプションで指定した色が使われます。CTEXT= オプションを省略すると、GOPTIONS ステートメントで指定した色が使われます。CLASSステートメントを使用していない場合、このオプションは使用できません。CFRAMESIDE=オプションを指定すると、行ラベルの背景色を変更できます。

† CTEXTTOP=color

比較プロットの左側に表示される列ラベルの色を指定します。デフォルトでは、CTEXT= オプションで指定した色が使われます。CTEXT= オプションを省略すると、GOPTIONS ステートメントで指定した色が使われます。CLASS ステートメントを指定しないと、このオプションは使用できません。CFRAMETOP=オプションを使用すると、列ラベルの背景色を変更できます。

† CVREF=color | (color-list)

† CV=color | (color-list)

VREF= オプションで要求した参照線の色を指定します。単一の色を指定した場合、その色がすべてのVREF= 参照線で使用されます。それ以外の場合、指定された色の数が要求された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の色で表示されます。デフォルトの色を要求するには、color-listに値 _defaultを指定します。

† DESCRIPTION='string'

† DES='string'

従来的なグラフチャートの GREPLAYプロシジャのマスタメニューで表示される説明 (最大 256文字)を指定します。デフォルト値は分析変数名です。

FITINTERVAL=value

パーセント点法を使用して Johnson SBまたは Johnson SU分布を当てはめる場合に使用する zの値を指定します。FITINTERVAL=オプションは、SBまたは SUオプションの後にかっこで囲んで指定します。zのデフォルトは 0.524です。

Page 376: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

372 第 4章 : UNIVARIATEプロシジャ

FITMETHOD=PERCENTILE | MLE | MOMENTS

Johnson SB または Johnson SU 分布のパラメータの推定に使用する方法を指定します。FITMETHOD=オプションは、SBまたは SUオプションの後にかっこで囲んで指定します。デフォルトでは、パーセント点法が使用されます。最尤推定量を要求する MLE キーワードを指定できます。OPTBOUNDRANGE= 、OPTMAXITER= 、OPTMAXSTARTS= 、OPTPRINT 、OPTSEED= 、OPTTOLERANCE= オプションで、最尤推定計算を実行するオプティマイザを制御します。

FITTOLERANCE=value

パーセント点法を使用して Johnson SBまたは Johnson SU分布を当てはめる場合に使用する比率基準のトレランス値を指定します。FITTOLERANCE= オプションは、SB または SU オプションの後にかっこで囲んで指定します。デフォルト値は 0.01です。

† FONT=font

参照線および軸ラベルのソフトウェアフォントを指定します。軸ラベルのフォントは、AXISステートメントで指定することもできます。FONT= のフォントは、GOPTIONS ステートメントの FTEXT=のフォント指定より優先されます。

HAXIS=value

水平軸を表すAXISステートメントの名前を指定します。 † HEIGHT=value

軸ラベル、目盛りラベルおよび凡例の各テキストの高さを、画面のパーセンテージ単位で指定します。このオプションは、GOPTIONSステートメントのHTEXT=オプションより優先します。

† HMINOR=n

† HM=n

水平軸の主目盛り間に、小目盛りをいくつ設定するかを指定します。小目盛りはラベル表示されません。デフォルトでは、HMINOR=0になります。

HREF=values

指定した値の点に水平軸に垂直な参照を描きます。CHREF= および LHREF= オプションも参照してください。

HREFLABELS='label1' …'labeln'

HREFLABEL='label1' …'labeln'

HREFLAB='label1' …'labeln'

HREF=オプションで要求した線のラベルを指定します。ラベルの数は、参照線の数と同じである必要があります。各ラベルを引用符で囲みます。ラベルには、最大 16文字まで指定できます。

Page 377: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 373

HREFLABPOS=n

HREFLABELS=のラベルの垂直方向の位置を、次の表の説明のように指定します。

デフォルトでは、HREFLABPOS=1 になります。注 : HREFLABPOS=2 および HREFLABPOS=4は、ODS Graphics出力ではサポートされていません。

† INFONT=font

プロットのフレーム内の領域にあるテキストに使用するソフトウェアフォントを指定します。このINFONT=オプションは、GOPTIONSステートメントの FTEXT=オプションより優先されます。フォントの一覧は、SAS/GRAPH: Referenceを参照してください。

† INHEIGHT=value

ヒストグラムの枠の領域内で使用されるテキストの高さを、画面のパーセンテージ単位で指定します。デフォルトでは、HEIGHT=オプションで指定した高さが使用されます。HEIGHT=オプションを指定しなかった場合、GOPTIONSステートメントのHTEXT=オプションで指定した高さが使用されます。

† INTERTILE=value

タイルと呼ばれる比較プロットの枠の領域間の距離を、水平方向の画面のパーセンテージ単位で指定します。デフォルトでは、INTERTILE=0.75の画面のパーセンテージ単位です。CLASSステートメントを使用していない場合、このオプションは使用できません。INTERTILE=0を指定すると、タイルはすきまなく表示されます。

ITPRINT

WEIBULLまたはWEIBULL2オプションで要求したWeibull分布の最尤パラメータ推定の反復履歴およびオプティマイザの詳細を表示するテーブルを要求します。

† L=linetype

† L=linetype-list

分布または核密度推定に関連付けられた曲線または参照線の種類を指定します。L= オプションは、分布オプションまたは KERNEL オプションの後にかっこで囲んで指定します。HISTOGRAM ステートメントでは、複数の密度曲線に対する線の種類のリストをかっこ内に指定できます。

† LHREF=linetype | linetype-list

† LH=linetype | linetype-list

HREF=オプションで要求した参照線の種類を指定します。単一の線の種類を指定した場合、その種類がすべてのHREF=参照線で使用されます。それ以外の場合、指定された線の種類の数が要求された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の種類で表示されます。デフォルトの線の種類を要求するには、linetypeに 0を指定します。

† LSTATREF=linetype | linetype-list

STATREF= オプションで要求した参照線の種類を指定します。単一の線の種類を指定した場合、その種類がすべての STATREF=参照線で使用されます。それ以外の場合、指定された線の種類の数が要求

n 位置

1 プロットの一番上

2 プロットの上から下へ交互

3 プロットの一番下

4 プロットの下から上へ交互

Page 378: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

374 第 4章 : UNIVARIATEプロシジャ

された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の種類で表示されます。デフォルトの線の種類を要求するには、linetypeに 0を指定します。

† LVREF=linetype | linetype-list

† LV=linetype | linetype-list

VREF= オプションで要求した参照線の種類を指定します。単一の線の種類を指定した場合、その種類がすべての VREF=参照線で使用されます。それ以外の場合、指定された線の種類の数が要求された参照線の数よりも少ないならば、残りの参照線はデフォルトの参照線の種類で表示されます。デフォルトの線の種類を要求するには、linetypeに 0を指定します。

MAXITER=n

GAMMAオプションで要求したガンマ分布で使用する と、WEIBULLおよびWEIBULL2オプションで要求したWeibull分布で使用する cの最尤推定値のNewton-Raphson近似の反復の最大数を指定します。MAXITER= オプションは、GAMMA、WEIBULL または WEIBULL2 キーワードの後にかっこで囲んで指定します。nのデフォルト値は 20です。

† NAME='string'

従来的なグラフチャートの GREPLAY プロシジャのマスタメニューで表示されるプロットの名前 ( 最大 8文字 )を指定します。デフォルト値は 'UNIVAR'です。

NCOLS=n

NCOL=n

比較プロットのパネル当たりの列数を指定します。CLASSステートメントを使用していない場合、このオプションは使用できません。デフォルトでは、CLASS 変数を 1 つだけ指定している場合はNCOLS=1、CLASS変数を 2つ指定している場合はNCOLS=2です。CLASS変数を 2つ指定している場合は、NCOLS=オプションとNROWS=オプションを併用できます。

NOFRAME

サブプロット領域の周囲の枠を抑制します。 NOHLABEL

水平軸ラベルの表示を抑制します。ヒストグラムの外観をすっきりさせるには、このオプションを使用します。

NOVLABEL

垂直軸ラベルの表示を抑制します。ヒストグラムの外観をすっきりさせるには、このオプションを使用します。

NOVTICK

垂直軸の目盛りおよび目盛りラベルの表示を抑制します。このオプションは垂直軸ラベルの表示も抑制します。

NROWS=n

NROW=n

比較プロットのパネル当たりの行数を指定します。CLASSステートメントを使用していない場合、このオプションは使用できません。デフォルトでは、NROWS=2 になります。CLASS 変数を 2 つ指定している場合は、NCOLS=オプションとNROWS=オプションを併用できます。

α

Page 379: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 375

ODSFOOTNOTE=FOOTNOTE | FOOTNOTE1 | 'string'

ODS Graphics出力にフットノートを追加します。FOOTNOTE (または FOOTNOTE1)キーワードを指定すると、SAS FOOTNOTE ステートメントを使用してグラフのフットノートが生成されます。引用符付きの文字列を指定すると、その文字列がフットノートとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

ODSFOOTNOTE2=FOOTNOTE2 | 'string'

ODS Graphics 出力にセカンダリフットノートを追加します。FOOTNOTE2 キーワードを指定すると、SAS FOOTNOTE2ステートメントを使用してグラフのセカンダリフットノートが生成されます。引用符付きの文字列を指定すると、その文字列がセカンダリフットノートとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

ODSTITLE=TITLE | TITLE1 | NONE | DEFAULT | LABELFMT | 'string'

ODS Graphics出力のタイトルを指定します。次の値を指定できます。

引用符付きの文字列を指定すると、その文字列がグラフのタイトルとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

\n 分析変数名で置き換えられます

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

\n 分析変数名で置き換えられます

\l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えられます。

TITLE (またはTITLE1) SAS TITLEステートメントの値をグラフのタイトルとして使用します。

NONE グラフのタイトルを一切表示しません。

デフォルト デフォルトのODS Graphicsタイトル(プロットの種類と分析変数名から構成されるタイトル)を使用します。

LABELFMT 変数名の代わりに変数ラベルを含むデフォルトの ODSGraphicsタイトルを使用します。

\n 分析変数名で置き換えられます。 \l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換え

られます。

Page 380: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

376 第 4章 : UNIVARIATEプロシジャ

ODSTITLE2=TITLE2 | 'string'

ODS Graphics 出力のセカンダリタイトルを指定します。TITLE2 キーワードを指定すると、SASTITLE2ステートメントを使用してグラフのセカンダリタイトルが生成されます。引用符付きの文字列を指定すると、その文字列がグラフのセカンダリタイトルとして使用されます。引用符付きの文字列には、次のようなエスケープ文字を含めることができます。これらは、分析に含まれている適切な値で置き換えられます。

OVERLAY

水準が異なる CLASS変数に関連付けられたプロットを、比較プロットの別々のセルに表示するのではなく、1 つのプロット上に重ねて表示するよう指定します。OVERLAY オプションを 1 つの CLASS変数とともに指定すると、各水準の CLASS変数に関連付けられた出力が 1つのプロット上に重ねて表示されます。OVERLAYオプションを 2つの CLASS変数とともに指定すると、最初の CLASS変数の水準に基づく比較プロットが作成されます。この比較プロットの各セルには、2番目の CLASS変数の水準に関連付けられた出力が重ねて表示されます。

OVERLAYオプションはODS Graphics出力にのみ適用されます。 SCALE=value

BETA、EXPONENTIAL、GAMMA、SB、SU、WEIBULL、WEIBULL2 の各オプションで要求した分布のSIGMA=オプションの別名、またはLOGNORMALオプションで要求した分布のZETA=オプションの別名です。

SHAPE=value

GAMMAオプションで要求した分布のALPHA=オプション、LOGNORMALオプションで要求した分布の SIGMA=オプション、WEIBULLおよびWEIBULL2オプションで要求した分布の C=オプションの別名です。

STATREF=keyword-list

keyword-listに空白で区切って要求した統計量の値に参照線を引きます。これらの参照線は、ヒストグラムや CDFプロットでは水平軸に垂直となり、確率プロットやQ-Q プロットでは垂直軸に垂直となります (ROTATEオプションが指定されていない場合 )。STATREF=オプションは、PPPLOTステートメントには適用されません。

利用できるキーワードを次の表に示します。

\n 分析変数名で置き換えられます。 \l 分析変数のラベル(あるいは分析変数がラベルを持たない場合には分析変数名)で置き換えら

れます。

Page 381: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 377

STDキーワードと共に指定する factorが正数の場合、参照線が平均よりも上に配置されます。負数の場合、参照線が平均よりも下に配置されます。

CSTATREF= 、LSTATREF= 、STATREFLABELS= 、STATREFSUBCHAR= の各オプションも参照してください。

STATREFLABELS='label1' …'labeln'

STATREFLABEL='label1' …'labeln'

STATREFLAB='label1' …'labeln'

STATREF= オプションで要求した参照線のラベルを指定します。ラベルの数は、参照線の数と同じである必要があります。各ラベルを引用符で囲みます。ラベルには、最大 16バイト文字まで指定できます。

STATREFSUBCHAR='character'

STATREFLABELS=オプションで指定したラベルで使用する置換文字 (#など )を指定します。ラベルがグラフに表示される場合、各ラベル内での指定された文字の最初のオカレンスが、STATREF= 統計量の値で置き換えられます。

たとえば、変数Weightの平均値が 155であるとします。次のステートメントは、“Average=155” というラベルが付けられた垂直参照線を表示するヒストグラムを作成します。

histogram Weight / statref=mean statreflabel='Average=#' statrefsubchar='#';

† TURNVLABELS

† TURNVLABEL

垂直軸ラベルの文字を回転して垂直方向に表示します。ハードウェアフォント使用時には、デフォルトでこの操作が行われます。

VAXIS=name

VAXIS=value-list

垂直軸を表す AXIS ステートメントの名前を指定します。HISTOGRAM ステートメントでは、value-listも垂直軸に指定できます。

VAXISLABEL='label'

垂直軸のラベルを指定します。ラベルには、最大 40文字まで指定できます。 † VMINOR=n

キーワード 統計量

MAX 最大値

MEAN 標本平均

MEDIAN | Q2 中央値 (50番目のパーセント点 )

MIN 最小値

MODE 最も度数の高い値

P または p pctl番目のパーセント点

Q1 下位四分位点 (25番目のパーセント点 )

Q3 上位四分位点 (75番目のパーセント点 )

Page 382: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

378 第 4章 : UNIVARIATEプロシジャ

† VM=n

垂直軸の主目盛り間に、小目盛りをいくつ設定するかを指定します。小目盛りはラベル表示されません。デフォルト値は 0です。

VREF=value-list

指定した値の位置に、垂直軸に対して垂直な参照線を描画します。CVREF=および LVREF=オプションも参照してください。

VREFLABELS='label1'…'labeln'

VREFLABEL='label1'…'labeln'

VREFLAB='label1'…'labeln'

VREF= オプションで要求した線のラベルを指定します。ラベルの数は、参照線の数と同じである必要があります。各ラベルを引用符で囲みます。ラベルには、最大 16文字まで指定できます。

VREFLABPOS=n

VREFLABELS= のラベルの水平位置を指定します。VREFLABPOS=1 を指定した場合、ラベルはプロットの左に配置されます。VREFLABPOS=2 を指定した場合、ラベルはプロットの右に配置されます。デフォルトでは、VREFLABPOS=1になります。

† W=value

† W=value-list

分布または核密度推定に関連付けられた曲線または参照線の幅をピクセル単位で指定します。W=オプションは、分布オプションまたは KERNEL オプションの後にかっこで囲んで指定します。HISTOGRAMステートメントでは、複数の密度曲線に対する幅のリストをかっこ内に指定できます。

† WAXIS=n

軸と枠の線の太さをピクセル単位で指定します。

UNIVARIATEプロシジャ

欠損値

UNIVARIATEプロシジャは、統計量を計算する前に分析変数の欠損値を除外します。各分析変数は個別に処理されます。ある変数のオブザベーションの欠損値は、他の変数の計算には影響しません。ステートメントは欠損値を次のように処理します。

• BYまたは ID 変数値が欠損値である場合、UNIVARIATEプロシジャは他の BYまたは ID変数値と同じように処理します。欠損値は、独立した 1つの BYグループを形成します。

• FREQ 変数値が欠損値または正ではない値である場合、UNIVARIATE プロシジャはそのオブザベーションを分析から除外します。

• WEIGHT変数値が欠損値である場合、UNIVARIATEプロシジャはそのオブザベーションを分析から除外します。

UNIVARIATEプロシジャは、欠損値数の表を作成し、この情報を"Missing Values"という名前のODSテーブルでレポートします。詳細は、「ODSテーブル名」(433ページ)のセクションを参照してください。次のいずれかの条件が存在する場合、UNIVARIATEプロシジャは欠損値数の表を作成する前にオブザベーションを除外します。

• FREQステートメントを使用し、度数が正ではない値である場合

Page 383: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 379

• WEIGHTステートメントを使用し、重みが欠損値または正ではない値である場合 (EXCLNPWGTオプションを指定する必要があります )

丸め

ROUND=uを指定すると、UNIVARIATEプロシジャは、ui形式の中間点を含む間隔に数直線を分割するための丸め単位を使用して、変数を丸めます。ここで、uは負でない丸め単位で、iは整数です。間隔幅はuです。間隔に入る変数値はその間隔の中間点に丸められます。2つの中間点の中間にあり、2つの間隔の境界上にある変数値は、偶数の中間点に丸められます。iが偶数の整数( )である場合は、偶数の中間点になります。

ROUND=1で、分析変数値が-2.5から2.5までの間である場合、間隔は次のようになります。

ROUND=0.5で、分析変数値が-1.25から1.25までの間である場合、間隔は次のようになります。

丸め単位が大きくなると、間隔幅も大きくなります。これにより、重複しない値の数を減らし、

UNIVARIATEプロシジャに必要なメモリ量を減らすことができます。

記述統計量

このセクションでは、PROC UNIVARIATEステートメントで計算される記述統計量の計算の詳細を示します。これらの統計量は、OUTPUTステートメントで表4.14にあるキーワードを指定することにより、OUT=データセットに保存することもできます。

標準アルゴリズム(Fisher 1973)は、積率統計量の計算に使用されます。UNIVARIATEプロシジャで使用される計算方法は、他のSASプロシジャで記述統計量の計算に使用される計算方法との間に一貫性があります。

次のセクションでは、UNIVARIATEプロシジャで計算されるいくつかの統計量の詳細を示します。

表 4.27 ROUND=1の場合の丸めの間隔

i 間隔 中間点 左終点の丸め値 右終点の丸め値

-2 [–2.5, –1.5] -2 -2 -2

-1 [-1.5, -0.5] -1 -2 0

0 [-0.5, 0.5] 0 0 0

1 [0.5, 1.5] 1 0 2

2 [1.5, 2.5] 2 2 2

表 4.28 ROUND=0.5の場合の丸めの間隔

i 間隔 中間点 左終点の丸め値 右終点の丸め値

-2 [-1.25, -0.75] -1.0 -1 -1

-1 [-0.75, -0.25] -0.5 -1 0

0 [-0.25, 0.25] 0 0 0

1 [0.25, 0.75] 0.5 0 1

2 [0.75, 1.25] 1.0 1 1

Page 384: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

380 第 4章 : UNIVARIATEプロシジャ

平均

標本平均は次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、wiは変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、この式は次のようになります。

合計

合計は、 で計算されます。ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、wiは変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、この式は

になります。

重みの合計

重みの合計は、 で計算されます。ここで、nは変数の値が非欠損値であるオブザベーション数、wiは変数のi番目の値に関連付けられた重みです。WEIGHT変数が存在しない場合、重みの合計はnです。

分散

分散は次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、 は重み付き平均、wiは変数のi番目の値に関連付けられた重み、dはPROC UNIVARIATE ステートメントのVARDEF=オプションで制御される分母です。

WEIGHT変数が存在しない場合、この式は次のようになります。

標準偏差

標準偏差は次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、 は重み付き平均、wiは変数のi番目の値に関連付けられた重み、dはPROC UNIVARIATEステートメントのVARDEF=オプションで制御される分母です。WEIGHT変数が存在しない場合、この式は次のようになります。

Page 385: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 381

歪度

標本歪度は、偏差がある方向で他の方向より大きいという偏差の傾向を測定し、VARDEF=オプションに応じて次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、 は標本平均、sは標本標準偏差、wiは変数のi番目の値に割り当てられる重みを表します。VARDEF=DFの場合、nは2より大きくする必要があります。WEIGHT変数が存在しない場合、 のすべてに対するwi = 1になります。

標本歪度は正または負の値になります。データ分布の非対称性を測定し、理論歪度 を推定します。ここで、u2およびu3は、2番目および3番目の中心積率です。オブザベーションが正規分布である場合、歪度は0に近くなります。

尖度

標本尖度は、標本の裾の重さを測定し、VARDEF=オプションに応じて次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、 は標本平均、sは標本標準偏差、wiは変数のi番目の値に割り当てられる重みを表します。VARDEF=DFの場合、nは2より大きくする必要があります。WEIGHT変数が存在しない場合、 のすべてに対するwi = 1になります。

標本尖度はデータ分布の裾の重さを測定します。 で示される調整された理論尖度を推定します。 ここで、 であり、u4は4番目の中心積率です。オブザベーションが正規分布である場合、尖度は0に近くなります。

表 4.29 歪度の計算式

VARDEF 公式

DF(デフォルト)

N

WDF なし WEIGHT | WGT なし

表 4.30 尖度の計算式

VARDEF 公式

DF(デフォルト)

N

WDF なし WEIGHT | WGT なし

Page 386: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

382 第 4章 : UNIVARIATEプロシジャ

変動係数 (CV)

変動計数は次のように計算されます。

幾何平均

幾何平均は次のように計算されます。

ここで、nは変数の値が非欠損値であるオブザベーション数、xiは変数のi番目の値、wiは変数のi番目の値に関連付けられた重みです。

WEIGHT変数が存在しない場合、この式は次のようになります。

任意のxiが負の値である場合、幾何平均には欠損値が設定されます。

モードの計算

モードは、最も頻繁にデータに出現する値です。UNIVARIATEプロシジャは、分析変数の値(ROUND=オプションを指定した場合は丸められた値)の反復をカウントします。最頻度値にタイがある場合は、統計量出力の"Basic Statistical Measures"というラベルのテーブルには最も低いモードがレポートされます。すべての可能なモードを一覧表示するには、PROC UNIVARIATEステートメントのMODESオプションを使用します。(完全な連続データのように)データ内に反復がない場合は、モードをレポートしません。WEIGHTステートメントはモードには影響しません。例4.2を参照してください。

パーセント点の計算

UNIVARIATEプロシジャは、各分析変数の最小値および最大値と、1番目、5番目、10番目、25番目、50番目、75番目、90番目、95番目、99番目のパーセント点(分位点)を自動的に計算します。これらのデフォルトパーセント点以外のパーセント点を計算するには、OUTPUTステートメントのPCTLPTS=オプションおよびPCTLPRE=オプションを使用します。

PCTLDEF=オプションで、5つのパーセント点計算定義のうち1つを指定できます。nは変数の値が非欠損値であるオブザベーション数、 は並べ替えられた変数の値を表すとします。また、t番目のパーセント点がyであるとし、 と設定した上で、次の式が成り立つとします。

ここで、jはnpの整数部分、gはnpの小数部分です。この場合、PCTLDEF=オプションはt番目のパーセント点yを次の表に記述したように定義します。

Page 387: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 383

重み付きパーセント点

WEIGHTステートメントを使用する場合、パーセント点は異なる方法で計算されます。100p番目の重み付きパーセント点yは、平均化された経験分布関数から計算されます。

ここで、wiはxiに関連付けられた重みであり、 は重みの合計です。

PCTLDEF=オプションは、WEIGHTステートメントが使用される場合は適用されません。ただし、この場合、重みがすべて同じであれば、重み付きパーセント点は、WEIGHT ステートメントを使用せずにPCTLDEF=5で計算されるパーセント点と同じになります。

パーセント点の信頼限界

CIPCTLNORMALオプションを使用すると、データが正規分布であると仮定して、パーセント点の信頼限界を要求できます。これらの限界については、Hahn and Meeker (1991)のセクション4.4.1で説明されています。 の場合、 %番目のパーセント点の両側の 信頼限界は次のようになります。

ここで、nは標本サイズです。 の場合、 %番目のパーセント点の両側の 信頼限界は次のようになります。

表 4.31 パーセント点の計算

PCTLDEF 説明 公式

1 での重み付き平均xnp

ここで、 はと解釈されます。 x1

2 np に最も近い番号のオブザベーション

3 経験分布関数

4 重み付き平均

ここで、 はと解釈されます。 xn

5 平均化された経験分布関数

100 1 α–( )

100 1 α–( )

Page 388: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

384 第 4章 : UNIVARIATEプロシジャ

片側の %信頼限界は、適切な前の式の を に置き換えて計算されます。因子 は、非心t分布に関連し、Owen and Hua (1977)およびOdeh and Owen (1980)に説明されています。例4.10を参照してください。

CIPCTLDFオプションを使用すると、パーセント点の分布によらない信頼限界を要求できます。特に、データが正規分布であると仮定する必要がありません。これらの限界については、Hahn and Meeker (1991)のセクション5.2で説明されています。番目の パーセント点の両側の 信頼限界は次のようになります。

ここで、X(j)は、データ値が昇順で並べ替えられている場合のj番目の順序統計量であり、次の式が成り立ちます。

下のランクlと上のランクuは、 の前後で対称(またはほぼ対称)な整数です。ここで、 は[np]の整数部分であり、 nは標本サイズです。また、lとuは、次の包含確率要件を満たしながら、X(l)およびX(u)ができるだけ に近くなるように選択されます。

ここで、Q(k;n,p)累積二項確率であり、次のように表されます。

特にnが小さく、pが0または1に近似している場合、包含要件を満たせないことがあります。対称性の要件を緩和するため、CIPCTLDF(TYPE = ASYMMETRIC)を指定することができます。このオプションは、包含要件を満たすことができる場合は対称限界を要求し、それ以外の場合は非対称限界を要求します。

CIPCTLDF(TYPE = LOWER)を指定すると、片側の %下位信頼限界がX(l)として計算されます。ここで、lは次の不等式を満たす最も大きい整数です。

も満たします。同様に、CIPCTLDF(TYPE = UPPER)を指定すると、片側の %下位信頼限界がX(u)として計算されます。ここで、uは次の不等式を満たす最も大きい整数です。

パーセント点の信頼限界は、WEIGHTステートメントが指定されている場合は計算されません。例4.10を参照してください。

位置の検定

UNIVARIATEプロシジャでは、t検定、符号検定、およびWilcoxonの符号付き順位検定という3種類の位置の検定を行うことができます。3つの検定はすべて、平均値または中央値が指定の値u0に等しいという帰無仮説の下で検定統計量を作成します。使用される両側対立仮説は、平均値または中央値がu0に等しくないこととなります。デフォルトでは、UNIVARIATEプロシジャはu0の値を0に設定します。u0の値を指定するには、PROC UNIVARIATEステートメントのMU0=オプションを使用します。スチューデントのt検定

100 1 α–( ) α

100 1 α–( )

100 1 α–( )

100 1 α–( )

Page 389: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 385

は、母集団が正規分布に近いデータの場合に適しています。それ以外の場合は、 符号検定や符号付き順位検定などのノンパラメトリックな検定を使用します。母集団が大きい場合、t検定は漸近的にz検定と同等になります。WEIGHTステートメントを使用すると、UNIVARIATEプロシジャは位置の重み付き検定であるt検定を1つのみ計算します。PROCステートメントのVARDEF=オプションのデフォルト値(VARDEF=DF)を使用する必要があります。例4.12を参照してください。

また、これらの検定を使用して、ペアのデータの平均値または中央値を比較できます。同じ年齢と性別を持つサブジェクトなど、一対のサブジェクトやユニットが1つ以上の変数を基準に一致している場合、データは対応していると言います。ペアのデータは、各サブジェクトまたはユニットが2回測定される場合や、2つの条件で測定される場合にも出現します。2回の平均値または中央値を比較するには、2つの統計量の間の差である分析変数を作成します。変数の差の平均値または中央値が0に等しいことの検定は、2つの元の変数の平均値または中央値が等しいことの検定に相当します。これらの検定は、TTESTプロシジャのPAIREDステートメントを使用して実行することもできます。詳細については、SAS/STAT 14.1 User's GuideのChapter119: The TTEST Procedureを参照してください。また、例4.13も参照してください。

スチューデントの t検定

UNIVARIATEプロシジャは、t統計量を次のように計算します。

ここで、 は標本平均、nは変数の値が非欠損値であるオブザベーション数、sは標本標準偏差です。帰無仮説は、母集団平均がu0に等しいことです。データ値が正規分布に近似している場合、帰無仮説の下でt統計量が観測値より極値、またはさらに極値となる確率(p値)は、自由度がn-1のt分布から取得されます。nが大きい場合、t統計量は漸近的に z検定と同等になります。WEIGHTステートメントとVARDEF=のデフォルト値(DF)を使用するとき、t統計量は次のように計算されます。

ここで、 は重み付き平均、swは重み付き標準偏差、wi はi番目のオブザベーションの重みです。tw統計量は、自由度が n-1 であるスチューデントの t 分布として扱われます。PROC ステートメントにEXCLNPWGTオプションを指定する場合、nはWEIGHT変数が正の値であるときの非欠損オブザベーションの数になります。デフォルトでは、nはWEIGHT変数の非欠損オブザベーションの数です。

符号検定

UNIVARIATEプロシジャは、符号検定統計量を次のように計算します。

ここで、n+はu0より大きい値の数、n-はu0より小さい値の数です。u0に等しい値は破棄されます。母集団中央値がu0に等しいという帰無仮説の下で、観測された統計量 値は次のようになります。

ここで、 は、u0に等しくないxi値の数です。

注: n+とn-が等しい場合、p値は1になります。

Wilcoxonの符号付き順位検定

符号付き順位統計量Sは次のように計算されます。

Page 390: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

386 第 4章 : UNIVARIATEプロシジャ

ここで、ri+は の値を破棄した後の の順位、ntはu0に等しくないxi値の数です。結合された値

には平均順位が使用されます。

の場合、Sの有意性は、Sの正確な分布から計算されます。この分布は調整された二項分布の畳み込みです。nt > 20の場合、Sの有意性を計算するには、次の式

を自由度がnt - 1であるスチューデントのt変量として扱います。Vは次のように計算されます。

ここで、合計は絶対値がタイのグループの合計であり、tiはi番目のグループの値の数です(Iman 1974;Conover 1980)。分布が対称であると仮定して、平均値(または中央値)がu0であるという帰無仮説が検定されます。詳細は、Lehmann and D’ Abrera (1975)を参照してください。

正規分布のパラメータに対する信頼限界

平均に対する両側の100(1- )% 信頼区間の上限および下限は、次のとおりです。

ここで、 および は、自由度がn-1であるt分布の 番目のパーセント点です。片側の上位100(1- )%信頼限界は として、片側の下位100(1- )%信頼限界は として、それぞれ計算されます。例4.9を参照してください。

標準偏差に対する両側の100(1- )%信頼区間の上限および下限は次のとおりです。

ここで、 および は、それぞれ自由度がn-1であるカイ2乗分布の 番目および 番目のパーセント点です。片側の100(1- )%信頼限界の下限および上限は、それぞれ次のとおりです。

分散に対する100(1- )%信頼区間の上限および下限は、標準偏差の上限および下限の2乗に等しくなります。

WEIGHTステートメントを使用し、PROCステートメントでVARDEF=DFを指定する場合、重み付き平均に対する100(1- )%信頼区間は次のとおりです。

ここで、 は重み付き平均、swは重み付き標準偏差、wiはi番目のオブザベーションの重み、 は自由度がn-1であるt分布の 番目のパーセント点です。

α

α α

α

α

α

α

Page 391: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 387

重み付き標準偏差に対する信頼区間は、上述した標準偏差に対する信頼限界の式に含まれているsをswで置き換えることにより計算されます。

ロバスト推定量

根拠となる前提からデータが中程度または大きく外れていても影響を受けにくい場合、その統計方法はロバストであると言います。UNIVARIATEプロシジャでは、いくつかの方法で位置および尺度のロバスト推定を行うことができます。例4.11を参照してください。

ウィンザー化平均

ウィンザー化平均は外れ値の影響を比較的受けにくい、位置のロバスト推定量です。k-timesのウィンザー化平均は次のように計算されます。

ここで、nはオブザベーションの数、x(i)は、オブザベーションが昇順で並べられている場合のi番目の順序統計量であり、次の式が成り立ちます。

ウィンザー化平均は、k個の最小オブザベーションを(k+1)番目に小さいオブザベーションに置き換え、k個の最大オブザベーションを(k+1)番目に大きいオブザベーションに置き換えた後、通常の平均と同じように計算されます。

対称分布のデータの場合、ウィンザー化平均はバイアスをかけない母集団平均の推定です。ただし、正規分布の母集団のデータであっても、ウィンザー化平均は正規分布になりません。

ウィンザー化された2乗偏差の合計は次のように定義されます。

ウィンザー化されたt統計量は次のように計算されます。

ここで、u0帰無仮説の下での位置を示し、ウィンザー化平均の標準誤差は次のとおりです。

データが対称分布に由来する場合、 の分布は、自由度が であるスチューデントのt分布により近似されます(Tukey and McLaughlin 1963; Dixon and Tukey 1968)。

位置パラメータに対するウィンザー化された100(1- /2)% 信頼区間の上限および下限は次のとおりです。α

Page 392: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

388 第 4章 : UNIVARIATEプロシジャ

ここで、 は、自由度がであるスチューデントのt分布の 番目のパーセント点です。

トリム平均

ウィンザー化平均と同様、トリム平均は外れ値の影響を比較的受けにくい、位置のロバスト推定量です。k-timesのトリム平均は次のように計算されます。

ここで、nはオブザベーションの数、x(i)は、オブザベーションが昇順で並べられている場合のi番目の順序統計量であり、次の式が成り立ちます。

トリム平均は、k個の最小オブザベーションとk個の最大オブザベーションを標本から削除した後、計算されます。つまり、オブザベーションの両端がトリムされます。

対称分布の場合、対称にトリムされた平均はバイアスをかけない母集団平均の推定です。ただし、正規分布の母集団のデータであっても、トリム平均は正規分布になりません。

トリム平均ttkの偏差のロバスト推定は、2乗偏差のウィンザー化された合計s2wkに基づくことができます。

これはウィンザー化平均のセクションで定義されています。詳細は、Tukey and McLaughlin (1963)を参照してください。これを使用して、次の検定統計量に基づく、トリムされたt検定を計算できます。

トリム平均の標準誤差は次のとおりです。

データが対称分布に由来する場合、ttkの分布は、自由度がn-2k-1であるスチューデントのt分布により近似されます(Tukey and McLaughlin 1963; Dixon and Tukey 1968)。

位置パラメータに対する “トリムされた” 100(1- )%信頼区間の上限および下限は次のとおりです。

ここで、 は、自由度がn-2k-1であるスチューデントのt分布の 番目のパーセント点です。

尺度のロバスト推定

最も一般的に使用されている尺度の推定量である標本標準偏差は、外れ値の影響を受けやすい推定量です。一方、ロバストな尺度推定量では、単一のデータ値が任意の大きいまたは小さい値に置き換えられるときに、有界性が保たれます。UNIVARIATEプロシジャは、四分位範囲、Giniの平均差 G、中央値からの中央

α

Page 393: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 389

絶対偏差(MAD)、Qn、Snのような尺度のロバスト統計量を計算します。また、これらの各統計量から導びかれる通常の標準偏差 も計算します。

四分位範囲(IQR)は、上位および下位の四分位点の間の単純な差です。正規分布の母集団の場合、 はIQR/1.34898で推定できます。

Giniの平均差は次のように計算されます。

正規分布の母集団の場合、Gの期待値は です。つまり、正規標本からのデータの場合、 のロバスト推定量です。正規分布の場合、この推定量は通常の標本標準偏差に比べて効率性が高く、外れ値の存在の影響も受けにくくなります。

中央絶対偏差(MAD) (Hampel 1974)は非常にロバストな尺度推定量であり、次のように計算されます。

内側の中央値medj(xj)は、n個のオブザベーションの中央値であり、(iが付いた)外側の中央値は、内側の中央値の偏差のn個の絶対値の中央値です。正規分布の母集団の場合、1.4826 *MADが の推定量になります。

MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。RousseeuwとCroux (1993)は、MADの代替として2つの統計量を提唱しています。1つ目の統計量は次のとおりです。

ここで、(iが付いた)外側の中央値は、 における、n個の中央値に対する中央値です。標本サイズが小さいことによるバイアスを低減するには、csnSnを使用して を推定します。ここで、csnは補正因子です。詳細は、Croux and Rousseeuw (1992)を参照してください。

RousseeuwとCroux (1993)が提唱している2つ目の統計量は次のとおりです。

ここで、

つまり、Qnは、データポイント間の の距離のk番目の順序統計量の2.2219倍です。バイアス補正した統計量cqnQnは の推定に使用されます。ここで、cqnは補正因子です。詳細は、Croux and Rousseeuw(1992)を参照してください。

ラインプリンタプロットの作成

ODS Graphicsが無効である場合、PROC UNIVARIATEステートメントのPLOTSオプションを指定すると、最大4つのラインプリンタの診断プロットを作成して、データの分布を調べることができます。これらのプロットは、幹葉プロット(横棒チャート)、箱ひげ図、正規確率プロット、横に並べた箱ひげ図です。WEIGHTステートメントを指定すると、UNIVARIATEプロシジャは重み付きヒストグラム、重み付き分位点に基づく重み付き箱ひげ図および重み付き正規確率プロットを作成します。

σ

σ

σ

σ

σ

Page 394: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

390 第 4章 : UNIVARIATEプロシジャ

これらのプロットは、旧バージョンのSASのUNIVARIATEプロシジャの従来的な機能です。高解像度グラフを表示できるCDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTステートメントが追加される以前からあります。また、PLOTSオプションで要求したラインプリンタプロットは、主にODSLISTINGの出力先で使用されることを想定しています。例4.5を参照してください。

幹葉プロット

出力の最初のプロットは、幹葉プロット(Tukey 1977)または横棒チャートのいずれかです。単一の間隔に49個を超えるオブザベーションが含まれる場合は、横棒チャートが表示されます。それ以外の場合は、幹葉プロットが表示されます。幹葉プロットと横棒チャートは、いずれもデータ分布全体を視覚化する方法を提供する点で似ています。幹葉プロットではプロット内の各ポイントで個別のデータ値が示されるため、より詳細な情報が得られます。

プロットで表示する幹の数を変更するには、PLOTSIZE=を使用して行数を増減します。プロットの下に表示される説明に、変数の値の決定方法が記載されています。説明が表示されない場合、Stem.Leafに1を乗じて変数の値を決定します。たとえば、幹の値が10で葉の値が1の場合、変数値は約10.1です。幹葉プロットでは、変数値は最も近い葉に丸められます。変数値が2つの葉のちょうど真ん中にある場合は、最も近い偶数の整数値の葉に丸められます。たとえば、変数値が3.15の場合、幹の値は3で葉の値は2です。

箱ひげ図

箱ひげ図(別名スキマティックボックスプロット)は、幹葉プロットの隣に表示されます。いずれのプロットも同じ垂直軸を使用します。箱ひげ図では、データの要約を視覚的に表示し、外れ値を特定することができます。箱の上下の辺は、標本の25番目(Q1)のパーセント点と75番目(Q3)のパーセント点に対応します。箱の長さは1つの四分位範囲(Q3 – Q1)です。端点にアスタリスクが付いた中央の水平線は、標本の中央値に対応します。中央のプラス記号(+)は、標本平均に対応します。平均値と中央値が等しい場合、プラス記号は箱の中の線上に示されます。箱から突き出た垂直線(ひげと言います)はデータが広がる範囲まで伸び、四分位範囲の1.5倍の距離が最長です。これより離れた値は潜在的な外れ値です。極値には0またはアスタリスク(*)が表示されます。0が表示される場合は、箱の上辺または下辺からの距離が四分位範囲の1.5から3倍までの値です。アスタリスクが表示される場合は、さらに外れた値です。

注:高解像度グラフを使用する箱ひげ図を作成するには、SAS/STATソフトウェアの BOXPLOTプロシジャを使用します。SAS/STAT 14.1 User's Guideの Chapter 28: The BOXPLOT Procedureを参照してください。

正規確率プロット

正規確率プロットは、経験分位点を標準正規分布の分位点に対してプロットします。アスタリスク(*)はデータ値を示します。プラス記号(+)は、標本平均および標準偏差を使用して描画される直線の参照線です。正規分布のデータの場合、アスタリスクは参照線に沿ってプロットされやすくなります。垂直座標はデータ値で、水平座標は です。

重み付き正規確率プロットの場合、i番目の並べ替えられたオブザベーションは、 に対してプロットされます。ここで、次の式が成り立ちます。

Page 395: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 391

各オブザベーションの重みが同じ場合、wj=wとなり、viの計算式は、次のような重み付けのない正規確率プロットのviの式に短縮されます。

各オブザベーションの重みが同じで、VARDEF=の値がWDFかWEIGHTである場合、切片が で傾きがの参照線がプロットに追加されます。VARDEF=の値がDFまたはNである場合、傾きは になりま

す。ここで、 は平均の重みです。

各オブザベーションの重みが同じで、VARDEF=の値がDF、NまたはWEIGHTである場合、参照線は重み付けのない正規確率プロットの通常の参照線(切片が で傾きが の参照線)になります。

平均が で標準偏差が である正規分布のデータで、各オブザベーションの重みが同じwである場合、プロット上のポイントはほぼ直線状に並びます。この線の切片は です。VARDEF= が WDF またはWEIGHTの場合の傾きは であり、VARDEF=がDFまたはNの場合の傾きは です。

注:高解像度の確率プロットを作成するには、UNIVARIATEプロシジャの PROBPLOTステートメントを使用します。PROBPLOTステートメントのセクションを参照してください。

横に並べた箱ひげ図

BYステートメントでPLOTSオプションを使用すると、UNIVARIATEプロシジャは横に並べた箱ひげ図をBYグループごとに1つずつ作成します。箱ひげ図(またはスキマティックプロット)は共通の尺度を使用します。このため、複数のBYグループにわたってデータ分布を比較できます。このプロットは、すべてのBYグループの単変量分析後に表示されます。このプロットを抑制するには、NOBYPLOTオプションを使用します。

注:高解像度の横に並べた箱ひげ図を作成するには、SAS/STATソフトウェアの BOXPLOTプロシジャを使用します。SAS/STAT 14.1 User's Guideの Chapter 28: The BOXPLOT Procedureを参照してください。

高解像度グラフの作成

CDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTの各ステートメントを使用して、高解像度グラフを作成できます。

CDFPLOTステートメントは、変数の観測された累積分布関数をプロットします。オプションで、当てはめた理論分布をプロットに重ねて表示できます。

HISTOGRAMステートメントは、データ分布を調べることができるヒストグラムを作成します。オプションで、一連の密度曲線を適合したり、核密度推定をヒストグラムに重ねて表示したりできます。当てはめた分布および核密度推定の詳細は、「当てはめた連続分布の計算式」(400ページ)および「核密度推定」(414ページ)の各セクションを参照してください。

PPPLOTステートメントはP-Pプロットを作成します。P-Pプロットは、変数の経験累積分布関数(ECDF)を、指定した理論累積分布関数と比較します。P-P プロットを使うと、理論分布に測定値の組み合わせのモデルがどの程度当てはまっているかを判定することができます。

PROBPLOTステートメントは確率プロットを作成します。この確率プロットは、並べ替えられた変数値を、指定した理論分布のパーセント点と比較します。確率プロットは、パーセント点を視覚的に推定する場合に役立ちます。

PROBPLOTステートメントはQ-Qプロットを作成します。Q-Qプロットは、並べ替えられた変数値を、指定した理論分布の分位点と比較します。Q-Qプロットは、分布パラメータを視覚的に推定する場合に役立ちます。

μ

σ

σ

μ σμ

σ

Page 396: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

392 第 4章 : UNIVARIATEプロシジャ

注:CLASSステートメントをこれらのプロットステートメントとともに使用して、プロットの比較バージョンを作成できます。

グラフを作成する別の方法

UNIVARIATEプロシジャは2種類のグラフ出力をサポートします。 • ODS Statistical Graphics出力は、PROCステートメントの前にODS GRAPHICS ONを指定するなどして、ODS Graphicsを有効にした場合に作成されます。

• それ以外の場合は、SAS/GRAPH® がライセンスされていれば、従来のグラフが作成されます。

従来的なグラフはグラフカタログに保存されます。これらの外観は、SAS/GRAPH GOPTIONS、AXISおよびSYMBOLの各ステートメント(SAS/GRAPH: Referenceで説明されています)と、多くの専用プロットステートメントオプションで制御します。

ODS Statistical Graphics (または略してODS Graphics)は、Output Delivery System (ODS)の拡張機能です。ODSは、プロシジャステートメントの前にODS GRAPHICSステートメントを指定することで有効にできます。ODS Graphicsは(グラフカタログではなく) ODS出力に作成されます。外観とレイアウトの詳細は、SAS/GRAPHステートメントとプロシジャオプションではなく、ODSスタイルとテンプレートで制御します。ODS Graphicsの詳細については、SAS/STAT 14.1 User's Guideの Chapter 21: StatisticalGraphics Using ODSを参照してください。

SAS 9.2より前は、UNIVARIATEプロシジャでデフォルトで作成されるプロットはごく基本的なものでした。見栄えのよいグラフ出力を作成するには、SAS/GRAPHステートメントとプロットステートメントオプションで指定する色、フォントなどの要素を慎重に選択する必要がありました。SAS 9.2からは、従来的なグラフのデフォルトの外観は適用されるODSスタイルによって制御され、見栄えがよく一貫性のある出力が自動的に出力されるようになりました。グラフの外観を制御するSAS/GRAPHステートメントおよびプロシジャオプションは、従来的なグラフに引き続き適用されます。NOGSTYLEシステムオプションを指定すると、ODSスタイルが従来的なグラフの外観に影響しないようにすることができます。これにより、既存のUNIVARIATEプロシジャプログラムで、以前のSASリリースのときと同じ外観のカスタマイズされたグラフを作成できます。

ODS Graphics出力の外観もODSスタイルで制御されますが、従来的なグラフに適用されるSAS/GRAPHステートメントまたはプロットステートメントオプションの影響は受けません。たとえば、従来的なグラフの軸の色の指定に使用されるCAXIS=オプションは、ODS Graphics出力の作成時には無視されます 注: 注:従来のグラフでは使用可能ですがODS Graphicsではサポートされない機能があります。

従来的なグラフシステムでは簡単なプロシジャ構文を使用して、グラフの詳細をすべて制御できます。ODSGraphicsでは最小限の構文で最高品質の出力を作成でき、SAS/STATおよびSAS/ETSプロシジャで作成されるグラフとの完全な互換性を提供します。

次のコードは、データ分布の要約のセクションで説明しているLoanToValueRatioデータの当てはめた対数正規分布を含むヒストグラムを作成します。

options nogstyle; ods graphics off; proc univariate data=HomeLoans noprint;

histogram LoanToValueRatio / lognormal; inset lognormal(theta sigma zeta) / position=ne;

run;

NOGSTYLEシステムオプションは、ODSスタイルが出力に影響しないようにします。また、プロットの外観に影響するSAS/GRAPHステートメントやプロシジャオプションは指定されていません。図 4.8は生成されるヒストグラムを示しています。このヒストグラムは、SAS 9.2より前のリリースで作成されるデフォルト出力と基本的に同じです。

Page 397: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 393

図 4.8 NOGSTYLEによる従来的なグラフ

Page 398: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

394 第 4章 : UNIVARIATEプロシジャ

図 4.9は、GSTYLEシステムをオンにした場合(デフォルト)の同じコードの実行結果を示しています。ヒストグラムの外観に対するODSスタイルの影響に注意してください。デフォルトで、テキストの画質がよくなったり、ヒストグラムのバーが塗りつぶされたりしています。

図 4.9 GSTYLEによる従来的なグラフ

Page 399: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 395

図 4.10は、ODS Graphicsを使って作成した同じヒストグラムを示しています。ヒストグラムの外観には図4.9と同じスタイル要素が適用されますが、プロットは同じではありません。たとえば、ODS Graphics出力にはタイトルが挿入され、当てはめた曲線の外観が滑らかになっています。

図 4.10 ODS Graphics出力のオプション

CLASSステートメントを使用した比較プロットの作成

CLASSステートメントをCDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTステートメントとともに使用すると、UNIVARIATEプロシジャはプロットの比較バージョンを作成します。これらのプロットステートメントをCLASSステートメントとともに使用して、一元および二元比較プロットを作成できます。CLASS変数を1つ使用すると、分類変数の水準ごとに1つずつ、成分プロットの配列が縦に積み上げるか横に並べて表示されます。CLASS変数を2つ使用すると、分類変数の水準の組み合わせごとに1つずつ、成分プロットの行列が表示されます。特定の水準のオブザベーションのことを集合的にセルと呼びます。

一元比較プロットを作成する場合、入力データセット内のオブザベーションは、ORDER=オプションで指定した方法で並べ替えられます。水準ごとに分析変数値のプロットが1つずつ作成され、同じ水平軸および垂直軸を持つ比較プロットを形成する配列に、これらの成分プロットが配置されます。例4.15を参照してください。

二元比較プロットの作成では、指定した変数の値(水準)に応じて、入力データセット内のオブザベーションが交差分類されます。交差分類のセルごとに分析変数値のプロットが1つずつ作成され、同じ水平軸と垂直軸を持つ比較プロットを形成する行列に、これらの成分プロットが配置されます。最初のCLASS変数の水準が行列の行のラベルで、2番目のCLASS変数の水準が行列の列のラベルです。例4.16を参照してください。

Page 400: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

396 第 4章 : UNIVARIATEプロシジャ

UNIVARIATEプロシジャでは、二元比較プロットのレイアウトを決定するときに、最初のCLASS変数の順序に基づいて上から下方向の行の順序が決まります。次に、2番目のCLASS変数の順序が、最初の行に対応するオブザベーションに適用され、左から右方向の列の順序が決まります。一部の列が並べ替えられなかった場合(カテゴリが対応していない場合)は、2番目のCLASS変数の順序が2行目のオブザベーションに適用されます。すべての列の並べ替えが完了するまで、同様の操作が繰り返されます。

CLASS変数にラベルを関連付けると、比較プロットに変数のラベルが表示されます。このラベルは、列(または行)ラベルに対応しています。

欠損値を有効な水準として処理するには、MISSINGオプションを使用します。

分類水準の数を減らすには、FORMATステートメントを使用して変数値を組み合わせます。

インセットの配置

方位点の値を使用してインセットを配置する

方位点の位置を使用してインセットを配置するには、値N、NE、E、SE、S、SW、W、NWのいずれかをPOSITION=オプションとともに指定します。インセットのデフォルトの位置はNWです。次のステートメントは、8つの方位点のインセットの位置を示すヒストグラムを作成します。

data Score;input Student PreTest PostTest @@;label ScoreChange = 'Change in Test Scores';ScoreChange = PostTest - PreTest;

datalines;Capalleti 94 91 Dubose 51 65 Engles 95 97 Grant 63 75 Krupski 80 75 Lundsford 92 55 Mcbane 75 78 Mullen 89 82 Nguyen 79 76 Patel 71 77 Si 75 70 Tanaka 87 73 ;

title 'Test Scores for a College Course';ods graphics off; proc univariate data=Score noprint;

histogram PreTest / midpoints = 45 to 95 by 10; inset n / cfill=blank

header='Position = NW' pos=nw; inset mean / cfill=blank

header='Position = N ' pos=n ; inset sum / cfill=blank

header='Position = NE' pos=ne; inset max / cfill=blank

header='Position = E ' pos=e ; inset min / cfill=blank

header='Position = SE' pos=se; inset nobs / cfill=blank

header='Position = S ' pos=s ; inset range / cfill=blank

header='Position = SW' pos=sw; inset mode / cfill=blank

header='Position = W ' pos=w ; label PreTest = 'Pretest Score';

run;

Page 401: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 397

図 4.11 インセットの方位点

Page 402: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

398 第 4章 : UNIVARIATEプロシジャ

余白にインセットを配置する

プロット領域の周囲の4つの余白のいずれかにインセットを配置するには、値LM、RM、TM、BMのいずれかをPOSITION=オプションとともに指定します。余白への配置は、INSETステートメントで多くの統計量をリストする場合にお勧めします。プロット領域内に長いインセットを表示しようとすると、インセットがデータ表示の妨げになりやすくなります。

座標を使用してインセットを配置する

座標を使用してインセットを配置するには、POSITION=(x,y)を使用します。座標は軸データ単位または軸パーセンテージ単位(デフォルト)で指定します。注: ODS Graphics出力を作成する場合、座標を使用してインセットを配置することはできません。

DATAオプションを座標の直後に指定すると、UNIVARIATEプロシジャは軸データ単位を使用してインセットを配置します。たとえば、次のステートメントは、水平軸で45、垂直軸で10の位置にインセットの左下端を配置します。

title 'Test Scores for a College Course'; proc univariate data=Score noprint;

histogram PreTest / midpoints = 45 to 95 by 10; inset n / header = 'Position=(45,10)'

position = (45,10) data; run;

図 4.12 インセットの座標位置

デフォルトでは、指定した座標はインセットの左下端の位置を決定します。この参照ポイントを変更するには、REFPOINT=オプションを使用します(後述)。

DATAオプションを省略すると、UNIVARIATEプロシジャは軸パーセンテージ単位を使用してインセットを配置します。軸パーセンテージ単位の座標は0から100である必要があります。ディスプレイの左下端の座

Page 403: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 399

標は(0,0)で、右上端の座標は(100, 100)です。たとえば、次のステートメントはヒストグラムを作成し、軸パーセンテージ単位の座標を使用して2つのインセットを配置します。

title 'Test Scores for a College Course'; proc univariate data=Score noprint;

histogram PreTest / midpoints = 45 to 95 by 10;inset min / position = (5,25)

header = 'Position=(5,25)' refpoint = tl;

inset max / position = (95,95) header = 'Position=(95,95)' refpoint = tr;

run;

REFPOINT=オプションは、POSITION=オプションで指定した座標に配置するインセットの端を決定します。最初のインセットではREFPOINT=TLを使用しているため、水平軸方向が5%、垂直軸方向が25%の位置に、インセットの左上端が配置されます。2番目のインセットではREFPOINT=TRを使用しているため、水平軸方向が95%、垂直軸方向が95%の位置に、インセットの右上端が配置されます。

図 4.13 インセットの参照ポイント

これらの例のサンプルプログラムunivar3.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Page 404: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

400 第 4章 : UNIVARIATEプロシジャ

当てはめた連続分布の計算式

次のセクションでは、HISTOGRAMステートメントで当てはめることができるパラメトリックな分布族の情報を示します。これらの分布の特性については、Johnson、KotzおよびBalakrishnan (1994、1995)により説明されています。

ベータ分布

適合する密度関数は次のようになります。

ここで、 および

=下限しきい値パラメータ(下限端点パラメータ)

=尺度パラメータ ( >0)

=形状パラメータ( >0)

=形状パラメータ ( >0)

h ヒストグラム間隔の幅

v 垂直比率

および

注: この表記は、HISTOGRAMステートメントを使って当てはめる他の分布の表記と一貫性があります。ただし、Johnson、KotzおよびBalakrishnan (1995)など多くのテキストで、ベータ密度関数は次のように記述されています。

これら2つのパラメータ化には次のような関係があります。

= b - a

= a

= p

= q

ベータ分布の範囲の下限はしきい値パラメータ = aで、上限は + = bです。BETAオプションを使用して当てはめたベータ曲線を指定する場合、 は最小データ値より小さく、 + は最大データ値より大きい必要があります。 および は、キーワードBETAの後のかっこ内のTHETA= / SIGMA= beta-optionsで指定できます。デフォルトでは、 =1および =0です。THETA=ESTおよびSIGMA=ESTを指定すると、 および の最尤推定値が計算されます。ただし、3パラメータおよび4パラメータの最尤推定は、収束するとは限りません。

θ

σ σ

α α

β β

σ

θ

α

β

θ θ σθ θ σ

θ σσ θ θ

σ

Page 405: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 401

また、 および \は、それぞれALPHA=および BETA= beta-optionsで指定できます。デフォルトでは、および の最尤推定値が計算されます。たとえば、下限が32、上限が212のデータセットに、 および の最尤推定値を使用するベータ密度曲線を当てはめるには、次のステートメントを使用します。

histogram Length / beta(theta=32 sigma=180);

ベータ分布は、Pearson Type IまたはType II分布とも呼ばれます。これには、べき関数分布( =1)、逆正弦分布( = =1/2、一般化逆正弦分布( + =1)などが含まれます。

ベータ分布の分位点はDATAステップ関数QUANTILEを使用して、ベータ分布の確率はDATAステップ関数CDFを使用して計算できます。

指数分布

適合する密度関数は次のようになります。

ここで、

=しきい値パラメータ

=尺度パラメータ ( >0)

h =ヒストグラム間隔の幅

v =垂直比率

および

し き い 値 パ ラ メ ー タ は、最 小 デ ー タ 値 以 下 で あ る 必 要 が あ り ま す。 は、THRESHOLD=exponential-optionで指定できます。デフォルトは =0です。THETA=ESTを指定すると、 の最尤推定値が計算されます。また、 はSCALE= exponential-optionを使用して指定できます。デフォルトでは、の最尤推定値が計算されます。著者によっては、尺度パラメータを1/ と定義している場合があります。

指数分布は、特殊なケースのガンマ分布(a =1の場合)およびWeibull分布(c=1の場合)です。関連分布は極値分布です。Y=exp (-X)が指数分布である場合、Xは極値分布です。

指数分布の分位点はDATAステップ関数QUANTILEを使用して、指数分布の確率はDATAステップ関数CDFを使用して計算できます。

ガンマ分布

適合する密度関数は次のようになります。

ここで、

=しきい値パラメータ

=尺度パラメータ ( >0)

α βα β α β

βα β α β

θ

σ σ

θ θθ θ

σσ σ

θ

σ σ

Page 406: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

402 第 4章 : UNIVARIATEプロシジャ

=形状パラメータ ( >0)

h ヒストグラム間隔の幅

v 垂直比率

および

し き い 値 パ ラ メ ー タ は、最 小 デ ー タ 値 未 満 で あ る 必 要 が あ り ま す。 は、THRESHOLD=gamma-optionで指定できます。デフォルトは =0です。THETA=ESTを指定すると、 の最尤推定値が計算されます。また、 および は、それぞれSCALE=およびALPHA= gamma-optionsで指定できます。デフォルトでは、 および の最尤推定値が計算されます。

ガンマ分布はPearson Type III分布とも呼ばれ、カイ2乗、指数およびErlangの各分布が含まれます。カイ2乗分布の確率密度関数は次のとおりです。

これは、 = v/2、 =2、 =0のガンマ分布であることに注意してください。指数分布は =1のガンマ分布であり、Erlang分布は が正の整数のガンマ分布です。関連分布はレイリー分布です。 の場合(ここでXiは独立した変数)、は次の確率密度関数に従う分布になります。

v =2の場合、前述の分布はレイリー分布と呼ばれます。

ガンマ分布の分位点はDATAステップ関数QUANTILEを使用して、ガンマ分布の確率はDATAステップ関数CDFを使用して計算できます。

Gumbel分布

適合する密度関数は次のようになります。

ここで、

= 位置パラメータ

= 尺度パラメータ ( >0)

h =ヒストグラム間隔の幅

v = 垂直比率

および

α α

θ θθ θ

σ ασ α

α σ θ αα

μ

σ σ

Page 407: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 403

および は、それぞれMU=およびSIGMA= Gumbel-optionsで指定できます。デフォルトでは、これらのパラメータの最尤推定値が計算されます。

注:Gumbel分布は Type 1極値分布とも呼ばれます。

注:乱数変数 Xが Gumbel (Type 1極値 )分布になるのは、e XがWeibull分布で exp ((X- )/ )が標準指数分布である場合のみです。

逆ガウス分布

適合する密度関数は次のようになります。

ここで、

= 位置パラメータ ( >0)

= 形状パラメータ ( >0)

h = ヒストグラム間隔の幅

v = 垂直比率

および

位置パラメータ は、0より大きい必要があります。 は、MU= iGauss-optionで指定できます。また、形状パラメータ は、LAMBDA= iGauss-optionで指定できます。デフォルトでは、 および の最尤推定値が計算されます。

注:特殊なケース ( =1および = の場合 )では、Wald分布に一致します。

逆ガウス分布の分位点はDATAステップ関数QUANTILEを使用して、逆ガウス分布の確率はDATAステップ関数CDFを使用して計算できます。

対数正規分布

適合する密度関数は次のようになります。

ここで、

=しきい値パラメータ

= 尺度パラメータ ( < < )

= 形状パラメータ ( >0)

h = ヒストグラム間隔の幅

v = 垂直比率

μ σ

μ σ

μ μ

λ λ

μ μλ μ λ

μ λ Φ

θ

ζ ∞ ζ ∞

σ σ

Page 408: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

404 第 4章 : UNIVARIATEプロシジャ

および

しきい値パラメータ は、最小データ値未満である必要があります。 は、THRESHOLD= lognormal-optionで指定できます。デフォルトは =0です。THETA=ESTを指定すると、 の最尤推定値が計算されます。 および は、それぞれSCALE=およびSHAPE= lognormal-optionsで指定できます。デフォルトでは、これらのパラメータの最尤推定値が計算されます。

注:対数正規分布は、Johnson系分布では SL分布とも呼ばれます。

注:このマニュアルでは、対数正規分布の形状パラメータを で表記していますが、他の分布の尺度パラメータの表記でも を使用しています。対数正規分布の形状パラメータの表記に を使用するのは、Xが対数正規分布である場合に、 が標準正規分布になることに基づいています。この関係に基づき、対数正規分布の分位点はDATAステップ関数 PROBIT、確率はDATAステップ関数 PROBNORMを使用して計算できます。

正規分布

適合する密度関数は次のようになります。

ここで、

=平均

= 標準偏差 ( >0)

h =ヒストグラム間隔の幅

v =垂直比率

および

および はそれぞれMU=およびSIGMA= normal-optionsで指定できます。デフォルトでは、 を標本平均で、 を標本標準偏差で推定します。

正規分布の分位点はDATAステップ関数QUANTILEを使用して、正規分布の確率はDATAステップ関数CDFを使用して計算できます。

注:正規分布は、Johnson系分布では SN分布とも呼ばれます。

一般化パレート分布

適合する密度関数は次のようになります。

ここで、

θ θθ θ

ζ θ

σσ σ

μ

σ σ

μ σ μσ

Page 409: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 405

= しきい値パラメータ

= 形状パラメータ

= 形状パラメータ ( >0)

h = ヒストグラム間隔の幅

v = 垂直比率

および

分布のサポートは、x>0 ( の場合)および0<x< / ( >0の場合)です。

注:特殊なケースのパレート分布 ( =0および =1の場合 )は、平均 の指数分布および間隔 (0, )の一様分布にそれぞれ対応します。

しきい値パラメータ は、最小データ値未満である必要があります。 は、THETA= Pareto-optionで指定できます。デフォルトは =0です。 および は、それぞれALPHA=およびSIGMA= Pareto-optionsでも指定できます。デフォルトでは、これらのパラメータの最尤推定値が計算されます。

注:パラメータの最尤推定量は <1/2の場合は有効ですが、それ以外の場合は有効ではありません。この場合、推定量は漸近的に正規分布に従い、漸近的に有効になります。漸近正規分布に従う最尤推定値では、平均は ( , )となり、分散共分散行列は次のようになります。

注:次の空間で極小がない場合、

最尤推定量は存在しません。最尤推定量の算出方法および推奨アルゴリズムの詳細は、Grimshaw(1993)で説明されています。

べき関数分布

適合する密度関数は次のようになります。

ここで、

= 下限しきい値パラメータ(下限端点パラメータ)

= 尺度パラメータ ( >0)

= 形状パラメータ ( >0)

h = ヒストグラム間隔の幅

v = 垂直比率

および

θ

α

σ σ

α 0≤ σ α α

α α σ σ

θ θθ σ σ

α

α σ

θ

σ σ

α α

Page 410: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

406 第 4章 : UNIVARIATEプロシジャ

注:この表記は、HISTOGRAMステートメントを使って当てはめる他の分布の表記と一貫性があります。ただし、Johnson、Kotzおよび Balakrishnan (1995)など多くのテキストで、べき関数分布の密度関数は次のように記述されています。

これら2つのパラメータ化には次のような関係があります。

= b - a

= a

= p

注: べき関数分布族は、次の密度関数のベータ分布の部分集合です。

ここで、 であり、パラメータ =1です。したがって、ベータ分布の特性および推定手順がすべて適用されます。

べき関数分布の範囲の下限はしきい値パラメータ = aで、上限は + = bです。POWERオプションを使用して当てはめたべき関数曲線を指定する場合、 は最小データ値より小さく、 + は最大データ値より大きい必要があります。 および は、キーワードPOWERの後のかっこ内のTHETA= / SIGMA=power-optionsで指定できます。デフォルトでは、 =1および =0です。THETA=ESTおよびSIGMA=ESTを指定すると、 および の最尤推定値が計算されます。ただし、3パラメータの最尤推定は、収束するとは限りません。

また、 はALPHA= power-optionを使用して指定できます。デフォルトでは、 の最尤推定値が計算されます。たとえば、下限が32、上限が212のデータに、 の最尤推定値を使用するべき関数密度曲線を当てはめるには、次のステートメントを使用します。

histogram Length / power(theta=32 sigma=180);

レイリー分布

適合する密度関数は次のようになります。

ここで、

= 下限しきい値パラメータ(下限端点パラメータ)

= 尺度パラメータ ( >0)

h =ヒストグラム間隔の幅

v = 垂直比率

σ

θ

α

β

θ θ σθ θ σ

θ σσ θ

θ σ

α αα

θ

σ σ

Page 411: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 407

および

注:レイリー分布は、次の密度関数のWeibull分布です。

形状パラメータはk=2で、尺度パラメータは です。

しきい値パラメータ は、最小データ値未満である必要があります。 は、THETA= Rayleigh-optionで指定できます。デフォルトは =0です。また、 は、SIGMA= Rayleigh-optionでも指定できます。デフォルトでは、 の最尤推定値が計算されます。

たとえば、下限が32のデータセットに の最尤推定値を使用するレイリー密度曲線を当てはめるには、次のステートメントを使用します。

histogram Length / rayleigh(theta=32);

Johnson SB分布

適合する密度関数は次のようになります。

ここで、

= しきい値パラメータ(- < < )

= 尺度パラメータ ( > 0)

= 形状パラメータ ( >0)

= 形状パラメータ (- < < )

h = ヒストグラム間隔の幅

v = 垂直比率

および

SB分布の下限はパラメータ で、上限は値 + です。パラメータ は最小データ値未満である必要があります。 は、THETA=SB-optionで指定できます。または、THETA = ESTの -optionを使用すると、SBの推定を要求できます。 のデフォルト値は0です。合計 + は最小データ値よりも大きくなければなりません。 のデフォルト値は0です。 は、SIGMA= SB-optionで指定できます。または、SIGMA = ESTの

-optionを使用すると、SBの推定を要求できます。

θ θθ σ

σ

σ

θ ω θ ω

σ σ

δ δ

γ ω γ ω

θ θ σ θθ θ

θ θ σσ σ

σ

Page 412: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

408 第 4章 : UNIVARIATEプロシジャ

デフォルトでは、Slifker and Shapiro (1980)が示したパーセント点の方式を使用して、パラメータが推定されます。この方式は、x-3z、x-z、xz、x3zで表される4つのデータパーセント点に基づいており、変換時にx-3z、x-z、xz、x3zで表される、標準正規分布の4つの均等間隔のパーセント点にそれらが対応しています。

zのデフォルト値は0.524です。当てはめの結果はzの選択に依存するため、FITINTERVAL=オプションを使用して他の値を(SBオプションの後にかっこで囲んで)指定できます。パーセント点法を使用する場合には、アプリケーションにとって重要なパーセント点に対応するzの値を選択することが必要です。

次の値は、データパーセント値から計算されます。

これはSlifker and Shapiro (1980)により証明されました。

プラスマイナス1の許容誤差区分を使用することにより、この比条件で3つのファミリ間を区別します。許容誤差は、FITTOLERANCE=オプションで指定できます(SBオプションの後にかっこで囲んで指定します)。デフォルトの許容誤差は0.01です。この基準は、次の不等式を満たすとします。

SB分布のパラメータを計算するには、Slifker and Shapiro (1980)により導出された明示的な公式を使用します。

FITMETHOD = MOMENTSを(SBオプションの後にかっこで囲んで)指定すると、積率法がパラメータ推定に使用されます。FITMETHOD = MLEを(SBオプションの後にかっこで囲んで)指定すると、最尤法がパラメータ推定に使用されます。ただし、最尤推定値は必ず存在するとは限りません。Johnson分布を当てはめる方法については、Bowman and Shenton (1983)を参照してください。

Johnson SU分布

適合する密度関数は次のようになります。

ここで、

= 位置パラメータ (- < < )

= 尺度パラメータ ( > 0)

= 形状パラメータ ( >0)

= 形状パラメータ (- < < )

h = ヒストグラム間隔の幅

θ ω θ ω

σ σ

δ δ

γ ω γ ω

Page 413: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 409

v =垂直比率

および

パラメータは、THETA= / SIGMA= / DELTA= / GAMMA= SU-optionsで指定できます。これらのオプションはSUオプションの後にかっこで囲んで指定します。これらのパラメータを指定しなかった場合は、それぞれ推定されます。

デフォルトでは、Slifker and Shapiro (1980)が示したパーセント点の方式を使用して、パラメータが推定されます。この方式は、x-3z、x-z、xz、x3zで表される4つのデータパーセント点に基づいており、変換時に-3z、-z、z、3zで表される、標準正規分布の4つの均等間隔のパーセント点にそれらが対応しています。

zのデフォルト値は0.524です。当てはめの結果はzの選択に依存するため、FITINTERVAL=オプションを使用して他の値を(SUオプションの後にかっこで囲んで)指定できます。パーセント点法を使用する場合には、アプリケーションにとって重要なパーセント点に対応するzの値を選択することが必要です。

次の値は、データパーセント値から計算されます。

これはSlifker and Shapiro (1980)により証明されました。

プラスマイナス1の許容誤差区分を使用することにより、この比条件で3つのファミリ間を区別します。許容誤差は、FITTOLERANCE=オプションで指定できます(SUオプションの後にかっこで囲んで指定します)。デフォルトの許容誤差は0.01です。この基準は、次の不等式を満たすとします。

SU分布のパラメータを計算するには、Slifker and Shapiro (1980)により導出された明示的な公式を使用します。

FITMETHOD = MOMENTSを(SUオプションの後にかっこで囲んで)指定すると、積率法がパラメータ推定に使用されます。FITMETHOD = MLEを(SUオプションの後にかっこで囲んで)指定すると、最尤法がパラメータ推定に使用されます。ただし、最尤推定値は必ず存在するとは限りません。Johnson分布を当てはめる方法については、Bowman and Shenton (1983)を参照してください。

Weibull分布

適合する密度関数は次のようになります。

ここで、

Page 414: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

410 第 4章 : UNIVARIATEプロシジャ

= しきい値パラメータ

= 尺度パラメータ ( >0)

c = 形状パラメータ (c >0)

h = ヒストグラム間隔の幅

v = 垂直比率

および

し き い 値 パ ラ メ ー タ は、最 小 デ ー タ 値 未 満 で あ る 必 要 が あ り ま す。 は、THRESHOLD=Weibull-optionで指定できます。デフォルトは =0です。THETA=ESTを指定すると、 の最尤推定値が計算されます。 およびcは、それぞれ、SCALE=およびSHAPE= Weibull-optionsで指定できます。デフォルトでは、 およびcの最尤推定値をプロシジャが計算します。

指数分布は、特殊なケースのWeibull分布(c=1の場合)です。

Weibull分布の分位点はDATAステップ関数QUANTILEを使用して、Weibull分布の確率はDATAステップ関数CDFを使用して計算できます。

適合度検定

PROC UNIVARIATEステートメントでNORMALオプションを指定した場合や、HISTOGRAMステートメントで当てはめたパラメトリックな分布を要求した場合、分析変数の値が指定した理論分布からの無作為抽出であるという帰無仮説の適合度検定が計算されます。例4.22を参照してください。

NORMALオプションを指定した場合、これらの検定は"Tests for Normality"というラベルの出力テーブルに要約され、次の検定が含まれます。

• Shapiro-Wilk検定 • Kolmogorov-Smirnov検定 • Anderson-Darling検定 • Cramér-von Mises検定

Kolmogorov-Smirnov D統計量、Anderson-Darling統計量およびCramér-von Mises統計量は、経験分布関数(EDF)に基づきます。ただし、指定した分布で特定の組み合わせのパラメータを推定する場合に、EDF検定がサポートされないことがあります。使用できるEDF検定の一覧は、表4.31を参照してください。帰無仮説を棄却するかどうかは、適合度検定に関連付けられているp値を調べることにより判断できます。p値が事前に定義された基準値( )より小さい場合は、帰無仮説を棄却し、指定した分布からのデータではなかったと判断します。

分散分析法の正規性の仮定を検定する場合は、正規性の統計的検定を単独で使用するよう注意します。帰無仮説を棄却する検定力(検定の検出力として知られる)は、標本サイズに応じて高くなります。標本サイズが大きくなるほど、正規性からの小さな乖離を検出できます。正規性からの小さな偏差は分散性の分析検定の妥当性にはそれほど大きく影響しないため、他の統計量やプロットを調査して正規性の最終評価を行うことが重要です。歪度および尖度の測定値と、PLOTS オプション、HISTOGRAM ステートメント、PROBPLOTステートメント、QQPLOTステートメントで得られるプロットが大変役立ちます。標本サイズが小さい場合、重要な正規性からの大きな乖離の検出力が低い場合があります。このような偏差の検定力

θ

σ σ

θ θθ θ

σσ

α

Page 415: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 411

を高くするには、よく使用される0.05の有意水準ではなく、0.15や0.20などの高い有意水準を使用する必要のある場合があります。この場合も、プロットや他の統計量を調べると、正規性からの偏差の大きさの評価に役立ちます。

Shapiro-Wilk統計量

標本サイズが 2000 以下の場合にNORMAL オプションを指定すると、UNIVARIATE プロシジャはShapiro-Wilk統計量W (標本サイズnに依存することを強調するためにWnとも表記されます)を計算します。W統計量は、分散の通常の修正平方和推定量に対する、(順序統計量の線形結合の2乗に基づく)分散の最良推定量の比率です(Shapiro and Wilk 1965)。nが3より大きい場合、順序統計量の線形結合を計算するための係数は、Royston (1992)法により近似されます。統計量Wは、常に0より大きく1以下です( )。

Wの値が小さい場合、正規性の帰無仮説は棄却されます。Wは片寄りの大きい分布です。一見すると大きいWの値(0.90など)が小さいと見なされ、帰無仮説の棄却が導き出される場合があります。p値(観測値以下のW統計量を取得する確率)の計算方法はnに依存します。n = 3の場合、Wの確率分布は既知であるためp値の決定に使用されます。n>4の場合、正規化変換が次のように計算されます。

、 、および の値は、シミュレーション結果から得られるnの関数です。Znの値が大きい場合は正規性から乖離していることを示し、統計量Znはほぼ標準正規分布であることから、この分布を使用してn>4のp値が決定されます。

EDF適合度検定

パラメトリックな分布を当てはめた場合、UNIVARIATEプロシジャは経験分布関数(EDF)に基づく一連の適合度検定を出力します。EDF検定は検出力が高く、ヒストグラムの中間点によって検定結果が変わらないなどの点で従来的なカイ2乗検定より優れています。詳細は、D’ Agostino and Stephens (1986)を参照してください。

経験分布関数は、n個の独立したオブザベーションの セットに対して、F(x)一般的な分布関数で定義されます。オブザベーションは、 のように昇順に表記します。経験分布関数Fn(x)は、次のように定義されます。

Fn(x)は、オブザベーションごとに高さ のステップを取る関数です。この関数は分布関数F(x)を推定します。任意の値xにおいて、Fn(x)はx以下の比率であり、F(x)はx以下のオブザベーションの確率です。EDF統計量は、Fn(x)とF(x)の間のディスクレパンシを測定します。

EDF統計量の計算式では、確率積分変換U=F(X)を利用します。F(X)がXの分布関数である場合、乱数変数Uは0から1までの間の均等な分布になります。

n個のオブザベーション がある場合、値U(i)=FX(i)は、次の3つのセクションで説明するように、変換を適用して計算されます。

UNIVARIATEプロシジャでは、次の3つのEDF検定を行うことができます。 • Kolmogorov-Smirnov • Anderson-Darling

σ γ μ

Page 416: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

412 第 4章 : UNIVARIATEプロシジャ

• Cramér-von Mises

次のセクションで、これらのEDF統計量の計算式の定義を示します。

Kolmogorovの D統計量

Kolmogorov-Smirnov統計量(D)は次のように定義されます。

Kolmogorov-Smirnov統計量は、EDF統計量の上限値クラスに属します。この統計量のクラスは、F(x)とFn(x)の垂直方向の最大差に基づきます。

Kolmogorov-Smirnov統計量は、D+およびD-の最大値として計算されます。ここで、D+はEDFが分布関数より大きい場合のEDFと分布関数の間の最大垂直距離、D-はEDFが分布関数より小さい場合の最大垂直距離です。

UNIVARIATEプロシジャでは、修正済みKolmogorov D統計量を使用して、平均および分散が標本と等しい正規分布に対してデータを検定します。

Anderson-Darling統計量

Anderson-Darling統計量およびCramér-von Mises統計量は、EDF統計量の2次クラスに属します。この統計量のクラスは、2乗差(Fn(x)- F(x))2に基づきます。2次統計量の一般形は次のとおりです。

関数 は2乗差(Fn(x)-F(x))2を重み付けします。

Anderson-Darling統計量(A2)は次のように定義されます。

ここで、重み関数は です。

Anderson-Darling統計量は次のように計算されます。

Cramér-von Mises統計量

Cramér–von Mises統計量(W2)は次のように定義されます。

ここで、重み関数は です。

Cramér-von Mises統計量は次のように計算されます。

Page 417: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 413

EDF検定の確率値

EDF検定統計量が計算されると、UNIVARIATEプロシジャは関連する確率値(p値)を計算します。

Gumbel、逆ガウス、一般化パレート、レイリー分布の場合、UNIVARIATEプロシジャは、推定した分布から再サンプリングすることによって、関連する確率値(p値)を計算します。デフォルトでは、500個のEDF検定統計量が計算され、指定した (当てはめた ) 分布のEDF 検定統計量と比較されます。標本数は、EDFNSAMPLES=nの設定によって制御できます。たとえば、5000個のシミュレーションに基づく、Gumbel分布の適合度検定のp値を要求するには、次のステートメントを使用します。

proc univariate data=test; histogram / gumbel(edfnsamples=5000);

run;

ベータ、指数、ガンマ、対数正規、正規、べき関数、Weibull分布の場合、UNIVARIATEプロシジャは、D’ AgostinoおよびStephens (1986)によって示されたものと似た確率水準の内部テーブルを使用します。値が2つの確率水準の間の場合、線形補間を使用して確率値が推定されます。

確率値は、既知のパラメータと分布に対して推定されたパラメータに依存します。表4.32は、さまざまな当てはめた組み合わせに対して、EDF検定を使用できるかどうかをまとめたものです。

表 4.32 EDF検定の使用可能性

分布 パラメータ 使用可能な検定

THRESHOLD 尺度 形状

ベータ 既知 既知 , 既知 すべて

既知 既知 , <5 未知 すべて

指数 既知 既知 すべて

既知 未知 すべて

未知 既知 すべて

未知 未知 すべて

ガンマ 既知 既知 既知 すべて

既知 未知 既知 すべて

既知 既知 未知 すべて

既知 未知 >1 未知 すべて

未知 既知 >1 既知 すべて

未知 未知 >1 既知 すべて

未知 既知 >1 未知 すべて

未知 未知 >1 未知 すべて

θ σ α β

θ σ α β

θ σ

θ σ

θ σ

θ σ

θ σ α

θ σ α

θ σ α

θ σ α

θ σ α

θ σ α

θ σ α

θ σ α

Page 418: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

414 第 4章 : UNIVARIATEプロシジャ

核密度推定

KERNELオプションを使用すると、核密度推定をヒストグラムに重ねて表示できます。核密度推定を使用してデータ分布を平滑化すると、ヒストグラムを使用するよりも効率的に、ヒストグラムビンの選択またはサンプリングの変化によって隠される可能性のある特徴を識別できます。また、核密度推定は、プロセス分布が多峰性である場合も、パラメトリックな曲線の当てはめより効率的です。例4.23を参照してください。

核密度推定量の一般形は次のとおりです。

ここで、

対数正規 既知 既知 既知 すべて

既知 既知 未知 A2 および W2

既知 未知 既知 A2 および W2

既知 未知 未知 すべて

未知 既知 >3 既知 すべて

未知 既知 <3 未知 すべて

未知 未知 >3 既知 すべて

未知 未知 <3 未知 すべて

正規 既知 既知 すべて

既知 未知 A2 および W2

未知 既知 A2 および W2

未知 未知 すべて

べき関数 既知 既知 既知 すべて

既知 既知 <5 未知 すべて

Weibull 既知 既知 c 既知 すべて

既知 未知 c 既知 A2 および W2

既知 既知 c 未知 A2 および W2

既知 未知 c 未知 A2 および W2

未知 既知 c>2 既知 すべて

未知 未知 c>2 既知 すべて

未知 既知 c>2 未知 すべて

未知 未知 c>2 未知 すべて

表 4.32 EDF検定の使用可能性(続き)

分布 パラメータ 使用可能な検定

THRESHOLD 尺度 形状

θ ζ σ

θ ζ σ

θ ζ σ

θ ζ σ

θ ζ σ

θ ζ σ

θ ζ σ

θ ζ σ

θ σ

θ σ

θ σ

θ σ

θ σ α

θ σ α

θ σ

θ σ

θ σ

θ σ

θ σ

θ σ

θ σ

θ σ

Page 419: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 415

K0 (.)核関数

区間幅

n 標本サイズ

xi 番目のオブザベーション

v = 垂直比率

および

KERNELオプションでは、正規、2次および3次の3つの核関数(K0)を使用できます。関数は、KERNELオプションの後のかっこで囲んだK= kernel-optionで指定できます。K=オプションの値は、NORMAL、QUADRATICおよびTRIANGULAR (それぞれ、別名はN、QおよびT)です。デフォルトでは、正規核関数が使用されます。核関数の計算式は次のとおりです。

の値は区間幅パラメータと呼ばれ、推定される密度関数の平滑度を決定します。 は、C= kernel-optionで標準化区間幅cを指定することにより、間接的に指定します。Qが四分位範囲で、nが標本サイズの場合、cと には次の式で表される関係があります。

特定の核関数では、密度推定量 と真密度f(x)の間のディスクレパンシは平均積分平方誤差(MISE)によって測定されます。

MISEは、2乗バイアスの積分と分散の合計です。漸近的平均積分平方誤差(AMISE)は次のとおりです。

AMISEが最小になる区間幅は、f(x)を、標本平均と標準偏差により推定されるパラメータ および を持つ正規密度として扱うことにより導かれます。区間幅パラメータを指定しなかった場合またはC=MISEを指定した場合は、AMISEが最小になる区間幅が使用されます。AMISEの値を使用して、異なる密度推定を比較することができます。また、C=SJPIを指定すると、SheatherおよびJones (Jones, Marron, and Sheather1996)のプラグイン式を使用して、区間幅を選択できます。推定ごとに、区間幅パラメータc、核関数の種類およびAMISEの値が、SASログにレポートされます。

一般的な核密度推定は、推定する密度の定義域が実数直線上ですべての値を取り得ることを前提にしています。しかし、密度の定義域が片側または両側で有界な間隔である場合があります。たとえば、変数Yが正の値のみの測定である場合、核密度曲線は負のY値に対して0になるように有界である必要があります。境界は、LOWER=およびUPPER= kernel-optionsで指定できます。

λ

λ λ

λ

μ σ

Page 420: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

416 第 4章 : UNIVARIATEプロシジャ

UNIVARIATEプロシジャは、Silverman (1986, pp. 30-31)の説明にあるように、反射法を使用して有界な核密度曲線を作成します。この方法では、境界の外側にある核密度の反射を、有界な核推定に追加します。有界な核密度推定量の一般形は、元の等式の を、次の式に置き換えることによって計算されます。

ここで、xlは下限、xuは上限です。

下限がない場合、 および です。同様に、上限がない場合、 およびです。

有界な核密度でC=MISEが使用されている場合、UNIVARIATEプロシジャは、非有界の核に対するAMISEが最小になる区間幅を使用します。

Q-Qプロットと確率プロットの作成

図 4.14は、指定した理論分布に対して、Q-Qプロットがどのように作成されるかを示しています。まず、その変数の値が欠損していないn個のオブザベーションが、次のように昇順に並べ替えられます。

次に、i番目の並べ替えられた値x(i)が、y座標がx(i)でそのx座標が である点としてプロットされます。ここで、F(.)は、位置パラメータおよび単位尺度パラメータが0である指定の分布です。

調整定数-0.375および0.25は、RANKADJ=およびNADJ=オプションで変更できます。このデフォルトの組み合わせは、Blom (1958)の推奨値です。詳細は、Chambers et al.(1983)を参照してください。x(i)は経験累積分布関数(ECDF)の分位点であるため、Q-QプロットではECDFの分位点を理論分布の分位点と比較します。確率プロット(PROBPLOTステートメントのセクションを参照)は、x軸の尺度が非線形のパーセント点であることを除き、同じように作成されます。

Page 421: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 417

図 4.14 Q-Qプロットの作成

Q-Qプロットと確率プロットの解釈

Q-Qプロットおよび確率プロットは次の特性があることにより、指定した理論分布が一連の測定にどの程度当てはまるか診断するときに役立ちます。

• 理論分布とデータ分布の分位点が一致している場合、プロットされる点は線 y = x上またはその近くにプロットされます。

• 理論分布とデータ分布の位置や尺度のみが異なる場合、プロット上の点は線 y = ax + b上またはその近くにプロットされます。傾き aと切片 bによって、理論分布の尺度および位置パラメータを視覚的に推定できます。

Q-Qプロットのx軸は線形の尺度なので、位置パラメータと尺度パラメータをグラフィカルに推定できるため、Q-Qプロットは確率プロットより使いやすく便利です。一方、確率プロットはパーセント点や確率を推定する場合に便利です。

Q-Qプロットの点のパターンが線形でない場合があることには、多くの理由があります。Chambers etal.(1983)とFowlkes (1987)は、一般的に検出される線形性からの乖離の解釈についての説明を表4.32のように要約しています。

場合によっては、線形パターンよりも非線形パターンが明瞭な場合があります。ただし、Chambers etal.(1983)は、線形性からの乖離が確率変動によって生じる場合もあることを指摘しています。

Page 422: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

418 第 4章 : UNIVARIATEプロシジャ

パターンが線形である場合、Q-Qプロットを使用して形状パラメータ、位置パラメータおよび尺度パラメータを推定したり、パーセント点を推定したりできます。例4.26から例4.34を参照してください。

確率プロットと Q-Qプロットの分布

PROBPLOTおよびQQPLOTステートメントを使用して、表4.34に要約されている理論分布に基づく、確率プロットとQ-Qプロットを要求できます。

表 4.33 Q-Qプロットの診断

点のパターンの説明 考えられる解釈

一部を除くすべての点が線上に存在 データの外れ値

パターンの左端が線より下、パターンの右端が線より上

両端の裾が長いデータ分布

パターンの左端が線より上、パターンの右端が線より下

両端の裾が短いデータ分布

左から右へ傾きが増える曲線状のパターン 右に片寄ったデータ分布

左から右へ傾きが減る曲線状のパターン 左に片寄ったデータ分布

段と蹴り上げのパターン(平坦および間隙) 丸められたデータまたは離散したデータ

Page 423: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 419

表 4.34 分布とパラメータ

これらの分布は、それぞれ、BETA、EXPONENTIAL、GAMMA、PARETO、GUMBEL、LOGNORMAL、NORMAL、POWER、RAYLEIGH、WEIBULL、WEIBULL2の各オプションで要求できます。分布オプションを指定しなかった場合、正規確率プロットまたは正規Q-Qプロットが作成されます。

次のセクションで、これらの分布に基づくQ-Qプロットの作成の詳細について説明します。確率プロットは、水平軸の尺度がパーセント点単位であることを除いて、同じように作成されます。

ベータ分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、 は逆正規化された不完全なベータ関数、nは非欠損オブザベーション数、 および はベータ分布の形状パラメータです。確率プロットでは、水平軸の尺度はパーセント単位になります。

ALPHA= およびBETA= のプロットのパターンは、データが次の特定の密度関数のベータ分布である場合、切片が で傾きが の線形になる傾向があります。

パラメータ

分布 密度関数 p(x) 範囲 位置 尺度 形状

ベータ

指数

ガンマ

Gumbel すべてのx

対数正規

(3 つのパラメータ)

正規 すべてのx

一般化

パレート すべてのx

べき関数

レイリー

Weibull (3つ の パ ラメータ)

c

Weibull

(2 つのパラメータ)

(既知)c

θ σ α β

θ σ

θ σ α

μ σ

θ ζ σ

μ σ

θ σ α

θ σ α

θ σ

θ σ

θ σ

θ σ

α β

α βθ σ

Page 424: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

420 第 4章 : UNIVARIATEプロシジャ

ここで、 および

= 下限のしきい値パラメータ

= 尺度パラメータ ( >0)

= 1番目の形状パラメータ ( >0)

= 2番目の形状パラメータ ( >0)

指数分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、nは非欠損オブザベーション数です。確率プロットでは、水平軸の尺度はパーセント単位になります。

プロットのパターンは、データが次の特定の密度関数の指数分布である場合、切片が で傾きが の線形になる傾向があります。

ここで、 はしきい値パラメータ、 は正の尺度パラメータです。

ガンマ分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、 は逆正規化された不完全なガンマ関数、nは非欠損オブザベーション数、 はガンマ分布の形状パラメータです。確率プロットでは、水平軸の尺度はパーセント単位になります。

ALPHA= のプロットのパターンは、データが次の特定の密度関数のガンマ分布である場合、切片が で傾きが の線形になる傾向があります。

ここで、

= しきい値パラメータ

= 尺度パラメータ ( >0)

= 形状パラメータ ( >0)

Gumbel分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、nは非欠損オブザベーション数です。確率プロットでは、水平軸の尺度はパーセント単位になります。

プロットのパターンは、データが次の特定の密度関数のGumbel分布である場合、切片が で傾きが の線形になる傾向があります。

θ

σ σ

α α

β β

θ σ

θ σ

θ

θ θσ

θ

σ σ

α α

μ σ

Page 425: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 421

= 位置パラメータ

= 尺度パラメータ ( >0)

対数正規分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、 は逆累積標準正規分布、nは非欠損オブザベーション数、 は対数正規分布の形状パラメータです。確率プロットでは、水平軸の尺度はパーセント単位になります。

SIGMA= のプロットのパターンは、データが次の特定の密度関数の対数正規分布である場合、切片が で傾きがexp ( )の線形になる傾向があります。

ここで、

= しきい値パラメータ

= 尺度パラメータ

= 形状パラメータ ( > 0)

例4.26および例4.33を参照してください。

正規分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、 は逆累積標準正規分布、nは非欠損オブザベーション数です。確率プロットでは、水平軸の尺度はパーセント単位になります。

プロットの点パターンは、データが次の特定の密度関数の正規分布である場合、切片が で傾きが の線形になる傾向があります。

ここで、 は平均、 は標準偏差です( > 0)。

一般化パレート分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 ( )または ( )に対してプロットされます。ここで、nは非欠損オブザベーション数、 は一般化パレート分布の形状パラメータです。水平軸の尺度はパーセント単位になります。

ALPHA= のプロットの点のパターンは、データが次の特定の密度関数の一般化パレート分布である場合、切片が で傾きが の線形になる傾向があります。

μ

σ σ

σ

σ θζ

θ

ζ

σ σ

μ σ

μ σ σ

α

αθ σ

Page 426: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

422 第 4章 : UNIVARIATEプロシジャ

ここで、 しきい値パラメータ 尺度パラメータ( >0) = 形状パラメータ ( >0)

べき関数分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、 は逆正規化された不完全なベータ関数、nは非欠損オブザベーション数、 はベータ分布の形状パラメータで、2番目の形状パラメータは = 1です。水平軸の尺度はパーセント単位になります。

ALPHA= のプロットの点のパターンは、データが次の特定の密度関数のべき関数分布である場合、切片がで傾きが の線形になる傾向があります。

ここで、

= しきい値パラメータ

= 形状パラメータ ( > 0)

= 形状パラメータ ( > 0)

レイリー分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、nは非欠損オブザベーション数です。水平軸の尺度はパーセント単位になります。

プロットの点のパターンは、データが次の特定の密度関数のレイリー分布である場合、切片が で傾きがの線形になる傾向があります。

ここで、 はしきい値パラメータ、 は正の尺度パラメータです。

3パラメータWeibull分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、i番目の並べ替えられたオブザベーションが分位点 に対してプロットされます。ここで、n は非欠損オブザベーション数、cWeibull分布の形状パラメータです。確率プロットでは、水平軸の尺度はパーセント単位になります。

C=cのプロットのパターンは、データが次の特定の密度関数のWeibull分布である場合、切片が で傾きがの線形になる傾向があります。

ここで、

θ σ σ θ θ

α β

αθ σ

θ

σ σ

α α

θσ

θ σ

θσ

Page 427: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 423

= しきい値パラメータ

= 尺度パラメータ ( >0)

c = 形状パラメータ ( c > 0 )

例l4.34を参照してください。

2パラメータWeibull分布

プロットを作成するため、オブザベーションは昇順に並べ替えられ、シフトしたi番目の並べ替えられたオブザベーションx(i)の対数(表示は )が分位点 に対してプロットされます。ここで、nは非欠損オブザベーション数です。確率プロットでは、水平軸の尺度はパーセント単位になります。

3パラメータWeibull分位点と異なり、前の式は分布パラメータを含みません。このため、C=形状パラメータはWEIBULL2分布オプションでは必須ではありません。

THETA= のプロットのパターンは、データが次の特定の密度関数のWeibull分布である場合、切片がで傾きが の線形になる傾向があります。

ここで、

0 = 既知の下限しきい値

= 尺度パラメータ ( >0)

c = 形状パラメータ (c >0)

例l4.34を参照してください。

Q-Qプロットを使用した形状パラメータの推定

PROBPLOTまたはQQPLOTステートメントの一部の分布オプションでは、1つまたは2つの形状パラメータを、分布キーワードの後にかっこで囲んで指定する必要があります。これらは、表4.34にまとめられています。

形状パラメータの値は、形状パラメータオプションで値のリストを指定することによって、視覚的に推定することができます。値ごとに個別のプロットが作成され、最も近い線形に近い点のパターンを作成する形状パラメータの値を選択できます。また、推定した形状パラメータによるプロットの作成を要求することもできます。PROBPLOTステートメントのオプションのリファレンスセクションおよびQQPLOTステートメントのオプションのリファレンスセクションの分布オプションの項目を参照してください。

注: WEIBULL2オプションを使用して作成したQ-Qプロットの場合、パターンの傾きが であることを利用して、線形パターンから形状パラメータcを推定できます。

θ

σ σ

θ

θ

σ σ

Page 428: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

424 第 4章 : UNIVARIATEプロシジャ

Q-Qプロットを使用した位置パラメータと尺度パラメータの推定

PROBPLOTステートメントまたはQQPLOTステートメントで分布の位置パラメータおよび尺度パラメータを指定した場合(またはこれらのパラメータの推定値を要求した場合)、対角方向の分布参照線がプロットに表示されます。(ただし、2パラメータWeibull分布の場合は、尺度パラメータおよび形状パラメータを指定または推定したときに表示されます)。この線と点のパターンが一致すれば、これらのパラメータによる分布が適合しています。

Q-Qプロットの点のパターンが線形である場合、切片および傾きによって位置パラメータと尺度パラメータを推定できます。(ただし、2パラメータWeibull分布の場合は、切片および傾きは尺度パラメータと形状パラメータに関連します)。

表4.36は、指定したパラメータによって線の切片と傾きがどのように決まるかを示しています。切片と傾きは、Q-Qプロットで使用されている水平軸の分位点スケールに基づきます。

表 4.35 形状パラメータオプション

分布キーワード 必須の形状パラメータオプション 範囲

BETA ALPHA= , BETA= ,

EXPONENTIAL なし

GAMMA ALPHA=

GUMBEL なし

LOGNORMAL SIGMA=

NORMAL なし

PARETO ALPHA=

POWER ALPHA=

RAYLEIGH なし

WEIBULL C=c

WEIBULL2 なし

α β

α

σ

α

α

Page 429: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 425

表 4.36 分布参照線の切片と傾き

たとえば、MU=3およびSIGMA=2をNORMALオプションで指定すると、切片が3で傾きが2の線が要求されます。SIGMA=1およびC=2をWEIBULL2オプションで指定すると、切片が で傾きが の線が要求されます。LOGNORMALおよびWEIBULL2オプションによる確率プロットでは、SLOPE=オプションを使用して傾きを直接指定できます。つまり、LOGNORMALオプションの場合、THETA= 0およびSLOPE= を指定すると、THETA= 0およびZETA= 0を指定した場合と同じ線が表示されます。WEIBULL2オプションの場合、SIGMA= 0およびSLOPE= を指定すると、SIGMA= 0およびC= c0を指定した場合と同じ線が表示されます。

Q-Qプロットを使用したパーセント点の推定

Q-Qプロットからパーセント点を推定する方法は2つあります。• PCTLAXISオプションを指定します。このオプションでは、理論分位点軸に相対するパーセント点軸が追加されます。パーセント点軸の尺度の範囲は 0から 100まで、目盛りは 1、5、10、25、50、75、90、95、99など、パーセント点数値になります。

• PCTLSCALEオプションを指定します。このオプションは、水平軸の目盛りを、パーセント点と等価になるよう振り直しますが、目盛りの間隔は変更しません。たとえば、正規Q-Qプロットで、50番目のパーセント点は 0番目の分位点に対応するため、目盛りの "0"のラベルが "50"に振り直されます。

PROBPLOTステートメントで作成した確率プロットを使用して、パーセント点を推定することもできます。例4.32を参照してください。

パラメータ 線形パターン

分布 位置 尺度 形状 切片 傾き

ベータ

指数

Gamma

Gumbel

対数正規

正規

一般化パレート

べき関数

レイリー

Weibull (3パラメータ) c

Weibull (2パラメータ) (既知) c log( ) 1/c

θ σ α β θ σ

θ σ θ σ

θ σ α θ σ

μ σ μ σ

θ ζ σ θ

μ σ μ σ

θ σ α θ σ

θ σ α θ σ

θ σ θ σ

θ σ θ σ

θ σ σ

θθ ζσ σ

Page 430: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

426 第 4章 : UNIVARIATEプロシジャ

入力データセット

DATA=データセット

DATA=データセットは、分析対象の変数セットを指定します。UNIVARIATEプロシジャでは、DATA=データセットが指定されている必要があります。PROC UNIVARIATEステートメントのDATA=オプションでこのデータセットが指定されていない場合は、直前に作成されたデータセットが使用されます。

ANNOTATE=データセット

PROC UNIVARIATEステートメントまたは個別のプロットステートメントでANNOTATE=データセットを指定することにより、プロットに特徴を追加できます。

PROC UNIVARIATEステートメントで指定したANNOTATE=データセットに含まれる情報は、特定のPROC ステップで作成されるすべてのプロットに対して使用されます。これは " グローバルな "ANNOTATE=データセットです。このグローバルデータセットを使用することにより、すべての高解像度プロットに共通する情報を1つのデータセットで保持できます。

プロットステートメントで指定したANNOTATE=データセットに含まれる情報は、そのステートメントで作成されるプロットのみで使用されます。これは"ローカルな" ANNOTATE=データセットです。このデータセットを使用することにより、ステートメント固有の特徴をプロットに追加できます。たとえば、HISTOGRAMステートメントとQQPLOTステートメントでそれぞれANNOTATE=データセットを指定することにより、各プロットステートメントで作成されるプロットに異なる特徴を追加できます。

ANNOTATE=データセットは、PROC UNIVARIATEステートメントとプロットステートメントで指定できます。これにより、一部の特徴をすべてのプロットに追加し、一方でステートメント固有の特徴をプロットに追加することもできます。例4.25を参照してください。

OUTPUTステートメントの OUT=出力データセット

UNIVARIATEプロシジャは、OUTPUTステートメントごとにOUT=データセットを作成します。このデータセットには、BYステートメントの変数の水準の組み合わせごとに1つのオブザベーションが含まれます。BYステートメントが指定されていない場合は、1つのオブザベーションが含まれます。したがって、新しいデータセット内のオブザベーション数は、統計量が計算されるグループの数に対応します。BYステートメントが指定されていない場合、統計量とパーセント点が入力データセット内のすべてのオブザベーションを使用して計算されます。BYステートメントが指定されている場合、統計量とパーセント点が各BYグループ内のオブザベーションを使用して計算されます。

OUT=データセット内の変数は次のとおりです。 • BY ステートメント変数。これらの変数の値は DATA= データセット内の BY グループの値に一致し、各オブザベーションで要約される BYグループを示します。

• OUTPUTステートメントで統計量を選択することによって作成される変数。統計量はすべての非欠損データを使用して計算されるか、BYステートメントを使用した場合は BYグループごとに計算されます。

• PCTLPTS= オプションで新しいパーセント点を要求することによって作成される変数。これらの新しい変数の名前は、PCTLPRE=および PCTLNAME=オプションの値によって決まります。

出力データセットにパーセント点変数または四分位点変数が含まれている場合、PROC UNIVARIATEステートメントのPCTLDEF=オプションで割り当てたパーセント点定義が、出力データセットラベルに記録されます。例4.8を参照してください。

Page 431: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 427

次の表はOUT=データセットで使用できる変数の一覧です。

表 4.37 OUT=データセットで使用できる変数

変数名 説明

記述統計量

CSS 平均で修正した平方和

CV パーセント変動係数

KURTOSIS|KURT 裾の重さの測定

MAX 最大値

MEAN 算術平均

MIN 最小値

MODE 最頻値(重複する場合は、最小モード)

N 計算の基準となるオブザベーション数

NMISS 欠損値を含まないオブザベーションの数

NOBS オブザベーションの合計数

RANGE 最大値と最小値の差

SKEWNESS|SKEW 偏差がある方向で他の方向より大きいという偏差の傾向の測定

STD | STDDEV 標準偏差

STDMEAN | STDERR 平均の標準誤差

SUM 合計

SUMWGT 重みの合計

USS 無修正平方和

VAR 分散

分位点統計量

MEDIAN | Q2 | P50 中央値(50番目のパーセント点)

P1 1番目のパーセント点

P5 5番目のパーセント点

P10 10番目のパーセント点

P90 90番目のパーセント点

P95 95番目のパーセント点

P99 99番目のパーセント点

Q1 | P25 下位四分位点(25番目のパーセント点)

Q3 | P75 上位四分位点(75番目のパーセント点)

QRANGE 上位四分位点と下位四分位点の差(内側四分位範囲)

ロバスト統計量

Page 432: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

428 第 4章 : UNIVARIATEプロシジャ

OUTHISTOGRAM=出力データセット

OUTHISTOGRAM=データセットはHISTOGRAMステートメントで作成できます。このデータセットは、ヒストグラム間隔に関する情報を含んでいます。複数の HISTOGRAM ステートメントをUNIVARIATEプロシジャで指定できるため、複数のOUTHISTOGRAM=データセットを作成できます。

OUTHISTOGRAM=データセットには、HISTOGRAMステートメントの各変数に対するオブザベーションのグループが含まれています。このグループには、変数の値を含んでいる最も左にある間隔から変数の値を含んでいる最も右にある間隔までのヒストグラムの各間隔のオブザベーションが含まれています。ヒストグラムの両端にある空白の間隔は埋められる場合があるため、ヒストグラムに表示されている間隔とこれらの間隔が必ずしも一致している必要はありません。1つまたは複数の当てはめた曲線をヒストグラムに重ねて表示している場合、OUTHISTOGRAM=データセットには、各変数に対するオブザベーションのグループが複数(曲線ごとに1グループ)含まれます。BYステートメントを使用する場合、OUTHISTOGRAM=データセットには、各 BY グループに対するオブザベーションのグループが含まれます。ID 変数はOUTHISTOGRAM=データセットに保存されません。

デフォルトでは、OUTHISTOGRAM=データセットには_MIDPT_変数が含まれ、この変数の値によりヒストグラム間隔が中間点で識別されます。ENDPOINTS=オプションまたはNENDPOINTSオプションが

GINI Giniの平均差

MAD 中央値の絶対値差

QN 中央値の絶対値差の2番目の変動

SN 中央値の絶対値差の最初の変動

STD_GINI Giniの平均差の標準偏差

STD_MAD 中央値の絶対値差の標準偏差

STD_QN 中央値の絶対値差の2番目の変動の標準偏差

STD_QRANGE 四分位範囲に基づく標準偏差の推定値

STD_SN 中央値の絶対値差の最初の変動の標準偏差

仮説検定統計量

MSIGN 符号統計量

NORMAL 正規性の検定。標本サイズが2000以下の場合は、Shapiro-WilkW統計量です。それ以外の場合は、Kolmogorov D統計量です。

PROBM 符号検定でのより大きな絶対値の確率

PROBN データが正規分布からのものである確率

PROBS 符号付き順位検定の統計量でのより大きな絶対値の確率

PROBT 自由度がn-1のスチューデントのt統計量のp値(両側)

SIGNRANK 符号付き順位統計量

T 母集団平均がに等しいという帰無仮説を検定するスチューデントのt統計量 0

表 4.37 OUT=データセットで使用できる変数

変数名 説明

μ

Page 433: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 429

指定されている場合は、代わりに端点値で間隔が識別されます。RTINCLUDEオプションが指定されている場合、_MAXPT_変数には上限端点値が格納されます。それ以外の場合、_MINPT_変数には下限端点値が格納されます。例4.18を参照してください。

OUTKERNEL=出力データセット

OUTKERNEL=データセットはHISTOGRAMステートメントで作成できます。このデータセットは、ヒストグラム間隔に関する情報を含んでいます。複数のHISTOGRAMステートメントをUNIVARIATEプロシジャで指定できるため、複数のOUTKERNEL=データセットを作成できます。

OUTKERNEL=データセットには、HISTOGRAMステートメントで要求した各核密度推定に対するオブザベーションのグループが含まれています。これらのオブザベーションは、_VALUE_変数に記録されている分析変数値の範囲に広がっています。値の間の増分が決定され、グループのオブザベーション数が決まります。変数_DENSITY_には、分析変数値に対して計算された核密度が格納されます。

密度曲線がヒストグラムに重ねて表示されている場合、曲線の下の領域がヒストグラムのバーの領域全体に一致するように、曲線の尺度が調整されます。VSCALE=オプションにより決定されるヒストグラムの垂直軸の尺度に応じて、調整された密度値は変数_COUNT_、_PERCENT_または_PROPORTION_に保存されます。これらの変数のうち1つだけが、指定したOUTKERNEL=データセット内に表示されます。

表4.38には、OUTKERNEL=データセットの変数がリストされます。

表 4.38 OUTHISTOGRAM=データセットの変数

変数 説明

_COUNT_ ヒストグラム間隔内の変数値の数

_CURVE_ 当てはめた分布の名前(HISTOGRAMステートメントで要求されている場合)

_EXPPCT_ オプションの当てはめた分布から決定されたヒストグラム間隔内の母集団の推定パーセント

_MAXPT_ ヒストグラム間隔の上限端点

_MIDPT_ ヒストグラム間隔の中間点

_MINPT_ ヒストグラム間隔の下限端点

_OBSPCT_ ヒストグラム間隔内の変数値のパーセント

_VAR_ 変数名

表 4.39 OUTKERNEL=データセットの変数

変数 説明

_C_ 標準化区間幅パラメータ

_COUNT_ VSCALE=COUNTで調整された核密度

_DENSITY_ 核密度

_PERCENT_ VSCALE=PERCENT (デフォルト)で調整された核密度

_PROPORTION_ VSCALE=PROPORTIONで調整された核密度

_TYPE_ 核関数

Page 434: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

430 第 4章 : UNIVARIATEプロシジャ

OUTTABLE=出力データセット

OUTTABLE=データセットは単変量統計量を、分析変数ごとに1つのオブザベーションを含むデータセットに保存します。次の変数が保存されます。

_VALUE_ 核関数が計算される地点の変数値

_VAR_ 変数名

表 4.39 OUTKERNEL=データセットの変数(続き)

変数 説明

表 4.40 OUTTABLE=データセットの変数

変数 説明

_CSS_ 修正済み平方和

_CV_ 変動係数

_GEOMEAN_ 幾何平均

_GINI_ Giniの平均差

_KURT_ 尖度

_MAD_ 中央絶対偏差

_MAX_ 最大

_MEAN_ 平均

_MEDIAN_ 中央値

_MIN_ 最小

_MODE_ モード

_MSIGN_ 符号統計量

_NMISS_ 欠損値を含まないオブザベーションの数

_NOBS_ 非欠損オブザベーションの数

_NORMAL_ 正規性の検定

_P1_ 1番目のパーセント点

_P5_ 5番目のパーセント点

_P10_ 10番目のパーセント点

_P90_ 90番目のパーセント点

_P95_ 95番目のパーセント点

_P99_ 99番目のパーセント点

_PROBM_ 符号統計量のp値

_PROBN_ 正規性の検定のp値

_PROBS_ 符号付き順位検定のp値

Page 435: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 431

OUTTABLE=データセットとOUT=データセット(OUTPUTステートメントのOUT=出力データセットセクション参照)は、本質的には同じ情報を含んでいます。ただし、OUTTABLE=データセットの構造は、UNIVARIATEプロシジャの同じ呼び出しで複数の分析変数の要約統計量を計算する場合に、より適している場合があります。OUTTABLE=データセット内のオブザベーションはそれぞれ異なる分析変数に対応し、データセット内の変数は要約統計量とインデックスに対応します。

たとえば、10個の分析変数(P1-P10)があるとします。次のステートメントは、これらの各変数の要約統計量を含む、Tableという名前のOUTTABLE=データセットを作成します。

data Analysis; input A1-A10; datalines; 72 223 332 138 110 145 23 293 353 458

_PROBT_ t統計量のp値

_Q1_ 下位四分位点(25番目のパーセント点)

_Q3_ 上位四分位点(75番目のパーセント点)

_QN_ Qn_QRANGE_ 四分位範囲(上位四分位点と下位四分位点の差)

_RANGE_ 範囲

_SGNRNK_ 中心化された符号順位

_SKEW_ 歪度

_SN_ Sn(尺度のロバスト推定を参照)

_STD_ 標準偏差

_STDGINI_ Giniの標準偏差

_STDMAD_ MAD標準偏差

_STDMEAN_ 平均の標準誤差

_STDQN_ Qn 標準偏差

_STDQRANGE_ 四分位範囲標準偏差

_STDSN_ Qn標準偏差

_STDQRANGE_ 四分位範囲標準偏差

_STDSN_ Sn 標準偏差

_SUMWGT_ 重みの合計

_SUM_ 合計

_T_ スチューデントのt統計量

_USS_ 無修正平方和

_VARI_ 分散

_VAR_ 変数名

表 4.40 OUTTABLE=データセットの変数(続き)

変数 説明

Page 436: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

432 第 4章 : UNIVARIATEプロシジャ

97 54 61 196 275 171 117 72 81 141 56 170 140 400 371 72 60 20 484 138124 6 332 493 214 43 125 55 372 30 152 236 222 76 187 126 192 334 109 5465 260 194 277 176 96 109 184 240 261161 253 153 300 37 156 282 293 451 299128 121 254 297 363 132 209 257 429 295116 152 331 27 442 103 80 393 383 94 43 178 278 159 25 180 253 333 51 22534 128 182 415 524 112 13 186 145 131142 236 234 255 211 80 281 135 179 11108 215 335 66 254 196 190 363 226 37962 232 219 474 31 139 15 56 429 298177 218 275 171 457 146 163 18 155 1290 235 83 239 398 99 226 389 498 18147 199 324 258 504 2 218 295 422 28739 161 156 198 214 58 238 19 231 548120 42 372 420 232 112 157 79 197 166178 83 238 492 463 68 46 386 45 81161 267 372 296 501 96 11 288 330 7414 2 52 81 169 63 194 161 173 5422 181 92 272 417 94 188 180 367 34255 248 214 422 133 193 144 318 271 47956 83 169 30 379 5 296 320 396 597 ;

proc univariate data=Analysis outtable=Table noprint;var A1-A10;

run;

次のステートメントは、各分析変数の平均、標準偏差などを含む図 4.15に示すようなテーブルを作成します。

proc print data=Table label noobs;var _VAR_ _MIN_ _MEAN_ _MAX_ _STD_;label _VAR_='Analysis';

run;

図 4.15 複数のプロセス変数の結果の表の作成Test Scores for a College Course

Analysis Minimum Mean Maximum Standard Deviation

A1 0 90.76 178 57.024

A2 2 167.32 267 81.628

A3 52 224.56 372 96.525

A4 27 258.08 493 145.218

A5 25 2853.48 524 157.033

A6 2 107.48 196 52.437

A7 11 153.20 296 90.437

A8 18 217.08 393 130.031

A9 45 280.68 498 140.943

A10 11 243.24 597 178.799

Page 437: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 433

要約統計量のテーブル

デフォルトでは、UNIVARIATEプロシジャは、積率、基本統計量、位置の検定、分位点、極値オブザベーションのODSテーブルを作成します。その他の統計量およびテーブルを要求するには、PROC UNIVARIATEステートメントでオプションを指定する必要があります。CIBASICオプションは、平均、標準偏差および分散の信頼限界が表示されたテーブルを作成します。CIPCTLDFおよびCIPCTLNORMALオプションは、分位点の信頼限界のテーブルを要求します。LOCCOUNTオプションは、MU0=の値より大きい、等しくない、小さい値の数が表示されたテーブルを要求します。FREQオプションは、度数のテーブルを要求します。NEXTRVAL=オプションは、極値のテーブルを要求します。NORMALオプションは、正規性の検定のテーブルを要求します。

TRIMMED=、WINSORIZED=およびROBUSTSCALEオプションは、ロバスト推定量のテーブルを要求します。トリム平均またはウィンザー化平均のテーブルには、両端でトリムまたはウィンザー化されたオブザベーションのパーセンテージと数、平均と標準誤差、信頼限界、スチューデントのt検定が含まれます。尺度のロバスト測定値のテーブルには、四分位範囲、Giniの平均差G、MAD、Qn、Sn、およびこれらの の推定値が含まれます。

UNIVARIATEプロシジャが作成するODSテーブルの名前については、ODSテーブル名のセクションを参照してください。

ODSテーブル名

UNIVARIATEプロシジャは、作成する各テーブルに名前を割り当てます。Output Delivery System(ODS)でテーブルを選択したり出力データセットを作成したりするときに、これらの名前を使用してテーブルを参照できます。

σ

表 4.41 PROC UNIVARIATEステートメントで作成される ODSテーブル

ODSテーブル名 説明 オプション

BasicIntervals 平均、標準偏差、分散に対する信頼区間

CIBASIC

BasicMeasures 位置とばらつきの測定値 デフォルト

ExtremeObs 極値オブザベーション デフォルト

ExtremeValues 極値 NEXTRVAL=

Frequencies 度数 FREQ

LocationCounts 符号検定および符号付き順位検定で使用されるカウント

LOCCOUNT

MissingValues 欠損値 デフォルト (欠損値が存在する場合)

Modes モード MODES

Moments 標本積率 デフォルト

Plots ラインプリンタプロット PLOTS

分位点 分位点 デフォルト

RobustScale 尺度のロバスト推定 ROBUSTSCALE

Page 438: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

434 第 4章 : UNIVARIATEプロシジャ

当てはめた分布の ODSテーブル

HISTOGRAMステートメントで当てはめたパラメトリックな分布を要求した場合、UNIVARIATEプロシジャはこのセクションで説明されているODSテーブルにまとめられた要約を作成します。

パラメータ

ParameterEstimatesテーブルには、当てはめた曲線の推定された(または指定された)パラメータと、推定された平均および推定された標準偏差の一覧が表示されます。当てはめた連続分布の計算式を参照してください。

EDF適合度検定

パラメトリックな分布を当てはめた場合、HISTOGRAMステートメントは経験分布関数(EDF)に基づく一連の適合度検定を出力します。EDF適合度検定を参照してください。これらはGoodnessOfFitテーブルに表示されます。

ヒストグラム間隔

Binsテーブルは、分布オプションの後ろにかっこでMIDPERCENTSオプションを指定した場合のみ、要約に含まれます。このテーブルには、ヒストグラムビンの中間点と、各ビンにあるオブザベーションの観測および推定されたパーセンテージの一覧が表示されます。推定されたパーセンテージは当てはめた分布に基づきます。

当てはめた分布を要求することなくMIDPERCENTSオプションを指定した場合、HistogramBinsテーブルが要約に含まれます。このテーブルには、間隔にあるオブザベーションの観測されたパーセントを含む間隔の中間点の一覧が表示されます。MIDPERCENTSオプションの項目を参照してください。

SSPlots ラインプリンタの横に並べた箱ひげ図

PLOTS (BYステートメントで使用)

TestsForLocation 位置の検定 デフォルト

TestsForNormality 正規性の検定 NORMALTEST

TrimmedMeans トリム平均 TRIMMED=

WinsorizedMeans ウィンザー化平均 WINSORIZED=

表 4.42 HISTOGRAMステートメントにより作成される ODSテーブル

ODSテーブル名 説明 オプション

Bins ヒストグラムのビン MIDPERCENTS 2次オプション

FitQuantiles 当てはめた分布の分位点 任意の分布オプション

GoodnessOfFit 当てはめた分布の適合度検定 任意の分布オプション

HistogramBins ヒストグラムのビン MIDPERCENTSオプション

ParameterEstimates 当てはめた分布のパラメータ推定値 任意の分布オプション

表 4.41 PROC UNIVARIATEステートメントで作成される ODSテーブル(続き)

ODSテーブル名 説明 オプション

Page 439: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

構文 : UNIVARIATEプロシジャ 435

分位点

FitQuantilesテーブルには、観測および推定された分位点がリストされます。PERCENTS=オプションを使用して、このテーブルの分位点をリストするよう指定できます。デフォルトでは、当てはめたパラメトリックな分布の1、5、10、25、50、75、90、95、99パーセントの観測および推定された分位点が、テーブルに一覧表示されます。

ODS Graphics

統計プロシジャは、ODS Graphicsを使用して、その出力に含まれるグラフを作成します。ODS Graphicsの詳細は、Chapter 21: Statistical Graphics Using ODS(SAS/STAT 14.1 User's Guide)を参照してください。

グラフを作成する前に、ODS Graphicsを有効にする必要があります(たとえば、ODS GRAPHICS ONステートメントを使用する)。ODS Graphicsを有効化/無効化する方法の詳細は、上記の章に含まれている"Enabling and Disabling ODS Graphics"のセクションを参照してください。

グラフの全体的な外観は、ODSスタイルにより制御されます。ODSスタイルやODS Graphicsのその他の使用法については、上記の章に含まれている"A Primer on ODS Statistical Graphics"のセクションを参照してください。

UNIVARIATEプロシジャは、ODS Graphicsで作成する各グラフに名前を割り当てます。ODSを使用するときに、これらの名前を使用してグラフを参照できます。これらの名前は、表4.42の一覧のとおりです。

計算リソース

UNIVARIATEプロシジャは分位点統計量を計算するため、メモリ内にデータのコピーを保存するための追加のメモリを必要とします。デフォルトでは、MEANS、SUMMARYおよびTABULATEプロシジャは分位点を自動的に計算しないため、必要なメモリは少なくなります。これらのプロシジャでは、固定メモリにより分位点を推定する新しい方法を使用するオプションも指定できます。通常、この方法を使用するとメモリ消費量は少なくなります。

UNIVARIATEプロシジャで、分析できる変数の数を制限する唯一の要素は、使用できるコンピュータリソースです。必要な一時記憶域のサイズとCPU時間は、指定するステートメントおよびオプションによって異なります。プロシジャが必要とするコンピュータリソースを計算するには、次のように指定します。

N データセットのオブザベーションの数

V VARステートメントの変数の数

表 4.43 UNIVARIATEプロシジャで作成される ODS Graphics

ODS Graph名 プロットの説明 ステートメント

CDFPlot CDFプロット CDFPLOT

Histogram ヒストグラム HISTOGRAM

PPPlot P-Pプロット PPPLOT

ProbPlot 確率プロット PROBPLOT

QQPlot Q-Qプロット QQPLOT

Page 440: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

436 第 4章 : UNIVARIATEプロシジャ

Ui はi番目の変数の重複しない値の数

この場合、すべての変数を処理するための最低メモリ要件(バイト)は です。Mバイトが使用可能でない場合、UNIVARIATEプロシジャですべての統計量を計算するには、データを複数回処理する必要があります。これにより、最小メモリ要件は に減少します。

ROUND=オプションを使用すると重複しない値の数Uiが減少するため、メモリ要件が減少します。ROBUSTSCALEオプションでは、40Uiバイトの一時記憶域が必要です。

CPU時間にはいくつかの要素が影響します。 • オブザベーションを内部的に保存するためのVツリー構造を作成する時間は、 に比例します。• 積率と i番目の変数の分位点を計算する時間は、Uiに比例します。• NORMALオプションの検定統計量を計算する時間は、Nに比例します。• ROBUSTSCALEオプションの検定統計量を計算する時間は、 に比例します。• 符号順位統計量の正確な有意水準を計算する時間は、0 以外の値の数が 20 個以下の場合は長くなる場合があります。

これらの比例定数は要素ごとに異なります。CPUパフォーマンスとメモリ使用量の最適化の詳細は、使用している動作環境のSASドキュメントを参照してください。

UNIVARIATEプロシジャ

例 4.1 複数の変数に対する記述統計量の計算

この例では、2つの変数に対する単変量統計量を計算します。次のステートメントはデータセットBPressureを作成し、このデータセットに22名の患者の最高血圧測定値(Systolic)と最大血圧測定値(Diastolic)を格納します。

data BPressure;length PatientID $2;input PatientID $ Systolic Diastolic @@; datalines;

CK 120 50 SS 96 60 FR 100 70 CP 120 75 BL 140 90 ES 120 70 CP 165 110 JI 110 40 MC 119 66 FC 125 76 RW 133 60 KD 108 54 DS 110 50 JW 130 80 BH 120 65 JW 134 80 SB 118 76 NS 122 78 GS 122 70 AB 122 78 EC 112 62 HH 122 82 ;

次のステートメントは、変数SystolicおよびDiastolicの記述統計量と分位点を作成します。title 'Systolic and Diastolic Blood Pressure'; ods select BasicMeasures Quantiles; proc univariate data=BPressure;

var Systolic Diastolic; run;

ODS SELECTステートメントは、出力4.1.1に示すように、出力を"BasicMeasures"テーブルと"Quantiles"テーブルに制限します。ODSテーブル名のセクションを参照してください。PROC UNIVARIATEステートメントを使用して、VARステートメントでリストした変数の単変量統計量を要求し、出力の分析変数とそれらの

Page 441: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 437

順序を指定します。"BasicMeasures"テーブルの統計量の計算式は、記述統計量のセクションに示されています。分位点はデフォルトの定義5により計算されます。パーセント点の計算のセクションを参照してください。

この例のサンプルプログラムuniex01.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.1.1 基本統計量および分位点の表示Systolic and Diastolic Blood Pressure

The UNIVARIATE ProcedureVariable: Systolic

Note: The mode displayed is the smallest of 2 modes with a count of 4.

Systolic and Diastolic Blood Pressure

The UNIVARIATE Procedure

Variable: Diastolic

Basic Statistical Measures

Location Variability

Mean 121.2727 Std Deviation 14.28346

Median 120.0000 Variance 204.01732

Mode 120.0000 Range 69.00000

Interquartile Range 13.00000

Quantiles (Definition 5)

Level Quantile

100% Max 165

99% 165

95% 140

90% 134

75% Q3 125

50% Median 120

25% Q1 112

10% 108

5% 100

1% 96

0% Min 96

Page 442: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

438 第 4章 : UNIVARIATEプロシジャ

例 4.2 モードの計算

ある講師が、最近のテスト結果のモードをすべて計算しようと考えています。次のステートメントはExamという名前のデータセットを作成し、このデータセットに変数Scoreのテスト結果を格納します。

data Exam; label Score = 'Exam Score'; input Score @@; datalines;81 97 78 99 77 81 84 86 86 9785 86 94 76 75 42 91 90 88 8697 97 89 69 72 82 83 81 80 81 ;

次のステートメントはMODESオプションを使用して、すべての可能なモードのテーブルを要求します。 title 'Table of Modes for Exam Scores'; ods select Modes; proc univariate data=Exam modes;

var Score; run;

Basic Statistical Measures

Location Variability

Mean 70.09091 Std Deviation 15.16547

Median 70.00000 Variance 229.99134

Mode 70.00000 Range 70.00000

Interquartile Range 18.00000

Quantiles (Definition 5)

Level Quantile

100% Max 110

99% 110

95% 90

90% 82

75% Q3 78

50% Median 70

25% Q1 60

10% 50

5% 50

1% 40

0% Min 40

Page 443: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 439

ODS SELECTステートメントは出力を"Modes"テーブルに制限します。ODSテーブル名のセクションを参照してください。

出力 4.2.1 モードのテーブルの表示Table of Modes for Exam Scores

The UNIVARIATE Procedure

Variable: Score (Exam Score)

デフォルトでは、MODESオプションが使用されているときに複数のモードが存在する場合、最も低いモードが"BasicMeasures"テーブルに表示されます。次のステートメントでデフォルトの動作を示します。

title 'Default Output'; ods select BasicMeasures; proc univariate data=Exam;

var Score; run;

出力 4.2.2デフォルト出力 (MODESオプションを使用しない場合 )

Default Output

The UNIVARIATE Procedure

Variable: Score (Exam Score)

Note: The mode displayed is the smallest of 3 modes with a count of 4.

デフォルト出力にはモードとして81が表示され、モード数に関する注も表示されます。モードの86および97は表示されません。ODS SELECTステートメントは出力を"BasicMeasures"テーブルに制限します。ODSテーブル名のセクションを参照してください。

この例のサンプルプログラムuniex02.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Modes

Mode Count

81 4

86 4

97 4

Basic Statistical Measures

Location Variability

Mean 83.66667 Std Deviation 11.08069

Median 84.50000 Variance 122.78161

Mode 81.00000 Range 57.00000

Interquartile Range 10.00000

Page 444: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

440 第 4章 : UNIVARIATEプロシジャ

例 4.3 極値オブザベーションと極値の識別

この例では、例4.1で説明したデータセットBPressureを使用し、データセット内にある極値オブザベーションのテーブルと極値のテーブルを作成する方法を示します。次のステートメントは、SystolicとDiastolicに対する"極値"テーブルを生成します。このテーブルで、各変数の極値オブザベーションを識別できます。

title 'Extreme Blood Pressure Observations';ods select ExtremeObs; proc univariate data=BPressure;

var Systolic Diastolic; id PatientID;

run;

ODS SELECTステートメントは出力を"ExtremeObs"テーブルに制限します。ODSテーブル名のセクションを参照してください。IDステートメントは、オブザベーション番号に加えてPatientIDの値で極値オブザベーションが識別されるよう要求します。デフォルトでは、上位5件および下位5件のオブザベーションが表示されます。NEXTROBS=オプションを使用すると、異なる数の極値オブザベーションを要求できます。

出力4.3.1では、SystolicおよびDiastolicの両方ともに、'CP' (オブザベーションは7)というIDの患者の値が最も高いことが示されています。極値オブザベーションを視覚的に示すため、ヒストグラムを作成できます。例4.14を参照してください。

出力 4.3.1血圧の極値オブザベーションExtreme Blood Pressure Observations

The UNIVARIATE Procedure

Variable: Systolic

Extreme Blood Pressure Observations

The UNIVARIATE Procedure

Variable: Diastolic

Extreme Observations

Lowest Highest

Value PatientID Obs Value PatientID Obs

96 SS 2 130 JW 14

100 FR 3 133 RW 11

108 KD 12 134 JW 16

110 DS 13 140 BL 5

110 JI 8 165 CP 7

Extreme Observations

Lowest Highest

Value PatientID Obs Value PatientID Obs

Page 445: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 441

次のステートメントは、SystolicとDiastolicに対する"Extreme Values"テーブルを生成します。これは分布の裾の表です。

title 'Extreme Blood Pressure Values'; ods select ExtremeValues; proc univariate data=BPressure nextrval=5;

var Systolic Diastolic; run;

ODS SELECTステートメントは出力を"ExtremeValues"テーブルに制限します。ODSテーブル名のセクションを参照してください。NEXTRVAL=オプションは、分布の両端の極値の数を出力4.3.2のテーブルに示されているように指定します。

出力4.3.2 は、値78および80がDiastolicで2回出現すること、およびDiastolicの最大値が110であることを示しています。なお、出力4.3.1では、Diastolicに値80が2回表示されています。これは、この値を持つオブザベーションが2つあるためです。出力4.3.2では、値80は1回だけ表示されています

出力 4.3.2血圧の極値Extreme Blood Pressure Values

The UNIVARIATE Procedure

Variable: Systolic

Extreme Blood Pressure Values

The UNIVARIATE Procedure

Variable: Diastolic

40 JI 8 80 JW 14

50 DS 13 80 JW 16

50 CK 1 82 HH 22

54 KD 12 90 BL 5

60 RW 11 110 CP 7

Extreme Values

Lowest Highest

Order Value Freq Order Value Freq

1 96 1 11 130 1

2 100 1 12 133 1

3 108 1 13 134 1

4 110 2 14 140 1

5 112 1 15 165 1

Page 446: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

442 第 4章 : UNIVARIATEプロシジャ

この例のサンプルプログラムuniex01.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.4 度数表の作成

ある講師が、大学の講座で行った2つのテストの結果の変化に関する度数表を作成しようと考えています。データセットScoreには、同じ教材の予備テストと事後テストを受験した学生のテスト結果が含まれています。変数ScoreChangeには、2つのテスト結果の差が格納されます。次のステートメントはデータセットを作成します。

data Score;input Student $ PreTest PostTest @@; label ScoreChange = 'Change in Test Scores';ScoreChange = PostTest - PreTest;datalines;

Capalleti 94 91 Dubose 51 65 Engles 95 97 Grant 63 75 Krupski 80 75 Lundsford 92 55 Mcbane 75 78 Mullen 89 82 Nguyen 79 76 Patel 71 77 Si 75 70 Tanaka 87 73 ;

次のステートメントは変数ScoreChangeの度数表を作成します。title 'Analysis of Score Changes';ods select Frequencies; proc univariate data=Score freq;

var ScoreChange; run;

ODS SELECTステートメントは出力を"Frequencies"テーブルに制限します。ODSテーブル名のセクションを参照してください。PROC UNIVARIATEステートメントのFREQオプションは、出力4.4.1に示した度数表を要求します。

出力 4.4.1度数表Analysis of Score Changes

UNIVARIATEプロシジャ

Variable: ScoreChange (Change in Test Scores)

Extreme Values

Lowest Highest

Order Value Freq Order Value Freq

1 40 1 11 78 2

2 50 2 12 80 2

3 54 1 13 82 1

4 60 2 14 90 1

5 62 1 15 110 1

Page 447: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 443

出力4.4.1から、講師は-3および-5の結果の変化のみが複数回出現していることがわかります。

この例のサンプルプログラムuniex03.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.5 基本要約プロットの作成

PROC UNIVARIATEステートメントのPLOTSオプションは、基本要約プロットのいくつかを要求します。PLOTSオプションで作成されるプロットの詳細については、ラインプリンタプロットの作成セクションを参照してください。この例は、UNIVARIATEプロシジャでPLOTオプションをBY処理とともに使用する方法を示しています。

ある調査員は、3つの異なる測定サイトの大気汚染データから成るデータセットを分析しています。次のステートメントにより作成されるデータセットAirPollには、サイト番号およびオゾンレベルを表す変数、SiteおよびOzoneが含まれています。

data AirPoll (keep = Site Ozone);label Site = 'Site Number'

Ozone = 'Ozone level (in ppb)';do i = 1 to 3;

input Site @@;do j = 1 to 15;

input Ozone @@;output;

end; end; datalines;

102 4 6 3 4 7 8 2 3 4 1 3 8 9 5 6134 5 3 6 2 1 2 4 3 2 4 6 4 6 3 1137 8 9 7 8 6 7 6 7 9 8 9 8 7 8 5;

次のステートメントはAirPollデータセットに各サイトの基本プロットを作成します。

Frequency Counts

Percents

Value Count Cell Cum

-37 1 8.3 8.3

-14 1 8.3 16.7

-7 1 8.3 25.0

-5 2 16.7 41.7

-3 2 16.7 58.3

2 1 8.3 66.7

3 1 8.3 75.0

6 1 8.3 83.3

12 1 8.3 91.7

14 1 8.3 100.0

Page 448: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

444 第 4章 : UNIVARIATEプロシジャ

ods graphics off;ods select Plots SSPlots;proc univariate data=AirPoll plot;

by Site;var Ozone;

run;

ODS GRAPHICS OFFステートメントがPROCステートメントの前に指定されている場合、ODSGraphicsは無効化され、PLOTSオプションでは従来のラインプリンタプロットを生成します。PLOTSオプションは、各サイトでのOzone変数に対する幹葉プロット、箱ひげ図および正規確率プロットを作成します。BYステートメントが指定されているため、オゾンレベルをサイト間で比較する、横に並べた箱ひげ図も作成されます。なお、AirPollはSite順に並べ替えられます。一般的にデータセットは、SORTプロシジャを使用してBY変数順に並べ替える必要があります。ODS SELECTステートメントは出力を"Plots"テーブルと"SSPlots"テーブルに制限します。ODSテーブル名のセクションを参照してください。オプションで、PLOTSIZE=nオプションを指定し、プロットで使用するおおよその行数(8行からページサイズまで)を制御できます。

出力4.5.1から出力4.5.3は、各BYグループに対して作成されるプロットを示しています。出力4.5.4は、Ozone値をサイト間で比較する、横に並べた箱ひげ図を示しています。

出力 4.5.1BYグループSite = 102に対するOzoneのプロットAnalysis of Score Changes

The UNIVARIATE ProcedureVariable: Ozone (Ozone level (in ppb))

Page 449: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 445

出力 4.5.2BYグループ Site = 134に対するOzoneのプロットAnalysis of Score Changes

The UNIVARIATE ProcedureVariable: Ozone (Ozone level (in ppb))

Page 450: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

446 第 4章 : UNIVARIATEプロシジャ

出力 4.5.3BYグループ Site = 137に対するOzoneのプロットAnalysis of Score Changes

The UNIVARIATE ProcedureVariable: Ozone (Ozone level (in ppb))

Page 451: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 447

出力 4.5.4すべてのBYグループに対する横に並べた箱ひげ図Analysis of Score Changes

The UNIVARIATE ProcedureVariable: Ozone (Ozone level (in ppb))

次のステートメントでは、ODS Graphicsを使用した基本プロットが作成されます。 ods graphics on; ods select Plots SSPlots;proc univariate data=AirPoll plot;

by Site; var Ozone;

run;

出力4.5.5から出力4.5.8は、ODS Graphicsを使用して作成されるプロットを示します。ラインプリンタの幹葉プロットはODS Graphics出力の水平ヒストグラムに置き換わったので注意してください。

Page 452: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

448 第 4章 : UNIVARIATEプロシジャ

出力 4.5.5BYグループ Site = 102に対するOzoneのプロット

Page 453: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 449

出力 4.5.6BYグループ Site = 134に対するOzoneのプロット

Page 454: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

450 第 4章 : UNIVARIATEプロシジャ

出力 4.5.7BYグループ Site = 137に対するOzoneのプロット

Page 455: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 451

出力 4.5.8すべてのBYグループに対する横に並べた箱ひげ図

注: PROBPLOTステートメントにNORMALオプションを指定して高解像度の正規確率プロットを作成できます。データ分布のモデル化セクションを参照してください。BOXPLOTプロシジャを使用すると、高解像度グラフを使用する箱ひげ図を作成できます。SAS/STAT 14.1 User's GuideのChapter 28: TheBOXPLOT Procedureを参照してください。

この例のサンプルプログラムuniex04.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.6 FREQ変数を使用したデータセットの分析

この例は、UNIVARIATEプロシジャを使用して、各オブザベーションの度数を格納する変数を含むデータセットを分析する方法を示しています。データセットSpeedingには、高速道路上で65マイル/時の速度制限違反により制止された車の台数のデータが含まれています。Speedは車が走行していた速度、Numberは各速度の車の台数です。次のステートメントはデータセットを作成します。

data Speeding; label Speed = 'Speed (in miles per hour)';do Speed = 66 to 85;

input Number @@; output;

end; datalines;

2 3 2 1 3 6 8 9 10 13 12 14 6 2 0 0 1 1 0 1 ;

次のステートメントは、変数Speedに対する積率のテーブルを作成します。

Page 456: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

452 第 4章 : UNIVARIATEプロシジャ

title 'Analysis of Speeding Data';ods select Moments;proc univariate data=Speeding;

freq Number; var Speed;

run;

ODS SELECTステートメントは、出力4.6.1に示すように、出力を"Moments"テーブルに制限します。ODSテーブル名のセクションを参照してください。FREQステートメントは、変数Numberの値が各オブザベーションの度数を表すことを指定します。

これらの積率の計算に使用される式については、記述統計量のセクションを参照してください。この例のサンプルプログラムuniex05.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.6.1積率のテーブルAnalysis of Speeding Data

The UNIVARIATE ProcedureSpeed (Speed (in miles per hour))

Freq: Number

例 4.7 OUT=出力データセットへの要約統計量の保存

この例は、要約統計量を出力データセットに保存する方法を示しています。次のステートメントはBeltsという名前のデータセットを作成します。このデータセットには、50個の自動車用シートベルトのサンプルの破壊強度(Strength)と幅(Width)が含まれます。

data Belts;

label Strength = 'Breaking Strength (lb/in)'

Width = 'Width in Inches';

input Strength Width @@;

datalines;

1243.51 3.036 1221.95 2.995 1131.67 2.983 1129.70 3.019

1198.08 3.106 1273.31 2.947 1250.24 3.018 1225.47 2.980

1126.78 2.965 1174.62 3.033 1250.79 2.941 1216.75 3.037

1285.30 2.893 1214.14 3.035 1270.24 2.957 1249.55 2.958

1166.02 3.067 1278.85 3.037 1280.74 2.984 1201.96 3.002

1101.73 2.961 1165.79 3.075 1186.19 3.058 1124.46 2.929

1213.62 2.984 1213.93 3.029 1289.59 2.956 1208.27 3.029

1247.48 3.027 1284.34 3.073 1209.09 3.004 1146.78 3.061

Moments

N 94 Sum Weights 94

Mean 74.3404255 Sum Observations 6988

Std Deviation 3.44403237 Variance 11.861359

Skewness -0.1275543 Kurtosis 0.92002287

Uncorrected SS 520594 Corrected SS 1103.10638

Coeff Variation 4.63278538 Std Error Mean 0.35522482

Page 457: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 453

1224.03 2.915 1200.43 2.974 1183.42 3.033 1195.66 2.995

1258.31 2.958 1136.05 3.022 1177.44 3.090 1246.13 3.022

1183.67 3.045 1206.50 3.024 1195.69 3.005 1223.49 2.971

1147.47 2.944 1171.76 3.005 1207.28 3.065 1131.33 2.984

1215.92 3.003 1202.17 3.058

;

次のステートメントは要約統計量を含む2つの出力データセットを作成します。 proc univariate data=Belts noprint;

var Strength Width;

output out=Means mean=StrengthMean WidthMean;

output out=StrengthStats mean=StrengthMean std=StrengthSD

min=StrengthMin max=StrengthMax;

run;

OUTPUTステートメントを指定する場合、VARステートメントも指定する必要があります。1つのプロシジャステートメントで複数のOUTPUTステートメントを使用できます。OUTPUTステートメントごとに、OUT=オプションで指定した名前の新しいデータセットが作成されます。この例では、2つのデータセットMeansおよびStrengthStatsが作成されます。Meansのリストは出力4.7.1、StrengthStatsのリストは出力4.7.2を参照してください。

出力 4.7.1 出力データセットMeansのリストAnalysis of Speeding Data

出力 4.7.2 出力データセット StrengthStatsのリストAnalysis of Speeding Data

OUT=オプションの後にkeyword=namesを指定することにより、要約統計量が出力データセットに保存されます。前のステートメントでは、最初のOUTPUTステートメントでkeywordMEANの後に、namesStrengthMeanとWidthMeanが指定されています。2番目のOUTPUTステートメントではkeywordMEAN、STD、MAX、MINが指定され、それぞれにnames StrengthMean、StrengthSD、StrengthMax、StrengthMinが指定されています。

keywordは出力データセットに保存される統計量を指定し、namesは新しい変数の名前を決定します。キーワードの後のリストの最初のnamesには、VARステートメントのリストにある最初の変数に対するその統計量が含まれ、2番目のnamesには、VARステートメントの2番目の変数に対するその統計量が含まれるというように続きます。

データセットMeansでは、Strengthの平均がStrengthMeanという名前の変数に格納され、Widthの平均がWidthMeanという名前の変数に格納されています。データセットStrengthStatsでは、Strengthの平均、標準偏差、最大値、最小値が、それぞれ、変数 StrengthMean、StrengthSD、StrengthMax、StrengthMinに格納されています。

OUT=出力データセットの詳細は、「OUTPUTステートメントのOUT=出力データセット」(426ページ)のセクションを参照してください。

Obs StrengthMean WidthMean

1 1205.75 3.00584

Obs StrengthMean StrengthSD StrengthMax StrengthMin

1 1205.75 48.3290 1289.59 1101.73

Page 458: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

454 第 4章 : UNIVARIATEプロシジャ

この例のサンプルプログラムuniex06.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.8 出力データセットへのパーセント点の保存

この例は、前の例のBeltsデータセットを使用し、出力データセットにパーセント点を保存する方法を示しています。UNIVARIATEプロシジャは、各変数の1番目、5番目、10番目、25番目、75番目、90番目、95番目、99番目のパーセント点を自動的に計算します。適切なキーワードを指定することにより、これらのパーセント点を出力データセットに保存できます。たとえば、次のステートメントはPctlStrengthという名前の出力データセットを作成し、このデータセットに変数Strengthの5番目と95番目のパーセント点を格納します。

proc univariate data=Belts noprint;

var Strength Width;

output out=PctlStrength p5=p5str p95=p95str;

run;

出力データセットPctlStrengthは出力4.8.1のようにリストされます。

出力 4.8.1 出力データセットPctlStrengthのリストAnalysis of Speeding Data

PCTLPTS=、PCTLPRE=およびPCTLNAME=オプションを使用すると、UNIVARIATEプロシジャが自動的に計算しないパーセント点を保存できます。たとえば、次のステートメントはPctlsという名前の出力データセットを作成し、このデータセットに変数StrengthおよびWidthの20番目と40番目のパーセント点を格納します。

proc univariate data=Belts noprint;

var Strength Width;

output out=Pctls pctlpts = 20 40

pctlpre = Strength Width

pctlname = pct20 pct40;

run;

PCTLPTS=オプションは、計算するパーセント点(この場合、20番目と40番目のパーセント点)を指定します。PCTLPRE=およびPCTLNAME=オプションは、パーセント点を格納する変数の名前を指定します。PCTLPRE=オプションは新しい変数の接頭辞を指定し、PCTLNAME=オプションは接頭辞に付加する接尾辞を指定します。PCTLPTS=指定を使用する場合は、PCTLPRE=指定も使用する必要があります。

OUTPUT ステートメントは、Strength および Width の 20 番目と 40 番目のパーセント点を、変数Strengthpct20、Widthpct20、Strengthpct40、Weightpct40に保存します。出力データセットPctlsは出力4.8.2のようにリストされます。

出力 4.8.2 出力データセットPctlsのリストAnalysis of Speeding Data

Obs p95str p5str

1 1284.34 1126.78

Obs Strengthpct20 Widthpct20 Strengthpct40 Widthpct40

1 1165.91 2.9595 1199.26 2.995

Page 459: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 455

この例のサンプルプログラムuniex06.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.9 平均、標準偏差、分散に対する信頼限界の計算

この例は、母集団の平均、標準偏差および分散に対する信頼限界の計算方法を示しています。ある調査員は、成人女性から成る特定の母集団の身長について調べており、75名の女性の身長を収集した無作為抽出がデータセットHeightsに保存されています。

data Heights;

label Height = 'Height (in)';

input Height @@;

datalines;

64.1 60.9 64.1 64.7 66.7 65.0 63.7 67.4 64.9 63.7

64.0 67.5 62.8 63.9 65.9 62.3 64.1 60.6 68.6 68.6

63.7 63.0 64.7 68.2 66.7 62.8 64.0 64.1 62.1 62.9

62.7 60.9 61.6 64.6 65.7 66.6 66.7 66.0 68.5 64.4

60.5 63.0 60.0 61.6 64.3 60.2 63.5 64.7 66.0 65.1

63.6 62.0 63.6 65.8 66.0 65.4 63.5 66.3 66.2 67.5

65.8 63.1 65.8 64.4 64.0 64.9 65.7 61.0 64.1 65.5

68.6 66.6 65.7 65.1 70.0

;

次のステートメントは、身長の母集団の平均、標準偏差および分散に対する信頼限界を作成します。title 'Analysis of Female Heights'; ods select BasicIntervals; proc univariate data=Heights cibasic; var Height; run;

CIBASICオプションは、平均、標準偏差および分散に対する信頼限界を要求します。たとえば、出力4.9.1は、母集団平均に対する95%信頼区間が であることを示しています。ODS SELECTステートメントは出力を"BasicIntervals"テーブルに制限します。ODSテーブル名のセクションを参照してください。

出力4.9.1の信頼限界は身長が正規分布であることを前提にしているため、この前提を確認してからこれらの信頼限界を使用する必要があります。UNIVARIATEプロシジャでの正規性のShapiro-Wilk検定の詳細は、「Shapiro-Wilk統計量」(411ページ)のセクションを参照してください。正規性検定の使用例は、例4.19を参照してください。

出力 4.9.1 デフォルトの95%信頼限界Analysis of Female Heights

The UNIVARIATE Procedure Variable: Height (Height (in))

デフォルトでは、CIBASICオプションで作成される信頼限界は95%信頼区間です。CIBASICオプションの後にかっこで囲んでALPHA=オプションを使用することにより、異なる水準の信頼限界を要求できます。次のステートメントは90%信頼限界を作成します。

Basic Confidence Limits Assuming Normality

Parameter Estimate 95% Confidence Limits

Mean 64.56667 64.06302 65.07031

Std Deviation 2.18900 1.88608 2.60874

Variance 4.79171 3.55731 6.80552

Page 460: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

456 第 4章 : UNIVARIATEプロシジャ

title 'Analysis of Female Heights';

ods select BasicIntervals;

proc univariate data=Heights cibasic(alpha=.1);

var Height;

run;

90%信頼限界を出力4.9.2に表示します。

出力 4.9.2 デフォルトの90%信頼限界Analysis of Female Heights

The UNIVARIATE Procedure Variable: Height (Height (in))

これらの限界の計算に使用される式については、正規分布のパラメータに対する信頼限界のセクションを参照してください。

この例のサンプルプログラムuniex07.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.10 分位点とパーセント点に対する信頼限界の計算

この例は例4.9の続きで、分位点とパーセント点に対する信頼限界の計算方法を示しています。あるもう1人の調査員は、平均や標準偏差ではなく分位点を使用して身長を集計し、分位点に対する90%信頼区間も計算してみようと考えています。次のステートメントは母集団の分位点の推定された分位点と信頼限界を作成します。

title 'Analysis of Female Heights';

ods select Quantiles;

proc univariate data=Heights ciquantnormal(alpha=.1);

var Height;

run;

ODS SELECTステートメントは出力を"Quantiles"テーブルに制限します。ODSテーブル名のセクションを参照してください。CIQUANTNORMALオプションは分位点に対する信頼限界を作成します。出力4.10.1に示されているとおり、これらの限界はデータが正規分散であることを前提にしています。この前提を確認してから、これらの信頼限界を使用する必要があります。UNIVARIATEプロシジャにおける正規性のShapiro-Wilk検定の詳細は、「Shapiro-Wilk統計量」(411ページ)のセクションを参照してください。正規性検定の使用例は、例4.19を参照してください。

出力 4.10.1 正規分布に基づく分位点の信頼限界Analysis of Female Heights

The UNIVARIATE Procedure Variable: Height (Height (in))

Basic Confidence Limits Assuming Normality

Parameter Estimate 90% Confidence Limits

Mean 64.56667 64.14564 64.98770

Std Deviation 2.18900 1.93114 2.53474

Variance 4.79171 3.72929 6.42492

Page 461: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 457

UNIVARIATEプロシジャを使用して、正規分布を前提としない分位点の信頼限界を計算することもできます。次のステートメントはCIQUANTDFオプションを使用して、身長の母集団の分位点に対する分布に依存しない信頼限界を要求します。

title 'Analysis of Female Heights';

ods select Quantiles;

proc univariate data=Heights ciquantdf(alpha=.1);

var Height;

run;

分布に依存しない信頼限界を出力4.10.2に示します。

Quantiles (Definition 5)

Level Quantile 90% Confidence LimitsAssuming Normality

100% Max 70.0

99% 70.0 68.94553 70.58228

95% 68.6 67.59184 68.89311

90% 67.5 66.85981 68.00273

75% Q3 66.0 65.60757 66.54262

50% Median 64.4 64.14564 64.98770

25% Q1 63.1 62.59071 63.52576

10% 61.6 61.13060 62.27352

5% 60.6 60.24022 61.54149

1% 60.0 58.55106 60.18781

0% Min 60.0

Page 462: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

458 第 4章 : UNIVARIATEプロシジャ

出力 4.10.2 分布に依存しない分位点の信頼限界Analysis of Female Heights

UNIVARIATEプロシジャ Variable: Height (Height (in))

出力4.10.2のテーブルには、計算された信頼限界の順位も示されています。信頼限界の計算方法の詳細は、「パーセント点の信頼限界」(383ページ)のセクションを参照してください。分位点の信頼限界は、WEIGHTステートメントが使用されている場合は作成されません。

この例のサンプルプログラムuniex07.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.11 ロバスト推定の計算

この例は、UNIVARIATEプロシジャによる位置および尺度のロバスト推定の計算方法を示しています。次のステートメントは、例4.1で説明したデータセットBPressure内の変数Systolicについて、これらの推定値を計算します。

title 'Robust Estimates for Blood Pressure Data';

ods select TrimmedMeans WinsorizedMeans RobustScale;

proc univariate data=BPressure trimmed=1 .1

winsorized=.1 robustscale;

var Systolic;

run;

ODS SELECTステートメントは出力を"TrimmedMeans"、"WinsorizedMeans"および"RobustScale"テーブルに制限します。ODSテーブル名のセクションを参照してください。TRIMMED=オプションは2つのトリム平均を計算します。1つはオブザベーションを1つ取り除いた後の平均、もう1つはオブザベーションを10%取り除いた後の平均です。TRIMMED=の値が1以上の場合、値はトリム対象のオブザベーション数と解釈されます。WINSORIZED=オプションは、裾の3つのオブザベーションを直近のオブザベーションに置き換えたウィンザー化平均を計算します。(3つのオブザベーションが置き換えられるのは、

で、2.2より大きい最小の整数が3であるためです。)出力4.11.1にSystolicのトリム平均とウィンザー化平均が示されています。

Quantiles (Definition 5)

Order Statistics

Level Quantile 90% Confidence LimitsDistribution Free

LCL Rank UCL Rank Coverage

100% Max 70.099% 70.0 68.6 70.0 73 75 48.9795% 68.6 67.5 70.0 68 75 94.5090% 67.5 66.6 68.6 63 72 91.5375% Q3 66.0 65.7 66.6 50 63 91.7750% Median 64.4 64.1 65.1 31 46 91.5425% Q1 63.1 62.7 63.7 13 26 91.7710% 61.6 60.6 62.7 4 13 91.535% 60.6 60.0 61.6 1 8 94.501% 60.0 60.0 60.5 1 3 48.970% Min 60.0

Page 463: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 459

出力 4.11.1 トリム平均およびウィンザー化平均の計算Robust Estimates for Blood Pressure Data

The UNIVARIATE Procedure Variable: Systolic

出力4.11.1はSystolicのトリム平均について、オブザベーションを1つ取り除いた後の平均が120.35で、オブザベーションを3つ取り除いた後の平均が120.31であることを示しています。Systolicのウィンザー化平均は120.64です。トリム平均およびウィンザー化平均の詳細は、「ロバスト推定量」(387ページ)のセクションを参照してください。トリム平均は出力4.11.1 (例4.1)に示されている平均と比較できます。この出力でSystolicの平均は121.273と表示されています。

ROBUSTSCALEオプションは出力4.11.2で表示されているテーブルを要求します。このテーブルには四分位範囲、Giniの平均差、中央絶対偏差、 、 が含まれます。

出力4.11.2はSystolicに対する尺度のロバスト推定を示しています。たとえば、四分位範囲は13です。 の範囲の推定値は9.54から13.32までです。「ロバスト推定量」(387ページ)のセクションを参照してください。

この例のサンプルプログラムuniex01.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.11.2 尺度のロバスト推定の計算

Trimmed Means

PercentTrimmed

in Tail

NumberTrimmed

in Tail

TrimmedMean

Std ErrorTrimmed

Mean

95% Confidence Limits DF t for H0:Mu0=0.00

Pr > |t|

4.55 1 120.3500 2.573536 114.9635 125.7365 19 46.76446 <.000113.64 3 120.3125 2.395387 115.2069 125.4181 15 50.22675 <.0001

ウィンザー化平均Percent

Winsorizedin Tail

NumberWinsorized

in Tail

WinsorizedMean

Std ErrorWinsorized

Mean

95% Confidence Limits DF t for H0:Mu0=0.00

Pr > |t|

13.64 3 120.6364 2.417065 115.4845 125.7882 15 49.91027 <.0001

Robust Measures of Scale

Measure 値 Estimateof Sigma

Interquartile Range 13.00000 9.63691Gini's Mean Difference 15.03030 13.32026MAD 6.50000 9.63690Sn 9.54080 9.54080Qn 13.33140 11.36786

Qn Sn

σ

Page 464: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

460 第 4章 : UNIVARIATEプロシジャ

例 4.12 位置の検定

この例は例4.9の続きで、スチューデントのt検定、符号検定およびWilcoxonの符号付き順位検定の3つの位置の検定の実行方法を示しています。これらの検定の詳細は位置の検定のセクションで説明しています。

次のステートメントは、例4.9で説明したHeightsデータセットを使用して位置の検定を実行します。データは成人女性の身長で構成されているため、調査員は、母集団の平均がデフォルトの 値である0インチに等しいかどうかの検定には関心がありません。代わりに、平均が66インチに等しいかどうかを検定しようと考えています。次のステートメントは帰無仮説 を検定します。

title 'Analysis of Female Height Data';

ods select TestsForLocation LocationCounts;

proc univariate data=Heights mu0=66 loccount;

var Height;

run;

ODS SELECTステートメントは出力を"TestsForLocation"テーブルと"LocationCounts"テーブルに制限します。ODSテーブル名のセクションを参照してください。MU0=オプションは、位置の検定に使用するの帰無仮説の値を指定します。デフォルトでは、 です。LOCCOUNTオプションは、66インチよ

り大きいオブザベーション数、66インチに等しくないオブザベーション数、66インチより小さいオブザベーション数のテーブルを作成します。

出力4.12.1に位置の検定の結果が示されています。3つの検定はすべて有意性が高いため、調査員は平均が66インチであるという帰無仮説を棄却します。

この例のサンプルプログラムuniex07.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.12.1 MU0=66およびLOCCOUNTによる位置の検定Analysis of Female Height Data

The UNIVARIATE Procedure Variable: Height (Height (in))

Tests for Location: Mu0=66

Test Statistic p Value

Student's t t -5.67065 Pr > |t| <.0001Sign M -20 Pr >= |M| <.0001Signed Rank S -849 Pr >= |S| <.0001

Location Counts: Mu0=66.00

Count Value

Num Obs > Mu0 16Num Obs ^= Mu0 72

Num Obs < Mu0 56

μ0

μ0

Page 465: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 461

例 4.13 ペアのデータを使用した符号検定の実行

この例は、例4.12で説明した位置の検定の特殊な応用である、ペアのデータに対する符号検定を実行します。

例4.4の講師は、大学の講座で行った2つのテストの結果に対する符号検定を実行しようと考えています。次のステートメントは基本統計量と位置の検定を要求します。

title 'Test Scores for a College Course';

ods select BasicMeasures TestsForLocation;

proc univariate data=Score;

var ScoreChange;

run;

ODS SELECTステートメントは出力を"BasicMeasures"テーブルと"TestsForLocation"テーブルに制限します。ODSテーブル名のセクションを参照してください。講師は、ScoreChange変数が正規分布や対称分布であるという前提を使用したくないため、符号検定を実行することにしました。符号検定のp値(0.7744)が大きいことは、テキスト結果の中央値の違いの証明としては不十分です。

出力 4.13.1 ScoreChangeに対する符号検定Test Scores for a College Course

The UNIVARIATE Procedure Variable: ScoreChange (Change in Test Scores)

Note: The mode displayed is the smallest of 2 modes with a count of 2.

この例のサンプルプログラムuniex03.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Basic Statistical Measures

Location Variability

Mean -3.08333Std Deviation 13.33797Median -3.00000Variance 177.90152Mode -5.00000Range 51.00000

Interquartile Range 10.50000

Tests for Location: Mu0=0

Test Statistic p Value

Student's t t -0.80079 Pr > |t| 0.4402Sign M -1 Pr >= |M| 0.7744Signed Rank S -8.5 Pr >= |S| 0.5278

Page 466: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

462 第 4章 : UNIVARIATEプロシジャ

例 4.14 ヒストグラムの作成

この例はヒストグラムの作成方法を示しています。ある半導体メーカーがプリント基板を製造し、その標本を抽出して銅めっきの厚さを判定しています。次のステートメントはTransという名前のデータセットを作成し、このデータセットに100個の基板のめっきの厚さ(Thick)を格納します。

data Trans;

input Thick @@;

label Thick = 'Plating Thickness (mils)';

datalines;

3.468 3.428 3.509 3.516 3.461 3.492 3.478 3.556 3.482 3.512

3.490 3.467 3.498 3.519 3.504 3.469 3.497 3.495 3.518 3.523

3.458 3.478 3.443 3.500 3.449 3.525 3.461 3.489 3.514 3.470

3.561 3.506 3.444 3.479 3.524 3.531 3.501 3.495 3.443 3.458

3.481 3.497 3.461 3.513 3.528 3.496 3.533 3.450 3.516 3.476

3.512 3.550 3.441 3.541 3.569 3.531 3.468 3.564 3.522 3.520

3.505 3.523 3.475 3.470 3.457 3.536 3.528 3.477 3.536 3.491

3.510 3.461 3.431 3.502 3.491 3.506 3.439 3.513 3.496 3.539

3.469 3.481 3.515 3.535 3.460 3.575 3.488 3.515 3.484 3.482

3.517 3.483 3.467 3.467 3.502 3.471 3.516 3.474 3.500 3.466

;

次のステートメントは出力4.14.1に示したヒストグラムを作成します。title 'Analysis of Plating Thickness';

ods graphics on;

proc univariate data=Trans noprint;

histogram Thick / odstitle = title;

run;

title 'Enhancing a Histogram';

proc univariate data=Trans noprint;

histogram Thick / midpoints = 3.4375 to 3.5875 by .025

rtinclude

outhistogram = OutMdpts

odstitle = title;

run;

proc print data=OutMdpts;

run;

PROC UNIVARIATEステートメントのNOPRINTオプションは、デフォルトでは表示される変数Thickの要約統計量のテーブルを抑制します。HISTOGRAMステートメントにリストした各変数のヒストグラムが作成されます。

Page 467: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 463

出力 4.14.1 めっきの厚さのヒストグラム

この例のサンプルプログラムuniex08.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.15 一元比較ヒストグラムの作成

この例は比較ヒストグラムの作成方法を示しています。1225個の電界効果トランジスタの実効チャネル長(ミクロン)が測定されています。チャネル長(Length)はChannelという名前のデータセットに格納されており、出力4.15.1はそのリストの一部です。

出力 4.15.1 出力データセットChannelのリストの一部The Data Set Channel

Lot Length

Lot 1 0.91. .Lot 1 1.17Lot 2 1.47. .Lot 2 1.39Lot 3 2.04. .Lot 3 1.91

Page 468: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

464 第 4章 : UNIVARIATEプロシジャ

次のステートメントは、ロットの供給元を無視したLengthのヒストグラムを要求します。title 'Histogram of Length Ignoring Lot Source';

ods graphics on;

proc univariate data=Channel noprint;

histogram Length / odstitle = title;

run;

生成されるヒストグラムは出力4.15.2に示されています。

出力 4.15.2 ロットの供給元を無視したLengthのヒストグラム

出力4.15.2の最大値(モード)がロットの供給元に関連しているかどうかを調べるため、Lotを分類変数に使用して比較ヒストグラムを作成できます。次のステートメントは出力4.15.3に示したヒストグラムを作成します。

title 'Comparative Analysis of Lot Source';

proc univariate data=Channel noprint;

class Lot;

histogram Length / nrows = 3

odstitle = title;

run;

CLASSステートメントは分類変数Lotの水準(重複しない値)ごとの比較を要求します。HISTOGRAMステートメントは変数Lengthの比較ヒストグラムを要求します。NROWS=オプションは比較ヒストグラムのパネル当たりの行数を指定します。デフォルトでは、比較ヒストグラムは各パネルに2行で表示されます。

Page 469: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 465

出力 4.15.3 ロットの供給元別の比較

出力4.15.3によって、Lengthの分布は平均が移動している点を除いて似ていることがわかります。

この例のサンプルプログラムuniex09.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.16 二元比較ヒストグラムの作成

この例は二元比較ヒストグラムの作成方法を示しています。ある2つのサプライヤ(AおよびB)が、コンピュータメーカーにディスクドライブを供給しています。コンピュータメーカーは、2002年から2003年にかけて各サプライヤのばらつきに変化があったかどうかを判定するため、ディスクドライブの開口幅を測定しています。

次のステートメントはDiskという名前のデータセットに測定値を保存します。2つの分類変数SupplierおよびYearがあり、Yearにユーザー定義出力形式を関連付けています。

proc format ;

value mytime 1 = '2002' 2 = '2003';

data Disk;

input @1 Supplier $10.Year Width;

label Width = 'Opening Width (inches)';

format Year mytime.;

datalines;

Supplier A 1 1.8932

...

Supplier B 1 1.8986

Page 470: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

466 第 4章 : UNIVARIATEプロシジャ

Supplier A 2 1.8978

...

Supplier B 2 1.8997

;

次のステートメントは出力4.16.1に示した比較ヒストグラムを作成します。title 'Results of Supplier Training Program';

ods graphics on;

proc univariate data=Disk noprint;

class Supplier Year / keylevel = ('Supplier A' '2003');

histogram Width / vaxis = 0 10 20 30

ncols = 2

nrows = 2

odstitle = title;

run;

KEYLEVEL=オプションは、Supplierが'SUPPLIER A'に等しくYearが'2003'に等しいセルをキーセルに指定します。このセルによって他のセルのビン幅が決まり、このセルが左上端に表示されるように列が並べ替えられます。KEYLEVEL=オプションを指定しなかった場合、Supplierが'SUPPLIER A'に等しくYearが'2002'に等しいセルがデフォルトのキーセルになります。ラベル'2002'の列がラベル'2003'の列の左に表示されます。

VAXIS=オプションは垂直軸の目盛りラベルを指定します。NROWS=2オプションおよびNCOLS=2オプションは、 のタイル配置を指定します。出力4.16.1は2002年から2003年にかけて、いずれのサプライヤもばらつきが低下していることを証明しています。

2 2×

Page 471: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 467

出力 4.16.1 二元比較ヒストグラム

この例のサンプルプログラムuniex10.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.17 記述統計量を含むインセットの追加

この例は記述統計量を含むインセットを比較ヒストグラムに追加する方法を示しています(出力4.17.1を参照)。3つの似た機械が組み立て品の部品の取り付けに使用されています。各機械の生産品から100個のサンプルを抽出し、部品の位置を100mm単位で測定します。次のステートメントはデータセットMachinesを作成し、このデータセットにPositionという名前の変数の測定値を格納します。

data Machines;

input Position @@;

label Position = 'Position in Millimeters';

if (_n_ <= 100) then Machine = 'Machine 1';

else if (_n_ <= 200) then Machine = 'Machine 2';

else Machine = 'Machine 3';

datalines;

-0.17 -0.19 -0.24 -0.24 -0.12 0.07 -0.61 0.22 1.91 -0.08

-0.59 0.05 -0.38 0.82 -0.14 0.32 0.12 -0.02 0.26 0.19

-0.07 0.13 -0.49 0.07 0.65 0.94 -0.51 -0.61 -0.57 -0.51

... more lines ...

0.48 0.41 0.78 0.58 0.43 0.07 0.27 0.49 0.79 0.92

0.79 0.66 0.22 0.71 0.53 0.57 0.90 0.48 1.17 1.03

;

次のステートメントは出力4.17.1に示した比較ヒストグラムを作成します。

Page 472: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

468 第 4章 : UNIVARIATEプロシジャ

title 'Machine Comparison Study';

ods graphics on;

proc univariate data=Machines noprint;

class Machine;

histogram Position / nrows = 3

midpoints = -1.2 to 2.2 by 0.1

vaxis = 0 to 16 by 4

odstitle = title;

inset mean std="Std Dev" / pos = ne format = 6.3;

run;

INSET ステートメントは、タイルに各機械の標本平均と標準偏差を表示するよう要求しています。MIDPOINTS=オプションはヒストグラムビンの中間点を指定しています。

出力 4.17.1 比較ヒストグラム

出力4.17.1は、Machines 2および3の平均位置が似ていることと、Machine 1での相違がMachines 2および3に比べかなり大きいことを示しています。

この例のサンプルプログラムuniex11.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Page 473: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 469

例 4.18 ヒストグラムのビン幅の指定

この例は例4.14の続きで、ヒストグラムのビン幅を指定するさまざまな方法を示しています。この例は、ビンのパーセンテージをOUTHISTOGRAM=データセットに保存する方法も示しています。

例4.14のメーカーはENDPOINTS=オプションでビンの端点を変更し、ヒストグラムを拡張しようとしています。次のステートメントは、ビンの終点が3.425および3.6で幅が0.025のヒストグラムを作成します。

title 'Enhancing a Histogram';

ods select Histogram HistogramBins;

proc univariate data=Trans;

histogram Thick / midpercents

endpoints = 3.425 to 3.6 by .025

odstitle = title;

run;

ODS SELECTステートメントは出力を"HistogramBins"テーブルと"MyHist"ヒストグラムに制限します。ODSテーブル名のセクションを参照してください。ENDPOINTS=オプションはヒストグラムビンの端点を指定します。デフォルトでは、ENDPOINTS=オプションが指定されていない場合、ビン幅を自動的に指定するアルゴリズムによって、ビンの中間点の値が計算されます。MIDPERCENTSオプションは、各ヒストグラムビンの中間点と各ビンに含まれるオブザベーションのパーセントのテーブルを要求します。テーブルは出力4.18.1に表示され、ヒストグラムは出力4.18.2に表示されています。NAME=オプションは、ODS SELECTステートメントで使用できるヒストグラムの名前を指定します。

出力 4.18.1 MIDPERCENTSオプションで要求したビンのパーセンテージのテーブルEnhancing a Histogram

The UNIVARIATE Procedure

Histogram Bins forThick

BinMinimum

Point

ObservedPercent

3.425 8.0003.450 21.0003.475 25.0003.500 29.0003.525 11.0003.550 5.0003.575 1.000

Page 474: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

470 第 4章 : UNIVARIATEプロシジャ

出力 4.18.2 ENDPOINTS=オプションによるヒストグラム

MIDPOINTS=オプションは、ヒストグラムビンを指定する際のENDPOINTS=オプションの代替として使用できます。次のステートメントは出力4.18.3に示したヒストグラムを作成します。このヒストグラムは出力4.18.2のものと似ています。

title 'Enhancing a Histogram';

proc univariate data=Trans noprint;

histogram Thick / midpoints = 3.4375 to 3.5875 by .025

rtinclude

outhistogram = OutMdpts

odstitle = title;

run;

出力4.18.3は出力4.18.2と2つの点で異なります。• MIDPOINTS= オプションは、端点を指定する代わりにビンの中間点を指定することにより、ヒストグラムのビンを指定します。端点ではなく中間点がヒストグラムに表示されます。

• RTINCLUDEオプションは、各ビンの左の端点をヒストグラム間隔に含めるデフォルト設定の代わりに、各ビンの右の端点をヒストグラム間隔に含めるよう要求します。このため、出力 4.18.2 のヒストグラムから少し変化しています。6 つのオブザベーションの厚さは間隔の端点に等しくなっています。たとえば、厚さが 3.45mm のオブザベーションが 1 つあります。出力 4.18.3 では、このオブザベーションは 3.425から 3.45までのビンに含まれています。

Page 475: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 471

出力 4.18.3 MIDPOINTS=およびRTINCLUDEオプションによるヒストグラム

OUTHISTOGRAM=オプションは、出力4.18.4に表示されているOutMdptsという名前の出力データセットを作成します。このデータセットはヒストグラムのビンに関する情報を示します。詳細は、「OUTHISTOGRAM=出力データセット」(428ページ)のセクションを参照してください。

出力 4.18.4 OUTHISTOGRAM=データセットOutMdpts

Enhancing a Histogram

この例のサンプルプログラムuniex08.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Obs _VAR_ _MIDPT_ _OBSPCT_ _COUNT_

1 Thick 3.4375 9 92 Thick 3.4625 21 213 Thick 3.4875 26 264 Thick 3.5125 28 285 Thick 3.5375 11 116 Thick 3.5625 5 5

Page 476: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

472 第 4章 : UNIVARIATEプロシジャ

例 4.19 ヒストグラムへの正規曲線の追加

この例は例4.14の続きです。次のステートメントはTransデータセットの厚さの測定値に正規分布を当てはめ、当てはめた密度曲線をヒストグラムに重ねて表示します。

title 'Analysis of Plating Thickness';

ods select Histogram ParameterEstimates GoodnessOfFit FitQuantiles Bins;

proc univariate data=Trans;

histogram Thick / normal(percents=20 40 60 80 midpercents)

odstitle = title;

inset n normal(ksdpval) / pos = ne format = 6.3;

run;

ODS SELECTステートメントは出力を"ParameterEstimates"、"GoodnessOfFit"、"FitQuantiles"、"Bins"の各テーブルに制限します。ODSテーブル名のセクションを参照してください。NORMALオプションは、出力4.19.2に示したヒストグラムに正規曲線が表示されるよう指定します。また、出力4.19.1に示した当てはめた分布の要約 (適合度検定、パラメータ推定値および当てはめた分布の分位点)を要求します。(PROC UNIVARIATEステートメントでNORMALTESTオプションを指定した場合は、正規性のShapiro-Wilk検定が統計量テーブルに含まれます)。

2次オプションはNORMAL 1次オプションの後にかっこで囲んで指定されます。PERCENTS=オプションは分位点を指定します。これらの分位点は"FitQuantiles"テーブルに表示されます。MIDPERCENTSオプションは、(当てはめた正規分布から推定された)各間隔の中間点、オブザベーションの観測されたパーセンテージおよび母集団の推定されたパーセンテージの一覧を示すテーブルを要求します。NORMAL 1次オプションの後に指定できる2次オプションについては、表4.6を参照してください。

出力 4.19.1 当てはめた正規分布の要約Analysis of Plating Thickness

The UNIVARIATE Procedure Fitted Normal Distribution for Thick (Plating Thickness (mils))

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 3.49533Std Dev Sigma 0.032117

Goodness-of-Fit Tests for Normal Distribution

Test Statistic p Value

Kolmogorov-Smirnov D 0.05563823 Pr > D >0.150Cramer-von Mises W-Sq 0.04307548 Pr > W-Sq >0.250Anderson-Darling A-Sq 0.27840748 Pr > A-Sq >0.250

Histogram Bin Percentsfor Normal Distribution

Bin Midpoint

Percent

Observed Estimated

3.43 3.000 3.296

Page 477: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 473

出力 4.19.2 正規曲線を重ねて表示したヒストグラム

正規曲線を重ねて表示した変数Thickのヒストグラムが出力4.19.2に示されています。

正規曲線の推定されたパラメータ( および )を出力4.19.1に示します。デフォルトでは、NORMAL 1次オプションの後にMU=およびSIGMA= 2次オプションで値を指定しなかった場合、パラメータが推定されます。経験分布関数(EDF)に基づく3つの適合度検定の結果が出力4.19.1に示されています。p値がすべて0.15より大きいため、正規性の仮説は棄却されます。

3.45 9.000 9.3193.47 23.000 18.0913.49 19.000 24.1243.51 24.000 22.0993.53 15.000 13.9073.55 3.000 6.0113.57 4.000 1.784

Quantiles for Normal Distribution

Quantile

Percent Observed Estimated

20.0 3.46700 3.4683040.0 3.48350 3.4871960.0 3.50450 3.5034780.0 3.52250 3.52236

Page 478: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

474 第 4章 : UNIVARIATEプロシジャ

この例のサンプルプログラムuniex08.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.20 比較ヒストグラムへの当てはめた正規曲線の追加

この例はデータセットChannelについて説明した 例4.15の続きです。出力4.15.3で、各ロットのチャネル長は正規分布であることが示されています。次のステートメントはNORMALオプションを使用して、各ロットに正規分布を当てはめます。

title 'Comparative Analysis of Lot Source';

proc univariate data=Channel noprint;

class Lot;

histogram Length / nrows = 3

intertile = 1

odstitle = title

cprop

normal(noprint);

inset n = "N" / pos = nw;

run;

PROC UNIVARIATEステートメントのNOPRINTオプションは、デフォルトで作成される統計量テーブルを抑制します。NORMALオプションの後のかっこ内のNOPRINTオプションは、正規分布の当てはめに関連する統計量テーブルを抑制します。正規分布のパラメータは各ロットのデータから推定され、曲線が各成分ヒストグラムに重ねて表示されます。INTERTILE=オプションはタイルと呼ばれる枠領域の間隔を指定します。CPROP=オプションは、各ロットの相対度数を表す影付きのバーを各タイルの上に表示するよう要求します。比較ヒストグラムが出力4.20.1に表示されています。

この例のサンプルプログラムuniex09.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

Page 479: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 475

出力 4.20.1 比較ヒストグラムへの正規曲線の当てはめ

例 4.21 ベータ曲線の当てはめ

上限と下限の間で変化することがわかっている変数の分布を、ベータ分布を使用してモデル化することができます。この例では、ある製造会社がロボットアームを使用して、金属板へのヒンジの取り付けを行っています。取り付け位置は金属板の左端から10.1 mm内側にする必要があります。アームのばらつきのため、実際のオフセットは10.0から10.5 mmまでの間で変動します。次のステートメントは50か所の取り付け位置のオフセットを、変数Lengthの値としてデータセットRobotsに保存します。

data Robots;

input Length @@;

label Length = 'Attachment Point Offset (in mm)';

datalines;

10.147 10.070 10.032 10.042 10.102

10.034 10.143 10.278 10.114 10.127

10.122 10.018 10.271 10.293 10.136

10.240 10.205 10.186 10.186 10.080

10.158 10.114 10.018 10.201 10.065

10.061 10.133 10.153 10.201 10.109

10.122 10.139 10.090 10.136 10.066

10.074 10.175 10.052 10.059 10.077

10.211 10.122 10.031 10.322 10.187

10.094 10.067 10.094 10.051 10.174

;

Page 480: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

476 第 4章 : UNIVARIATEプロシジャ

次のステートメントは出力4.21.1に示した、当てはめたベータ密度曲線を伴うヒストグラムを作成します。ods select ParameterEstimates FitQuantiles Histogram;

proc univariate data=Robots;

histogram Length /

beta(theta=10 scale=0.5 fill)

href = 10

hreflabel = 'Lower Bound'

odstitle = 'Fitted Beta Distribution of Offsets';

inset n = 'Sample Size' /

pos=ne cfill=blank;

run;

ODS SELECTステートメントでは、出力を"ParameterEstimates"テーブルと"FitQuantiles"テーブル、およびヒストグラムに制限します。ODSテーブル名のセクションを参照してください。BETA1次オプションは当てはめたベータ分布を要求します。THETA=2次オプションは下限しきい値を指定します。SCALE=2次オプションは下限しきい値と上限しきい値の間の範囲を指定します。デフォルトのTHETA=およびSCALE=の値はそれぞれ0および1です。

出力 4.21.1 ヒストグラムと当てはめたベータ曲線の重ね合わせ表示

FILL2次オプションは、曲線の下の領域を塗りつぶす指定です。HREF=オプションは下限に参照線を描画し、HREFLABEL=オプションはラベルLower Boundを追加します。ODSTITLE=オプションは、タイトルをヒストグラムに追加します。INSETステートメントは標本サイズを示すインセットをプロットの右上端の位置に追加します。

ベータ曲線の表示に加え、BETAオプションは曲線の当てはめの要約を要求します。この要約は出力4.21.2に示され、曲線のパラメータと観測および推定された分位点が含まれています。

Page 481: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 477

この例のサンプルプログラムuniex12.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.21.2 当てはめたベータ分布の要約Comparative Analysis of Lot Source

The UNIVARIATE Procedure Fitted Beta Distribution for Length (Attachment Point Offset (in mm))

例 4.22 対数正規曲線、Weibull曲線、ガンマ曲線の当てはめ

適切なデータ分布モデルを決定するには、いくつかの分布族の曲線を検討する必要があります。この例で示すように、HISTOGRAMステートメントを使用して複数の分布を当てはめ、それらの密度曲線を1つのヒストグラムに表示することができます。

溶接工程の生産品から無作為に50個の溶接済み組み立て品を選択し、各組立品の2つの金属板の間の隙間(cm)を測定します。次のステートメントは、測定値(Gap)をPlatesという名前のデータセットに保存します。

data Plates;

label Gap = 'Plate Gap in cm';

input Gap @@;

datalines;

0.746 0.357 0.376 0.327 0.485 1.741 0.241 0.777 0.768 0.409

0.252 0.512 0.534 1.656 0.742 0.378 0.714 1.121 0.597 0.231

Parameters for Beta Distribution

Parameter Symbol Estimate

THRESHOLD Theta 10Scale Sigma 0.5Shape Alpha 2.06832Shape BETA 6.022479Mean 10.12782Std Dev 0.072339

Quantiles for Beta Distribution

Quantile

Percent Observed Estimated

1.0 10.0180 10.01245.0 10.0310 10.0285

10.0 10.0380 10.041625.0 10.0670 10.071850.0 10.1220 10.117475.0 10.1750 10.173590.0 10.2255 10.229295.0 10.2780 10.263099.0 10.3220 10.3237

Page 482: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

478 第 4章 : UNIVARIATEプロシジャ

0.541 0.805 0.682 0.418 0.506 0.501 0.247 0.922 0.880 0.344

0.519 1.302 0.275 0.601 0.388 0.450 0.845 0.319 0.486 0.529

1.547 0.690 0.676 0.314 0.736 0.643 0.483 0.352 0.636 1.080

;

次のステートメントは3つの分布(対数正規、Weibullおよびガンマ)を当てはめ、それらの密度曲線を1つのヒストグラムに表示します。

title 'Distribution of Plate Gaps';

ods graphics on;

ods select Histogram ParameterEstimates GoodnessOfFit FitQuantiles;

proc univariate data=Plates;

var Gap;

histogram / midpoints=0.2 to 1.8 by 0.2

lognormal

weibull

gamma

odstitle = title;

inset n mean(5.3) std='Std Dev'(5.3) skewness(5.3)

/ pos = ne header = 'Summary Statistics';

run;

ODS SELECTステートメントは出力を"ParameterEstimates"、"GoodnessOfFit"および"FitQuantiles"の各テーブルに制限します。ODS テーブル名のセクションを参照してください。LOGNORMAL、WEIBULLおよびGAMMA 1次オプションは、当てはめた曲線を出力4.22.1のヒストグラムに重ねて表示するよう要求します。各曲線でしきい値パラメータは =0であることが前提になっています。しきい値が0ではない場合は、THETA= 2次オプションで を指定できます。

LOGNORMAL、WEIBULLおよびGAMMAオプションは、出力4.22.2から出力4.22.4に示されている当てはめた分布の要約も作成します。

出力4.22.2は、対数正規分布に対する3つのEDF適合度検定(Anderson-Darling、Cramér-von MisesおよびKolmogorov-Smirnov検定)を示しています。 =0.10の有意水準において、尺度パラメータが =-0.58で形状パラメータが =0.50である2パラメータ対数正規分布が金属板の隙間の分布に適しているという結論が、すべての検定で支持されます。

θθ

α ζσ

Page 483: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 479

出力 4.22.1 ヒストグラムと当てはめた曲線の重ね合わせ表示

出力 4.22.2 当てはめた対数正規分布の要約Distribution of Plate Gaps

The UNIVARIATE Procedure Fitted Lognormal Distribution for Gap (Plate Gap in cm)

Parameters for Lognormal Distribution

Parameter Symbol Estimate

THRESHOLD Theta 0Scale Zeta -0.58375Shape Sigma 0.499546Mean 0.631932Std Dev 0.336436

Goodness-of-Fit Tests for Lognormal Distribution

Test Statistic p Value

Kolmogorov-Smirnov D 0.06441431 Pr > D >0.150Cramer-von Mises W-Sq 0.02823022 Pr > W-Sq >0.500Anderson-Darling A-Sq 0.24308402 Pr > A-Sq >0.500

Page 484: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

480 第 4章 : UNIVARIATEプロシジャ

出力 4.22.3 当てはめたWeibull分布の要約Distribution of Plate Gaps

The UNIVARIATE Procedure Fitted Weibull Distribution for Gap (Plate Gap in cm)

Quantiles for Lognormal Distribution

Quantile

Percent Observed Estimated

1.0 0.23100 0.174495.0 0.24700 0.24526

10.0 0.29450 0.2940725.0 0.37800 0.3982550.0 0.53150 0.5578075.0 0.74600 0.7812990.0 1.10050 1.0580795.0 1.54700 1.2686299.0 1.74100 1.78313

Parameters for Weibull Distribution

Parameter Symbol Estimate

THRESHOLD Theta 0Scale Sigma 0.719208Shape C 1.961159Mean 0.637641Std Dev 0.339248

Goodness-of-Fit Tests for Weibull Distribution

Test Statistic p Value

Cramer-von Mises W-Sq 0.15937281 Pr > W-Sq 0.016Anderson-Darling A-Sq 1.15693542 Pr > A-Sq <0.010

Quantiles for Weibull Distribution

Quantile

Percent Observed Estimated

1.0 0.23100 0.068895.0 0.24700 0.15817

10.0 0.29450 0.2283125.0 0.37800 0.3810250.0 0.53150 0.5966175.0 0.74600 0.84955

Page 485: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 481

出力4.22.3は、Weibull分布に対する2つのEDF適合度検定(Anderson-DarlingおよびCramér-von Mises検定)を示しています。EDF検定のp値はすべて0.10より小さく、このデータがWeibullモデルをサポートしないことを示しています。

出力 4.22.4 当てはめたガンマ分布の要約Distribution of Plate Gaps

The UNIVARIATE Procedure Fitted Gamma Distribution for Gap (Plate Gap in cm)

出力4.22.4は、ガンマ分布に対する3つのEDF適合度検定(Anderson-Darling、Cramér-von MisesおよびKolmogorov-Smirnov検定)を示しています =0.10。の有意水準において、尺度パラメー =0.16タがで形状パラメ =4.08ータがであるガンマ分布が金属板の隙間の分布に適しているという結論が、すべての検定で支持されます。

90.0 1.10050 1.1004095.0 1.54700 1.2584299.0 1.74100 1.56691

Parameters for Gamma Distribution

Parameter Symbol Estimate

THRESHOLD Theta 0Scale Sigma 0.155198Shape Alpha 4.082646Mean 0.63362Std Dev 0.313587

Goodness-of-Fit Tests for Gamma Distribution

Test Statistic p Value

Kolmogorov-Smirnov D 0.09695325 Pr > D >0.250Cramer-von Mises W-Sq 0.07398467 Pr > W-Sq >0.250Anderson-Darling A-Sq 0.58106613 Pr > A-Sq 0.137

Quantiles for Gamma Distribution

Quantile

Percent Observed Estimated

1.0 0.23100 0.133265.0 0.24700 0.21951

10.0 0.29450 0.2793825.0 0.37800 0.4040450.0 0.53150 0.5827175.0 0.74600 0.8080490.0 1.10050 1.0539295.0 1.54700 1.2216099.0 1.74100 1.57939

α σα

Page 486: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

482 第 4章 : UNIVARIATEプロシジャ

この分析に基づき、当てはめた対数正規分布と当てはめたガンマ分布の2つのモデルが金属板の隙間の分布に適しています。

この例のサンプルプログラムuniex13.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.23 核密度推定の計算

この例は、核密度推定による非正規データ分布の視覚化を示しています。この例では、例4.15で説明したデータセットChannelを使用します。

核密度推定を計算する場合、それによって当てはめの平滑度と近似度が決定されることから、区間幅パラメータcをいくつか選択して試行する必要があります。次のステートメントに示すように、KERNELオプションとともに最大5つのC=値のリストを指定して、複数の密度推定を要求できます。

title 'FET Channel Length Analysis';

proc univariate data=Channel noprint;

histogram Length / kernel(c = 0.25 0.50 0.75 1.00

l = 1 20 2 34

noprint)

odstitle = title;

run;

L= 2次オプションは曲線の種類を重複しないように指定します(L=の値はC=の値とリスト順に対応します)。出力4.23.1はcの影響を示しています。一般的に、cの値が大きいほど密度推定は平滑になり、この値が小さいほどデータ分布への適合度が高い推定になります。

Page 487: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 483

出力 4.23.1 複数の核密度推定

出力4.23.1によって、例4.15のヒストグラムで表示されているデータの強い三峰性がわかります。

この例のサンプルプログラムuniex09.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.24 3パラメータ対数正規曲線の当てはめ

LOGNORMAL 1次オプションで対数正規分布の当てはめを要求すると、2パラメータ対数正規分布の要求と見なされます。つまり、形状パラメータ および尺度パラメータ は未知であり(指定されていない場合)、しきい値 は既知となります(THETA=オプションで指定されているか、または0と見なされます)。

と に加えて も推定する必要がある場合、その分布は3パラメータ対数正規分布と呼ばれます。この例は3パラメータ対数正規分布を要求する方法を示しています。

ある製造工程でプラスチック積層板を製造しており、その強度は25ポンド毎平方インチ(psi)を超えている必要があります。標本が検定され、強度に対して対数正規分布が観測されています。 を推定して、工程が強度要件を満たしているかどうかを判定することが重要です。次のステートメントは49個の標本の強度をデータセットPlasticに保存します。

data Plastic; label Strength = 'Strength in psi';input Strength @@;datalines;30.26 31.23 71.96 47.39 33.93 76.15 42.2181.37 78.48 72.65 61.63 34.90 24.83 68.9343.27 41.76 57.24 23.80 34.03 33.38 21.87 31.29 32.48 51.54 44.06 42.66 47.98 33.73

σ ζθ

σ θ ζ

θ

Page 488: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

484 第 4章 : UNIVARIATEプロシジャ

25.80 29.95 60.89 55.33 39.44 34.50 73.51 43.41 54.67 99.43 50.76 48.81 31.86 33.8835.57 60.41 54.92 35.66 59.30 41.96 45.32 ;

次のステートメントは、HISTOGRAMステートメント内でLOGNORMAL 1次オプションを使用して、出力4.24.1に示されている当てはめた3パラメータ対数正規曲線を表示します。

title 'Three-Parameter Lognormal Fit'; ods graphics on;proc univariate data=Plastic noprint;

histogram Strength / lognormal(fill theta = est noprint)odstitle = title;

inset lognormal / format=6.2 pos=ne; run;

NOPRINTオプションは、デフォルトで作成される統計量テーブルを抑制します。THETA=ESTを指定すると、Cohen (1951)の説明に基づき、 の局所最尤推定値(LMLE)が要求されます。次に、この推定値を使用して および の最尤推定値が計算されます。

注:WEIBULL 1次オプションとともに THETA=ESTを指定して、3パラメータWeibull分布を当てはめることもできます。

この例のサンプルプログラムuniex14.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

出力 4.24.13パラメータ対数正規分布の当てはめ

θσ ζ

Page 489: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 485

例 4.25 折り重ねられた正規曲線の追加表示

この例は、HISTOGRAMステートメントでサポートされていない当てはめた曲線の表示方法を示しています。多くの製造済み組み立て品の取り付け位置のオフセット(mm)が測定され、測定値(Offset)はAssemblyという名前のデータセットに保存されます。次のステートメントはデータセットAssemblyを作成します。

data Assembly; label Offset = 'Offset (in mm)';input Offset @@;datalines;

11.11 13.07 11.42 3.92 11.08 5.40 11.22 14.69 6.27 9.769.18 5.07 3.51 16.65 14.10 9.69 16.61 5.67 2.89 8.139.97 3.28 13.03 13.78 3.13 9.53 4.58 7.94 13.51 11.4311.98 3.90 7.67 4.32 12.69 6.17 11.48 2.82 20.42 1.013.18 6.02 6.63 1.72 2.42 11.32 16.49 1.22 9.13 3.34 1.29 1.70 0.65 2.62 2.04 11.08 18.85 11.94 8.34 2.070.31 8.91 13.62 14.94 4.83 16.84 7.09 3.37 0.49 15.195.16 4.14 1.92 12.70 1.97 2.10 9.38 3.18 4.18 7.22 15.84 10.85 2.35 1.93 9.19 1.39 11.40 12.20 16.07 9.230.05 2.15 1.95 4.39 0.48 10.16 4.81 8.28 5.68 22.810.23 0.38 12.71 0.06 10.11 18.38 5.53 9.36 9.32 3.6312.93 10.39 2.05 15.49 8.12 9.52 7.77 10.70 6.37 1.918.60 22.22 1.74 5.84 12.90 13.06 5.08 2.09 6.41 1.40 15.60 2.36 3.97 6.17 0.62 8.56 9.36 10.19 7.16 2.3712.91 0.95 0.89 3.82 7.86 5.33 12.92 2.64 7.92 14.06 ;

折り重ねられた正規分布をオフセットの測定に当てはめることが決定されます。変数Xは、X=|Y|の場合に折り重ねられた正規分布になり、ここで、YはN( , )のような分布です。当てはめた密度は次のとおりです。

ここで、 です。

SAS/IMLを使用して、Elandt (1961)が定義した積率法に基づく および の予備的な推定値を計算できます。これらの推定値はElandt (1961)の(19)を解くことによって計算されます。この式は次のように定義されます。

ここで、 は標準正規分布関数であり、各パラメータ値は次のとおりです。

この場合、 および の推定値は次のように求められます。

まず、MEANSプロシジャによる1番目および2番目の積率の計算と、次のDATAステップによる定数 Aの計算を行います。

proc means data = Assembly noprint; var Offset; output out=stat mean=m1 var=var n=n min = min;

run;

μ σ

μ σ

μ σ

Page 490: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

486 第 4章 : UNIVARIATEプロシジャ

* Compute constant A from equation (19) of Elandt (1961);data stat;

keep m2 a min; set stat; a = (m1*m1); m2 = ((n-1)/n)*var + a; a = a/m2;

run;

次に、SAS/IMLサブルーチンNLPDDを使用して、 を最小化することにより式(19)を解き、および を計算します。

proc iml; use stat; read all var {m2} into m2; read all var {a} into a; read all var {min} into min;

* f(t) is the function in equation (19) of Elandt (1961); start f(t) global(a);

y = .39894*exp(-0.5*t*t);y = (2*y-(t*(1-2*probnorm(t))))**2/(1+t*t); y = (y-a)**2; return(y);

finish;

* Minimize (f(t)-A)**2 and estimate mu and sigma; if ( min < 0 ) then do;

print "Warning: Observations are not all nonnegative."; print " The folded normal is inappropriate."; stop; end;

if ( a < 0.637 ) then do;print "Warning: the folded normal may be inappropriate"; end;

opt = { 0 0 }; con = { 1e-6 }; x0 = { 2.0 }; tc = { .....1e-8 .......}; call nlpdd(rc,etheta0,"f",x0,opt,con,tc); esig0 = sqrt(m2/(1+etheta0*etheta0)); emu0 = etheta0*esig0;

create prelim var {emu0 esig0 etheta0}; append; close prelim;

* Define the log likelihood of the folded normal; start g(p) global(x);

y = 0.0; do i = 1 to nrow(x);

z = exp( (-0.5/p[2])*(x[i]-p[1])*(x[i]-p[1]) );z = z + exp( (-0.5/p[2])*(x[i]+p[1])*(x[i]+p[1]) );y = y + log(z);

end; y = y - nrow(x)*log( sqrt( p[2] ) );return(y); finish;

* Maximize the log likelihood with subroutine NLPDD; use assembly;

Page 491: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 487

read all var {offset} into x; esig0sq = esig0*esig0; x0 = emu0||esig0sq; opt = { 1 0 }; con = { .0.0, ..}; call nlpdd(rc,xr,"g",x0,opt,con);emu = xr[1]; esig = sqrt(xr[2]); etheta = emu/esig; create parmest var{emu esig etheta};append;close parmest;

quit;

出力4.25.1に示されているように、予備的な推定値がデータセットPrelimに保存されます。

出力 4.25.1予備的な推定値 : 、 および

データセット Prelim

ここで、 および を初期推定値として使用して、NLPDDサブルーチンを呼び出し、折り重ねられた正規分布の対数尤度 を(ここでは定数になるまで)最大化します。

* Define the log likelihood of the folded normal;start g(p) global(x);

y = 0.0; do i = 1 to nrow(x);

z = exp( (-0.5/p[2])*(x[i]-p[1])*(x[i]-p[1]) );z = z + exp( (-0.5/p[2])*(x[i]+p[1])*(x[i]+p[1]) ); y = y + log(z);

end; y = y - nrow(x)*log( sqrt( p[2] ) ); return(y);

finish; * Maximize the log likelihood with subroutine NLPDD; use assembly; read all var {offset} into x;esig0sq = esig0*esig0; x0 = emu0||esig0sq; opt = { 1 0 }; con = { .0.0, ..}; call nlpdd(rc,xr,"g",x0,opt,con); emu = xr[1]; esig = sqrt(xr[2]); etheta = emu/esig; create parmest var{emu esig etheta}; append; close parmest; quit;

出力4.25.2に示されているように、データセットParmEstには、 最尤推定値 と (および )が含められます。

Obs EMU0 ESIG0 ETHETA0

1 6.51735 6.54953 0.99509

μ σ θ

Page 492: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

488 第 4章 : UNIVARIATEプロシジャ

出力 4.25.2最終推定値 : 、 および

データセット ParmEst

曲線をヒストグラムに追加するため、まずヒストグラム間隔の幅と端点を計算します。次のステートメントは、これらの値をOutCalcというデータセットに保存します。なお、プロットはこの時点では作成されません。

proc univariate data = Assembly noprint; histogram Offset / outhistogram = out normal(noprint) noplot;

run;

data OutCalc (drop = _MIDPT_);set out (keep = _MIDPT_) end = eof; retain _MIDPT1_ _WIDTH_; if _N_ = 1 then _MIDPT1_ = _MIDPT_; if eof then do;

_MIDPTN_ = _MIDPT_;_WIDTH_ = (_MIDPTN_ - _MIDPT1_) / (_N_ - 1); output;

end; run;

出力4.25.3はデータセットOutCalcのリストを示しています。ヒストグラムのバーの幅は、変数_WIDTH_の値として保存されます。最初と最後のヒストグラムのバーの中間点は、変数 _MIDPT1_ および_MIDPTN_の値として保存されます。

出力 4.25.3データセットOutCalc

データセット OutCalc

次のステートメントはAnnoという名前の注釈データセットを作成し、そのデータセットに当てはめた曲線の座標を格納します。

data Anno; merge ParmEst OutCalc; length function color $ 8; function = 'point';color = 'black'; size = 2; xsys = '2'; ysys = '2'; when = 'a'; constant = 39.894*_width_;; left = _midpt1_ - .5*_width_; right = _midptn_ + .5*_width_; inc = (right-left)/100;do x = left to right by inc;

z1 = (x-emu)/esig;z2 = (x+emu)/esig; y = (constant/esig)*(exp(-0.5*z1*z1)+exp(-0.5*z2*z2)); output; function = 'draw';

Obs EMU ESIG ETHETA

1 6.66761 6.39650 1.04239

Obs _MIDPT1_ _WIDTH_ _MIDPTN_

1 1.5 3 22.5

μ σ θ

Page 493: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 489

end; run;

次のステートメントはANNOTATE=データセットを読み込み、ヒストグラムと当てはめた曲線を表示します。 title 'Folded Normal Distribution'; ods graphics off; proc univariate data=assembly noprint;

histogram Offset / annotate = anno; run;

出力4.25.4はヒストグラムと当てはめた曲線を表示しています。

出力 4.25.4パラメータ対数正規分布の当てはめ

この例のサンプルプログラムuniex15.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.26 対数正規確率プロットの作成

この例はデータ分布のモデル化のセクションで説明した例の続きです。

出力4.6.1に示されている正規確率プロットでは、点のパターンが非線形であることにより、Deviationの分布が正規分布から乖離していることが示されています。点のパターンは左から右へと増加する傾きでカーブしているため、対数正規分布のような右に片寄った理論分布は、正規分布よりも優れた適合を提供します。Q-Qプロットと確率プロットの解釈のセクションを参照してください。

対数正規確率プロットを使用して、対数正規分布の当てはめの確率を調べることができます。このようなプロットを要求する場合、対数正規分布の形状パラメータ を指定する必要があります。この値は正である必σ

Page 494: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

490 第 4章 : UNIVARIATEプロシジャ

要があり、 一般的な値の範囲は0.1から1.0までです。 の値はLOGNORMAL 1次オプションのSIGMA=2次オプションで指定できます。または、データから を推定するよう指定できます。

次のステートメントは最初の手法を示す、データ分布のモデル化のセクションで説明した変数Deviationに対する3つの対数正規確率プロットを作成しています。

title 'Lognormal Probability Plot for Position Deviations'; ods graphics on; proc univariate data=Aircraft noprint;

probplot Deviation / lognormal(theta=est zeta=est sigma=0.7 0.9 1.1)odstitle = titlehref = 95square;

run;

LOGNORMAL 1次オプションで対数正規分布族に基づくプロットを要求し、SIGMA= 2次オプションでが0.7、0.9および1.1に等しいプロットを要求しています。これらのプロットは出力4.26.1、出力4.26.2および出力4.26.3にそれぞれ表示されています。または、オプションSIGMA=ESTを使用すると、 を標本標準偏差により推定するよう指定できます。

SQUARE オプションで確率プロットを正方形の枠の中で表示し、HREF= オプションで95番目のパーセント点の位置の参照線を要求します。

出力 4.26.1 =0.7の対数正規分布に基づく確率プロット

σ σσ

σσ

σ

Page 495: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 491

出力 4.26.2 =0.9の対数正規分布に基づく確率プロット

出力 4.26.3 =1.1の対数正規分布に基づく確率プロット

σ

σ

Page 496: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

492 第 4章 : UNIVARIATEプロシジャ

出力4.26.2の =0.9の場合に、点のパターンが最も線形に近くなっています。出力4.26.2で示されている位置偏差分布の95番目のパーセント点は約0.001です。これは、この値が点のパターンと参照線の交点に近いことによってわかります。

注: 最も線形に当てはまる が見つかった後、しきい値パラメータ と尺度パラメータ を推定できます。例4.31を参照してください。

次のステートメントは、 に局所最尤推定値を使用して、Deviationの対数正規確率プロットを作成する方法を示しています。

title 'Lognormal Probability Plot for Position Deviations';proc univariate data=Aircraft noprint;

probplot Deviation / lognormal(theta=est zeta=est sigma=est)href = 95 odstitle = title square;

run;

生成されるプロットは出力4.26.4に示されています。なお、 の最尤推定値(この場合は0.882)は、必ずしも最も線形に近い点のパターンを作成する必要はありません。

出力 4.26.4推定したによる対数正規分布に基づく確率プロット

この例のサンプルプログラムuniex16.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

σ

σ ζ θ

σ

σ

σ

Page 497: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 493

例 4.27 対数正規分布の当てはめを表示するヒストグラムの作成

この例は例4.26のデータセットAircraftを使用して、対数正規分布の当てはめをヒストグラムに表示する方法を示しています。対数正規分布が分布モデルとして適切かどうかを判定するには、適合度検定を実行するほかにグラフの当てはめを検討する必要があります。次のステートメントは対数正規分布を当てはめ、ヒストグラムに密度曲線を表示します。

title 'Distribution of Position Deviations';ods select Histogram Lognormal.ParameterEstimates Lognormal.GoodnessOfFit;proc univariate data=Aircraft;

var Deviation; histogram / lognormal(w=3 theta=est) odstitle = title;

inset n mean (5.3) std='Std Dev' (5.3) skewness (5.3) / pos = ne header = 'Summary Statistics';

run;

ODS SELECTステートメントは出力を"ParameterEstimates"テーブルと"GoodnessOfFit"テーブルに制限します。ODSテーブル名のセクションを参照してください。LOGNORMAL 1次オプションにより、出力4.27.1のヒストグラムに当てはめた曲線を重ねて表示しています。W=オプションは曲線の幅を指定しています。INSETステートメントは、平均、標準偏差および歪度がプロットの右上端のインセットに表示されるよう指定しています。しきい値パラメータ のデフォルト値は0です。しきい値が0ではない場合は、THETA=オプションで を指定できます。変数Deviationにはデフォルトのしきい値より小さい値が含まれます。このため、オプションTHETA= ESTが使用されています。

θθ

Page 498: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

494 第 4章 : UNIVARIATEプロシジャ

出力 4.27.1 =0.7の対数正規分布に基づく確率プロット

出力4.27.2は、対数正規分布に対する3つのEDF適合度検定(Anderson-Darling、Cramér-von MisesおよびKolmogorov-Smirnov検定)を示しています。3つの検定の帰無仮説は、標本データが対数正規分布であることです。

出力 4.27.2 当てはめた対数正規分布の要約Distribution of Position Deviations

The UNIVARIATE Procedure Fitted Lognormal Distribution for Deviation (Position Deviation)

Parameters for Lognormal Distribution

Parameter Symbol Estimate

THRESHOLD Theta -0.00834Scale Zeta -6.14382Shape Sigma 0.882225Mean -0.00517Std Dev 0.003438

Goodness-of-Fit Tests for Lognormal Distribution

Test Statistic p Value

Kolmogorov-Smirnov D 0.09695325 Pr > D >0.500Cramer-von Mises W-Sq 0.07398467 Pr > W-Sq >0.500Anderson-Darling A-Sq 0.58106613 Pr > A-Sq >0.500

σ

Page 499: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 495

3つの検定すべてでp値が0.5より大きいため、帰無仮説は棄却されます。尺度パラメータが で形状パラメータが の2パラメータ対数正規分布が位置偏差の分布モデルに適しているという結論が、この検定により支持されます。適合度の解釈の詳細は、「適合度検定」(410ページ)のセクションを参照してください。

この例のサンプルプログラムuniex16.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.28 正規分位点プロットの作成

この例は正規分位点プロットの作成方法を示しています。あるエンジニアが鋼板に空けた穴の間の距離の分布を分析しています。次のステートメントは50枚の鋼板に空けた2つの穴の間の距離の測定値を、変数Distanceの値としてデータセットSheetsに保存します。

data Sheets;input Distance @@;label Distance = 'Hole Distance (cm)';datalines;9.80 10.20 10.27 9.70 9.7610.11 10.24 10.20 10.24 9.639.99 9.78 10.10 10.21 10.009.96 9.79 10.08 9.79 10.0610.10 9.95 9.84 10.11 9.93 10.56 10.47 9.42 10.44 10.16 10.11 10.36 9.94 9.77 9.36 9.89 9.62 10.05 9.72 9.82 9.99 10.16 10.58 10.70 9.54 10.31 10.07 10.33 9.98 10.15 ;

エンジニアは距離の分布が正規分布であるかどうかを確かめることにしました。次のステートメントは、出力4.28.1に示すDistanceのQ-Qプロットを作成します。

title 'Normal Quantile-Quantile Plot for Hole Distance';ods graphics on; proc univariate data=Sheets noprint;

qqplot Distance / odstitle = title; run;

このプロットは、並べ替えられたDistanceの値を正規分布の分位点と比較しています。点のパターンの線形によって、測定値が正規分布であることがわかります。なお、デフォルトでは正規Q-Qプロットが作成されます。

Page 500: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

496 第 4章 : UNIVARIATEプロシジャ

出力 4.28.1Distanceの正規Q-Qプロット

この例のサンプルプログラムuniex17.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.29 分布参照線の追加

この例は例4.28の続きであり、平均が で標準偏差が である正規分布を表す参照線を、正規Q-Qプロットに追加する方法を示しています。次のステートメントは出力4.28.1に示すQ-Qプロットを再作成し、参照線を追加します。

title 'Normal Quantile-Quantile Plot for Hole Distance';proc univariate data=Sheets noprint;

qqplot Distance / normal(mu=est sigma=est)odstitle = title square;

run;

生成されるプロットは出力4.29.1に示されています。

NORMAL 1次オプションとともにMU=ESTおよびSIGMA=ESTを指定して、標本平均と標準偏差で とを推定した参照線を要求しています。または、MU=およびSIGMA=2次オプションを使用して、 およ

び に数値を指定することもできます。COLOR= および L= オプションで線の色と種類を指定し、SQUAREオプションによりプロットは正方形の枠の中に表示されます。PROC UNIVARIATE ステートメント内およびNORMALオプション後のNOPRINTオプションは、デフォルトで作成される統計量テーブルをすべて抑制します。

μ0 σ0

μ0σ0 μ0

σ0

Page 501: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 497

出力 4.29.1Distanceの正規Q-Qプロット

データは明らかに線をたどっており、距離の分布が正規分布であることを示しています。

この例のサンプルプログラムuniex17.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.30 正規分位点プロットの解釈

この例は、データが正規分布に従っていない場合の正規分位点プロットを解釈する方法を示しています。次のステートメントはデータセットMeasuresを作成し、50本の鋼棒の直径の測定値を変数Diameterに格納します。

data Measures; input Diameter @@; label Diameter = 'Diameter (mm)'; datalines;

5.501 5.251 5.404 5.366 5.445 5.576 5.607 5.200 5.977 5.177 5.332 5.399 5.661 5.5125.252 5.404 5.739 5.525 5.160 5.410 5.823 5.376 5.202 5.470 5.410 5.394 5.146 5.244 5.309 5.480 5.388 5.399 5.360 5.368 5.3945.248 5.409 5.304 6.239 5.781 5.247 5.907 5.208 5.143 5.304 5.603 5.164 5.209 5.475 5.223;

次のステートメントは出力4.30.1の正規Q-Qプロットを要求します。title 'Normal Q-Q Plot for Diameters'; ods graphics on;

Page 502: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

498 第 4章 : UNIVARIATEプロシジャ

proc univariate data=Measures noprint; qqplot Diameter / normal

square odstitle = title;

run;

出力4.30.1の点の非線形は、正規性からの乖離を示しています。点のパターンは左から右へと増加する傾きでカーブしているため、対数正規分布のような右に片寄った理論分布は、正規分布よりも優れた適合を提供します。ゆるやかな曲線性は、例4.31で説明しているように形状パラメータ を小さな値にした対数正規Q-Qプロットを使用して、データを調べる必要があることを示しています。Q-Qプロットの解釈の詳細は、「Q-Qプロットと確率プロットの解釈」(417ページ)のセクションを参照してください。

出力 4.30.1非正規データの正規Q-Qプロット

この例のサンプルプログラムuniex18.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

σ

Page 503: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 499

例 4.31 対数正規分位点プロットからの 3パラメータの推定

この例は例4.30の続きで、3パラメータ対数正規分布の形状パラメータ、しきい値パラメータ、尺度パラメータ、理論パーセント点を推定する方法を示しています。

3パラメータ対数正規分布は、しきい値パラメータ 、尺度パラメータ 、形状パラメータ に依存します。SIGMA= 2次オプションを使用して、さまざまな の値を指定した一連の対数正規Q-Qプロットから、 を推定できます。点のパターンが線形になる値が の推定値になります。次に、点のパターンの切片と傾きから、しきい値パラメータと尺度パラメータを推定できます。次のステートメントは、 値に0.2、0.5および0.8を使用して、出力4.31.1、出力4.31.2、出力4.31.3に、一連のプロットをそれぞれ作成します。

title 'Lognormal Q-Q Plot for Diameters'; proc univariate data=Measures noprint;

qqplot Diameter / lognormal(sigma=0.2 0.5 0.8) square odstitle = title;

run;

注:対数正規Q-Qプロットの形状パラメータ の値は、SIGMA=オプションまたはその別名の SHAPE=オプションで指定する必要があります。

出力 4.31.1対数正規Q-Qプロット ( =0.2)

θ ζ σσ σ

σσ

σ

σ

Page 504: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

500 第 4章 : UNIVARIATEプロシジャ

出力 4.31.2対数正規Q-Qプロット ( =0.5)

出力 4.31.3対数正規Q-Qプロット ( =0.8)

σ

σ

Page 505: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 501

出力4.31.2のプロットに最も線形に近い点のパターンが表示され、 =0.5による当てはめがデータ分布に対して適切であることを示しています。

この対数正規分布によるデータの密度関数は次のようになります。

SIGMA=、THETA=およびZETA=の各オプションを併用して、参照線を要求することもできます。次のステートメントは出力4.31.4の対数正規Q-Qプロットを作成します。

title 'Lognormal Q-Q Plot for Diameters'; proc univariate data=Measures noprint;

qqplot Diameter / lognormal(theta=5 zeta=est sigma=est)square odstitle = title;

run;

出力4.31.1から出力4.31.3は、しきい値パラメータ が0に等しくないことを示しています。THETA=5の指定はデフォルト値の0より優先されます。SIGMA=ESTおよびZETA=ESTの2次オプションは、標本平均と標準偏差による と の推定値を要求します。

出力 4.31.4 対数正規 Q-Q プロット =est、 =est、 =5)

出力4.31.2のプロットから、 は0.51と推定できます。これは出力4.31.2のプロットから導びかれる推定値0.5と一致しています。 例4.32では、対数正規Q-Qプロットを使用してパーセント点を推定する方法を示しています。

この例のサンプルプログラムuniex18.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

σ

θ

σ ζ

σ ζ θ

σ

Page 506: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

502 第 4章 : UNIVARIATEプロシジャ

例 4.32 対数正規分位点プロットからのパーセント点の推定

この例は例4.31の続きで、QQプロットを使用して、対数正規分布の95番目のパーセント点などのパーセント点を推定する方法を示しています。例4.26で説明しているように、確率プロットをこの目的で使用することもできます。

出力4.31.4の点のパターンは、傾きが約0.39で切片が5です。次のステートメントはこのプロットをもう一度作成し、この傾きと切片による参照線を追加します。

title 'Lognormal Q-Q Plot for Diameters'; proc univariate data=Measures noprint;

qqplot Diameter / lognormal(sigma=0.5 theta=5 slope=0.39)pctlaxis(grid)vref = 5.8 5.9 6.0 odstitle = title square;

run;

この結果は出力4.31.1のとおりです。

出力 4.32.1パーセント点を識別する対数正規Q-Qプロット

PCTLAXISオプションで主なパーセント点のラベルを表示し、GRIDオプションでパーセント点軸の参照線を描画しています。分布参照線と95番目の参照線の交点に対する垂直軸の値から、95番目のパーセント点は5.9であることがわかります。

または、推定した対数正規パラメータからこのパーセント点を計算することもできます。対数正規分布の番目のパーセント点は次のとおりです。α

Page 507: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 503

ここで、 は標準正規分布関数です。したがって次のとおりです。

この例のサンプルプログラムuniex18.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.33 対数正規分位点プロットからのパラメータの推定

この例は例4.31の続きで、2パラメータ対数正規分布の形状パラメータ、位置パラメータ、尺度パラメータ、理論パーセント点を推定する方法を示しています。

しきい値パラメータが既知である場合、次のステートメントに示すようにデータ値からしきい値を差し引き、対数変換した差の正規Q-Qプロットを作成することにより、2パラメータ対数正規Q-Qプロットを作成できます。

data ModifiedMeasures; set Measures; LogDiameter = log(Diameter-5);label LogDiameter = 'log(Diameter-5)';

run;

title 'Two-Parameter Lognormal Q-Q Plot for Diameters';proc univariate data=ModifiedMeasures noprint;

qqplot LogDiameter / normal(mu=est sigma=est) squareodstitle = title;

inset n mean (5.3) std (5.3) / pos = nw header = 'Summary Statistics';

run;

Page 508: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

504 第 4章 : UNIVARIATEプロシジャ

出力 4.33.1直径の2パラメータ対数正規Q-Qプロット

出力4.33.1のポイントパターンは線形であるため、対数正規パラメータ および を および の正規プロット推定値として推定でき、これらは、それぞれ-0.99および0.51になります。これらの値は、以前の例4.31の推定値、 では–0.92および では0.5に相当します。この例のサンプルプログラムuniex18.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.34 Weibull分位点プロットの比較

この例では、48個の集積回路の故障時間(月数)に対する3パラメータおよび2パラメータWeibull Q-Qプロットの使用を比較しています。この時間はWeibull分布に従うと仮定します。次のステートメントは、故障時間を変数Timeの値としてデータセットFailuresに保存します。

data Failures;input Time @@; label Time = 'Time in Months'; datalines;

29.42 32.14 30.58 27.50 26.08 29.06 25.10 31.34 29.14 33.96 30.64 27.32 29.86 26.28 29.68 33.76 29.32 30.82 27.26 27.92 30.92 24.64 32.90 35.4630.28 28.36 25.86 31.36 25.26 36.32 28.58 28.8826.72 27.42 29.02 27.54 31.60 33.46 26.78 27.82 29.18 27.94 27.66 26.42 31.00 26.64 31.44 32.52 ;

この分布のパラメータに関する前提がない場合、WEIBULLオプションを使用して3パラメータWeibullプロットを要求できます。前の例にあるように、形状パラメータcは、さまざまなc値に対するプロットを要求し、点のパターンが線形になるcの値を選択することによって、視覚的に推定できます。または、次のステートメントに示すように、cの最尤推定値を要求することもできます。

ζ σ μ σ

ζ σ

Page 509: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 505

title 'Three-Parameter Weibull Q-Q Plot for Failure Times'; ods graphics on; proc univariate data=Failures noprint;

qqplot Time / weibull(c=est theta=est sigma=est) squarehref = 0.5 1 1.5 2vref = 25 27.5 30 32.5 35 odstitle = title;

run;

注:WEIBULLオプションを使用する場合、C=オプションでWeibull形状パラメータ cのリストを指定するか、C=ESTを指定する必要があります。

出力4.34.1には、推定値 に対するプロットが表示されています。参照線は、しきい値パラメータと尺度パラメータがそれぞれ および の推定値に対応しています。

出力 4.34.13パラメータWeibull Q-Qプロット

ここで、回路の寿命が24か月以上であることがわかっているとします。次のステートメントは、既知のしきい値 を使用して、出力4.31.4に示すような2パラメータWeibull Q-Qプロットを作成します。

title 'Two-Parameter Weibull Q-Q Plot for Failure Times';proc univariate data=Failures noprint;

qqplot Time / weibull(theta=24 c=est sigma=est)square vref = 25 to 35 by 2.5href = 0.5 to 2.0 by 0.5odstitle = title;

run;

参照線は、最尤推定値 および に基づいています。

Page 510: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

506 第 4章 : UNIVARIATEプロシジャ

出力 4.34.22パラメータ対数正規Q-Qプロット

この例のサンプルプログラムuniex19.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。

例 4.35 累積分布プロットの作成

ある光ファイバコード製造会社がコードの破壊強度を調べています。次のステートメントはCordという名前のデータセットを作成し、ポンド毎平方インチ(psi)単位で測定した50件の破壊強度を格納します。

data Cord;label Strength="Breaking Strength (psi)";input Strength @@;

datalines;6.94 6.97 7.11 6.95 7.12 6.70 7.13 7.34 6.90 6.837.06 6.89 7.28 6.93 7.05 7.00 7.04 7.21 7.08 7.017.05 7.11 7.03 6.98 7.04 7.08 6.87 6.81 7.11 6.746.95 7.05 6.98 6.94 7.06 7.12 7.19 7.12 7.01 6.846.91 6.89 7.23 6.98 6.93 6.83 6.99 7.00 6.97 7.01 ;

CDFPLOTステートメントを使用して6つの理論分布(ベータ、指数、ガンマ、対数正規、正規、Weibull)のいずれかを当てはめ、それらをCDFプロットに重ねて表示することができます。次のステートメントはNORMALオプションを使用して、当てはめた正規分布関数を破壊強度のCDFプロットに重ねて表示します。

title 'Cumulative Distribution Function of Breaking Strength'; ods graphics on; proc univariate data=Cord noprint;

cdf Strength / normal odstitle = title;

Page 511: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

UNIVARIATEプロシジャ 507

inset normal(mu sigma); run;

NORMALオプションは、当てはめた曲線を要求しています。INSETステートメントは、当てはめた曲線のパラメータである標本平均および標準偏差を含むインセットを要求しています。INSETステートメントの詳細は、「INSETステートメント」(316ページ)を参照してください。結果として生成されるプロットが出力4.35.1に示されています。

出力 4.35.1累積分布関数

プロットはオブザベーションが6.9および7.1に集中している対称分布を示しています。出力4.35.1で経験分布関数と正規分布関数が一致していることは、破壊強度の分布に正規分布モデルが適していることの証明になります。

例 4.36 P-Pプロットの作成

50枚の鋼板に空けた2つの穴の間の距離が測定され、変数Distanceの値として次のデータセットに保存されています。

data Sheets; input Distance @@;label Distance='Hole Distance in cm';datalines;

9.80 10.20 10.27 9.70 9.7610.11 10.24 10.20 10.24 9.63 9.99 9.78 10.10 10.21 10.00 9.96 9.79 10.08 9.79 10.0610.10 9.95 9.84 10.11 9.9310.56 10.47 9.42 10.44 10.1610.11 10.36 9.94 9.77 9.36

Page 512: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

508 第 4章 : UNIVARIATEプロシジャ

9.89 9.62 10.05 9.72 9.82 9.99 10.16 10.58 10.70 9.5410.31 10.07 10.33 9.98 10.15 ;

これらの距離が正規分布であるかどうかを確かめることになりました。次のステートメントは、出力4.36.1に示すような、平均が =10で標準偏差が =0.3の正規分布に基づくP-Pプロットを作成します。

title 'Normal Probability-Probability Plot for Hole Distance';ods graphics on;proc univariate data=Sheets noprint;

ppplot Distance / normal(mu=10 sigma=0.3)square odstitle = title;

run;

PPPLOTステートメント内のNORMALオプションで正規累積分布関数に基づくP-Pプロットを要求し、MU=およびSIGMA= normal-optionsで および を指定しています。なお、P-Pプロットは常に完全に指定された分布、つまり特定のパラメータによる分布に基づきます。この例で、MU= / SIGMA=normal-optionsを指定しなかった場合、標本平均と標本標準偏差が および として使用されます。

出力 4.36.1対角方向の参照線付きの正規P-Pプロット

出力4.36.1のパターンが線形であることは、測定値が平均10および標準偏差0.3の正規分布であることを証明しています。SQUAREオプションによりプロットは正方形の枠の中に表示されます。

μ σ

μ σ

μ σ

Page 513: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

リファレンス 509

リファレンスBlom, G. (1958).Statistical Estimates and Transformed Beta Variables.New York: John Wiley &

Sons.

Bowman, K. O., and Shenton, L. R. (1983). “Johnson’ s System of Distributions.” In Encyclopediaof Statistical Sciences, vol. 4, edited by S. Kotz, N. L. Johnson, and C. B. Read.New York: JohnWiley & Sons.

Chambers, J. M., Cleveland, W. S., Kleiner, B., and Tukey, P. A. (1983).Graphical Methods for DataAnalysis.Belmont, CA: Wadsworth International Group.

Cohen, A. C. (1951). “Estimating Parameters of Logarithmic-Normal Distributions by MaximumLikelihood.” Journal of the American Statistical Association 46:206–212.

Conover, W. J. (1980).Practical Nonparametric Statistics.2nd ed. New York: John Wiley & Sons.

Croux, C., and Rousseeuw, P. J. (1992). “Time-Efficient Algorithms for Two Highly RobustEstimators of Scale.” Computational Statistics 1:411–428.

D’ Agostino, R. B., and Stephens, M., eds.(1986).Goodness-of-Fit Techniques.New York: MarcelDekker.

Dixon, W. J., and Tukey, J. W. (1968). “Approximate Behavior of the Distribution of Winsorized t(Trimming/Winsorization 2).” Technometrics 10:83–98.

Elandt, R. C. (1961). “The Folded Normal Distribution: Two Methods of Estimating Parametersfrom Moments.” Technometrics 3:551-562.

Fisher, R. A. (1973).Statistical Methods for Research Workers.14th ed. New York: HafnerPublishing.

Fowlkes, E. B. (1987).A Folio of Distributions: A Collection of Theoretical Quantile-QuantilePlots.New York: Marcel Dekker.

Hahn, G. J., and Meeker, W. Q. (1991).Statistical Intervals: A Guide for Practitioners.New York:John Wiley & Sons.

Hampel, F. R. (1974). “The Influence Curve and Its Role in Robust Estimation.” Journal of theAmerican Statistical Association 69:383-393.

Iman, R. L. (1974). “Use of a t-Statistic as an Approximation to the Exact Distribution of theWilcoxon Signed Rank Statistic.” Communications in Statistics 3:795–806.

Johnson, N. L., Kotz, S., and Balakrishnan, N. (1994).Continuous Univariate Distributions.2nd ed.Vol. 1.New York: John Wiley & Sons.

Johnson, N. L., Kotz, S., and Balakrishnan, N. (1995).Continuous Univariate Distributions.2nd ed.Vol. 2.New York: John Wiley & Sons.

Jones, M. C., Marron, J. S., and Sheather, S. J. (1996). “A Brief Survey of Bandwidth Selection forDensity Estimation.” Journal of the American Statistical Association 91:401-407.

Page 514: 統計プロシジャ...2 第 1 章: Base SAS 9.4 統計プロシジャの新機能 CLDISPLAY=LINEARROW オプションで、オッズ比、相対リスク、リスク差、カッパプロットの誤差

510 第 4章 : UNIVARIATEプロシジャ

Lehmann, E. L., and D’ Abrera, H. J. M. (1975).Nonparametrics: Statistical Methods Based onRanks.San Francisco: Holden-Day.

Odeh, R. E., and Owen, D. B. (1980).Tables for Normal Tolerance Limits, Sampling Plans, andScreening.New York: Marcel Dekker.

Owen, D. B., and Hua, T. A. (1977). “Tables of Confidence Limits on the Tail Area of the NormalDistribution.” Communications in Statistics—Simulation and Computation 6:285–311.

Rousseeuw, P. J., and Croux, C. (1993). “Alternatives to the Median Absolute Deviation.” Journalof the American Statistical Association 88:1273-1283.

Royston, J. P. (1992). “Approximating the Shapiro-Wilk W Test for Nonnormality.” Statistics andComputing 2:117–119.

Shapiro, S. S., and Wilk, M. B. (1965). “An Analysis of Variance Test for Normality (CompleteSamples).” Biometrika 52:591-611.

Silverman, B. W. (1986).Density Estimation for Statistics and Data Analysis.New York: Chapman& Hall.

Slifker, J. F., and Shapiro, S. S. (1980). “The Johnson System: Selection and Parameter Estimation.”Technometrics 22:239–246.

Terrell, G. R., and Scott, D. W. (1985). “Oversmoothed Nonparametric Density Estimates.” Journalof the American Statistical Association 80:209-214.

Tukey, J. W. (1977).Exploratory Data Analysis.Reading, MA: Addison-Wesley.

Tukey, J. W., and McLaughlin, D. H. (1963). “Less Vulnerable Confidence and Significance Procedures for Location Based on a Single Sample: Trimming/Winsorization 1.” Sankhya, Series A 25:331–352.

Velleman, P. F., and Hoaglin, D. C. (1981).Applications, Basics, and Computing of ExploratoryData Analysis.Boston: Duxbury Press.

Wainer, H. (1974). “The Suspended Rootogram and Other Visual Displays: An EmpiricalValidation.” American Statistician 28:143-145.