Anhang
Die klassische Bayessche Methode
1. Einführung. Wir haben in den vorhergehenden Kapiteln, insbesondere im 111.-V. Kapitel stets die Anschauung vertreten, daß die Stichprobenvariablen nach einer Verteilung verteilt sind, die von einem unbekannten Parameter abhängt. Der Parameter ist in dieser Auffassung eine unbekannte Größe, aber natürlich keine zufällige Variable. Wenn wir z. B. die Konstruktion eines Konfidenzintervalles für einen eindimensionalen Parameter ins Auge fassen, dann sind die Endpunkte des Konfidenzintervalles zufällige Variable. aber nicht der unbekannte Parameter, der mit vorgegebener Konfidenzwahrscheinlichkeit überdeckt wird. Dieser Auffassung steht ein anderer Vorgang gegenüber, der historisch der frühere ist und oft als Bayessche Schlußregel1 bezeichnet wird. Hier wird der Parameter der Verteilung der Stichprobenvariablen nicht mehr als unbekannte Größe, sondern als zufällige Variable betrachtet, deren Randverteilung gegeben ist. Sie wird in diesem Zusammenhang oft als a priari Verteilung bezeichnet. Wir werden hier diese Sprechweise ebenfalls manchmal gebrauchen. Überdies wird angenommen, daß die bedingte Verteilung von n Stichprobenvariablen für jede Hypothese über den Parameter bekannt ist. Daraus bestimmt man auf Grund einer Stichprobenrealisation die bedingte Verteilung des Parameters und bezeichnet diese auch oft als a posterioriV erteilung. Wir beschreiben als Beispiel zwei wichtige Fälle genauer :
Es seien !I• ... , ! 11, t n + 1 zufällige Variable irgendwelcher Dimension. Wir sehen sie als stetig verteilt an. Die zufällige Variable t fassen wir als "Parameter" auf. Die Randverteilungsdichte von t bezeichnen wir mit <p(t). Die Dichte vori (!1, ... , !n) unter der Hypothese { t = t} bezeichnen wir mit /(!I• ... , !n I t). Dann ist g(t I ! 1, ... , ! 11 ), die Dichte von t unter der Hypothese {!1 = ~u ... , !n = !,.} nach I. (53) durch
g(t 1~: •. .. . , l,.) = +-;;!_~~lj_(_~·:_ : _:_~:-~_i_~- - (I)
f <p(t) /(!;., ... , !'n I t) d t gegeben. -oo
1 Tll. Bayes in R. Price, Phi!. Trans. Roy. Soc. 5:-l (1763), 370.
Die klassische Bayessche Methode 391
Ein anderer wichtiger Fall ist der, daß die zufälligen Variablen (!1, ... , !n) diskret und t stetig verteilt sind. Wir bezeichnen die Dichte von t wieder mit qJ(t). Die diskreten Massenpunkte der zufälligen Variablen (~1, ... , !n) bezeichnen wir mit (~~·>, ... , ~~n>) wobei die ii endlich oder unendlich viele Indizes durchlaufen. Es möge nun für die bedingte Verteilung von (!1, ..• , !n) unter der Hypothese { t = t} gelten W({!1=!11J, ... , !n=~~n>} I t) = Pi, ... i,. (t). Dann hat. man für
die bedingte Dichte von t q>(t) P;, . .. in (t)
g( t I f~, = ~li,), · • •' !n = ~~")}) = _+_oo ____ __.::__ __ (2)
f q>(t) P;, .. . in(t) d t -oo
In der klassischen Terminologie können wir sagen, daß (l) oder (2) die a posteriori-Verteilung des "Parameters" t darstellen, wenn eine Stichprobe bekannt ist. Die Kenntnis der a posteriori-Verteilung gestattet es, zu vorgegebenem Sicherheitsgrad a SicherheitsintervaUe für die zufällige Variable t zu konstruieren. Wir legen etwadieDichte (l) zu Grundeund nehmen an, daß der "Parameter" t eine eindimensionale zufällige Variahle ist. a(~1 , .•. , ~n)=a und b(~1 , ... , ~,.)=b mögen so gewählt werden, daß
p:ilt. Dann ist also
b(!, .. ·ln> f g(t I ~1 , ••• ~n) dt = a
a(r, .. ·ln>
W({a:::; t::; b}) = a (3)
und das Intervall [ a(~1 , ••• , !n), b(~1 , •.. , ~n)] bezeichnen wir als Sicherheitsintervall für t. Die Grenzen hängen von der jeweiligen Stichprobenrealisation ab. a und b werden in (3) nicht als zufällige Variable aufgefaßt. In gewissem Sinne ist also diese Auffassung der Theorie der Konfidenzintervalle gerade entgegengesetzt.
Praktisch ist die Hauptschwierigkeit die Wahl der a priori-Verteilung des "Parameters" t. Hingegen kann die Form der bedingten Verteilung von (!1, ... , !n) unter der Hypothese { t = t} praktisch meist als bekannt angesehen werden. Erinnern wir uns daran, daß die Kenntni:-: der Form der Verteilung der Stichprobenvariablen im Sinne der dortigen Auffassung auch in allen vorhergehenden Kapiteln- im VII. in verallgemeinertem Sinne - den Untersuchm1gen zu Grunde lag.
Die Wahl der a priori-Verteilung war längere Zeit Gegenstand von Kontroversen. Insbesondere die sogenannte Gleichverteilungshypothese (s. u.) wurde vielfach angegriffen. Gerade dieser Umstand hat die Untersuchungen von N eymg,n hervorgerufen, welche, wie wir in den früheren
:192 Die klassische Bayessche Methode
Kapiteln dargelegt haben, viele Probleme in theoretisch und praktisch befriedigender Weise erledigen.
2. Der Spezialfall der Bernoullischen Verteilung2• Ein besonders wichtiges Beispiel für die allgemeinen Darlegungen von 1. ist folgender Fall: x1, ... , Xn, p seien n+ 1 eindimensionale ~ufällige Variable. Die Dichte des "Parameters" p sei durch
{~<~ p>1 O<p<l p<O
(4)
gegeben. Die bedingte Verteilung der Stichprobenvariablen x1, ••• , X11
unter der Hypothese {p = p} sei diskret und durch eine Bernoulli-Verteilung gegeben, d. h. die x, seien unter der Hypothese {p = p} unabhängig und alternativ verteilt, etwa
W( {x, = 0} I p = p) = p
W({x, = 1} I p = p) = 1-p i = 1, ... , n
Liegt nun eine Stichprobe vor, derart, daß für genau k zufällige Variable das Ereignis { x, = 0} und für die restlichen das Ereignis { x, = 1} realisiert ist, dann haben wir für die Dichte g(p I k) der bedingten Verteilung von p
{
~(~) pk(1-p)n-i: g(p I k) = _,1,--'-.:.:...:...-=--:-~-
J ~(:) p1:(1-p)n-k dp
p<O
0<p<1 (5)
p>l wegen (4).
Auf Grund der gegebenen Stichprobe läßt sich dann unter Benützung von (5) nach dem Muster von (3) ein Sicherheitsintervall von p zum Sicherheitsgrad a konstruieren, indem man a(k, a) und b(k, a) so bestimmt, daß
und also auch
b(k,a) f g(p, k) dp = a
a(l·,a)
W({a(k, a) :::;; p s b(k, a)} I k) = a gilt.
Um der Schwierigkeit der Wahl von 91(p) auszuweichen, geht man vielfach von der Voraussetzung aus, daß die zufällige Variable p in (0,1) gleichverteilt ist.
Dann haben. wir also
1 Eine zusammenfassende Darstellung mit vielen Literaturhinweisen bei M. P. Geppert, Deutsche Mathematik 7 (1942), 1-22.
Die klassische Bayessche Methode
F(n+2) lc n-l: g(p I k) = F(k+l) F(n-k+l) P (l-p) ' 0 < P < 1 (6)
d. h. die a priori-Verteilung von p ist eine B(k+1, n-k+1). Diese Verteilung ist vielfach untersucht worden. Die Annahme der Gleichverteilung bringt also für die a posteriori-Verteilung von p besonders einfache Verhältnisse mit sich. Allerdings gestattet die Annahme der Gleichverteilung von p in keiner Weise eventuelle schon vor der Stichprobenentnahme gewonnene Kenntnisse über die "wahrscheinlichste Lage" von p zu verwerten. Nun gelangt man aber auch dann zu einer Beta-Verteilung für die a posteriori-Verteilung von p, wenn man statt einer Gleichverteilung von der Annahme ausgeht3, daß die a prioriVerteilung von p selbst eine Beta-Verteilung ist. Es sei nämlich in (4)
F(a+{J) a-1 rJ-1 ß <p(p) = F(a) F({J) P (1-p) , 0 < p < 1, a > 0, > 0.
Dann erhält man statt (6)
( I k) _ F(a+{J+n) a+l:-l(l- )tHn-k-1 g P - F(a+k) F({J+n-k) P P
d. h. eine B(a+k, n-k+ß). Die oben gemachte Bemerkung kann man nun in folgendem Sinne deuten. Es sei bekannt, daß die a priori-Verteilung von p einen eindeutig bestimmten Modalwert p0 mit 0 < p0 < 1 besitze. Dann kann man durch passendeWahlvon a und ß stets erreichen, daß die B(a, ß) den Modalwert p0 besitzt. Für beliebige a, ß > 1 besitzt die B(a, ß) genau einen Modalwert, der durch
a- 1 a + ß- 2 =Po
gegeben ist, wie man durch Differentiation der Dichte der B( a, ß) sofort erkennt.
Man wird vielleicht in Analogie zu I., Satz 30 vermuten, daß für n ---+ oo die Dichte (5) von der Randverteilungsdichte cp (p) nicht mehr abhängt. Tatsächlich hat 1'. Mises im Falle der Stetigkeit von cp (p) einen diesbezüglichen Satz bewiesen4•
Genauer gilt der Satz, daß die durch (5) gegebene a posteriori-Veruv
teilung von p gegen eine N(u, -) strebt, wobei u = kfn und t' = 1 - u n
ist und k und n so gegen oo gehen, daß u in 0 < u < 1, fest bleibt. und cp(p) eine in 0 < p < 1 durchwegs stetige Funktion ist. Die Geschwindigkeit der Annäherung an die Normalverteilung hängt von
s Vgl. L. Schmetterer, Stat. Vierteljahresschrift 5 (1952), 174-178. • R. v. Mises, I. c. I., Fußnote 7 (c).
394 Die klassische Bayessche Methode
g;(p) ab, was die praktische Verwendbarkeit dieses Satzes für Stichproben von großem Umfang beeinträchtigt. Wir geben keinen Beweis, hehandeln jedoch einen Sonderfall, indem wir von (6) ausgehen. Wir beweisen den
Satz 1:6 Es sei 0 < p1 < 1 und n-k = l. Dann gilt:
F(n+2) p, 1: I 1 "' -1'/2 D -'1 Q' -'1 l(p.l=r(k+ 1)F(l+1)fp(1-p)dp=_,-fe dt-_,-e 1 +c(n)n 1
o v2n:Q v2n (7)
Hiebei ist
Q = (k-p1 n) V :Z und
1 13 n l-k (l-k)2
D = 3(12 n - 12 kl ) (Qa + 3 Q) + 3 v kln (Q' + 2) - 18 kln Q•
Wenn es eine positive Konstante A. < 1 gibt, so daß fiir n --+ oo stets Ä < kil < 1/Ä (8)
uilt, dann bleibt c(n) für n --+ oo beschränkt. k
Beweis: Setzt man B = pl:(l-p)1 und p = --x, dann wird n
k l kl:zl nx ( nx) log B = klog(--x) +llog(-+x) = log-+k log(1--k )+llog 1+-z .
n n nn
Entwickelt man nach der Taylorschen Formel bis zum Restglied 6. Ordnung, dann ergibt sich
kkzl x2 n8 x• na x• n4 x5 n• log B = log -n - 2 kl + 3 k2P (k2-lt)- 4 kaza (ks+P) + 5 k• z• (k•-l•) -
n x•n• k l
- -6- ( (k-t?xn)• + (l+t'Jxn)•)
mit 1 ff 1 < 1. Setzt man dies ein, führt gleichzeitig in das Integral die neue Inte
grationsveränderliche
xn VB =t
ein und entwickelt ( n+ 1)!, l! und k! nach der Stirlingschen Formel6,
dann erhält man R k-l k1-lk+l1 k'-k'l+kl'-1' t'(kl)' k I
J(p1 ) = P f e -Y,t'+ aVklnt'---wn-~'+ 5({·lnli.--''-6n.-((k-.9-xn)'+<t+~:m)•) dt (9) Q
5 B. L. van der Waerden, Ber. Akad. Leipzig, Math.-Phys. Klasse, 87 (1935), 353-364.
1 e, 6 Statt I. (188) muß man n! = nn e-n "/2 ;r n e 12n +n- mit beschränktem
el benützen.
Die klassische Bayessche Methode 395
mit 1 1 1 1 1 1
p = v2n (1 + n + 12 n- 12 k- 12l + 01 n•) 7 (10)
und
Q = (k-p1 n) v:z und R = k v~. Das Argument der Exponentialfunktion unter dem Integralzeichen nimmt bei wachsendem I t I stets ab, da der Integrand die Funktion
( 1 - -vtn VJ )k ( 1 + ;n V} r rlarstellt, welche ihr einziges Maximum an der Stelle t == 0 besitzt. Man beachte nun, daß R wegen (8) von der Größenordnungvfn, aber I Q I für n--+ oo höchstens von dieser Größenordnung ist, jedoch auch kleinere Werte > 0 annehmen kann. Nun ist selbstverständlich das Integral auf der rechten Seite von (9) im Nullpunkt konvergent. Durchläuft daher t das Intervall 0 < t < n13 (<5 > 0), dann kann man wegen der Monotonie des Integranden diesen bei hinreichend kleiner Wahl von <5 in der Gestalt - ~{.t'+~~~·-k'-lk+l't•+O,n-•j, _!_ k-l 1&-l k+l'
e - 3 V kln 4kln = e 2 ( 1 + 3 V kln t• - 4 kln t• + (k-Z)• -•J, + % 9kln te + Ca n )
darstellen. Im Intervall nlJ > t ist aber der Integrand auf der rechten Seite von (9) von der Größenordnung e- Yzn2ö, geht also rascher gegen 0 als jede Potenz von n, z. B. n-2• Somit wird
R ( u0 Il ) n° -~ ( k - l l2 - Tel + k2
J(pl) = p J = p J + J = p f e 2 1 + 3 vlkn - t•-~ln - t• + Q Q "ö Q
(Z-k) 2 '/ ) '/ + lf ---- ts + C n- • dt + C n-' 2 9 kln 3 • •
Dabei kann im letzten Integral die obere Grenze, wegen der Konvergenz des Integrals durch oo ersetzt werden. Der dabei gemachte Fehler ist höchstens von der Größenordnung e-c, n26•
Wir erhalten durch partielle Integration die Formeln -1'/2 -11/2 f e t• dt = - (fl + 2) e
f e -l'/2 t• dt = - (t3 + 3 t) e -l'/2 + 3 f e -l'/2 dt -t'/2 -1'/2 -t'/2 f e t• dt = - (t5 + 5 t3 + 15 t) e + 15 f e dt
7 Alle auftretenden Konstanten Ot> ... , 0 5 bleiben für n -+ oo beschränkt.
396 Die klassische Bayessche Methode
und es ergibt sich, wenn wir die Grenzen Q und oo einsetzen, P durch die rechte Seite von (10) ausdrücken und ausmultiplizieren
1 oo -t'/2 D -Q'/2 -'/, l(p1) = ...;- f e dt - ...;- e + c(n) n
2n Q 2n
mit den angegebenen Werten von Q und D. Für den hier betrachteten Bernoullischen Fall wurde in neuerer Zeit
eine Methode entwickelt, welche auch bei kleinem Stichprobenumfang die Gewinnung von Sicherheitsintervallen für einen vorgegebenen Sicherheitsgrad, der nahe an 1 liegt, gestattet, die unabhängig von der Randverteilung des Parameters p sind8•
{}sei eine reelle Zahl mit 0 < {} < 1. /(p) sei eine feste in (0,1) definierte positive und integrierbare Funk
tion. Wir betrachten die Gesamtheit aller Dichten (4) des Parameters p, welche die Bedingung erfüllen
p p f qJ(p) dp 5 J /(p) dp < 1 (11) 0 • 0
für alle 0 < p < {}, Wir behaupten dann die Existenz von Sicherheitsintervallen für p,
die nicht von cp(p) abhängen. Seiader vorgegebene Sicherheitsgrad und 1 - a 5 {}, (12)
Wir betrachten zunächst den Fall einer Stichprobe vom Umfang 1 und nehmen an, daß x1 eine alternativ verteilte Stichprobenvariable ist und folgende bedingte Verteilung besitzt:
W({X1 = 0} I p = p) = p, W({xl = 1} I P = p) = 1-p.
Wir nehmen an, daß { x1 = 0} realisiert sei und behaupten, daß unabhängig von cp(p)
W({1-a ;5; p 51} I X1 = 0) :2: a
gilt. Für die bedingte Dichte von p haben wir
g(p I O) = 1 tp(p) P
ftp(p) pdp 0
Also ist die linke Seite von (13) durch 1 1-a f 9'(P) P dp J p q>(p) dp
1-a 0 ---=--1 '----- = 1 - --'-,:--1 --
f qJ(p) p dp J q>(p) p dp gegeben. 0 0
p
Nun ist einerseits mit J 97(x) dx = fP(p) 0
8 M. Frkhet, Ann. Soc. Pol. Math. 21 (1948), 20i -213.
(13)
(14)
Die klassische Bayessche Methode 397
1 1 1 1
J q>(p) pdp 2 J P q>(p) dp = P 4>(p) I~- f 4>(p) dp = 1- o 4>(0) - f 4>(p) dp ;:::: u 9 8 •
{f 2 -6-(1 - 4>(0))
und dies wegen (11) > if(1- J f(p) dp). 0
Anderseits ist 1-a 1-a 1-u f P q>(p) dp:::;; (1-a) f !p(p) dp :::;; (1-a) f f(p) dp 0 0 0
wegen (11) und (12). Wählt man jedoch a hinreichend nahe bei I , dann wird wegen der
1-a
Integrierbarkeit von f(p) J f(p) dp beliebig klein, also sicher 0
Somit wird
und nach (14)
1-« • J f(p) dp :::;; -&(1 - f f(p) dp). 0 0
1-a 1-a J p tp(p) dp J f(p) dp 0 0
--c1o----- :::;; l f (1 - a) :::;; 1 - a
J tp(p) p dp 0(1 - J f(p) dp) 0 0
1 J tp(p) p dp
1-a 1 J ptp(p) dp 0
- 2 a
unabhängig von q;(p) und das war zu beweisen. Nun läßt sich unmittelbar der Fall behandeln, daßnunabhängige alter
nativ verteilte Stichprobenvariable der genannten Art vorliegen, so daß gilt
W( {nx = k} 1 p = p) = (~) p.t(I- p)"-k.
Führt man nun die zufällige Variable P = <Z> p.t(l-p)"-.t als Funktion
der zufälligen Variablen p ein, so ziehen wir wieder nur solche Dichten
von P in Betracht, welche eine zu (11) analoge Bedingung erfüllen. Be
zeichnen wir die Dichte von P, soferne sie$ 0 ist mit 1p(p), dann fordern
wir für gegebene~ k(p) p p
1 > J k(p) dp 2:: f !p(p) dp, 0 < p < o, (15) 0 0
wobei k(p) denselben Bedingungen wie f(p) genügt. Dann erhält man
wieder für einen Sicherheitsgrad a hinreichend nahe an 1 W({1- a:::;; P:::;; 1} In i = k) 2:: a.
Wir interessieren uns noch dafür, was der Bedingung (15) für die Dichte
cp(p) von p entspricht.
398 Die klassische Bayessche Methode
Hiezu beachten wir, daß (~) 1l(1-pt-" genau ein Maximum an der
Stelle p = ! besitzt. Den Wert des Maximums bezeichnen wir mit
M~:. Es istalso W({P>M~:})=O, W({P<O})=O. Für O<x<M~:gilt:
W( {P > x}) = W( {p1(x) < p < p2(x)} ),
wobei die pk~;) (i = 1, 2) eindeutig festgelegt sind. Also hat man
W({l-a ::=:; P < 1}) = W({p1(l- a) ::=:; p .$ p 2(1- a)})
Die Bedingung (15) erhält die Gestalt p p
I k(y) dy ~ I tp(y) dy = W({O:; p ::=:; p,'(P)}) + W({p.'(P) :; p .$ 1}). 0 0
wobei p~{P) und p;{P) wiederum eindeutig bestimmt sind.
Daraus folgt aber mit P = (~;) pk(1- p)"-1: für p ::::;;; p~(P) bzw. p :2: p~(P)
p
Ik(y)dy ~ W({O ::; p .S p}) bzw. ~ W({p :=:;p ::=:; 1}). 0
Schreibt man nun p . p f k(y) dy = g(p) und f k(y) dy = 1-h(p), 0 0
k k dann gilt für p < - bzw. >-
n n g(p), h(p) ;::::: 0, lim g(p) = 0 und lim h (p) = 1
p+O P+l
und g(p) und h(p) sind monoton nicht abnehmend. Somit kann man aber sagen, daß (15) gilt, wenn für passendes '!?~ > 0
p p p .$ p 1'(#1' ), f tp(p) dp .$ g(p) und für p ~ p 2(#1' ), I ip(p)dp ~ h(p)
0 0
erfüllt ist, wobei g(p) und h(p) den angegebenen Bedingungen genügen. 3. Die Analoga zu den erschöpfenden Schätzfunktionen und dem
Maximum Likelihoodprinzip in der Bayesschen Auffassung. ! sei eine n
dimensionale zufällige Variable und t der "Parameter" der Verteilung von~· Die Verteilungsdichte von{!, t) sei durch k(h(!), t) H("'§) gegeben, wobei H("'§) von t nicht abhängen soll (vgl. IV. S. 217). Dann ist die bedingte Dichte von t unter der Hypothese{!=!} durch
I k(h(~). t) g(t ~) = -,+-.,.,~'-"'--·
f k(h(~). t) dt
(16)
-oo
gegeben, wie man sofort nachrechnet. (16) ist aber unabhängig von H("'§) und hängt nur mehr von den
Werten ab, die h(~) annimmt.
Die klassische Bayessche Methode 399
Dies ist z. B. in dem wichtigen Fall erfüllt, wenn die a prJOrtVerteilung des Parameters, den wir jetzt mit a bezeichnen durch eine N(O,l} gegeben ist und n Stichprobenvariable vorliegen, die voneinander unabhängig sind und deren Verteilung unter der Hypothese { a=a} durch eine N(a, l} gegeben ist. Dann haben wir für die Dichte von (x1, ... , x ... , a)
n a' n 9 ( n+ 1 -) 1 - ~ (xi-a)'/~ -- 1 - 2 :r:/2 - - a•-anx --=-- e i=l e 2 = e i=l •· e 2 (v'2n)n+l (v'2n)n+l
Die Dichte von a unter der Hypothese { X1 = x1, ... , x,. = x ... } hängt nur von x ab. Sie ist, wie man sofort sieht, durch
v' n+T _ <n+t> (a- nx )' --=:- e 2 (n+l)
v'2n
gegeben. Die a posteriori-Verteilung hängt also nicht von den einzelnen Stichprobenwerten, sondern ausschließlich von deren Durchschnitt ab.
Wir legen nun die durch (1) gegebene a posteriori-Verteilung des Parameters zu Grunde, beschränken uns jedoch auf einen eindimensionalen Parameter t. Wir setzen überdies voraus, daß die a priori-Verteilungsdichte cp(t) und /('~1 , ... , ~n I t) als Funktion von t überall differenzierbar sind, diese für alle ~1 , . .. , ~ ... Dann erhalten wir, falls Lösungen vorhanden Rind, durch
og(t I~ •..... ~nl ---0-t -- = 0 (17)
die Modalwerte der a posteriori-Dichte. Wir betrachten nun eine eindeutig umkehrbare und differenzierbare Funktion T = h(t) und definieren vermöge t1 =h(t) die zufällige Variable t1. Die Umkehrfunktion von h(t) bezeichnen wir mit '1/'(T) und erhalten für die Dichte von t1
9'(~1(T)) I d ;~T) I Schreiben wir nun cp(t) /(~1 , ... , ~ ... I t) = s(~<n>, t), dann erhalten w1r mit ~(n) = (!1, .. • , !.,) für die Dichte von (~<n>, t1):
I d 'lp(T) J
s(~(n), 'I{J(T)) (JT I und daher für die bedingte Dichte y( T ! !rn) = ~(n)) von t1 unter der Hypothese { tn> = {n>}.
s(~(n), tp(T)) I d d~T) I / :J: s({n>, tp(T)) I d ;~)I d T
Die Modalwerte von y( T I !(n) = tn>) werden dann gegebenenfalls durch die Lösung der Gleichung
400 Die klassische Ba.yessche Methode
0 I d !p{"t) I' a a(~(n), !p('t')) I d 'P(T) 12 d I d !p(T) I "iJ-:j; a(~(n>_ !p(T)) ---;r:r = 0 t ---;r:r +a({n>, !p(T)) d T """'ifr =0 (18)
gegeben. (18) zeigt, daß (17) im allgemeinen nicht invariant gegenüber einer
Transformation der zufälligen Variablen t ist. Nur dann, wenn h(t) linear ist, verschwindet
_!___I d 'P(T) I d't' d't'
und (18) und (17) sind dann wegen
I d:~·) I * 0
identisch. Kehren wir nun zur Auffassung des IV. Kapitels zurück und fassen wir s('rn>, t) als Dichte der zufälligen Variablen tn> mit dem Parameter t auf, der also jetzt keine zufällige Variable darstellt, so können wir die Maximum-Likelihoodgleichung
a log 8 <{n>, t) at =0 (19)
betrachten, wobei natürlich die entsprechenden Differenzierbarkeitseigenschaften vorausgesetzt sind. Machen wir nun die umkehrbar eindeutige und differenzierbare Parametertransformation t = tp(t'}, dann erhalten wir für die Maximum-Likelihoodgleichung
0 log 8(~(n), !p(T)) d !p(T) at -i-:r-= 0
Nun ist
~'P<:L * o d't'
und somit nachgewiesen, daß (19) gegenüber allen Parametertransformationen der beschriebenen Art invariant ist. Dies demonstriert in gewissem Sinne wiederum die Überlegenheit der neueren Auffassung über die Bayessche Auffassung.
Schließlich machen wir darauf aufmerksam, daß es zuerst Wald gelungen ist, durch seine Theorie der Statistischen Entscheidungsfunktionen und der Risikofunktion eine fruchtbare Synthese zwischen diesen Auffassungen herbeizuführen, welche anscheinend dazu bestimmt ist, der mathematischen Statistik ein neues Gesicht zu geben. Ein Eingehen auf diese aktuellen und hochwichtigen Untersuchungen liegt außerhalb des Rahmens dieses Buches9•
9 Wir verweisen auf A. Wald, Statistica.l Decision Functions, John Wiley & Sons-Cha.pman & Hall, New York-London, 1950, und D. BlackweU und M. A. Girahick, Theory of Games and Sta.tistica.l Decisions im selben Verlag, 1954.
Namenverzeichnis
Aitken, A. C. 288 D'Alembert 10 Anderson, T. W. 301 Armitage, P. 159 Ba.hadur, R. R. 217 Barankin, E. W. 204, 239 Bartlett, S. 325 Bayes, Th. 12, 390 Bernoulli, D. 95, 109 Birnbaum, Z. W. 63 Blackwell, D 218, 400 Blanc-Lapierre, A. 9 Blum, J. R. 389 Boltzmann, L. 1 Borel, E. 10, 21 Bowker, A. H. 281 Cantelli, P. 6 Carleman, T. 115 Chanda., K. C. 223 Chapman, D. C. 211 Chernoff, H. 187 Chincin, A. 8, 224 Chung, K . L. 8 Cochran, W. G. 125, 280 Cramer, H. 8, 54, 55, 117, 205, 207,
223, 279 Czuber, F. 175 Da.ntzig, D. van 342, 268, 370 Dixon, W. J. 384 Dodge, H. F . 150 Donsker, M. D . 355 Elteren, Ph. van 366 Esseen, C. G. 78 Feiler, W. 6, 140, 272, 355, 360 FinkeHtein, B. W. 351 Fisher, R. A. 82, 84, 87, 134, 137,
222, 280, 312, 336, 341 Fisz, M. 112 Fortet, R. 9 Fraser, D. A. S. 211 Frechet, M. 6, 8, 396 Gauß, F. K. 222, 286 Geppert, M. P. 392 Gibbs, W. 1
;:<chmetterer, Mathematische Statl•tik
Girshick, M. A. 301, 400 Gnedenko, B. V. 8, 356 Gosset, W. S. 82 Gröbner, W. 338 Gurland, J. 239 Guttman, I. 211 Hajos, G. 349 Halmos, ·P. R: 14, 217, 344 Hamburger, H . L. 115 Hansen, M. H. 164 Helmert, F. R. 79, 81, 83, 134 Hemelrijk, J . 342, 343, 366, 377,
383,384 Hlawka, E. 78 Hoeffding, W. 377 Hoel, P. 274 Hofreiter, N. 338 Hornich, H. 63, 229 Hotelling, H. 309, 315 Hsu, P. L. 301 Hurwitz, W. N. 164 Huzurbazar, V. S. 232 ljzeren, J. van 285 Isaacson, St. L. 256 James, A. T. 341 James, G. S. 125 Kallianpur, G. 389 Kamke, E. 8 Kawata, T. 131 Kempthorne, 0. 289 Kendall, M. 117, 384 Kiefer, J . 211 Kolmogoroff, A. N. 6, 8, 9, 14, 67,
215, 218, 289, 355 Landau, E. 98 Laplace, P. S. 95, ll5 Lebesgue, H. 20, 21 Lehmann, E. L. 218, 281, 282, 370,
375, 384 Levy,P.8,54,55, 78 Linder, A. 117, 285 Ljapunoff, A. M. 51 Lösch-Schoblik 86 Loeve, M. 77
26
402 Namenverzeichnis
Mahalanobis, P. C. 312, 316 Mann, H. B. 367 Massey, F. J. 357 Maxwell, J. C. 1 Mejzler, D. G. 351 Meyer, A. 175 Midzuno, H. 164 Mises, R. von 5, 6, 8, 393 Monro, S. 385 Mood, A. M. 384 Munroe, M. E. 8 Nandi, H . K . 256 Neyman, J. 156, 169, 182, 185, 186,
187' 199, 240, 255, 256, 259, 272, 279, 391
Pearson, E. S. 169, 187, 199, 240, 255, 256, 259, 272
Pearson, K . 79, 81, 83, 89, 134, 279, 332
Petroff, W. W. 289 Price, R. 390 Radon, J . 22 Rao, C. R. 205, 212, 307, 312, 316 Renyi, A. 349, 350 Ricker, E. 176 Riemann, B. 21, 22 Robbins, H . 211, 385 Romanovsky, V. 332 Romig, H. G. 150
Ruist, E. 384 Sakamoto, H. 131 Savage, J. R. 217, 384 Scheffe, H. 187, 218 Schmetterer, L. 115, 386, 389, 393 Seth, G. R. 205 Shohat, J. A. 114 Smirnow, N. W. 351, 356 Snedecor 86 Steffensen, J. F. 6 Stein, C. 282, 384 Stieltjes, Th. J. 22, 69 Student 82 Tamarkin, J . D. 114 Terpstra, T. J. 367 Tocher, K. D. 187, 243 Uspensky, V. 8, 51 Waerden, B. L. van der 96, 366, 394 Wald, A. 6, 187, 223, 264, 280, 281,
283, 284, 363, 400 Whitney, D. R. 367 Wilcoxon, F . 366 Wilks, S. S. 117, 357 Winkler, W. 1, 120 Wintner, A. 55 Wishart, J. 301, 305 Wolfowitz, J. 6, 223, 281, 284, 363,
384,386 Zuckermann, H. S. 63
Sachverzeichnis
Additionsgesetz der Wahrscheinlichkeitsrechnung 11
Asymptotische Verteilung der Maximum Likelihood Schätzfunktion 234
Bernoulliverteilung 92 Binomialverteilung 91 Bore1-meßbare Funktion 39, 171 Boreische Menge 18 Cauchysche Verteilung 84 Charakteristische Funktion 51 - -der Normalverteilung 72 - - einer Summe unabhängiger
zufälliger Variabler 61 Chiquadratverfahren von Pearson 379 Chiquadratverteilung 79 x2- Verteilung von Helmert-Pearson
81 -, nicht zentrale 249 Dichte bedingter Verteilung 31 Diskreter Typ 19, 26 Diskriminatorische Funktion 312 Distanz von Mahalanobis 312 Dupinsche Indikatrix 256 Elliptischer Punkt 256 Ereignisse, äquivalente 9 - , unabhängige 11 Erwartungswert 42, 43 -, bedingter 64 Erweiterungen der Testtheorie 281 Erzeugende Funktion 59 Eulerache Formel 52 Exzeß 49 -der Normalverteilung 72 Fehler erster Art 247 -zweiter Art 247 Fundamentallemma von Neyman
und Pearson 187 Funktional 344 Funktionen zufälliger Variabler 38 F-Verteilung 86 Gaußsehe Totalkrümmung 256 Geodätische Linie 317 Gleichverteilung 36
Gramsehe Determinante 215 Grundgesamtheit 118 -, endliche 142 Gütefunktion 243 Häufigkeit, absolute 3 -, relative 3 Hauptkrümmungsradius 256 Hotelling-Verteilung 311 Hyperfläche 26 Hypergeometrische Verteilung 143 Hypothese, einfache 241, 246 -,zulässige 241 -,zusammengesetzte 241, 256 Integralgleichung 215 Iteration 358 Kennfunktion 180 Kollektiv 6 Komplexwertige Funktion 51 Konfidenzbereich 177, 178 -, lokal-regulärer 181 -, lokal-trennscharfer 181 -, regulärer 180, 181 -, trennscharfer 180, 181 - vom Typ A 182 -vom Typ A1 185 Konfidenzintervalll69 - für die Binomialverteilung 175 Konfidenzkoeffizient 169 Konsistente Folge von Testen 281 Konsumentenrisiko 247 Konvergent, asymptotisch 202 -, stochastisch 202 Korrelationskoeffizient 4 7 -, multipler 320 -, partieller 322 Kovarianz 46 Kovarianzmatrix 104 Kumulanten 113 Laplacesche Definition der Wahr-
scheinlichkeit 115 Lebesgue-Stieltjes Integral 22 Likelihood-Funktion 222 Linearkombination normal verteilter
zufälliger Variabler 106
404 Sachverzeichnis
Linearoperation 215
Massenbelegung 29 Maximum Likelihood-Gleichung 223 Maximum Likelihood-Prinzip 221 Maximum Likelihood- Quotiententest
272 Mecime 351 Methode der kleinsten Quadrate 286 Mittelwert 45 -der Normalverteilung 71 MLQT 272 Modalwert 21 Moment 45 -, absolutes 50 Momentenproblem 114 Multinomialverteilung 108
Nabelpunkt 256 N ormalverteilung, eindimensiona.le
68 -, mehrdimensionale 102 N(a, a 2 ) 71 Nullhypothese 241
Parameter, einer Verteilungsfunktion 241
-, richtiger 167 Parameterfreie Methoden 342 Parameterfreier Konfidenz hereich - - für Regressionsflächen 343 - - für Verteilungen 342, 355 Poissonver~eilung 101, 112 Prinzip von d 'Alembert-Borel 10 Produzentenrisiko 247 Problem der zwei Stichproben 344,
357 Prüfen des Unterschiedes der Mittel
werte zweier unabhängiger Normalverteilungen bei bekannter Streuung 133
- - - der Mittelwerte zweier unabhängiger Normalverteilungen bei unbekannter, aber gleicher Streuung 133
- - - der Streuungen zweier unabhängiger Normalverteilungen bei bekanntem Mittelwert 137
- - - der Streuungen zweier unabhängiger Normalverteilungen bei unbekanntem Mittelwert 138 Prüfung einer Hypothese über den Mittelwert einer Normalverteilung bei bekannter Streuung 120
- - - über den Mittelwert einer Normalverteilung bei unbekannter Streuung 125
- - - über die Streuung einer Normalverteilung bei bekanntem Mittelwert 136
- - - über den Mittelwert einer Normalverteilung bei unbekanntem Mittelwert 136
Qualitätskontrolle 147, 215
Randverteilung 28 Ranginvarianter Test 366 Realisation einer zufälligen Variablen
119 Regellosi5keitsaxiom 6 Region, ähnliche 243 -, kritische 243 -, gleichmäßig be3sere kritische 243 -, kritische vom Typ B1 256 -, - vom Typ B 256 Regressionsfläche 64 Regressionskoeffizient 319 Regressionstheorie 258, 318 Reproduktionseigenschaft der x2-
Verteilung 82 -der Normalverteilung 75 -der Poissonverteilung 102 - der Wishartverteilung 305 Residualterm 289, 320 Riemann - Stieltjes Integral 22
Satz von Laplace 95 Schätzfunktion 200, 201 -, asymptotisch wirksame 238 -, erschöpfende 217 -, erwartungstraue 202, 203 -, geordnete 345 -,konsistente 201 -, mit lokaler Minimalstreuung 204 -, mit Minimalstreuung 204 -,wirksame 207, 211 Schiefe 48 ~der Normalverteilung 72 Semünvarianten 113 Seqentialtest 282 Sicherheitsgrad 391 Sicherheitsintervall 391 Sicherheitskoeffizient 357 ~icherheitsschranke 123 Sicherheitswahrscheinlichkeit 123,
242 Spannweite 348
Sachverzeichnis 405
Stetiger Typ 20, 26 Stichprobe 118 -, geschichtete 151 - , -für endliche Grundgesamthei-
ten 157 - , mehrstufige 160 -, - mit profOrtionaler Auswahl
164 - - , optimale 156 -,proportionale 154 Stichprobe, die einer nach F('l) ver
teilten Grundgesamtheit entnommen ist 119
Stichprobenfunktion 171, 200 Stichprobenkorrelationskoeffizient,
multipler 324 -, partieller 330, 335 Stichprobenregressionskoeffizient
324 Stichprobentheorie endlicher Grund
gesamtheiten 140 - mehrdimensional normal verteilter
Grundgesamtheiten 300 Stirlingsche Formel 86 Streuung 45, 46 -der Normalverteilung 71 Student-Vert eilung 82 Summenfunktion 14 Summen zufälliger Variabler 57 Symmetrietest von Hemelrijk 377 Test, asymptotisch strenger 271 -, Definition 242 -, lokal-trennscharfer 246
-, strenger 264 -, trennscharfer 244 -, unverfälschter 24:5 - vom Typ A 246 - vom Typ A1 246 - vom Typ C 255 - vorn Typ D 256 - von Wilcoxon 366 - von Wald und Wolfowitz 367 Theorem von Bernoulli 94 Toleranzbereich 357 Toleranzgrenzen 357 Totaladditivität der Wahrscheinlich-
keit 11 Tschebyscheffsche Ungleichung 55 t-Verteilung 82 -, nicht zentrale 257 Ueberdeckungskoeffizient 357 Unabhängige zufällige Variable 27 U r nenschema 115, 117 Varianzanalyse 274 Verteilungsdichte 18, 19 Verteilungsfunktion 14, 23 Vf. 14 -bedingter Verteilung 31 Wahrscheinlichkeit, bedingte 11, 12 -, empirische 3 Wishart-Verteilung 301 Zeichentest 383 Zentraler Grenzwertsatz 77, 107 Zufällige Variable, eindimensionale
13, 14 -, -, mehrdimensionale 22
Top Related