Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario...
-
Upload
tielo-whelchel -
Category
Documents
-
view
105 -
download
1
Transcript of Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario...
![Page 1: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/1.jpg)
Multivariate Verfahren der Statistik bei der quantitativen
Textanalyse
Ernst Stadlober und Mario DjuzelicInstitut für Statistik
Technische Universität Graz
21. Juni 2002
![Page 2: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/2.jpg)
2
Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen
– TLS: Textlänge gegeben durch Anzahl der
Silben
– m1: mittlere Wortlänge aus
Anzahl der Silben (Silbenanzahl pro
Wort);
– m2: empirische Varianz
der Wortlänge
– log(TLS): logarithmierte Textlänge
– I: das erste Ord´sche Kriterium
I = m2 / m1
– S: das zweite Ord´sche Kriterium
S= m3 / m2
![Page 3: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/3.jpg)
3
Je zwei slowenische Texte der drei Texttypenmit sechs Kenngrößen (Variablen)
Anzahl der Texte, Mittelwertvektoren
Texttyp TLS m1 m2 log(TLS) I S1 liter. Prosa 4943 1.89 1.02 8.51 0.54 0.952 liter. Prosa 2791 1.93 1.06 7.93 0.55 0.86
0.900.52,8.05,0.96,1.84,4000,,52 11 xn
Texttyp TLS m1 m2 log(TLS) I S1 journ. Prosa 1537 2.21 1.75 7.34 0.79 1.092 journ. Prosa 1200 2.31 1.62 7.09 0.70 0.74
0.850.71,6.78,1.59,2.25,1084,,50 22 xn
Texttyp TLS m1 m2 log(TLS) I S1 Poesie 312 1.81 0.72 5.74 0.40 0.502 Poesie 402 1.75 0.91 6.00 0.52 1.27
0.690.39,5.41,0.68,1.74,270,,51 33 xn
![Page 4: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/4.jpg)
4
Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1
0.007376 0.0011930.002700 0.000984 0.005252 27.43391 S
0.001193 0.001291 0.003362 0.0019610.003593 18.00747 I
0.002700 0.003362 0.009193 0.005908 0.016770 75.17015 2m
0.000984 0.0019610.005908 0.0044700.019240 80.34962 1m
0.005252 0.0035930.016770 0.0192400.5040001961.689 log(TLS)
27.43391 18.0074775.17016 80.349621961.6898664007.55TLS
SI2m1mlog(TLS)TLS
1S
1 0.390.33 0.17 0.09 0.11 S
0.39 1 0.98 0.820.14 0.17 I
0.33 0.98 1 0.92 0.25 0.27 2
m
0.17 0.820.92 10.41 0.41 1
m
0.09 0.140.25 0.4110.94 log(TLS)
0.11 0.170.27 0.410.941TLS
SI2
m1
mlog(TLS)TLS
1R
![Page 5: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/5.jpg)
5
Gepoolte Kovarianzmatrix aus Gruppenkovarianzen S i und Sj
jjiiji
ij SnSnnn
S
112
1
Berechnung der multivariaten statistischen Distanzzwischen je zwei sechs-dimensionalen Mittelwertvektoren
5.4022
4.7661
5.5167
)()(,
)()(,
)()(,
321
233232
311
133131
211
122121
xxSxxxxD
xxSxxxxD
xxSxxxxD
t
t
t
![Page 6: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/6.jpg)
6
Literarische Prosa | Journalistische ProsaUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )2()1(kj xx )2()1(
kj ss ),( )2()1(kj xxD
T L S l i t e r . P r o s aj o u r n . P r o s a
3 9 9 9 . 9 8 11 0 8 4 . 1 6 0
2 9 4 3 . 4 7 07 8 4 . 4 6 9 1
1 . 3 4 2 0 8 8
l o g ( T L S ) l i t e r . P r o s aj o u r n . P r o s a
8 . 0 4 8 4 5 66 . 7 7 9 7 0 8
0 . 7 0 9 9 2 90 . 6 4 4 8 5 8
1 . 8 6 9 0 3 8
m 1 l i t e r . P r o s aj o u r n . P r o s a
1 . 8 3 5 2 9 62 . 2 4 5 3 9 4
0 . 0 6 6 8 5 50 . 1 2 9 8 8 1
3 . 9 9 3 5 3 4
m 2 l i t e r . P r o s aj o u r n . P r o s a
0 . 9 6 0 9 8 11 . 5 9 0 8 2 8
0 . 9 5 8 8 0 00 . 2 0 4 5 8 3
0 . 9 0 0 3 7 0
I l i t e r . P r o s aj o u r n . P r o s a
0 . 5 2 2 5 6 20 . 7 0 6 6 2 2
0 . 0 3 5 9 2 50 . 0 6 3 0 3 2
3 . 6 0 6 2 5 1
S l i t e r . P r o s aj o u r n . P r o s a
0 . 9 0 1 8 1 60 . 8 4 7 3 5 8
0 . 0 8 5 8 8 30 . 2 2 0 7 5 0
0 . 3 2 7 5 6 3
![Page 7: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/7.jpg)
7
Literarische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )3()1(kj xx )3()1(
kj ss ),( )3()1(kj xxD
T L S l i t e r . P r o s aP o e s i e
3 9 9 9 . 9 8 12 6 9 . 8 6 2 7
2 9 4 3 . 4 7 01 9 1 . 7 4 6 4
1 . 7 7 9 6 6 0
l o g ( T L S ) l i t e r . P r o s aP o e s i e
8 . 0 4 8 4 5 65 . 4 0 5 7 3 9
0 . 7 0 9 9 2 90 . 6 1 9 9 4 7
3 . 9 4 3 0 0 7
m 1 l i t e r . P r o s aP o e s i e
1 . 8 3 5 2 9 61 . 7 3 6 7 5 5
0 . 0 6 6 8 5 50 . 1 1 5 0 2 1
1 . 0 4 4 8 6 1
m 2 l i t e r . P r o s aP o e s i e
0 . 9 6 0 9 8 10 . 6 8 2 4 1 0
0 . 9 5 8 8 0 00 . 1 7 3 3 5 3
0 . 4 0 0 4 7 3
I l i t e r . P r o s aP o e s i e
0 . 5 2 2 5 6 20 . 3 9 0 4 7 5
0 . 0 3 5 9 2 50 . 0 7 9 0 6 2
2 . 1 4 7 3 7 0
S l i t e r . P r o s aP o e s i e
0 . 9 0 1 8 1 60 . 6 9 1 9 9 0
0 . 0 8 5 8 8 30 . 2 4 8 7 5 3
1 . 1 2 6 3 9 3
![Page 8: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/8.jpg)
8
Journalistische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )3()2(kj xx )3()2(
kj ss ),( )3()2(kj xxD
T L S j o u r n . P r o s aP o e s i e
1 0 8 4 . 1 6 02 6 9 . 8 6 2 7
7 8 4 . 4 6 9 11 9 1 . 7 4 6 4
1 . 4 3 2 4 4 1
l o g ( T L S ) j o u r n . P r o s aP o e s i e
6 . 7 7 9 7 0 85 . 4 0 5 7 3 9
0 . 6 4 4 8 5 80 . 6 1 9 9 4 7
2 . 1 7 2 6 2 9
m 1 j o u r n . P r o s aP o e s i e
2 . 2 4 5 3 9 41 . 7 3 6 7 5 5
0 . 1 2 9 8 8 10 . 1 1 5 0 2 1
4 . 1 4 8 7 2 5
m 2 j o u r n . P r o s aP o e s i e
1 . 5 9 0 8 2 80 . 6 8 2 4 1 0
0 . 2 0 4 5 8 30 . 1 7 3 3 5 3
4 . 7 9 4 9 0 6
I j o u r n . P r o s aP o e s i e
0 . 7 0 6 6 2 00 . 3 9 0 4 7 5
0 . 0 6 3 0 3 20 . 0 7 9 0 6 2
4 . 4 1 6 7 8 6
S j o u r n . P r o s aP o e s i e
0 . 8 4 7 3 5 80 . 6 9 1 9 9 0
0 . 2 2 0 7 5 00 . 2 4 8 7 5 3
0 . 6 6 0 2 7 0
![Page 9: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/9.jpg)
9
Auswahl guter Kombinationen von Variablenaus dem Pool von p = 6 Variablen
1.7 1.9 2.1 2.3 2.5
m1
0.4
0.5
0.6
0.7
0.8
I
literarische Prosajournalistische Prosa
3 4 5 6 7 8 9 10
log(TLS)
0.2
0.3
0.4
0.5
0.6
0.7
I
Poesieliterarische Prosa
Scatterplot des Variablenpaares (log(TLS),I)
Scatterplot des Variablenpaares (m1,I)
![Page 10: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/10.jpg)
10
0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00
m2
0.2
0.4
0.6
0.8
I
Poesiejournalistische Prosa
Scatterplot des Variablenpaares (m2,I)
![Page 11: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/11.jpg)
11
SImmTLSTLS ijijijijijijij aaaaaaY 654321 21)log(
Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion
Linearkombination der p=6 Variablen
ijY -W erte für alle Beobachtungen
M ittelwerte der G ruppen: )()( , jij
iij YY
M ittelpunkt: 2)()( jij
iijij YYm
Standardisierte Größe:
ijij
ij
ij mYD
Z 1
![Page 12: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/12.jpg)
12
-4,5 -3,5 -2,5 -1,5 -0,4 0,6 1,6 2,6 3,6 4,6 5,6Diskriminante
0
4
8
12
abso
lute
Häu
fig
kei
ten
literarische Prosajournalistische Prosa
-4,8 -4,0 -3,2 -2,4 -1,5 -0,7 0,1 1,0 1,8 2,6 3,5
Diskriminante
0
2
4
6
8
10
12
abso
lute
Häu
fig
kei
ten
literarische ProsaPoesie
Histogramm der Diskriminante Z12 Multivariate statistische Distanz D12 = 5.5167
Histogramm der Diskriminante Z13
Multivariate statistische DistanzD13 = 4.7661
![Page 13: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/13.jpg)
13
-4,9 -3,9 -3,0 -2,0 -1,0 -0,1 0,9 1,8 2,8 3,7 4,7Diskriminante
0.0
2.5
5.0
7.5
10.0
12.5
15.0
abso
lute
Häu
figk
eite
n
Poesie journalistische Prosa
Histogramm der Diskriminante Z23
Multivariate statistische DistanzD23 = 5.4022
![Page 14: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/14.jpg)
14
Elimination redundanter Variablen in der Diskriminante Y12 mit Hilfe der t-Statistik
Trennung der
literarischen Prosatexte von den journalistischen Prosatexten
Analyse auf Grundlage aller sechs Variablen
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
TLS 0.0002 0.0005 0.3897 5.5130log(TLS) 4.0731 1.5774 2.5822 5.3086
m1 -117.3995 22.2230 -5.2828 4.7574m2 129.0193 32.5310 3.9660 5.0550I -314.3848 68.9248 -4.5613 4.9256S 0.6883 4.7043 0.1463 5.5163
![Page 15: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/15.jpg)
15
Analyse ohne die Variable S
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
TLS 0.00016 0.00051 0.31350 5.51311log(TLS) 4.10485 1.55328 2.64270 5.30094
m1 -118.0241 21.65793 -5.44946 4.72372m2 128.8789 32.35038 3.98384 5.05529I -312.4976 67.43930 -4.63376 4.91432
Analyse ohne die Variablen S und TLS
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
log(TLS) 4.52910 0.77546 5.84053 4.63313m1 -116.36175 20.96482 -5.57593 4.69730m2 126.89840 31.64950 4.00949 5.05128I -308.88416 66.27222 -4.66084 4.91072
![Page 16: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/16.jpg)
16
4,004,204,40
4,604,805,005,20
5,405,60
Distanz ohne log(TLS) Distanz ohne m1
Distanz ohne m2 Distanz ohne I
2,202,502,803,103,403,704,004,304,604,905,205,50
Distanz ohne TLS Distanz ohne log(TLS) Distanz ohne m2
4,40
4,60
4,80
5,00
5,20
5,40
5,60
Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne I
Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable
Literarische Prosa und journalistische Prosa
Journalistische Prosa und PoesieLiterarische Prosa und Poesie
![Page 17: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/17.jpg)
17
Literarische Prosa und journalistische Prosa
Reduzierte lineare Diskriminanzfunktion mit 4 Variablen
ImmTLSredY *88416.3082*8984.1261*36175.116)log(*52910.412
D12(red) = 5.5131 vs. D12 = 5.5167
Literarische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
2*6011.13)log(*0437.9*0014.013 mTLSTLSredY
D13(red) = 4.7311 vs. D13 = 4.7661
Journalistische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
ImTLSredY *6065.391*9766.22)log(*0937.323
D23(red) = 5.3366 vs. D23 = 5.4022
![Page 18: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/18.jpg)
18
-236 -231 -226 -221 -216 -211 -206 -201 -196
Y12(m1 ,m2 ,I)
5
6
7
8
9
log(
TLS)
literarische Prosajournalistische Prosa
-30 -20 -10 0 10
Y12(log(TLS),m2 ,I)
1.7
1.9
2.1
2.3
2.5
m1
literarische Prosajournalistische Prosa
Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I)
Scatterplot der Veränderlichen m1 und Y12(log(TLS),m2,I)
![Page 19: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/19.jpg)
19
3.5 6.0 8.5 11.0 13.5 16.0 18.5 21.0 23.5
Y13(TLS,m2)
3
5
7
9
log(
TLS)
Poesieliterarische Prosa
Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)
![Page 20: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/20.jpg)
20
40 50 60 70 80 90
Y23(m1 ,I)
4
5
6
7
8
log(
TLS)
Poesiejournalistische Prosa
30 40 50 60 70
Y23(log(TLS) ,I)
1.4
1.6
1.8
2.0
2.2
2.4
m1
Poesiejournalistische Prosa
Scatterplot der Veränderlichen log(TLS) und Y23(m1,I)
Scatterplot der Veränderlichen m1 und Y23(log(TLS),I)
![Page 21: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/21.jpg)
21
Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))mit Gruppenmittelwerten und Konzentrationsellipsen
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
2
2 222 22
2
22
22
2
2222
2
2 22
2 22
22
2
2
2
2
22 2 2
2222 2
2
2
2
222
2
2
2
22
2
2
1
1
1
1
1
1
1
1 1
1
1
1
1
11
1
1
1
1
11
1
11
11
1
1
1
1
11 11
11
1
1
1
111
1
1
1
1
1
1
1
11 3
3
3
3
33
3
3
3
3
3
3
3
3
3
33
3
3
3
3
3
33
3
3
3
33 33
3
33 3
3
33
3
3
33
3
3
3
3
3
3
33
10 12 14 16 18 20 22Z1
-6-4
-20
2
Z2
10 12 14 16 18 20 22
-6-4
-20
2
10 12 14 16 18 20 22
-6-4
-20
2
10 12 14 16 18 20 22
-6-4
-20
2
1...Poesie2...literarische Prosa3...journalistische Prosa
![Page 22: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.](https://reader035.fdocument.pub/reader035/viewer/2022062512/55204d7649795902118cac4c/html5/thumbnails/22.jpg)
22
Offene Fragen• Definition der Texttypologie
- Einteilung von Texten in Textkategorien?- welche Kriterien sind anzulegen?- statistische Eigenschaften (Population)?
• Definition eines VariablenpoolsBasis sind Textlänge und Wortlänge- welche abgeleiteten Merkmale soll man betrachten?- welche sind geeignet für Charakterisierung von Textgruppen?
• Diskriminanzfunktionen- welche Merkmale bestimmen gute Diskriminanzfunktionen?- lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale
getrennt werden wie im Slowenischen?)