Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

34
Statistics using Basic Christos Androvitsaneas February 1985 Χρήστος Ανδροβιτσανέας τατιστική με Basic σύντομες σημειώσεις Αθήνα Φεβρουάριος - Ιούλιος 1985

description

Στατιστική με Basic (1985) Χρήστος Ανδροβιτσανέας - Short notes (in Greek) on calculating basic statistics using the Basic programming language (issue 1985).

Transcript of Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

Page 1: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

Statistics using Basic ∙ Christos Androvitsaneas ∙ February 1985

Χρήστος Ανδροβιτσανέας

τατιστική

με Basic

σύντομες σημειώσεις

Αθήνα

Φεβρουάριος - Ιούλιος 1985

Page 2: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

2

Πίνακας περιεχομένων

1 Βασικά στατιστικά µεγέθη .................................................................................... 3

1.1 Αθροίσµατα και συµβολισµός αθροισµάτων ................................................ 4

1.2 Ο µέσος αριθµητικός ..................................................................................... 4

1.3 Τυπική απόκλιση ........................................................................................... 5

1.4 Συντελεστής κύρτωσης ................................................................................. 6

1.5 Συντελεστής ασυµµετρίας ............................................................................. 7

1.6 Ανακεφαλαίωση προγράµµατος υπολογισµού στατιστικών δεικτών ........... 8

2 ∆ιµεταβλητές µέθοδοι ........................................................................................... 9

2.1 Συσχέτιση ...................................................................................................... 9

2.2 Απλή γραµµική παλινδρόµηση ................................................................... 11

2.3 Προβλέψεις ................................................................................................. 14

3 Άλγεβρα πινάκων ................................................................................................ 16

3.1 Βασικές έννοιες ........................................................................................... 16

3.2 Πρόσθεση πινάκων ..................................................................................... 17

3.3 Πολλαπλασιασµός πινάκων ........................................................................ 18

3.4 Αναστροφή πίνακα ...................................................................................... 19

3.5 Αντιστροφή πίνακα ..................................................................................... 20

4 Πολυµεταβλητή παλινδρόµηση Ι ........................................................................ 22

4.1 ∆ιατύπωση του προβλήµατος της πολυµεταβλητής παλινδρόµησης.......... 22

4.2 Εκτίµηση του πίνακα συντελεστών παλινδρόµησης ................................... 25

5 Πολυµεταβλητή παλινδρόµηση ΙΙ ....................................................................... 28

5.1 Προβλέψεις ................................................................................................. 28

5.2 Αξιολόγηση υποδείγµατος .......................................................................... 29

5.2.1 Θεωρητικές τιµές ................................................................................ 30

5.2.2 Αποκλίσεις .......................................................................................... 31

5.2.3 Πίνακας συνδιακυµάνσεων και τυπικά σφάλµατα συντελεστών ....... 32

5.2.4 Συντελεστές t ....................................................................................... 33

5.2.5 Συντελεστής προσδιορισµού ............................................................... 33

Page 3: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

3

1 Βασικά στατιστικά µεγέθη Η επεξεργασία στατιστικών στοιχείων απαιτεί πολύ χρόνο και, µερικές φορές, είναι πρακτικά αδύνατη χωρίς τη χρήση κάποιου ηλεκτρονικού υπολογιστή (Η/Υ). Σε αυτό το κεφάλαιο αναπτύσσεται η στατιστική θεωρία, οι ιδιαιτερότητες που παρουσιάζονται στον αντίστοιχο προγραµµατισµό για Η/Υ και τα listing των προγραµµάτων (σε Basic) σχετικά µε τον υπολογισµό (i) του µέσου αριθµητικού, (ii) της τυπικής απόκλισης, (iii) του συντελεστή κύρτωσης και (iv) του συντελεστή ασυµµετρίας.

Μέχρι τη δεκαετία του εβδοµήντα, η χρήση των περισσότερων στατιστικών µεθόδων ήταν περιορισµένη στα πανεπιστήµια και τα ερευνητικά κέντρα. Αιτία, φυσικά, οι ατέλειωτοι αναγκαίοι υπολογισµοί και η δυνατότητα διεκπεραίωσής τους µόνο σε µεγάλα υπολογιστικά συστήµατα. Με την πτώση των τιµών του hardware και την εισβολή των υπολογιστών στις επιχειρήσεις, αναπτύχθηκαν παράλληλα και προγράµµατα για την ανάλυση και επεξεργασία πληροφοριών. Πολλές επιχειρήσεις όµως, παρότι διαθέτουν τα απαραίτητα προγράµµατα και utilities µε στατιστικές µεθόδους, δεν εξαντλούν τη δυναµικότητά τους κυρίως λόγω της ελλιπούς πληροφόρησης ως προς τη φύση και χρήση αυτών των µεθόδων. Από την άλλη πλευρά, είναι συνηθισµένο να βλέπει κανείς φοιτητές και ερευνητές που περιµένουν όρθιοι να αδειάσει θέση σε κάποιο τερµατικό για να εργαστούν, ενώ θα µπορούσαν χρησιµοποιώντας ένα φτηνό home computer να κάνουν τις ίδιες εργασίες.

Η σειρά αυτή συντόµων µαθηµάτων απευθύνεται βασικά σε αυτό το αναγνωστικό κοινό. ∆ηλαδή σε επαγγελµατίες προγραµµατιστές που θέλουν να γνωρίσουν τις στατιστικές µεθόδους, όπως επίσης και σε φοιτητές ή ερευνητές µετεωρολογίας, φυσικής, οικονοµικών, γεωπονικής, παιδαγωγικών, κλπ., που ασχολούνται µε στατιστικά δεδοµένα και θέλουν να έχουν τα δικά τους προγράµµατα επεξεργασίας.

Φυσικά, εδώ τα προγράµµατά µας δεν φτάνουν τις δυνατότητες των πανάκριβων στατιστικών πακέτων (SPSS, TSP, TROLL, κλπ), που άλλωστε δεν είναι συµβατά µε τα home computers, αλλά απλώς καλύπτουν τα πιο συνηθισµένα προβλήµατα επεξεργασίας στοιχείων, µε µεγαλύτερο βάρος στις επιστηµονικές εφαρµογές. Παράλληλα, αυτή τη σειρά µαθηµάτων µπορεί να την εφαρµόσει στην πράξη και κάθε κάτοχος home computer, µαθητές λυκείου, ακόµα και αρχάριοι στον προγραµµατισµό και τη στατιστική. Χτίζοντας βήµα-βήµα τα προγράµµατά µας, και ξεκινώντας εδώ από το µέσο αριθµητικό, θα δούµε προς το τέλος και τα γενικευµένα πολυµεταβλητά υποδείγµατα συµπεριφοράς και προβλέψεων.

Τα listings των προγραµµάτων είναι γραµµένα σε µια όσο το δυνατόν πιο standard Basic για να «δουλεύουν» σε όλους τους υπολογιστές, µε µόνη ουσιαστικά απαίτηση την ύπαρξη των εντολών DIM, READ, DATA και το χειρισµό πινάκων (arrays).

Για τη λειτουργία των πινάκων, που χρησιµοποιούνται εκτεταµένα στα παρακάτω προγράµµατα, µπορεί κανείς να δει τις σελίδες 46-49 του τεύχους 5 του «Computer για όλους» ή οποιοδήποτε βιβλίο Basic. Ο σκελετός που ακολουθείται στα επόµενα είναι: σύντοµη παράθεση της στατιστικής θεωρίας, επισήµανση των ιδιαιτεροτήτων που παρουσιάζονται στον προγραµµατισµό και, µετά, τα listings των προγραµµάτων.

Page 4: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

4

1.1 Αθροίσµατα και συµβολισµός αθροισµάτων

Ας υποθέσουµε ότι έχουµε τους αριθµούς:

naaa ,..,, 21

Ο σύντοµος τρόπος για να συµβολίσουµε το άθροισµα τους (δηλ. naaa +++ ...21 )

είναι ∑=

n

iia

1

(ή πιο απλά ∑ ia ) και διαβάζεται ως “άθροισµα των ia µε τιµές του i από

1 έως n”. ∆ηλαδή: n

n

ii aaaa +++=∑

=

...211

Με τον ίδιο τρόπο, µπορούµε να γράψουµε:

4321

4

1

ρρρρρ +++=∑=i

i

222

21

1

2 ... n

n

ii aaaa +++=∑

=

222

21

1

2 )(...)()()( ρρρρ −++−+−=−∑=

n

n

ii aaaa

αααα ββββ k

k

ii +++=∑

=

...211

Στη Basic η µέθοδος που ακολουθούµε για να υπολογίζουµε παρόµοια αθροίσµατα είναι η εξής: δίνουµε σε µια µεταβλητή την τιµή µηδέν (π.χ. Z=0) και στη συνέχεια αθροίζουµε διαδοχικά πάνω σε αυτήν έναν-έναν όλους τους αριθµούς. Π.χ. η άθροιση των αριθµών naaa ,..,, 21 µπορεί να γίνει µε τη διαδικασία:

10 Z=0 20 for I=1 to N 30 Z=Z+A(Ι) 40 next I

Η τελική τιµή του Ζ είναι το ζητούµενο άθροισµα των αριθµών.

1.2 Ο µέσος αριθµητικός

Ας υποθέσουµε πως έχουµε τα αριθµητικά δεδοµένα: 13, 25, 14, 16, 14, 20, 22, 12 Ο «µέσος αριθµητικός», παρότι είναι µόνο ένας αριθµός, µπορεί να αντιπροσωπεύει πολύ καλά και τους οκτώ παραπάνω αριθµούς. Υπολογίζεται ως το άθροισµά τους διαιρεµένο µε το πλήθος τους. Πιο γενικά, ο µέσος αριθµητικός ( x ) των αριθµών

nxxx ,..,, 21 είναι:

n

xx

n

ii∑

== 1

Page 5: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

5

Παρακάτω παρουσιάζεται αναλυτικά ο υπολογισµός του µέσου αριθµητικού ( x ) για αυτά τα αριθµητικά δεδοµένα.

12 ,22 ,20 14, 16, 14, 25, 13,=ix

178

1368

12 22201416142513==

+++++++=x

Όπως είπαµε, ο µέσος αριθµητικός είναι µέτρο του σηµείου συγκέντρωσης των δεδοµένων και πολύ καλός περιληπτικός αντικαταστάτης τους. Η χρήση του µας απαλλάσσει από τη µακροσκελή παράθεση αριθµών. Αν βέβαια έχουµε µεγάλο αριθµό δεδοµένων, ο υπολογισµός του θα πρέπει να γίνει µε κάποιο πρόγραµµα σαν αυτό στο Listing 1.

Listing 1

10 DIM X(50) 30 N=8 50 Z=0 70 FOR I=1 TO N 90 READ X(I) 110 Z=Z+X(I) 130 NEXT I 140 XM=Z/N 145 PRINT "ΜΕΣΟΣ ΑΡΙΘΜΗΤΙΚΟΣ: ";XM 800 DATA 13, 25, 14, 16, 14, 20, 22, 12 999 END

Το πρόγραµµα αυτό µπορεί να χρησιµοποιηθεί για τον υπολογισµό του µέσου αριθµητικού οποιωνδήποτε δεδοµένων που δίνονται στην εντολή 800, τροποποιώντας κατάλληλα και το πλήθος τους στην εντολή 30.

1.3 Τυπική απόκλιση

Ας ξαναγυρίσουµε στους αριθµούς του προηγούµενου παραδείγµατός µας. Είπαµε πως ο µέσος αριθµητικός, το 17 στην προκειµένη περίπτωση, είναι πολύ καλός «αντιπρόσωπός» τους. Παρότι όµως ο αριθµός αυτός µας δείχνει το πού συγκεντρώνονται οι αριθµοί, δεν έχουµε καµιά πληροφόρηση για το πόσο πολύ συγκεντρώνονται γύρω από το µέσο αριθµητικό, δηλαδή για το πόσο πολύ είναι µαζεµένοι από αποµακρυσµένοι από αυτόν, αλλά και µεταξύ τους. Καλό µέτρο της διασποράς των δεδοµένων είναι η τυπική απόκλιση που υπολογίζεται από τον τύπο:

n

xxs

n

ii∑

=

−= 1

2)(

Παρακάτω παρουσιάζεται αναλυτικά ο υπολογισµός της απόκλισης ( s ) για τα αριθµητικά µας δεδοµένα:

817)-12( 17)-22(17)-20(17)-14(17)-16(17)-14(17)-25(17)-(13 22222222 +++++++

=s

=4.44

Page 6: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

6

Η ερµηνεία του αριθµού αυτού ( 44.4=s ) είναι: “οι παρατηρήσεις απέχουν κατά µέσο όρο 4.44 από το µέσο αριθµητικό τους” (δηλαδή, από το 17). Ο υπολογισµός της τυπικής απόκλισης γίνεται µε την προσθήκη των εντολών του Listing 2 (ως πρόσθετες εντολές του Listing 1 που έχουµε ήδη γράψει).

Listing 2

(συµπλήρωµα του listing 1)

150 V=0 160 FOR I=1 TO N 170 V=V+(X(I)-XM)^2 190 NEXT I 210 S=SQR(V/N) 220 PRINT "ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ: ";S

Προσοχή!

• Αν οι αριθµοί µας αποτελούν δείγµα του (πραγµατικού) πληθυσµού (τον οποίο δεν γνωρίζουµε), θα ήταν πιο σωστό να διαιρούµε, όχι µε το n , αλλά µε 1−n . Εποµένως, τότε, η εντολή 210 θα έπρεπε να γραφεί ως: S=sqr(V/(N-1))

Στο αριθµητικό παράδειγµα ο παρονοµαστής θα ήταν όχι 8, αλλά 7. Και το αποτέλεσµα θα ήταν, όχι 4.44, αλλά 4.75.

• Σε µερικές versions της Basic η ύψωση σε δύναµη γίνεται µε «**». Εδώ παρουσιάζεται µε τη χρήση του χαρακτήρα «^».

1.4 Συντελεστής κύρτωσης

Ας υποθέσουµε πως µετράµε το ύψος 100 ατόµων και καταγράφουµε τις παρατηρήσεις που παίρνουµε. Στη συνέχεια κάνουµε τη γραφική παράσταση των δεδοµένων µας βάζοντας στον οριζόντιο άξονα τις µετρήσεις που έχουµε για τη µεταβλητή (δηλ. το ύψος) και στον κάθετο άξονα τον αριθµό των ατόµων που έχουν το αντίστοιχο ύψος. Έτσι θα προκύψει µια καµπύλη σαν αυτή του σχήµατος 1 (στην πράξη θα χρειαζόντουσαν πολύ περισσότερες παρατηρήσεις ώστε η καµπύλη µας να µοιάζει πραγµατικά µε αυτήν την καµπύλη).

Θα παρατηρήσουµε ότι η «µύτη» και τα υψηλότερα σηµεία της καµπύλης, αφού δείχνουν µεγαλύτερο αριθµό ατόµων, αντιστοιχούν στα λεγόµενα µέσα αναστήµατα. Η ιδιότητα µιας τέτοιας καµπύλης να είναι λιγότερο ή περισσότερο «µυτερή» (ή αντίθετα περισσότερο ή λιγότερο «απλωµένη») ονοµάζεται κύρτωση. Η κύρτωση µετριέται µε το συντελεστή:

Page 7: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

7

3

)(

)(

2

1

2

1

4

−⋅=

=

=

n

ii

n

ii

xx

xxnk

Όσο πιο µεγάλος αριθµός είναι ο k, τόσο πιο «µυτερή» είναι η καµπύλη και η συγκέντρωση των δεδοµένων. Αν το k είναι θετικός αριθµός, τότε λέµε ότι η καµπύλη είναι λεπτόκυρτη. Αν το k είναι αρνητικός αριθµός, τότε η καµπύλη θεωρείται πλατύκυρτη. Και αν το k είναι µηδέν, τότε η καµπύλη είναι µεσόκυρτη (βλ. σχήµα 2).

Οι εντολές στο Listing 3, ως συµπλήρωµα των δυο προηγουµένων, µας υπολογίζουν και το συντελεστή κύρτωσης.

Listing 3

(συµπλήρωµα των listings 1 και 2) 155 W=0 175 W=W+(X(I)-XM)^4 230 K=N*(W/(V^2))-3 240 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΚΥΡΤΩΣΗΣ: ";K

1.5 Συντελεστής ασυµµετρίας

Καµπύλες όπως αυτές στα σχήµατα 1 και 2 δεν είναι απαραίτητο να είναι συµµετρικές. Έτσι, στο σχήµα 3 βλέπουµε, διαδοχικά, καµπύλη (α) µε µακρύτερη «ουρά» προς τα δεξιά (θετική συµµετρία), (β) που είναι συµµετρική και (γ) µε τη µακρύτερη ουρά προς τα αριστερά (αρνητική συµµετρία).

Ο υπολογισµός του συντελεστή ασυµµετρίας γίνεται µε τον τύπο:

Page 8: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

8

31

3)(

sn

xxa

n

ii

−=∑=

όπου s είναι η τυπική απόκλιση.

Οι εντολές του Listing 4, ως συµπλήρωµα των υπολοίπων, υπολογίζουν το συντελεστή ασυµµετρίας. Ανάλογα µε το αν είναι µηδέν, αρνητικός ή θετικός, τα δεδοµένα µας χαρακτηρίζονται από συµµετρία ή αρνητική ή θετική ασυµµετρία αντίστοιχα.

Listing 4

(Συµπλήρωµα των listings 1, 2, 3) 157 Q=0 180 Q=Q+(X(I)-XM)^3 250 A=Q/(N*S^3) 260 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΑΣΥΜΜΕΤΡΙΑΣ: ";A

1.6 Ανακεφαλαίωση προγράµµατος υπολογισµού στατιστικών δεικτών

Το παρακάτω listing περιλαµβάνει όλες τις εντολές που χρησιµοποιήσαµε ως τώρα:

10 DIM X(50) 30 N=8 50 Z=0 70 FOR I=1 TO N 90 READ X(I) 110 Z=Z+X(I) 130 NEXT I 140 XM=Z/N 145 PRINT "ΜΕΣΟΣ ΑΡΙΘΜΗΤΙΚΟΣ: ";XM 150 V=0 155 W=0 157 Q=0 160 FOR I=1 TO N 170 V=V+(X(I)-XM)^2 175 W=W+(X(I)-XM)^4 180 Q=Q+(X(I)-XM)^3 190 NEXT I 210 S=SQR(V/N) 220 PRINT "ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ: ";S 230 K=N*(W/(V^2))-3 240 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΚΥΡΤΩΣΗΣ: ";K 250 A=Q/(N*S^3) 260 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΑΣΥΜΜΕΤΡΙΑΣ: ";A 800 DATA 13, 25, 14, 16, 14, 20, 22, 12 999 END

Page 9: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

9

2 ∆ιµεταβλητές µέθοδοι Στο προηγούµενο κεφάλαιο είδαµε µερικές βασικές µετρήσεις που µπορούµε να κάνουµε σ' ένα µεταβλητό µέγεθος (µεταβλητή). Οι µετρήσεις αυτές µας βοηθούν να έχουµε συνοπτική εικόνα των τιµών της µεταβλητής µας. Στη συνέχεια, θα δούµε τις δυο πιο σηµαντικές µεθόδους για την ανάλυση της συµµεταβολής δυο µεγεθών, τη συσχέτιση και την παλινδρόµηση.

Συχνά, στην καθηµερινή ζωή, συναντάµε ποσότητες που µεταβάλλονται παίρνοντας διαφορετικές τιµές. Η ηµερήσια θερµοκρασία και υγρασία ή τα ετήσια έσοδα µιας εταιρείας είναι παραδείγµατα τέτοιων µεταβλητών ποσοτήτων που στη στατιστική τις ονοµάζουµε µεταβλητές. Ας συγκεντρώσουµε την προσοχή µας στη µεταβλητή «ετήσια έσοδα» κάποιας συγκεκριµένης εταιρείας. Για λόγους ευκολίας θα τη συµβολίζουµε από δω και πέρα µε το γράµµα Υ. Έστω τώρα ότι, σε επτά συνεχή χρόνια, η εταιρεία είχε έσοδα 10, 12, 14, 14, 13, 15 και 20 εκατοµµύρια δραχµές αντίστοιχα. Αυτό δηλώνεται συµβολικά µε τον παρακάτω τρόπο:

20 15, 13, 14, 14, 12, 10,=iy

Συνοψίζοντας, Y είναι η µεταβλητή και iy οι αριθµητικές τιµές της.

Στο προηγούµενο κεφάλαιο αναφερθήκαµε σε µερικά βασικά στατιστικά µεγέθη που µας επιτρέπουν να έχουµε άµεση εποπτεία της «συµπεριφοράς» της µεταβλητής. Τα µεγέθη αυτά είναι ο µέσος αριθµητικός, η τυπική απόκλιση, ο συντελεστής κύρτωσης και ο συντελεστής ασυµµετρίας. Όµως, η ζωή δεν είναι τόσο απλή. Πολλές φορές έχουµε όχι µια, αλλά δυο µεταβλητές και θέλουµε να διαπιστώσουµε σε ποιο βαθµό οι της µιας µεταβλητής εξαρτώνται από τις τιµές της άλλης.

Παράδειγµα: η εταιρεία στην οποία αναφερθήκαµε πιο πάνω είχε µέσα στα επτά χρόνια κάποιες διαφηµιστικές δαπάνες, τις οποίες θα συµβολίσουµε εδώ µε τη µεταβλητή X . Οι δαπάνες αυτές, σε εκατοµµύρια δραχµές, ήταν οι ακόλουθες:

5 4, 4, 2, 3, 2, 1,=ix

Το ερώτηµα είναι κατά πόσο το ύψος των διαφηµιστικών δαπανών κάθε χρονιάς επηρέαζε τα έσοδα της εταιρείας.

2.1 Συσχέτιση

Η απλή παρατήρηση των αριθµητικών δεδοµένων δεν είναι αρκετά αξιόπιστη µέθοδος και αντικειµενικός τρόπος για την εξαγωγή συµπερασµάτων που να αφορούν τη συσχέτιση δυο µεγεθών. Το στατιστικό µέτρο που µας επιτρέπει να έχουµε αντικειµενική αξιολόγηση της συµµεταβολής δυο µεταβλητών ονοµάζεται συντελεστής συσχέτισης ( r ) και υπολογίζεται µε τον τύπο:

∑∑

==

=

−⋅−

−−=

n

ii

n

ii

n

iii

yyxx

yyxxr

1

2

1

2

1

)()(

))((

Page 10: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

10

όπου x και y είναι οι µέσοι αριθµητικοί των µεταβλητών X και Y αντίστοιχα.

Ο συντελεστής συσχέτισης παίρνει πάντα τιµές µεταξύ 1 και -1. Τυχόν αρνητικές τιµές (αρνητική συσχέτιση) υποδηλώνουν αντίστροφη συµµεταβολή των µεταβλητών (π.χ. η τιµή ενός προϊόντος επηρεάζει αρνητικά την ποσότητα του που αγοράζουµε: όταν ανεβαίνει η τιµή του, τείνουµε να αγοράζουµε λιγότερο από αυτό το προϊόν). Αντίθετα, θετικές τιµές του συντελεστή συσχέτισης δείχνουν συµµεταβολή των µεταβλητών (προς την ίδια κατεύθυνση), π.χ. «εξωτερική θερµοκρασία» και «αριθµός λουοµένων»: όσο αυξάνεται η εξωτερική θερµοκρασία, όλο και περισσότεροι άνθρωποι πηγαίνουν για µπάνιο στη θάλασσα.

Όσο πιο πολύ ο συντελεστής µεγαλώνει και τείνει προς τη µονάδα, τόσο πιο έντονη είναι η θετική συµµεταβολή των δυο µεταβλητών. Αντίθετα, όσο πλησιάζει προς το -1, τόσο πιο ισχυρή είναι η αντίστροφη συµµεταβολή τους. Τέλος, τιµές του συντελεστή κοντά στο µηδέν δείχνουν έλλειψη εξάρτησης µεταξύ των δυο µεταβλητών. Έτσι, π.χ., για τις µεταβλητές «αριθµός παιδιών» και «µέσο ανάστηµα των παιδιών» µιας οικογένειας, λογικά, θα πρέπει να περιµένουµε το συντελεστή συσχέτισης να είναι γύρω στο µηδέν, δεδοµένου ότι δεν έχουµε κάποια θεωρητική προσδοκία ότι ο αριθµός των παιδιών που έχει µια οικογένεια επηρεάζει το ανάστηµά τους.

Ο υπολογισµός του συντελεστή συσχέτισης για τα δεδοµένα του προηγουµένου παραδείγµατός µας ( r =0.834) παρουσιάζεται αναλυτικά στον Πίνακα 1.

ΠΙΝΑΚΑΣ 1

iy ix )3)(14( −− ii xy 2)14( −iy 2)3( −ix

10 1 8 16 4 12 2 2 4 1 14 3 0 0 0 14 2 0 0 1 13 4 -1 1 1 15 4 1 1 1 20 5 12 36 4

∑ =iy 98 ∑ =ix 21 22 58 12

14798

=== ∑n

yy i 3

721

===∑n

xx i

834.05812

22

)()(

))((22

=⋅

=−⋅−

−−=

∑∑∑

yyxx

yyxxr

ii

ii

Παράλληλα, στο listing 5, δίνεται το πρόγραµµα υπολογισµού του συντελεστή συσχέτισης για οποιαδήποτε δεδοµένα (αρκεί στα “DATA” να παραθέτουµε πρώτα όλες τις τιµές της Y και µετά όλες της X) και για πλήθος ζευγαριών τιµών που καθορίζεται στην εντολή 20.

Page 11: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

11

Listing 5

10 DIM Y(50), X(50) 20 N=7 30 SY=0 40 FOR I=1 TO N 50 READ Y(I) 60 SY=SY+Y(I) 70 NEXT I 80 YM=SY/N 90 SX=0

100 FOR I=1 TO N 110 READ X(I) 120 SX=SX+X(I) 130 NEXT I 140 XM=SX/N 200 DATA 10,12,14,14,13,15,20 300 DATA 1,2,3,2,4,4,5 500 V=0 510 Z=0 520 W=0 600 FOR I=1 TO N 610 V=V+(X(I)-XM)*(Y(I)-YM) 650 Z=Z+(X(I)-XM)^2 660 W=W+(Y(I)-YM)^2 700 NEXT I 710 R=V/SQR(Z*W) 720 PRINT "Y ΜΕΣΟΣ: ";YM 730 PRINT "X ΜΕΣΟΣ: "; XM 740 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ: ";R 999 END

2.2 Απλή γραµµική παλινδρόµηση

Στο σχήµα 4 δίνεται η γραφική παράσταση των δεδοµένων του παραδείγµατός µας. Στον οριζόντιο άξονα έχουµε το ύψος των διαφηµιστικών δαπανών και στον κάθετο άξονα τα έσοδα από τις πωλήσεις. Εποµένως, κάθε σηµείο στη γραφική παράσταση δείχνει τις διαφηµιστικές δαπάνες και τις πωλήσεις κάθε χρονιάς. Όπως είδαµε πριν, µε το συντελεστή συσχέτισης µπορούµε να µετρήσουµε πόσο πολύ αλληλοεξαρτώνται οι µεταβλητές µας.

Το πρόβληµα είναι ότι ο συντελεστής συσχέτισης δεν µας λέει τίποτα για το συγκεκριµένο τρόπο που συνδέονται οι µεταβλητές. Βέβαια, ενδεικτικά, η παρατήρηση του σχήµατος 4 µπορεί να µας επιτρέψει να δούµε αρκετά πράγµατα, αλλά και πάλι δεν µπορούµε να καταλήξουµε σε αντικειµενικά συµπεράσµατα. Η συνάρτηση παλινδρόµησης είναι ακριβώς η µαθηµατική (ή µάλλον στοχαστική) σχέση που συνδέει τις µεταβλητές, περιγράφει δηλαδή τον τρόπο µε τον οποίο σχετίζονται.

Page 12: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

12

Στην πιο απλή περίπτωση, αν υποθέσουµε τη X ως ανεξάρτητη µεταβλητή (αιτία) και την Y ως εξαρτηµένη (αιτιατό), έχουµε τη γραµµική παλινδρόµηση Y=αX+β. Γραφικά, η σχέση αυτή παριστάνει ευθεία γραµµή. Αν βέβαια παρατηρήσουµε το σχήµα 4, µόνο ευθεία γραµµή δεν θα δούµε να συνδέει τις δυο µεταβλητές. Παρ’ όλ’ αυτά, θα µπορούσαµε να φανταστούµε µια ευθεία γραµµή που να περνάει όσο το δυνατόν πλησιέστερα, κατά µέσο όρο, απ’ όλα αυτά τα σηµεία. Η ευθεία αυτή είναι η γραµµή παλινδρόµησης (βλ. σχήµα 5).

Αν γνωρίζουµε τις τιµές των συντελεστών α και β αυτής της ευθείας (Y=αX+β), θα µπορούσαµε τότε να έχουµε και µια αντικειµενική µέθοδο περιγραφής της σχέσης και του τρόπου που σχετίζονται οι δυο µεταβλητές. Οι τιµές αυτών των συντελεστών εξαρτώνται, προφανώς, από τον τρόπο που τα σηµεία είναι διασκορπισµένα πάνω στο διάγραµµα, είναι δηλαδή συναρτήσεις των παρατηρήσεων ix και iy που έχουµε διαθέσιµες για τις δυο µεταβλητές.

Στην περίπτωση της γραµµικής παλινδρόµησης, οι συντελεστές α και β της ευθείας Y=αX+β, που περνάει δηλαδή όσο το δυνατόν πλησιέστερα κατά µέσο όρο από τα σηµεία του διαγράµµατος των µεταβλητών Y και X, δίνονται από τους τύπους:

Page 13: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

13

∑ ∑

∑ ∑∑

= =

= ==

−=

n

i

n

iii

n

i

n

iii

n

iii

xxn

yxyxna

1

2

1

2

1 11 , xy ⋅−= αβ

όπου n είναι το πλήθος των ζευγαριών παρατηρήσεων ix και iy που έχουµε για τις δυο µεταβλητές ( x και y είναι οι µέσοι αριθµητικοί τους αντίστοιχα).

Στον Πίνακα 2 παρουσιάζεται αναλυτικά ο υπολογισµός αυτών των συντελεστών.

ΠΙΝΑΚΑΣ 2

iy ix ii yx 2ix

10 1 10 1 12 2 24 4 14 3 42 9 14 2 28 4 13 4 52 16 15 4 60 16 10 5 100 25

∑ =iy 98 ∑ =ix 21 316 75

14798

=== ∑n

yy i , 3

721

===∑n

xx i

833.121757

219831672

1

2

1

2

1 11 =−⋅

⋅−⋅=

−=

∑ ∑

∑ ∑∑

= =

= ==

n

i

n

iii

n

i

n

iii

n

iii

xxn

yxyxna ,

5.83833.114 =⋅−=⋅−= xy αβ

Το Listing 6 περιλαµβάνει τις πρόσθετες εντολές που χρειαζόµαστε (επιπλέον των εντολών του Listing 5) για τον υπολογισµό των a και β .

Listing 6

530 Q=0 540 T=0 670 Q=Q+X(I)*Y(I) 680 T=T+X(I)*X(I) 750 A=(N*Q-SX*SY)/(N*T-SX*SX) 760 B=YM-A*XM 770 PRINT "ΣΥΝΤΕΛΕΣΤEΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ:" 780 PRINT " a=";A

790 PRINT " b=";B

Page 14: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

14

2.3 Προβλέψεις

Είδαµε πως η γραµµή παλινδρόµησης αντιπροσωπεύει ικανοποιητικά τα σηµεία του διαγράµµατος των δυο µεταβλητών και παρουσιάζει τον τρόπο που οι µεταβλητές συνδέονται µεταξύ τους. Επιπλέον, όσο πιο µεγάλος (κατ’ απόλυτη τιµή) είναι ο συντελεστής συσχέτισης, τόσο καλύτερα η γραµµή παλινδρόµησης εκφράζει τη σχέση µεταξύ των µεταβλητών. Στην ακραία περίπτωση που ο συντελεστής συσχέτισης ισούται µε 1 ή µε -1, τα σηµεία του διαγράµµατος είναι και σηµεία της γραµµής παλινδρόµησης.

Χρησιµοποιώντας τη γραµµή παλινδρόµησης, µπορούµε και να υπολογίζουµε, σε δεδοµένη τιµή της ανεξάρτητης µεταβλητής, την τιµή της εξαρτηµένης. Βέβαια, πρέπει να είµαστε πάντα σίγουροι, όταν διαλέγουµε ποια µεταβλητή είναι η ανεξάρτητη και ποια η εξαρτηµένη, ότι αυτή µας η επιλογή είναι συνεπής µε την κοινή λογική ή µε κάποια «θεωρία» ή υπόθεση που αποδεχόµαστε.

Στο σχήµα 6 βλέπουµε, χρησιµοποιώντας το παράδειγµά µας, πώς µπορούµε να προβλέψουµε τις πωλήσεις της επιχείρησης, αν αυτή διενεργήσει διαφηµιστικές δαπάνες ύψους 6 εκατοµµυρίων δραχµών.

Γενικότερα, µε 0xX = , η πρόβλεψη για την τιµή της µεταβλητής Y θα είναι

βα +⋅= 00 xy , όπου a και β είναι οι συντελεστές παλινδρόµησης. Για να κάνουµε προβλέψεις, χρησιµοποιώντας το πρόγραµµά µας, πρέπει να προσθέσουµε τις ακόλουθες εντολές:

800 PRINT "X="; 810 INPUT X 820 Y=A*X+B 830 PRINT "ΠΡΟΒΛΕΨΗ: Y=";Y

Με την εντολή 810 ο υπολογιστής «ρωτάει» την τιµή της ανεξάρτητης µεταβλητής για να την χρησιµοποιήσει για την πρόβλεψη της εξαρτηµένης.

Page 15: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

15

Όλη η θεωρία συσχέτισης – παλινδρόµησης – προβλέψεων που παρουσιάστηκε εδώ µπορεί να χρησιµοποιηθεί και σε κάθε φαινόµενο που µπορεί να περιγραφεί µε δυο µεταβλητές, όπου η µια µεταβλητή συµπεριφέρεται ως εξαρτηµένη και η άλλη ως ανεξάρτητη. Έτσι π.χ. θα µπορούσαµε, χρησιµοποιώντας δεδοµένα για την ατµοσφαιρική πίεση να προβλέψουµε τη θερµοκρασία, υπολογίζοντας συντελεστές παλινδρόµησης που συνδέουν τα δυο µεγέθη. Με αυτόν τον τρόπο, ο καθένας θα µπορούσε να σκεφτεί «διµεταβλητά» φαινόµενα της καθηµερινής ζωής, να υπολογίσει τα α και β και, στη συνέχεια, να κάνει προβλέψεις.

Πάντως, πρέπει να είµαστε πολύ προσεκτικοί όταν χρησιµοποιούµε αυτές τις µεθόδους. Για να έχουµε σχετικά αξιόπιστα αποτελέσµατα, θα πρέπει ο συντελεστής συσχέτισης (η απόλυτη τιµή του) να είναι σχετικά υψηλός. Χαµηλός συντελεστής συσχέτισης (π.χ. 5.0<r ) ενδέχεται να δηλώνει ότι δεν υπάρχει εξάρτηση ή ότι η εξάρτηση δεν είναι γραµµική. Ακόµα, πρέπει να συλλέγουµε αρκετά ζευγάρια δεδοµένων καθώς προβλέψεις που βασίζονται σε λίγα στοιχεία (µικρό δείγµα) είναι αρκετά πιθανόν να αποδειχθούν λανθασµένες. Πολύ «επικίνδυνες» είναι και οι µακρινές προβλέψεις. ∆ηλαδή, πρέπει να αποφεύγουµε προβλέψεις όπου δίνουµε στην ανεξάρτητη µεταβλητή τιµές πολύ αποµακρυσµένες από τα δεδοµένα που έχουµε γι’ αυτήν. Π.χ., στο παράδειγµά µας, καλό θα ήταν να αποφευχθεί πρόβλεψη για τις πωλήσεις υποθέτοντας διαφηµιστικές δαπάνες 20 εκατοµµυρίων δραχµών.

Επιπλέον, δεν πρέπει να ξεχνάµε ότι η εξαρτηµένη µεταβλητή που µελετάµε, συνήθως, επηρεάζεται από περισσότερες από µία ανεξάρτητες µεταβλητές (πολυµεταβλητή παλινδρόµηση). Την περίπτωση αυτή θα συζητήσουµε και στα παρακάτω κεφάλαια.

Page 16: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

16

3 Άλγεβρα πινάκων Στο προηγούµενο κεφάλαιο είδαµε τον υπολογισµό των συντελεστών συσχέτισης τη διενέργεια προβλέψεων, όταν έχουµε µια ανεξάρτητη και µια εξαρτηµένη µεταβλητή. Βέβαια, στην πράξη, δεν υπάρχει σχεδόν ποτέ φαινόµενο που η εξέλιξή του να εξαρτάται από µια και µόνο µεταβλητή. Έτσι, γενικά, χρειάζεται να χρησιµοποιούµε συναρτήσεις παλινδρόµησης («υποδείγµατα») µε περισσότερες από µια µε περισσότερες ανεξάρτητες µεταβλητές. Όµως, οι µέθοδοι υπολογισµού των συντελεστών σε αυτήν την περίπτωση είναι πιο πολύπλοκοι και διευκολύνονται από την άλγεβρα των πινάκων («γραµµική άλγεβρα»). Έτσι, στη συνέχεια, θα δούµε πρώτα µερικά βασικά θέµατα της γραµµικής άλγεβρας και ορισµένους αλγόριθµους που χρειάζονται για την εκτέλεση βασικών αριθµητικών πράξεων µεταξύ πινάκων.

3.1 Βασικές έννοιες

Πίνακας (matrix, array) είναι τρόπος οργάνωσης και γραφής αριθµών σε γραµµές και στήλες. Έτσι, η µορφή

=

05.02

1050

132

A

είναι ένας πίνακας µε τρεις σειρές και τρεις στήλες. Έτσι, λέµε ότι αυτός ο πίνακας είναι διαστάσεων 33× (προηγείται ο αριθµός των σειρών και ακολουθεί ο αριθµός των στηλών).

Κατ’ αναλογία, ο πίνακας

=

0

1.0

2

10

5

1

B είναι διαστάσεων 23× .

Μπορούµε ακόµα να έχουµε πίνακες µε µία µόνο σειρά ή µόνο µία στήλη, όπως οι πίνακες Γ και ∆,

−=Γ

5

3

0

1

και [ ]1½1025 −=∆

που είναι διαστάσεων 14× και 51× αντίστοιχα.

Η αναφορά σε κάποιο συγκεκριµένο στοιχείο πίνακα γίνεται δίνοντας τις «συντεταγµένες» του, δηλαδή (πρώτα) τον αριθµό της σειράς του και (µετά) τον αριθµό της στήλης του, σε υποδείκτη. Έτσι, στον ακόλουθο πίνακα R

Page 17: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

17

−=

2532

1051

½63

R

ο αριθµός 6, που βρίσκεται στην πρώτη σειρά και δεύτερη στήλη, συµβολίζεται ως

2,1R Στην Basic αυτό θα γραφόταν ως R(1,2). Με τον ίδιο τρόπο, έχουµε:

R(1,1)=3, R(1,3)=1/2, R(2,1)=1, R(2,2)=5, κλπ.

Ένας πίνακας λέγεται τετραγωνικός, αν έχει ίδιο αριθµό σειρών και στηλών. Έτσι ο ακόλουθος πίνακας A είναι τετραγωνικός ( 33× ):

−=

503

65/32

010

A

Κύρια διαγώνιος ενός τετραγωνικού πίνακα λέγεται το σύνολο των στοιχείων της διαγωνίου του που ξεκινάει από πάνω αριστερά και καταλήγει κάτω δεξιά. Έτσι, η κύρια διαγώνιος του προηγούµενου πίνακα είναι οι αριθµοί [ ]5,5/3,0 − .

Συµµετρικός λέγεται ο πίνακας για τον οποίο ισχύει η σχέση ikki RR ,, = (δηλαδή, τα στοιχεία εκατέρωθεν της κυρίας διαγωνίου είναι συµµετρικά ως προς αυτήν τη διαγώνιο). Έτσι, ο πίνακας R

=

243

410

305

R

είναι συµµετρικός πίνακας τάξης 3. Πράγµατι, εδώ ισχύει η συµµετρία εκατέρωθεν της κυρίας διαγωνίου: 51,11,1 == RR , 02,11,2 == RR , 33,11,3 == RR , 12,22,2 == RR ,

43,22,3 == RR , 23,33,3 == RR

Μοναδιαίος λέγεται κάθε συµµετρικός πίνακας στον οποίο τα στοιχεία της διαγωνίου του είναι µονάδες και οπουδήποτε αλλού έχει µηδενικά. Έτσι, ο πίνακας

=

100

010

001

I

είναι ο µοναδιαίος πίνακας 3I , δηλαδή διαστάσεων 33× . Πράγµατι, οι µοναδιαίοι

πίνακες συµβολίζονται µε I ή µε nI , όπου n είναι ο αριθµός που δηλώνει τις διαστάσεις του (δηλ. αριθµός σειρών/στηλών).

3.2 Πρόσθεση πινάκων

Όπως ορίζουµε πράξεις στους πραγµατικούς αριθµούς, έτσι µπορούµε να ορίσουµε και πράξεις µεταξύ πινάκων. Βέβαια, όπως και µε τις πράξεις µεταξύ αριθµών, αυτές

Page 18: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

18

δεν ορίζονται τελείως αυθαίρετα, αλλά γίνεται µε κάποιο προσανατολισµό προς κάποια συµπεράσµατα που θα είναι χρήσιµα σε κάποιο επόµενο στάδιο. Κατ’ αρχάς, για να «προσθέσουµε» δυο πίνακες, αυτοί θα πρέπει να είναι ίδιων διαστάσεων. Αν δηλαδή ο ένας πίνακας είναι 52× , τότε θα πρέπει και ο άλλος που θα συµµετάσχει στην πρόσθεση να είναι 52× . Το αποτέλεσµα της πρόσθεσης είναι πίνακας ίδιων διαστάσεων µε τους προσθετέους και όπου κάθε στοιχείο του είναι το άθροισµα των οµολόγων στοιχείων των δυο πινάκων που προστίθενται. Στο ακόλουθο παράδειγµα παρουσιάζεται η πρόσθεση δυο πινάκων 33× .

−−=

45.05

512

1101

A ,

=

413

161

252

B ,

−=⇒

+−+

+−+−+

+++

=+=

85.08

453

3153

4415.035

156112

2151021

CBAC

3.3 Πολλαπλασιασµός πινάκων

Ο πολλαπλασιασµός είναι λίγο πιο πολύπλοκος. Κατ’ αρχάς, σε αντίθεση µε τους αριθµούς, το αποτέλεσµα διαφέρει αν ο πολλαπλασιασµός γίνει ως BA× ή AB× . Επιπλέον, για να µπορεί να γίνει ο πολλαπλασιασµός, αυτός είναι δυνατός µόνο αν ο αριθµός στηλών του πρώτου πίνακα (πολλαπλασιαστέου) ισούται µε τον αριθµό των σειρών του δεύτερου πίνακα που συµµετέχει στον πολλαπλασιασµό. Με άλλα λόγια, για να µπορεί ο πολλαπλασιασµός BA× , και αν o πίνακας A είναι διαστάσεων

mn× , τότε ο πίνακας B πρέπει να έχει διαστάσεις km× , όπου kmn ,, είναι φυσικοί αριθµοί. Π.χ., οι πίνακες 52×A και 35×B θα µπορούσαν να πολλαπλασιαστούν µόνο ως

BA× , ενώ ο πολλαπλασιασµός 5235 ×× × AB θα ήταν αδύνατος (λόγω του ό,τι 23 ≠ ).

Το αποτέλεσµα του πολλαπλασιασµού δύο πινάκων είναι πίνακας µε αριθµό σειρών όσες οι σειρές του πρώτου πίνακα και αριθµό στηλών όσες οι στήλες του δεύτερου πίνακα. ∆ηλαδή, το αποτέλεσµα του πολλαπλασιασµού kmmn BA ×× × θα είναι πίνακας διαστάσεων kn× .

Ο υπολογισµός γίνεται ως εξής: το στοιχείο 1,1 του πίνακα-γινοµένου θα είναι το άθροισµα του γινοµένου των στοιχείων της πρώτης σειράς του πρώτου πίνακα µε τα αντίστοιχα στοιχεία της πρώτης στήλης του δεύτερου πίνακα. Γενικεύοντας, το στοιχείο i, j του πίνακα-γινοµένου προκύπτει από το άθροισµα των γινοµένων της i σειράς του πρώτου πίνακα µε τη j στήλη του δεύτερου πίνακα.

Ο υπολογισµός παρουσιάζεται αναλυτικά και στο ακόλουθο αριθµητικό παράδειγµα:

=

52

31A ,

=

614

807B

=

⋅+⋅⋅+⋅⋅+⋅

⋅+⋅⋅+⋅⋅+⋅=

46534

26319

658215024572

638113014371C

Page 19: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

19

Στο παρακάτω listing δίνεται το πρόγραµµα υπολογισµού του γινοµένου για αυτά τα δεδοµένα:

5 DIM A(10,10), B(10,10), C(10,10) 10 REM ΥΠΟΛΟΓ. ΠΙΝΑΚΑ-ΓΙΝΟΜΕΝΟΥ C = A x B 20 REM Ο ΠΙΝΑΚΑΣ A ΕΧΕΙ ∆ΙΑΣΤΑΣΕΙΣ T x L 30 REM Ο ΠΙΝΑΚΑΣ B ΕΧΕΙ ∆ΙΑΣΤΑΣΕΙΣ T x N 40 REM ΤΟ ΓΙΝΟΜΕΝΟ C ΘΑ ΕΧΕΙ ∆ΙΑΣΤΑΣΕΙΣ T x N 50 T=2 60 L=2 70 N=3 80 FOR I=1 TO T 90 FOR J=1 TO L 100 READ A(I,J) 110 NEXT J 120 NEXT I 130 FOR I=1 TO L 140 FOR J=1 TO N 150 READ B(I,J) 160 NEXT J 170 NEXT I 180 FOR I=1 TO T 190 FOR J=1 TO N 200 C(I,J)=0 210 FOR K=1 TO L 220 C(I,J)=C(I,J)+A(I,K)*B(K,J) 230 NEXT K 240 NEXT J 250 NEXT I 255 PRINT "ΑΠΟΤΕΛΕΣΜΑ ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΥ: " 260 FOR I=1 TO T 270 FOR J=1 TO N 280 PRINT I; ",";J;"=";C(I,J) 290 NEXT J 300 NEXT I 305 DATA 1,3,2,5 310 DATA 7,0,8,4,1,6 999 END

3.4 Αναστροφή πίνακα

Ο ανάστροφος ενός πίνακα X, διαστάσεων T x L, προκύπτει από τον αρχικό πίνακα αν µετατρέψουµε τις σειρές του σε στήλες και τις στήλες του σε σειρές. Ο ανάστροφος του X συµβολίζεται ως X' και, λόγω του συγκεκριµένου µετασχηµατισµού, ο προκύπτων ανάστροφος (X') θα είναι διαστάσεων L x T.

Παράδειγµα:

Page 20: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

20

=

532

113

241

X

=512314

231

'X

Για να αναστρέψουµε πίνακα X σε, π.χ., 'XY = , δεν έχουµε παρά να γράψουµε τις εντολές:

FOR I=1 TO T FOR J=1 TO L

Y(J,I)=X(I,J) NEXT J NEXT I

3.5 Αντιστροφή πίνακα

Κατ’ αρχάς, αντιστροφή µπορεί να γίνει µόνο σε συµµετρικούς πίνακες. Ο αντίστροφος συµµετρικού πίνακα, διαστάσεων ll × , είναι εκείνος ο πίνακας (ίδιων διαστάσεων) που αν πολλαπλασιαστεί µε τον αρχικό δίνει ως αποτέλεσµα µοναδιαίο πίνακα. ∆ηλαδή, αν συµβολίσουµε µε A τον αρχικό πίνακα και µε 1−A τον αντίστροφό του, τότε θα ισχύει IAA =× −1 , όπου I είναι ο µοναδιαίος πίνακας διαστάσεων ll × . Στο παρακάτω παράδειγµα, δίνεται ένας πίνακας ( A ) και ο αντίστροφός του (C ).

=

532

113

241

A ,

−−

−−

== −

3056.01389.0194.0

1389.0278.0361.0

556.0389.0556.01AC

Στην πράξη, ο υπολογισµός του αντιστρόφου ενός πίνακα είναι αρκετά κοπιαστική δουλειά. Είναι µια από τις περιπτώσεις όπου, πραγµατικά, χρειάζεται ηλεκτρονικός υπολογιστής. Έτσι, παρατίθεται ένα πρόγραµµα που κάνει αυτόν τον υπολογισµό. Για όσους γνωρίζουν αριθµητική ανάλυση, το πρόγραµµα αυτό βασίζεται στον αλγόριθµο Gauss-Jordan. Για να καταλάβει κανείς τη διαδικασία υπολογισµού, δεν έχει παρά να έρθει στη θέση του υπολογιστή και να εκτελέσει µια-µια τις εντολές. Φυσικά, όπως και τα προηγούµενα, και το πρόγραµµα αυτό µπορεί να χρησιµοποιηθεί για οποιαδήποτε δεδοµένα (µετά από κατάλληλες προσαρµογές στο παρακάτω πρόγραµµα).

5 DIM A(10,10), C(10,10) 10 REM ΑΡΧΙΚΟΣ ΠΙΝΑΚΑΣ: A 20 REM ANTIΣΤΡΟΦΟΣ ΠΙΝΑΚΑΣ: C 30 REM ∆ΙΑΣΤΑΣΕΙΣ ΤΩΝ A ΚΑΙ C: L x L 40 L=3 50 FOR I=1 TO L 60 FOR J=1 TO L 70 READ A(I,J) 80 NEXT J 90 NEXT I 100 FOR I=1 TO L 110 FOR J=1 TO L

Page 21: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

21

120 C(I,J)=0 130 IF I=J THEN C(I,J)=1 140 NEXT J 150 NEXT I 160 FOR K=1 TO L 170 FOR I=1 TO L 180 IF I=K THEN GOTO 240 190 Z=A(I,K)/A(K,K) 200 FOR J=1 TO L 210 A(I,J)=A(I,J)-A(K,J)*Z 220 C(I,J)=C(I,J)-C(K,J)*Z 230 NEXT J 240 NEXT I 250 Z=A(K,K) 260 FOR J=1 TO L 270 A(K,J)=A(K,J)/Z 280 C(K,J)=C(K,J)/Z 290 NEXT J 300 NEXT K 304 PRINT "-----------------------" 305 PRINT " ANTIΣΤΡΟΦΟΣ ΠΙΝΑΚΑΣ" 306 PRINT "-----------------------" 310 FOR I=1 TO L 320 FOR J=1 TO L 330 PRINT C(I,J);" "; 340 NEXT J 345 PRINT 350 NEXT I 360 DATA 1,4,2,3,1,1,2,3,5 999 END

Page 22: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

22

4 Πολυµεταβλητή παλινδρόµηση Ι Ένα µέρος της έρευνας σε κάθε επιστηµονικό κλάδο αφιερώνεται στην επισήµανση και περιγραφή των αλληλεπιδράσεων ορισµένων βασικών µεταβλητών. Όταν η περιγραφή αυτή παίρνει τη µορφή µαθηµατικής διατύπωσης (υπόδειγµα, model), είναι αναγκαία η εκτίµηση των απαραίτητων παραµέτρων. Αυτό είναι και το πιο βασικό, αλλά πολλές φορές και το πιο δύσκολο, για την ανάλυση και παρακολούθηση της συµπεριφοράς του φαινοµένου που εξετάζουµε, και για τη διατύπωση προβλέψεων σχετικά µε την εξέλιξή του.

4.1 ∆ιατύπωση του προβλήµατος της πολυµεταβλητής παλινδρόµησης

Είδαµε σε προηγούµενο κεφάλαιο µε ποιόν τρόπο µπορούµε να υπολογίζουµε τους συντελεστές παλινδρόµησης στην περίπτωση της απλής γραµµικής σχέσης µεταξύ δύο µεταβλητών για τις οποίες διαθέτουµε αριθµητικά δεδοµένα. Αν δηλαδή υποθέσουµε ότι η διαµόρφωση των αριθµητικών τιµών µιας µεταβλητής Υ εξαρτάται από τις αριθµητικές τιµές µιας άλλης µεταβλητής Χ (µε περίπου γραµµική σχέση), τότε µπορούµε να γράψουµε: Υ=αΧ+β

Ας υποθέσουµε ότι η µεταβλητή Χ αντιπροσωπεύει τις διαφηµιστικές δαπάνες µιας επιχείρησης και η Υ τις πωλήσεις της. Έτσι, αν είχαµε αριθµητικά δεδοµένα για τις µεταβλητές Χ και Υ, θα µπορούσαµε να υπολογίσουµε τις τιµές των παραµέτρων α και β και να περιγράψουµε έτσι τη σχέση Υ=αΧ+β που συνδέει τις δυο µεταβλητές.

Στην πράξη, βέβαια, θα ήταν αρκετά αφελές να πιστέψουµε πως οι πωλήσεις µιας επιχείρησης καθορίζονται πλήρως από τις διαφηµιστικές δαπάνες που κάνει. Στην πραγµατικότητα υπάρχει και πλήθος άλλων µεταβλητών που επιδρούν στην τελική διαµόρφωση του ύψους των πωλήσεων. Με άλλα λόγια, η χρήση της συνάρτησης Υ=αΧ + β, µε µια µόνο ανεξάρτητη µεταβλητή, δεν εξασφαλίζει αρκετά ρεαλιστική περιγραφή του φαινοµένου. Π.χ. είναι λογικό να υποθέσουµε ότι οι πωλήσεις επηρεάζονται (εκτός από τις διαφηµιστικές δαπάνες) και από το κατά κεφαλή εισόδηµα (που εκφράζει την αγοραστική δύναµη των καταναλωτών) και από το χρόνο (µε το πέρασµα του χρόνου µεταβάλλονται οι προτιµήσεις των καταναλωτών). Έτσι, η αρχική µας εξίσωση γίνεται

4433221 XbXbXbbY +++=

όπου 2X : κατά κεφαλήν εισόδηµα, 3X : διαφηµιστικές δαπάνες, 4X : χρόνος, Y :

ύψος πωλήσεων. Τέλος, 1b είναι η σταθερά της συνάρτησης και 432 ,, bbb οι

συντελεστές των 432 ,, XXX αντίστοιχα. Για λόγους συµµετρίας στη γραφή, µπορούµε να θεωρήσουµε και µια ψευδοµεταβλητή 1X που οι τιµές της είναι

παντού η µονάδα, ώστε η συνάρτηση να µπορεί να γραφεί και ως

44332211 XbXbXbXbY +++= (µε 1X =1)

Στον παρακάτω πίνακα παρατίθενται (υποθετικά) αριθµητικά δεδοµένα για την εξαρτηµένη (Υ) και τις τρεις ανεξάρτητες µεταβλητές για είκοσι χρονικές περιόδους.

Page 23: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

23

Πωλήσεις (Y )

Κατά κεφαλή εισόδηµα ( 2X )

∆ιαφηµιστικές δαπάνες ( 3X )

Χρόνος ( 4X )

100 1510 12 1 120 1515 10 2 180 1600 12 3 250 1650 13 4 230 1650 12 5 280 1700 15 6 310 1800 14 7 330 1850 17 8 350 1860 17 9 360 1880 18 10 370 1890 18 11 390 1900 17 12 380 1900 18 13 375 1895 18 14 385 1900 19 15 390 1905 19 16 400 1920 19 17 410 1950 20 18 400 1930 20 19 410 1990 22 20

Είναι φανερό ότι ο υπολογισµός των συντελεστών 4321 ,,, bbbb θα πρέπει να γίνει λαµβάνοντας υπόψη αυτά τα αριθµητικά δεδοµένα.

Για διευκόλυνση στην παραπέρα ανάλυση, θα χρησιµοποιήσουµε συµβολισµούς πινάκων, όπως τους γνωρίσαµε στο προηγούµενο κεφάλαιο.

Π.χ. ο πίνακας Β, µε στοιχεία τις (άγνωστες) αριθµητικές τιµές των συντελεστών ( 4321 ,,, bbbb ) της συνάρτησης παλινδρόµησης, µπορεί να γραφεί ως:

=

4

3

2

1

b

b

b

b

B

∆ηλαδή, ο πίνακας B έχει µία στήλη και αποτελείται από τέσσερα στοιχεία που αντιπροσωπεύουν τους συντελεστές που πρέπει να εκτιµηθούν.

Ο πίνακας Υ θα περιέχει ως στοιχεία του τα δεδοµένα για την εξαρτηµένη µεταβλητή και ο πίνακας Χ τα δεδοµένα για τις ανεξάρτητες. Η αναλυτική γραφή των παραπάνω συγκεκριµένων αριθµητικών δεδοµένων, υπό µορφή πινάκων (Υ, Χ), δίνεται παρακάτω:

Page 24: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

24

=

410

400

410

400

390

385

375

380

390

370

360

350

330

310

280

230

250

180

120

100

Y

=

202219901

192019301

182019501

171919201

161919051

151919001

141818951

131819001

121719001

111818901

101818801

91718601

81718501

71418001

61517001

51216501

41316501

31216001

21015151

11215101

X

Ο πίνακας Y έχει µία µόνο στήλη µε στοιχεία τα δεδοµένα για το ύψος των πωλήσεων. Ο πίνακας X έχει τόσες στήλες όσες είναι και το πλήθος των ανεξάρτητων µεταβλητών. Στην πρώτη στήλη, έχουµε παντού τη µονάδα (Χ1 = 1). Η δεύτερη στήλη περιέχει τα δεδοµένα για το κατά κεφαλήν εισόδηµα (µεταβλητή Χ2), η τρίτη στήλη τα δεδοµένα για τις διαφηµιστικές δαπάνες (µεταβλητή Χ3) και η τέταρτη στήλη τις τιµές για το χρόνο (µεταβλητή Χ4).

Από τον τρόπο που ορίστηκαν οι πίνακες B, Y και X διαπιστώνουµε ότι:

α) οι πίνακες Y και X έχουν το ίδιο πλήθος σειρών το οποίο είναι ίσο µε το πλήθος των δεδοµένων που έχουµε για κάθε µεταβλητή. (Στο παράδειγµά µας είναι 20).

β) Το πλήθος των στηλών του πίνακα Χ είναι ίσο µε το πλήθος των σειρών του πίνακα Β, το οποίο ισούται µε το πλήθος των ανεξάρτητων µεταβλητών (αν σ' αυτές συνυπολογίσουµε και την Χ1 = 1). Στο συγκεκριµένο παράδειγµα είναι 4.

Έως τώρα έχουµε καταφέρει ώστε όλα µας τα δεδοµένα να περιέχονται στους πίνακες X και Y και όλες οι άγνωστες ποσότητες στον πίνακα B.

Page 25: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

25

4.2 Εκτίµηση του πίνακα συντελεστών παλινδρόµησης

Το ζητούµενο για τη συνάρτηση 4433221 XbXbXbbY +++= είναι να υπολογίσουµε

εκείνες τις αριθµητικές τιµές των συντελεστών 4321 ,,, bbbb ώστε να ερµηνεύεται µε

τον καλύτερο δυνατόν τρόπο η σχέση εξάρτησης της Y από τις 32 , XX και 4X .

Η παραπάνω συνάρτηση µπορεί επίσης να γραφεί, υπό µορφή πινάκων, ως BXY = .

Αποδεικνύεται ότι οι συντελεστές αυτοί (συµβολιζόµενοι µέσω του πίνακα B) υπολογίζονται µε τον τύπο:

YXXXB ')'( 1−=

Στο αριστερό µέρος της ισότητας είναι ο ζητούµενος πίνακας B . Στο δεξί µέρος βλέπουµε τον πίνακα X (αριθµητικά δεδοµένα για τις ανεξάρτητες µεταβλητές), τον ανάστροφό του ( 'X ) και τον πίνακα Y (αριθµητικά δεδοµένα για την εξαρτηµένη µεταβλητή). Με άλλα λόγια, για να υπολογίσουµε τον πίνακα B θα πρέπει να βρούµε τον αντίστροφο πίνακα του γινοµένου XX ' και αυτό το αποτέλεσµα να το πολλα-πλασιάσουµε µε το γινόµενο YX ' .

Όλοι οι παραπάνω πολλαπλασιασµοί είναι δυνατοί. Αν π.χ. έχουµε πλήθος αριθµητικών δεδοµένων T για κάθε µεταβλητή και L µεταβλητές (στις οποίες συµπεριλαµβάνουµε και την µοναδιαία ψευδοµεταβλητή που αντιστοιχεί στη συνάρτηση), ο πίνακας X θα είναι διαστάσεων LT × , ο Y θα είναι 1×T και ο B θα είναι διαστάσεων 1×L . Οι διαστάσεις του ανάστροφου του πίνακα X (δηλαδή του

'X ) θα είναι TL× . Έτσι, ο τελικός πίνακας YXXX ')'( 1− θα είναι διαστάσεων 1×L , δηλαδή θα έχει µία στήλη µε L στοιχεία. Τα στοιχεία αυτά θα είναι οι

συντελεστές Lbbbb ,...,,, 321 . Στο παράδειγµά µας το πλήθος των συντελεστών για εκτίµηση είναι L = 4, ενώ το πλήθος αριθµητικών δεδοµένων για κάθε µεταβλητή είναι T = 20.

Στο Listing που δίνεται παρακάτω, παρουσιάζεται το πρόγραµµα που υπολογίζει τα

4321 ,,, bbbb για τα δεδοµένα του παραδείγµατός µας. Στη γραµµή 30 του προγράµµατος δίνεται το πλήθος των δεδοµένων που διαθέτουµε για κάθε µεταβλητή. Στη γραµµή 40 έχουµε το πλήθος των ανεξάρτητων µεταβλητών (συµπερι-λαµβανοµένης και της Χ1 = 1). Στις γραµµές 50 - 70 «διαβάζεται» η εξαρτηµένη µεταβλητή και παράλληλα «γεµίζεται» η πρώτη στήλη του Χ µε µονάδες. Στις γραµµές 80-120, «διαβάζεται» ο υπόλοιπος πίνακας Χ. Στη συνέχεια (130-200), δίνονται οι αριθµητικές τιµές των µεταβλητών.

Προσοχή χρειάζεται στην «τροφοδοσία» των δεδοµένων µε τη σωστή σειρά, π.χ. να δίνουµε πρώτα τα DATA της Υ (δηλαδή για το παράδειγµά µας τα δεδοµένα για τις πωλήσεις), αφού η πρώτη εντολή READ προορίζεται για την Υ. Αν η «γραµµή» του υπολογιστή µας δεν χωράει πολλούς χαρακτήρες, µπορείτε να χρησιµοποιήσετε περισσότερες εντολές DATA (π.χ. η 140 θα µπορούσε να περιέχει ένα µέρος από τα δεδοµένα της Υ και τα υπόλοιπα να δίνονται στη γραµµή 141).

Στις σειρές 210-260, υπολογίζεται ο ανάστροφος πίνακας του Χ και συµβολίζεται µε Ζ (δηλ. 'XZ = ). Στη συνέχεια, στις εντολές 270 – 350, υπολογίζεται το γινόµενο ZXXXA == ' . Ακολουθεί ο υπολογισµός 11 )'(1 −− == XXAX στις γραµµές 360-590. Το γινόµενο YXC '= υπολογίζεται µε τις εντολές στις γραµµές

Page 26: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

26

600-660. Τελικά, το πρόγραµµα υπολογίζει και τυπώνει τo ζητούµενο πίνακα Β ως YXXXCXB ')'(1 1−=⋅=

Listing 10 DIM X(60,7),A(7,7),X1(7,7) 20 DIM C(7),B(7),Y(60),Z(7,60) 30 T=20 40 L=4 50 FOR I=1 TO T 55 READ Y(I) 60 X(I,1)=1 70 NEXT I 80 FOR J=2 TO L 90 FOR I=1 TO T 100 READ X(I,J) 110 NEXT I 120 NEXT J 130 REM ΠΩΛΗΣΕΙΣ 140 DATA 100,120,180,250,230,280,310 143 DATA 330,350,360,370,390,380,375 148 DATA 385,390,400,410,400,410 150 REM ΚΑΤΑ ΚΕΦΑΛΗ ΕΙΣΟ∆ΗΜΑ 160 DATA 1510,1513,1600,1650,1650 162 DATA 1700,1800,1850,1860,1880 165 DATA 1890,1900,1900,1895,1900 168 DATA 1905,1920,1950,1930,1990 170 REM ∆ΙΑΦΗΜΙΣΤΙΚΕΣ ∆ΑΠΑΝΕΣ 180 DATA 12,10,12,13,12,15,14,17 185 DATA 17,18,18,17,18,18,19,19 188 DATA 19,20,20,22 190 REM ΧΡΟΝΟΣ 200 DATA 1,2,3,4,5,6,7,8,9,10,11,12 205 DATA 13,14,15,16,17,18,19,20 210 REM Ζ: ΑΝΑΣΤΡΟΦΟΣ ΤΟΥ X 220 FOR I=1 TO L 230 FOR J=1 TO T 240 Z(I,J)=X(J,I) 250 NEXT J 260 NEXT I 270 REM A: ΓΙΝΟΜΕΝΟ ΖX 280 FOR I=1 TO L 290 FOR J=l TO L 300 A(I,J)=0 310 FOR K=1 TO T 320 A(I,J)=A(I,J)+Z(I,K)*X(K,J) 330 NEXT K 340 NEXT J 350 NEXT I 360 REM X1: ΑΝΤΙΣΤΡΟΦΟΣ TOY Α 370 FOR I=1 TO L 380 FOR J=1 TO L

Page 27: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

27

390 X1(I,J)=0 400 IF I=J THEN X1(I,J)=1 410 NEXT J 420 NEXT I 440 FOR K=1 TO L 450 FOR I=1 TO L 460 IF I=K THEN GOTO 520 470 Q=A(I,K)/A(K,K) 480 FOR J=1 TO L 490 A(I,J)=A(I,J)-A(K,J)*Q 500 X1(I,J)=X1(I,J)-X1(K,J)*Q 510 NEXT J 520 NEXT I 530 Q=A(K,K) 550 FOR J=1 TO L 560 A(K,J)=A(K,J)/Q 570 X1(K,J)=X1(K,J)/Q 580 NEXT J 590 NEXT K 600 REM C: ΓΙΝΟΜΕΝΟ ZY 610 FOR I=1 TO L 620 C(I)=0 630 FOR J=1 TO T 640 C(I)=C(I)+Z(I,J)*Y(J) 650 NEXT J 660 NEXT I 670 REM B: ΠΙΝΑΚΑΣ ΣΥΝΤΕΛΕΣΤΩΝ X1*C 675 PRINT "ΣΥΝΤΕΛΕΣΤΕΣ:" 680 FOR I=1 TO L 690 B(I)=0 700 FOR J=1 TO L 710 B(I)=B(I)+X1(I,J)*C(J) 720 NEXT J 730 PRINT I;TAB(10);B(I) 740 NEXT I 9999 END Η σειρά µε την οποία θα µας δοθούν στην οθόνη τα αποτελέσµατα, δηλ. οι αριθµητικές τιµές των συντελεστών ( 4321 ,,, bbbb ), είναι η ίδια µε τη σειρά που έχουν οι ανεξάρτητες µεταβλητές στις εντολές 150-200. Η εκτέλεση του προγράµµατος θα µας δώσει:

1b = -905.1 , 2b = 0.724 , 3b = -5.85 , 4b =1.18

Με άλλα λόγια, η ζητούµενη συνάρτηση είναι:

Υ = -905.1 + 0.724 Χ2 - 5.85 Χ3 + 1.18 Χ4

To πρόγραµµα, σχεδόν έτσι όπως είναι, µπορεί να χρησιµοποιηθεί για οποιοδήποτε αριθµό ανεξάρτητων µεταβλητών και για οποιαδήποτε δεδοµένα που θα τοποθετηθούν µε DATA στις γραµµές 130-205. Το µόνο που χρειάζεται επιπλέον

Page 28: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

28

είναι να τροποποιήσουµε το πλήθος των δεδοµένων (στη γραµµή 30) και το πλήθος των ανεξάρτητων µεταβλητών (αυξηµένο κατά 1, στη γραµµή 40).

Στις εντολές 10 και 20, έχει προβλεφθεί ορισµένο µέγιστο πλήθος δεδοµένων (60) και ορισµένο µέγιστο πλήθος ανεξάρτητων µεταβλητών (7) για την κράτηση «µνήµης»: µε αυτή τη διευθέτηση, το πρόγραµµα «καταναλώνει» γύρω στα 7Κ µνήµης. Αν θέλουµε να επεξεργαστούµε µεγαλύτερο όγκο δεδοµένων, ή να χρησιµοποιήσουµε περισσότερες µεταβλητές, δεν έχουµε παρά να «αυξήσουµε» την κράτηση µνήµης για τους πίνακες σε αυτές τις εντολές DIM.

To πρόγραµµα αυτό θα µπορούσε να είχε πιο ορθολογική διάρθρωση, αν είχαµε διαθέσιµη κάποια έκδοση της ΒΑSΙC που να ήταν εφοδιασµένη µε υπορουτίνες παρόµοιες µε αυτές της FORTRAN ή µε τις procedures της Pascal. Έτσι, θα αποφεύγαµε π.χ. την επανάληψη των πολλαπλασιασµών πινάκων, µε χωριστές εντολές κάθε φορά που χρειάζεται να πολλαπλασιάσουµε πίνακες.

Ας συζητήσουµε όµως τώρα τα αριθµητικά αποτελέσµατα που πήραµε. Στη συνάρτηση που τελικά υπολογίσαµε είναι εύκολο να παρατηρήσουµε πως κάτι περίεργο συµβαίνει µε την µεταβλητή Χ3. Ο συντελεστής της είναι αρνητικός, που πιο απλά σηµαίνει ότι αυξανοµένων των διαφηµιστικών δαπανών, µειώνονται οι πωλήσεις. Είναι σωστό να βγάλουµε αυτό το συµπέρασµα; Και αν ναι, µήπως θα έπρεπε τότε να µειώνουµε τις διαφηµιστικές δαπάνες; Τις απαντήσεις στα ερωτήµατα αυτά, πάντα µε τη βοήθεια της BASIC, θα τις δούµε στο επόµενο κεφάλαιο.

5 Πολυµεταβλητή παλινδρόµηση ΙΙ Η αξιοπιστία των αποτελεσµάτων και των εκτιµήσεων των παραµέτρων ενός υποδείγµατος, δεν είναι πάντα δεδοµένη. Ενδέχεται, π.χ., τα αριθµητικά δεδοµένα να έχουν επηρεασθεί από κάποιους αστάθµητους παράγοντες, που να κάνουν ακατάλληλη τη χρήση τους για τον υπολογισµό συντελεστών σαν της συνάρτησης του παραδείγµατος µας που συζητήθηκε στο προηγούµενο κεφάλαιο. Στη συνέχεια, θα δούµε τις πιο βασικές µεθόδους για τον έλεγχο της αξιοπιστίας ενός εκτιµηµένου υποδείγµατος, τόσο ως προς την καταλληλότητα της χρήσης κάποιας ανεξάρτητης µεταβλητής, όσο και ως προς τη γενικότερη προσαρµογή της συνάρτησης στα δεδοµένα µας.

5.1 Προβλέψεις

Στο παράδειγµα του προηγούµενου κεφαλαίου χρησιµοποιήσαµε αριθµητικά δεδοµένα επιχείρησης για τις πωλήσεις της (Υ), το κατά κεφαλή εισόδηµα (Χ2), τις διαφηµιστικές δαπάνες της (Χ3) και το χρόνο (Χ4). Με βάση αυτές τις πληροφορίες, είχαµε υπολογίσει τους συντελεστές γραµµικής συνάρτησης που έχει εξαρτηµένη µεταβλητή τις πωλήσεις και ανεξάρτητες τις υπόλοιπες. Για λόγους πρακτικότητας, είχαµε συµβολίσει µε Χ1 τη µεταβλητή που είναι ίση πάντα µε τη µονάδα και έχει συντελεστή τη σταθερά της εξίσωσης. Η συνάρτηση που εκτιµήθηκε τελικά είναι:

Υ = -905.1 + 0.724 Χ2 - 5.85 Χ3 + 1.18 Χ4

Είναι φανερό πως, αν δώσουµε ορισµένες τιµές στις ανεξάρτητες µεταβλητές, η συνάρτηση θα µπορεί να «προβλέψει» την αντίστοιχη πιο πιθανή τιµή της εξαρτηµένης µεταβλητής. Για να κάνουµε κάτι τέτοιο εφικτό στο πρόγραµµά µας, δεν έχουµε παρά να προσθέσουµε στο Listing του προηγούµενου κεφαλαίου τις εντολές:

Page 29: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

29

741 DIM P(7) 742 S=B(1) 744 FOR I=2 TO L 745 PRINT "X(";I;")= "; 746 INPUT P(I) 747 S=S+B(I)*P(I) 748 NEXT I 749 PRINT "ΠΡΟΒΛΕΨΗ:";S Στις ερωτήσεις που θα µας κάνει ο υπολογιστής (εκτελώντας επαναληπτικά την εντολή 746), δεν έχουµε παρά να του δώσουµε διαδοχικά (πραγµατικές ή υποθετικές) τιµές για τις Χ2, Χ3 και Χ4.

5.2 Αξιολόγηση υποδείγµατος

Το παρακάτω listing είναι συµπλήρωµα των εντολών του προηγούµενου κεφαλαίου και µας δίνει πολλά πρόσθετα ενδιαφέροντα αποτελέσµατα που θα δούµε παρακάτω πιο αναλυτικά. Πάντως, για να είσαστε βέβαιοι πως πληκτρολογήσατε σωστά και τα δύο σκέλη του προγράµµατος, καλό θα ήταν να το «τρέξετε» µε τα δεδοµένα του παραδείγµατος και να διαπιστώσετε πως παίρνετε τα ίδια αριθµητικά αποτελέσµατα.

750 PRINT "ΠΑΤΗΣΤΕ ΕΝΑ ΚΟΥΜΠΙ!" 760 GET W$ 765 DIM Y1(60) 766 PRINT "ΘΕΩΡΗΤΙΚΕΣ ΤΙΜΕΣ" 770 FOR I=1 TO T 780 Y1(I)=0 790 FOR J=1 TO L 800 Y1(I)=Y1(I)+X(I,J)*B(J) 810 NEXT J 820 PRINT I;TAB(10);Y1(I) 830 NEXT I 840 PRINT "ΠΑΤΗΣΤΕ ΕΝΑ ΚΟΥΜΠΙ!" 850 GET W$ 860 PRINT "ΑΠΟΚΛΙΣΕΙΣ" 865 DIM U(60) 870 S=0 875 S2=0 880 FOR I=1 TO T 890 U(I)=Y(I)-Y1(I) 900 S=S+U(I) 910 S2=S2+U(I)*U(I) 920 PRINT I;TAB(10);U(I) 930 NEXT I 940 PRINT "ΠΑΤΗΣΤΕ ΕΝΑ ΚΟΥΜΠΙ!" 950 GET W$ 960 PRINT "ΠΙΝΑΚΑΣ ΣΥΝ∆ΙΑΚΥΜΑΝΣΕΩΝ ΣΥΝΤΕΛΕΣΤΩΝ"

Page 30: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

30

965 DIM V(7,7) 970 FOR I=1 to L 980 FOR J=1 to L 990 V(I,J)=X1(I,J)*S2/(T-L) 995 PRINT I;",";J;TAB(15);V(I,J) 1000 NEXT J 1010 NEXT I 1012 PRINT "ΠΑΤΗΣΤΕ ΕΝΑ ΚΟΥΜΠΙ!" 1015 GET W$ 1018 PRINT "ΤΥΠΙΚΑ ΣΦΑΛΜΑΤΑ" 1020 FOR I=1 TO L 1030 PRINT I;TAB(10);SQR(V(I,I)) 1040 NEXT I 1070 PRINT "ΣΥΝΤΕΛΕΣΤΕΣ t" 1080 FOR I=1 TO L 1085 G=B(I)/SQR(V(I,I)) 1090 PRINT I;TAB(10);G 1100 NEXT I 1110 PRINT 1130 PRINT "ΑΘΡΟΙΣΜΑ ΑΠΟΚΛΙΣΕΩΝ:";S 1140 S3=0 1150 FOR I=1 TO T 1160 S3=S3+Y(I) 1170 NEXT I 1180 YM=S3/T 1190 PRINT "ΜΕΣΟΣ ΕΞΑΡΤΗΜ. ΜΕΤΑΒΛΗΤΗΣ:";YM 1200 S4=0 1210 FOR I=1 TO T 1220 S4=S4+(Y(I)-YM)*(Y(I)-YM) 1230 NEXT I 1235 PRINT "ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ:";SQR(S4/(T-1)) 1240 R2=1-S2/S4 1250 PRINT "ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣ∆ΙΟΡΙΣΜΟΥ:";R2 1260 RB=1-(1-R2)*(T-1)/(T-L) 1270 PRINT "∆ΙΟΡΘ. ΣΥΝΤΕΛ. ΠΡΟΣ∆ΙΟΡΙΣΜΟΥ:";RB 9999 END

5.2.1 Θεωρητικές τιµές

Είναι φανερό πως αν αντικαταστήσουµε τα δεδοµένα που διαθέτουµε για τις ανεξάρτητες µεταβλητές στη συνάρτηση που υπολογίσαµε, θα πάρουµε αριθµητικές τιµές για την εξαρτηµένη µεταβλητή (θεωρητικές τιµές) που γενικά θα διαφέρουν από τις πραγµατικές τιµές της Υ που χρησιµοποιήσαµε στους υπολογισµούς (εµπειρικές τιµές). Οι θεωρητικές τιµές εκφράζουν το πώς θα είχαν διαµορφωθεί οι τιµές της εξαρτηµένης µεταβλητής αν το υπόδειγµά µας (η συνάρτηση που υπολογίσαµε) περιέγραφε τέλεια την πραγµατικότητα. Στο παραπάνω listing, οι θεωρητικές τιµές υπολογίζονται στο τµήµα των εντολών 765 µέχρι 830.

Παρακάτω βλέπουµε τις προκύπτουσες θεωρητικές τιµές.

Page 31: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

31

ΘΕΩΡΗΤΙΚΕΣ ΤΙΜΕΣ

1 119.127424 2 135.624642 3 186.64139 4 218.168102 5 225.194946 6 245.021012 7 324.448882 8 344.274948 9 352.691572 10 362.497976 11 370.9146 12 385.181547 13 380.507745 14 378.064215 15 377.010465 16 381.807038 17 393.843713 18 410.89022 19 397.586536 20 430.503027

5.2.2 Αποκλίσεις

Στις εντολές 860-930, υπολογίζονται οι διαφορές µεταξύ των θεωρητικών και εµπειρικών τιµών, το άθροισµα των διαφορών τους (S), καθώς και το άθροισµα των τετραγώνων τους (S2). Συγχρόνως, στην οθόνη, παίρνουµε (βλ. αριθµητικά αποτελέσµατα παρακάτω) όλες τις αποκλίσεις, έτσι που να µπορέσουµε να παρατηρήσουµε την ύπαρξη κάποιας συστηµατικότητας, αν υπάρχει, και να αξιολογήσουµε καλύτερα την καταλληλότητα της συνάρτησης µας. Φυσικά, όσο µικρότερες, κατ' απόλυτη τιµή, είναι οι αποκλίσεις, τόσο καλύτερα περιγράφεται το φαινόµενο που µελετάµε µε το υπόδειγµά µας.

ΑΠΟΚΛΙΣΕΙΣ 1 -19.127424 2 -15.6246421 3 -6.64139009 4 31.8318983 5 4.80505422 6 34.978988 7 -14.4488821 8 -14.2749483 9 -2.6915722 10 -2.49797603 11 -0.91459998 12 4.81845336 13 -0.50774526 14 -3.0642153

Page 32: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

32

15 7.98953477 16 8.19296213 17 6.15628688 18 -0.89021955 19 2.41346432 20 -20.5030272

5.2.3 Πίνακας συνδιακυµάνσεων και τυπικά σφάλµατα συντελεστών

Ας φανταστούµε ότι υπάρχουν πολλές οµοειδείς επιχειρήσεις, σαν αυτή του παραδείγµατός µας και εκτιµούµε, για την καθεµιά από αυτές, παρόµοιες συναρτήσεις. Έτσι, οι συντελεστές της βασικής µας συνάρτησης γίνονται ουσιαστικά µεταβλητές που για την καθεµιά επιχείρηση θα έπαιρναν (τουλάχιστον κάπως) διαφορετικές τιµές.

Με αυτόν τον τρόπο, κάθε συντελεστής (π.χ. ο συντελεστής της Χ3) θα έχει κάποια διακύµανση, αλλά και κάποια συµµεταβολή (συνδιακύµανση) µε κάποιον άλλο συντελεστή (π.χ. της Χ4). Ο πίνακας αυτών των διακυµάνσεων και συνδιακυµάνσεων των συντελεστών δίνεται από τον τύπο:

LTS

XXV−

= − 2)'( 1

όπου S2 είναι το άθροισµα των τετραγώνων των αποκλίσεων. Έτσι, το στοιχείο 2,4 του πίνακα V, είναι η συνδιακύµανση των συντελεστών των Χ2 και Χ4, ενώ το στοιχείο 3,3 είναι η συνδιακύµανση του συντελεστή της Χ3 µε τον εαυτό της (δηλαδή η διακύµανσή του).

Στις εντολές 960-1040 υπολογίζεται ο πίνακας των συνδιακυµάνσεων και τα τυπικά σφάλµατα των συντελεστών (η τετραγωνική ρίζα των διακυµάνσεων τους). Παρακάτω βλέπουµε τον πίνακα συνδιακυµάνσεων και τα τυπικά σφάλµατα των συντελεστών για το παράδειγµά µας. Τα τυπικά σφάλµατα θα µπορούσαµε να τα ερµηνεύσουµε ως το κατά µέσο όρο «παίξιµο» που κάνουν οι συντελεστές, γύρω από τις τιµές που έχουµε εκτιµήσει.

ΠΙΝΑΚΑΣ ΣΥΝ∆ΙΑΚΥΜΑΝΣΕΩΝ ΣΥΝΤΕΛΕΣΤΩΝ 1,1 10467.4092 1,2 -7.85099844 1,3 173.528391 1,4 84.7734959 2,1 -7.85099844 2,2 0.68659641e-2 2,3 -0.26656852 2,4 -0.1679043e-1 3,1 173.528391 3,2 -0.26656852 3,3 22.3474563 3,4 -5.69895558 4,1 84.7734959 4,2 -0.1679043e-1 4,3 -5.69895558 4,4 3.77578597

Page 33: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

33

ΤΥΠΙΚΑ ΣΦΑΛΜΑΤΑ

1 102.310357 2 0.82861114e-1 3 4.72730962 4 1.94313817

5.2.4 Συντελεστές t

Οι συντελεστές t υπολογίζονται ως το πηλίκο του κάθε συντελεστή δια του τυπικού του σφάλµατος (βλ. εντολές 1070-1100). Χρησιµοποιούνται για τον έλεγχο και επιβεβαίωση της χρησιµότητας των αντίστοιχων µεταβλητών τους στο να «εξηγούν» τη διαµόρφωση των τιµών της εξαρτηµένης µεταβλητής. Αν κάποιος συντελεστής t είναι µικρότερος (κατ' απόλυτη τιµή) από 2, είναι πολύ πιθανόν η αντίστοιχη µεταβλητή να µην επηρεάζει πραγµατικά την εξαρτηµένη µεταβλητή. ∆ηλαδή, σε αυτήν την περίπτωση, η παρουσία της στην συνάρτηση ενδέχεται να είναι περιττή και παραπλανητική.

ΣΥΝΤΕΛΕΣΤΕΣ t 1 -8.8466187 2 8.73763614 3 -1.23755861 4 0.60547487

Παρατηρώντας το αποτελέσµατα που πήραµε για τους συντελεστές t (ακριβώς από πάνω), διαπιστώνουµε πως οι συντελεστές t των µεταβλητών Χ3 και Χ4 είναι µικρότεροι του 2 κατ' απόλυτη τιµή. Εποµένως θα έπρεπε ίσως να σκεφτούµε σοβαρά το ενδεχόµενο να αγνοήσουµε τις µεταβλητές Χ3 και Χ4 και να µην τις συµπεριλάβουµε στη συνάρτηση. Με άλλα λόγια, ο αρνητικός συντελεστής της Χ3 δεν πρέπει να µας οδηγήσει στο (και θεωρητικά λανθασµένο) συµπέρασµα ότι η αύξηση των διαφηµιστικών δαπανών προκαλούν µείωση των πωλήσεων. Απλώς, τα εµπειρικά µας στοιχεία (συντελεστής t < 2) δεν µας επιτρέπουν να βγάλουµε συµπέρασµα µε σχετική σιγουριά για τη σχέση που ενδέχεται να υπάρχει (ή να µην υπάρχει) µεταξύ διαφηµιστικών δαπανών και πωλήσεων. Απλώς, µε βάση αυτά τα δεδοµένα και επειδή ο συντελεστής t βρέθηκε µικρότερος από 2, συµπεραίνουµε ότι οι διαφηµιστικές δαπάνες µάλλον δεν επηρεάζουν τις πωλήσεις της επιχείρησης και γι’ αυτό η παρουσία τους στο υπόδειγµα είναι περιττή.

Πιο γενικά, κάθε µεταβλητή που έχει συντελεστή t µικρότερο κατ' απόλυτη τιµή από 2, είναι καλύτερα να µην συµπεριλαµβάνεται στη συνάρτηση και το υπόδειγµα να επανεκτιµάται χωρίς αυτήν τη µεταβλητή.

5.2.5 Συντελεστής προσδιορισµού

Η εντολή 1130 µας δίνει το άθροισµα των αποκλίσεων. Αν ο υπολογιστής µας χρησιµοποιεί στις πράξεις αρκετά ψηφία, ο αριθµός αυτός θα πρέπει να είναι πολύ κοντά στο µηδέν. Στις εντολές 1140-1235 υπολογίζεται ο µέσος αριθµητικός (ΥΜ) και η τυπική απόκλιση της εξαρτηµένης µεταβλητής.

Στη συνέχεια υπολογίζεται ο συντελεστής προσδιορισµού (R2) ως:

Page 34: Statistics using Basic - in Greek - (1985) by Christos Androvitsaneas

34

42

12SS

R −=

Όπως είδαµε, το S2 είναι το άθροισµα των τετραγώνων των αποκλίσεων (µεταξύ θεωρητικών και εµπειρικών τιµών) της εξαρτηµένης µεταβλητής. Το S4 είναι το άθροισµα των τετραγώνων των αποκλίσεων της Υ από το µέσο αριθµητικό της. Όσο πιο κοντά είναι ο αριθµητής του κλάσµατος στο µηδέν και, εποµένως, όσο πιο κοντά ο συντελεστής R2 είναι στη µονάδα, τόσο καλύτερα «προσαρµόζεται» η συνάρτησή µας στα αρχικά πραγµατικά δεδοµένα µας. Η µονάδα είναι η µεγαλύτερη δυνατή τιµή του R2 (δηλαδή, ιδανική ερµηνεία της πραγµατικότητας από το µαθηµατικό υπόδειγµα) και µηδέν η µικρότερη δυνατή τιµή του (πλήρης απουσία οποιασδήποτε ερµηνευτικής δύναµης του υποδείγµατος). Με τις εντολές 1260-1270 υπολογίζουµε το διορθωµένο συντελεστή προσδιορισµού που είναι πιο αξιόπιστος και που χρησιµοποιείται συχνότερα.

Τα αποτελέσµατα που παίρνουµε στο συγκεκριµένο παράδειγµα: ΑΘΡΟΙΣΜΑ ΑΠΟΚΛΙΣΕΩΝ: -0.17848834e-9 ΜΕΣΟΣ ΕΞΑΡΤΗΜΕΝΗΣ ΜΕΤΑΒΛΗΤΗΣ: 321 ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ: 96.6355062 ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣ∆ΙΟΡΙΣΜΟΥ: 0.97762745 ∆ΙΟΡΘΩΜΕΝΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣ∆ΙΟΡΙΣΜΟΥ: 0.97343259