1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti...

109
1 A spettidi g e stio n e , tra tta m e n to , i n t e r p r e t a zi o n e didatisperim entali inerenti la qualità degli o li ottenuti dalla lavorazione delle o live Stefano Alessandri M ontelibretti (R om a)20 G iugno 2003

Transcript of 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti...

Page 1: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

1

Aspetti di gestione,trattamento, interpretazionedi dati sperimentali inerenti laqualità degli oli ottenuti dalla

lavorazione delle olive

Stefano Alessandri

Montelibretti (Roma) 20 Giugno 2003

Page 2: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

2

La filiera ed il processoproduttivo

dell'olio ottenuto dalla lavorazionedelle olive,

visti dallo statistico e dalmetodologo

1.11.1

Page 3: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

3

Olio vergine di oliva:complesso SISTEMA

interpretabile come risultato della

azione ed interazione di componenti

biologiche (popolazioni, cultivar, cloni, parassiti, patogeni, ecosistema, etc.),

agronomiche in senso lato (tipologie di impianto, pratiche colturali, epoca e modalità di

raccolta, modalità e durata trasporto e conservazione in azienda, etc.),

ambientali (latitudine, altitudine, esposizione, pendenza, orizzonte, variabili edafiche, variabili

climatiche, andamenti stagionali, etc.),

tecnologiche (modalità e durata di trasporto e conservazione nelle varie fasi dall'azienda

all'oleificio al consumo, modalità di lavaggio, frangitura, gramolatura, estrazione, finitura,

condizionamento, etc.),

antropologiche, (struttura fondiaria, dell'oleificio, della distribuzione, usi e tradizioni locali,

modelli locali di riferimento del prodotto, etc.),

soggetto inoltre a mutarerapidamente nel tempo

Page 4: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

4

Alcune componenti sono daconsiderarsi

CRITICHELivello di maturazione delle drupe

Stato sanitario dell'oliveto e delle drupe

Modalità di manipolazione delle olive, dall'albero alfrantoio (fasi agronomiche).

Modalità di manipolazione delle olive e dei prodottiintermedi durante le fasi tecnologiche.

Modalità di manipolazione del prodotto durante lefasi di distribuzione e consumo.

annata

Page 5: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

5

Quasi tutte le componenti sono a lorovolta scomponibili e quindi da

considerarsi

Plurifattoriali

Page 6: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

6

Conseguenza

E' estremamentedifficile pianificarel'isolamento delle

singolecomponenti

Page 7: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

7

In altri termini (in statistichese)

Nello studio degli oli ottenuti dalla lavorazione delleolive:l'isolamento e la definizione delle variabili di controllo;la determinazione, l'isolamento, la misurazione delle

variabili di risposta;costituiscono una notevole sfida metodologica.

Concorrono inoltre a tale sfida:l'associazione di variazioni delle variabili di risposta a

variazioni delle variabili di controllo;l'utilizzazione di tali associazioni per la formulazione di

previsioni

Page 8: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

8

In linguaggio statistico, e dipendentemente dal contesto metodologico,tali componenti possono essere considerate e denominate (tradizionalmente

ed elasticamente):

fonti di variazione, o effetti, o fattori, o variabili indipendenti(contesto ANOVA, MANOVA, etc.)

o variabili di controllo (contesto m.d. regressione)o variabili di classificazione (contesto m.d. classificazione)(o specifiche di processo) (contesto produttivo/economico/S.Q.)

al variare delle quali appaiono variare anche le caratteristichechimiche,

fisiche,sensoriali

degli oli ottenuti dalla lavorazione delle olive

Un chiarimento lessicale

Page 9: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

9

Possono essere a loro volta considerate:

variabili dipendenti (contesto ANOVA, MANOVA, etc.)

o variabili di risposta (contesto m.d. regressione)

o variabili di analisi (contesto m.d. classificazione)

(o specifiche di prodotto) (contesto produttivo/economico/S.Q.)

Se una fonte di variazione viene definita in termini qualitativi o ordinali, le modalità che la caratterizzano possono prendere il nome di livelli.

Le caratteristiche

chimiche,fisiche,

sensoriali

degli oli ottenutidalla

lavorazionedelle olive

Page 10: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

10

L'isolamento, la definizione,lo studio delle variabili di

controllo

la determinazione, l'isolamento, lamisurazione, lo studio delle variabili

di risposta

1.21.2

Page 11: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

11

Piano sperimentaleMetodologia statistica

(variabili di controllo)Metodologie analiticheMetodologia statistica

(variabili di risposta)Statistica descrittivaStatistica inferenziale

(quantificazioni, stime, associazionifra variazioni delle variabili di rispostae variazioni delle variabili di controllo)

Modelli di regressione, di classificazione, di decisione, ... (utilizzazione delle associazioni trovate

per la formulazione di previsioni)

Metodi esplorativi, analisi dei raggruppamenti(individuazione di variabili di controllo non [ancora] definite)

Alcuni strumenti

un dubbio …

Page 12: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

12

Ma è poi Ma è poi assolutamentassolutamente necessario e necessario isolare le isolare le variabili ?variabili ?

Page 13: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

13

NONO

Talvolta è addirittura impossibileTalvolta è addirittura impossibile

L’importante èL’importante è

definire con chiarezza e rigoredefinire con chiarezza e rigore l’oggetto di studio anche nel quadro di un l’oggetto di studio anche nel quadro di un approccio meno atomistico e più sistemico approccio meno atomistico e più sistemico al problema e pianificare di conseguenza al problema e pianificare di conseguenza

il campionamentoil campionamento

Page 14: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

14

"Si e' cercato di ottenere un "ritratto"

rappresentativo, sul campo, del prodotto reale cosi'

come nasce dal territorio reale, quale risultante di

tutte le azioni (componente antropica inclusa) ed

interazioni che ne influenzano la filiera.Non si e' quindi lavorato in condizioni controllate.

Si e' adottato il punto di vista del naturalista

piuttosto che quello dello sperimentatore, con

l'intento di studiare l'eventuale correlazione fra

alcune condizioni reali e prodotto reale. "

Esempio di un tentativo ...

(Alessandri, S.; 2000; "Qualita' e variabilita' degli oli vergini di oliva della Toscana e modelli di classificazione: una discussione metodologica"; Bollettino dei Chimici Igienisti parte scientifica, Vol. 52 1S/2001, pp31-44.)

Page 15: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

15

La StatisticaCosa può dirci, come può dircelo (ancora chiarimenti lessicali)

1.31.3

Io era tra color che son sospesi,

e donna mi chiamò beata e bella,

tal che di comandare io la richiesi.

Page 16: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

16

La statistica

studia, tra l' altro, le relazioni fra:

* risultati sperimentali e osservativi(esperienza)

* ipotesi formulate(conferma o falsificazione di idee preesistenti o nuove)

* casualita’ E’ qui che il pensiero razionale si perde facilmente

Page 17: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

17

Collettivo statistico

Insieme

a ciascun elemento del quale e’ possibile associarealmeno una caratteristica qualitativa o quantitativacomune.

Se le caratteristiche (definite variabili) sono piu’ di una, possono essere

parte del primo e parte del secondo tipo.

La statistica e’

Scienza del Collettivo

Page 18: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

18

Con riferimento ad un generico collettivo statistico

Statistica descrittiva:

Disciplina che fornisce gli strumenti (le regole)per manipolare con efficacia (raggiunge lo scopo) edefficienza (basso rapporto costi/benefici) grandi quantita’ di dati.

Questa definizione suggerisce forti affinita’ con l' Informatica.

Tali affinita’ sono confermate a livello della sola disciplina applicata.

Page 19: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

19

Con riferimento ad un generico collettivo statistico

Statistica descrittiva:

Disciplina che fornisce gli strumenti per estrarrepoche informazioni rilevanti da molte ingestibili.

Questa definizione implica una scelta fra informazione

rilevante e non, e conseguentemente una perdita di

informazione valutata irrilevante.

Questa valutazione costituisce

un punto metodologico fondamentale.

Page 20: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

20

Elementi irrinunciabili

per la descrizione di un generico collettivostatistico definito rispetto ad una variabile

quantitativa.

Numerosita’

Un parametro di posizione (Media aritmetica, Mediana)

Un parametro di dispersione (Devianza, Varianza,Deviazione standard (SQM), Coefficiente di variazione, Intervallo

Page 21: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

21

Elementi irrinunciabili

per la descrizione di un generico collettivostatistico definito rispetto ad una variabile

qualitativa.

Il criterio per la scelta delle modalità da associare aclassi di frequenza (quante, quali, perché)

La successione delle classi di frequenza

Le frequenze di ciascuna classe.

Page 22: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

22

La diversità in StatisticaLa diversità interpretata come distanza

1.41.4

Page 23: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

23

E’ necessario che un parametro di dispersione

divenga unità di misura nella scala delle posizioni,

e quindi unità di misura della distanza-diversità.

Particolarmente conveniente risulta essere la

varianza

Page 24: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

24

Se consideriamo che la differenza (distanza,

diversità) tra medie può essere misurata a sua

volta come dispersione delle medie stesse attorno

alla media delle medie, e quindi associata ad una

varianza, allora possiamo interpretare la

differenza tra medie come rapporto tra varianze:

Varianza tra i gruppi / Varianza entro i gruppi

Page 25: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

25

La diversità inStatistica(interpretata come distanza )

ed il punto di vista

1.51.5

m m u u l l t t i i v v a a r r i i a a t t oo

Page 26: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

26

26 32 40,5 65,5 90 90 3 2

33 46

30 42

28 38

28 46

26 36

32 46

24 36

21 24

25 36

34 50

36 48

32 45

29 39

35 50

35 49

30 40 Correlazione31 40 0,7130 38

27 35

21 30

28 35

28 33

34 50

40,5

35,5

30,5

25,5

20,5

0 10 20 30 40

Main title

25,5 35,5 45,5 55,5 65,5

0

10

20

30

40

50Main title

20 22,5 25 27,5 30 32,5 35 37,5

22,525

27,530

32,535

37,540

42,545

47,550

52,555

57,560

50

50

50

50

49

48

46

46

46

46

46

46

46

45

44 Correlazione44 -0,9844

44

44

44

44

44

44

44

40,5

35,5

30,5

25,5

20,5

0 10 20 30 40

Main title

25,5 35,5 45,5 55,5 65,5

0

10

20

30

40

50

Main title

20 22,5 25 27,5 30 32,5 35 37,5

22,525

27,530

32,535

37,540

42,545

47,550

52,555

57,560

Correlazione-0,19

40,5

35,5

30,5

25,5

20,5

0 10 20 30 40

Main title

25,5 35,5 45,5 55,5 65,5

0

10

20

30

40

50Main title

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

22,5

27,5

32,5

37,5

42,5

47,5

52,5

57,5Numerosità , dispersioni posizioni uguali, struttura interna (co-dispersione) diversa

L'informazione multivariata è maggiore della somma

delle informazioni univariate singolarmente prese

Page 27: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

27

L'informazione multivariata può rivelare una direzione preferenziale lungo la qualela dispersione (separazione) delle osservazioniè maggiore di quella lungo le direzioni dellevariabili considerate separatamente, direzionicoincidenti con quelle degli assi del sistemadi riferimento.

Page 28: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

28

L'informazione multivariata può rivelare una direzione preferenziale lungo la qualela dispersione (separazione)

dei gruppi di osservazionidei gruppi di osservazioniè maggiore di quella lungo le direzioni dellevariabili considerate separatamente, direzionicoincidenti con quelle degli assi del sistema di riferimento.

Page 29: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

29

Popolazioni,Campioni

=> inferenze

1.61.6

Page 30: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

30

Popolazione

Collettivo statisticocomprendente tutti gli elementi chesoddisfano la condizione diappartenenza.

Campione

Sottoinsieme di una popolazione.

(Anche un campione è un Collettivo statistico).

Page 31: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

31

Se ogni elemento di una popolazione è associato aduna stessa probabilità di appartenere ad uncampione, quel campione si definisce:

Campionecasuale

La parola "casuale" è sinonimo di "random", "randomizzato",

"scelto a caso"

non

"a casaccio"

Page 32: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

32

Statistica inferenziale:

Disciplina che fornisce gli strumenti perestrarre informazioni (stime) sullepopolazioni,da informazioni su loro campioni casuali.

Si fonda sul calcolo delle probabilità (come la stessa

definizione di campione casuale).

Page 33: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

33

Con riferimento all' insieme di tutti i campioni casuali di numerosità n,

estratti da una popolazione di numerosità infinita

La media delle medie campionarie è uguale alla media della

popolazione.

La varianza delle medie campionarie è uguale a 1/n della

varianza della popolazione.

La distribuzione delle medie campionarie si approssima

comunque alla normale, tanto più quanto più grande è n

(teorema del limite centrale).

Page 34: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

34

E' possibile utilizzare una distribuzione-modello di medie campionarie,parametrizzata rispetto alla distribuzione della popolazione di

origine, per stimare la probabilità p=1- di estrarre dallapopolazione di origine un campione x, caratterizzato da una certa

numerosità n e da una media campionaria x compresa in un

definito intervallo J.

stime per intervalli

prova delle ipotesi

concetto di significatività

Stima puntuale:valore più probabile (ma non sappiamo

quanto probabile)

ANOVAANOVA

Page 35: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

35

E’ sempre qui che il pensiero razionale si perde facilmente

Qual’é la probabilità di ottenere:

•questo risultato (campionario)•questo/i insieme/i di risultati (campionari)•questa/e configurazione/i di risultati (campionari)•questa/e relazione/i tra risultati (campionari)• questa/e variazione/i nei risultati (campionari)•…

per puro caso ?

Stime per intervalli, prova delle ipotesi e concetto di significativitàcostituiscono gli strumenti per formulare ed affrontare un (il?)problema di fondo:

Page 36: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

36

(Per i problemi di classificazione sono necessari

ANCHE altri strumenti di validazione, per incrementare

la rappresentatività )

Stime per intervalli, prova delle ipotesi e concetto di significatività

costituiscono gli strumenti per stimare e

valutare la diversità-distanza fra popolazioni

partendo dalle corrispondenti statistiche

campionarie.

Page 37: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

37

per la rappresentatività

La numerosità campionaria gioca sempre un ruolo

critico

Page 38: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

38

Qual’é l’incidenza della variabilità annuale su:

•questo risultato•questo/i insieme/i di risultati•questa/e configurazione/i di risultati•questa/e relazione/i tra risultati• questa/e variazione/i nei risultati•…

?

INOLTRE: il “sapere” metodologico maturato in campo agronomico da Fisher in poi, per quanto riguarda in particolare le produzioni agrarie, ed in special modo quelle da colture arboree, fornisce gli strumenti per impostare ed affrontare un problema specifico:

In altri termini, fino a che puntoE’ possibile trascurare o “accorpare” l’ ”effetto-anno” ?

Anche questo è un problema di

rappresentatività

Page 39: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

39

L’inferenza multivariata ed

il problema della 1.71.7

Page 40: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

40

per la rappresentatività

La “numerosità” delle variabili di analisi gioca anch’essa un ruolo

critico

per la computabilità

per la possibilità stessadi fare inferenze

nel senso della statistica classica

per la predittività

E’ un argomento molto discusso,che presenta aspetti

estremamente contraddittorisintetizzati da espressioni

molto suggestive ...

Page 41: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

41

The blessings of Dimensionality

The curses of

Dimensionality

Tecniche di data analisys applicate a problemi di riconoscimento,

basate su “poche” osservazioni descritte da moltissime variabili

Intrattabilità di stime ed inferenze davanti alla proliferazione delle variabili di analisi

E’un fatto che le tecniche di data analisys:

• hanno molto successo• aumentano i loro campi di

applicazione

Page 42: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

42

Dalla diversità-distanza deiCOLLETTIVI

alla classificazione diS I N G O L E

osservazioni

2.12.1

Page 43: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

43

Elementi di partenza

Un modello di classificazione si fonda sulla correttaconoscenza della struttura di un collettivo "diapprendimento" che ne costituisce la "base diconoscenze".

Tale collettivo è necessariamente un campione se esistonoo sono attese osservazioni di appartenenza incognita daclassificare.

La rappresentatività di tale campione è critica.

Critico è anche il quesito: “Che risultati si otterrebberoda una classificazione puramente casuale delleosservazioni (anche quelle di apprendimento)?”.

Page 44: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

44

Uno strumento importante per il calcolo

di modelli di classificazione è costituito

da un insieme di tecniche statistiche

genericamente denominate

Analisi Discriminante

Il termine non ha lo stesso univoco significato per tutti gli

autori.

Page 45: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

45

L' Analisi Discriminante tratta insiemi di osservazioni in cui:

-sono definiti dei gruppi o classi-sono definite una o piu' variabili quantitative

Si distinguono almeno tre tipologie di Analisi Discriminante:

•l'Analisi Discriminante classificatoriaorientata alla produzione di modelli di classificazione,

•l'Analisi Discriminante Canonica•l'Analisi Discriminante Step-Wise

orientate alla preventiva riduzionedella dimensionalità dei modelli.

Hand, (1981); Lachenbruch e collaboratori (1968); Lachenbruch (1975); Seber (1984),

Page 46: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

46

L' analisi discriminante classificatoria(da ora in avanti "Analisi Discriminante")

•sviluppa una regola matematica (funzione

discriminante),

¤ basata sulle (funzione delle) variabili quantitative prese in considerazione,

¤ che permette di attribuire un'osservazione ad una delle classi (restituisce una probabilità di attribuzione per ciascuna classe),

¤ con la minima possibilità di errore.

Page 47: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

47

L' analisi discriminante classificatoria

Si articola in numerosi metodi, parametrici e non:

funzione discriminante lineare => LDA, da Linear Discriminant Analysis

funzione discriminante quadratica => QDA, da Quadratic Discriminant Analysis

non sono necessarie assunzioni circa l'omogeneità delle matrici di covarianze entro le classi

metodi non parametrici => (kernel, KNN, …)non sono necessarie assunzioni circa la normalita' delle

distribuzioni entro le classi.

Page 48: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

48

Analisi discriminante canonica(CDA, da Canonical Discriminant Analysis ")

Obiettivi:

•determinare le combinazioni lineari (definite Variabili Canoniche, Canonical variables, Canonical variates) delle variabili quantitative considerate, che meglio sintetizzano la variabilità tra le classi

•selezionare un insieme di poche variabili canoniche, che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte (relativamente a quelle canoniche) variabili quantitative di partenza;

Le variabili canoniche hanno la caratteristica di essere tra loro incorrelate.

Klecka (1980); Seber (1984).

Page 49: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

49

Analisi discriminante step-wise

Obiettivi:

•determinare le variabili quantitative più efficaci per una corretta classificazione delle osservazioni

•selezionare un insieme di poche variabili (originali non canoniche), che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte variabili quantitative di partenza

•L'analisi discriminante step-wise persegue direttamente questo obiettivo con eliminazioni e/o immissioni progressive (passo-passo) di una variabile alla volta nel modello, per mezzo di diversi possibili criteri di valutazione.

•I metodi step-wise NON garantiscono LA selezione della combinazione OTTIMALE di variabili originali in senso assoluto, ma solamente in senso relativo.

Page 50: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

50

Modelli di classificazione

Elementi critici

Rappresentativitàindividuazione esaustiva delle fonti di variazione disegno sperimentalecampionamento

Validazionecross-validazione leaving-one-out …

Valutazione del potere discriminatorio quantità qualità e distribuzione

degli errori di classificazione rispetto ad unaclassificazione casuale ed all’ambito di

applicazione

Page 51: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

51

La crossvalidazione (metodo "Leaving-one-out") e' un procedimento che consiste nel classificare ogni osservazione (di un collettivo di numerosita' n), in base al criterio discriminante tratto dalle altre (n-1)

osservazioni.

Richiede quindi che la funzione discriminante sia

ricalcolata tante volte quante sono le osservazioni

stesse.

La crossvalidazione leaving-one-out evita

l'insorgere di errori di attribuzione artificiosamente

bassi, che non cosituiscono una buona stima del

reale potere discriminatorio del modello.

Page 52: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

52

Analisi discriminante classificatoria Integrazioni

Soglia/e di minima probabilità di attribuzione

un'osservazione viene attribuita ad una classe solamente se

la probabilita' di attribuzione supera una soglia prescelta,

altrimenti non viene classificata in alcun modo

vengono così evidenziate le attribuzioni "deboli" ed e'

possibile valutare la "tenuta" del modello rispetto ad

incrementi progressivi della soglia stessa.

Page 53: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

53

Analisi discriminante classificatoria Integrazioni

Matrice di rischio

un'osservazione viene attribuita ad una certa classe

solamente se la probabilita' di attribuzione supera una

corrispondente soglia prescelta, diversa per ciascuna

classe altrimenti non viene classificata in alcun modo.

E’ possibile così attribuire pesi diversi ad errori diversi.

Page 54: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

54

Modelli di classificazione

Cenni a tecniche diverse e/o ausiliarie

•Analisi delle Componenti Principali

•Analisi dei Cluster

Page 55: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

55

Componenti Principali

Descrivono in maniera ottimale la variabilita' totale del

collettivo in osservazione: la prima PC estratta e'

pensabile come la retta meglio adattata allo scatter

delle osservazioni nello spazio n-dimensionale delle

variabili di analisi considerate, la seconda come quella

meglio adattata alla variabilita' residua, e cosi' via.

Page 56: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

56

Analisi delle Componenti Principali

Scopi

• esplorareesplorare le relazioni tra variabilivariabili e tra

osservazioniosservazioni

•isolare l'informazione utile alla separazione delle osservazioni dal "rumore", all'interno di un gruppo di variabili (tra le quali non viene fatta alcuna suddivisione fra dipendenti ed indipendenti)

•selezionare un piccolo gruppo di combinazioni lineari (Componenti Principali) da un insieme di variabili (quantitative) di partenza

•identificare gli "outliers"

Page 57: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

57

Sulle componenti principali e' poi possibile applicare qualunque analisi statistica appropriata:

•operare analisi dei cluster

•determinare modelli di regressione

•calcolare modelli di classificazione

Le Componenti Principali a differenza delle variabili

canoniche, definiscono un sistema di riferimento che

massimizza la separazione media tra le singole

osservazioni, NON necessariamente tra le classi.

Page 58: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

58

Analisi dei Cluster (parametriche e non parametriche)

scopi:

•esplorareesplorare le relazioni tra osservazioniosservazioni

• stabilire se e' possibile riconoscere dei raggruppamenti (cluster) in un certo insieme di osservazioni in cui non è nota né definita a priori alcuna classe o gruppo

• individuare i raggruppamenti stessi in termini di rapporti reciproci (gerarchie, sovrapposizioni, distanze, …)

• descriverli statisticamente

L’ analisi dei cluster può venire utilizzata per “riscoprire” dei raggruppamenti noti a priori, o per scoprirne di nuovi, magari rivelati dall’analisi di errori di classificazione.

Page 59: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

59

Modelli di classificazione

Applicazioni

3.13.1

Page 60: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

60

Collettivo statistico di riferimento:

Campione casuale di un sottoinsieme,dell’insieme degli oleifici operanti in Toscana.Strumento: censimento e catalogazione dell'amministrazione

regionale.

Numerosità e variabili di classificazione:

844 olicampionati sul territorio regionale,suddiviso in 3 zone

per 7 annatedurante 3 periodi di raccolta delledrupe

Page 61: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

61

Fonti di variazione

epoca di raccolta delle olivezona di coltivazioneannata di produzione

Page 62: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

62

Gli anni

Il rilevamento è stato ripetuto ogni anno

dalla campagna oleicola 1988/89

alla campagna 1993/94

Page 63: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

63

Le epoche di raccolta

Il campionamento ha riguardato tre epoche diraccolta delle drupe:

I epoca 1-15 Novembre,

II epoca 16-30 Novembre,

III epoca 1-15 Dicembre.

I risultati dei primi anni di rilievi hanno consentitosuccessivamente di ignorare gli oli prodotti daraccolte tardive.

Page 64: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

64

La zonizzazione

Zona Nord (N) province di Massa Carrara,Pistoia, Lucca e Pisa

Zona Est (E)entroterra grossetano eprovince di Firenze, Arezzo eSiena

Zona Ovest (W)Livorno e parte sud-orientaledella provincia di Grosseto

Questa zonizzazione deriva da una valutazione dei

risultati ottenuti dal primo biennio di ricerche, in

termini di analisi dei raggruppamenti (cluster

analysis).

Page 65: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

65

Variabili di analisi ottenute: 80

Page 66: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

66

Analisi chimiche e sensoriali e variabili di analisiderivate

METODI UFFICIALI

Acidità liberaNumero di perossidiEsame spettrofotometrico nell'ultravioletto

(misure dei coefficienti di estinzione UV a 232, 262, 266, 268, 270, 274 nm, e determinazione del Delta-K)

Composizione acidica(Acidi palmitico, palmitoleico, eptadecanoico, eptadecenoico, stearico, oleico, linoleico, linolenico,arachico, eicosenoico)

alcoli alifatici (Docosanolo, Tetracosanolo, Esacosanolo, Octacosanolo)

dialcoli triterpenici (Eritrodiolo ed Uvaolo)

steroli(Colesterolo, Campesterolo, Stigmasterolo, Delta7-campesterolo, Clerosterolo, Betasitosterolo, Delta5-avenasterolo, Delta5-24-stigmastadienolo, Delta7-stigmasterolo, Delta7-avenasterolo)

1.ESTENSIONE METODI UFFICIALI (Modi et al. 1991)

alcoli diterpenici (Fitolo)

alcoli triterpenici (Cicloartenolo e 24-Metilen-Cicloartanolo)

metilsteroli (Citrostadienolo)

idrocarburi poliinsaturi (Squalene)

TocoferoliComposti minori polariMetodo COI [RIPRESO DALL'ALLEGATO XII DEL REG. (CEE) N. 2568/91 E

SUCCESSIVE MODIFICAZIONI] (Fruttato, Mela, Altra Frutta Matura, Verde(Foglia, Erba) Amaro,Piccante, Dolce, Attr. Tollerabili, Agro/Avv./Inac./Ac., Grossolano, Metallico, Muffa/Umidità, Morchia,Riscaldo, Rancido, Attr. Intollerabili, Voto attribuito, Voto calcolato)

Page 67: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

67

Tipologia di elaborazione statistica: calcolo di

Modelli di classificazione

OBIETTIVI SPECIFICI Procedure

Problematiche

CLASSIFICAZIONE DI OSSERVAZIONI

Analisi discriminante p.d.

RIDUZIONE DELLA DIMENSIONALITÀ

Estrazione di Variabili CanonicheMetodi step-wiseAnalisi di regressione logisticaAnalisi di regressione lineareAnalisi della varianza

Validazione (cross-validazione “Leaving one out")

Valutazione dell'efficacia discriminatoria

Page 68: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

68

Valutazione dell'efficacia discriminatoria

STRUMENTI

quantità degli errori di attribuzione

qualità degli errori stessi (matrice di rischio, soglie di probabilità

minima di attribuzione)

dispersione degli errori di attribuzione per classe

La valutazione di un modello diventa problematica quando è necessario

controllare più fonti di variazione, ad una sola delle quali agganciare il criterio di

classificazione, come nel caso di modelli che tengano conto della necessità

metodologica di prendere in considerazione il problema della variabilità annuale.

Page 69: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

69

La situazione eco-climatica della Toscana e

della sua olivicoltura:

Rende particolarmente critiche alcune problematiche

metodologiche (comunque sempre presenti)

La Toscana appartiene al confine Nord dell'areale di

coltivazione dell'Olea europaea.La sua olivicoltura vive questa condizione di bordo

Leggeri cambiamenti nella posizione geografica, e/o nell’andamento

climatico possono risolversi in effetti notevoli sulla qualità e quantità

della produzione oleicola locale

La Toscana è inoltre caratterizzata da una grande

variabilità eco-climatica.

Page 70: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

70

Condizioni di bordo (rispetto alla coltura)

Variabilità annuale

Interazioni

Implicano

Risposta non facilmente prevedibile dei parametri

qualitativi

Difficoltà nella formulazione di modelli dal buon

potere predittivo

Page 71: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

71

Obiettivo: Gestione della variabilità annuale rispetto alladefinizione dei modelli

Strumenti e metodologiamodelli di regressione lineare e modelli di regressione logistica

calcolati entro gli anni per la valutazione di coerenza, efficacia, significatività eutilizzazione dei risultati per la selezione delle variabili.

standardizzazione entro gli anni e rispetto a classi di riferimento, delle variabiliselezionate ed utilizzazione dei dati così trasformati.

Beneficicostanza nelle risposte e conseguenteaffidabilità dei modelli

Costirinuncia agli automatismi disponibili enecessità di mettere a punto metodi di selezione ad hocincremento dei tempi di calcolo

perdita (apparente) di efficacia ed efficienza (ridimensionamento dell’”euforiachemiometrica”)

perdita iniziale di gradi di libertàAzioni per minimizzare i costi

messa a punto di nuovi automatismidefinizione di altri parametri di valutazionemessa a punto di metodi per recuperare gradi di libertà (3).

Page 72: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

72

CLASSIFICAZIONE PER EPOCA DI RACCOLTAModelli triennali di regressione lineare semplice calcolati su variabiliselezionate.

Le stime si riferiscono alle trasformate logaritmiche delle determinazionianalitiche, standardizzate per anno.

C16:0 = Acido palmitico,

T.MPC = Componenti Minori Polari Totali,

T.TP= Tocoferoli Totali

Per. = Periodo di raccolta

Interc. = Intercetta

Parameter Standard T for H0: Variable DF Estimate Error Par.=0 Prob>|T|

C16:0 (pct chrom. area) Interc. 1 0.622128 0.16535185 3.762 0.0002 Per. 1 -0.319141 0.08387836 -3.805 0.0002

T.MPC (mg/kg) Interc. 1 1.057016 0.14668188 7.206 0.0001 Per. 1 -0.573239 0.07440760 -7.704 0.0001

T.TP (mg/kg)

Interc. 1 1.017022 0.14581476 6.975 0.0001

Per. 1 -0.536551 0.07396774 -7.254 0.0001

Page 73: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

73

CLASSIFICAZIONE PER EPOCA DI RACCOLTAModello triennale multivariato di classificazione

calcolato su variabili selezionate.

Per. = Periodo di raccolta (classi: 1, 2, 3) [Dia 3]

C16:0 = Acido palmitico,

T.MPC = Componenti Minori Polari Totali,

T.TP = Tocoferoli Totali

T2var: ottenuta per arrotondamento alla 2a cifra decimale

dei coefficienti della 1a variabile canonica [Dia 4]

Autovalore della 1a variabile canonica estratta:= 99.6%

T2var = 0.78*(T.MPC) + 0.62*(T.TP) + 0.41*(C16:0). Questa combinazione lineare si riferisce alletrasformate logaritmiche delle determinazioni analitichestandardizzate per anno.

Funzione discriminante lineare (LDF)Per. 1 2 3 CONSTANT -0.30365 -0.03854 -0.47977T2var 0.78094 -0.27823 -0.98162

Medie delle classi e valori di bordo tra le classi dellaLDF

(arrotondate alla 2a cifra decimale)

Per. 1 1|2 2 2|3 3 Media 0.78 -0.28-0.98Varian. 0.95 0.511.58

Page 74: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

74

CLASSIFICAZIONE PER EPOCA DI RACCOLTAModello triennale di classificazione calcolato su

variabili selezionate.

Classificazione cross-validata secondo la LDF calcolata

su T2var. [Dia 5]

Le percentuali di attribuzioni corrette sono

sottolineate.

N. e percentuali di osservazioni classificate nel

Per.:

1 2 3

Tot.

Dal Per.

1 90 20 11

121

74.38 16.53 9.09

100.00

2 13 29 15

57

22.81 50.88 26.32

100.00

3 8 13 37

58

13.79 22.41 63.79

Page 75: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

75

Page 76: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

76

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEModelli univariati ANOVA

Effetto Annosignificativo o altamente

significativoin quasi tutti i modelli ANOVA

Eccezioni:

Delta-7-Stigmasterolo:nessuna fonte di variazione risultasignificativa(risulta presente in piccoli quantitativi)

Cicloartenolo e Stigmasterolo:effetto anno non significativoeffetto zona altamente significativo

Page 77: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

77

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEModelli di classificazione annuali,calcolati per coppie di zone, basati sufunzioni discriminanti lineari univariate

Variabili selezionate

E vs W:

acidi palmitico, palmitoleico edoleico, Tetracosanolo, Esacosanolo,Tirosolo (trasformata logaritmica)

N vs W

acidi palmitoleico ed oleico

N vs E

"Fruttato" , Fitolo, Squalene, Beta-Sitosterolo e Delta-5-Avenasterolo

Page 78: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

78

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEErrori percentuali di classificazione dei modelli annuali cross-validati, calcolati per coppie di zone, basati su LDF univariate.

Le percentuali tabulate si riferiscono alle osservazioni provenienti dalle zone elencate nella II colonna.

I dati relativi alla stagione 1991/ 92 (Anno=91, V colonna), non sono stati inclusi nei calcoli delle medie (VIII colonna) e delle

deviazioni standard (IX colonna).---------I-------------+--II--+--III-+--IV--+---V--+--VI--+--VII-++--VIII--+---IX---+

-----------------------+------+------+------+------+------+------++--------+--------+

Variabile di analisi | Zona | || Media | Dev. |

| | Anno || | Stand. |

| | 89 | 90 | 91 | 92 | 93 || | |

-----------------------+------+------+------+------+------+------++--------+--------+

-------- E vs. W ------|

Acido palmitico | E | 14.9 | 18.9 | 16.7 | 14.7 | 23.5 || 18.0 | 4.1 |

| W | 0.0 | 0.0 | 25.0 | 20.0 | 12.5 || 8.1 | 9.9 |

Acido palmitoleico | E | 28.6 | 13.5 | 23.3 | 26.5 | 17.7 || 21.6 | 7.2 |

| W | 50.0 | 16.7 | 50.0 | 20.0 | 37.5 || 31.1 | 15.6 |

Acido oleico | E | 14.3 | 18.9 | 20.0 | 2.9 | 17.7 || 13.5 | 7.3 |

| W | 25.0 | 16.7 | 50.0 | 20.0 | 0.0 || 15.4 | 10.8 |

Tetracosanolo | E | 14.3 | 27.0 | 36.7 | 23.5 | 11.8 || 19.2 | 7.3 |

| W | 25.0 | 50.0 | 37.5 | 20.0 | 37.5 || 33.1 | 13.4 |

Esacosanolo | E | 42.9 | 35.1 | 50.0 | 35.3 | 17.7 || 32.8 | 10.7 |

| W | 25.0 | 50.0 | 37.5 | 40.0 | 37.5 || 38.1 | 10.3 |

Tirosolo (Log. trasf.) | E | 14.3 | 50.0 | 43.3 | 32.3 | 35.3 || 33.0 | 14.7 |

| W | 50.0 | 33.3 | 37.5 | 0.0 | 50.0 || 33.3 | 23.6 |

-------- N vs. W ------|

Acido palmitoleico | N | 16.7 | 28.6 | | 25.0 | 40.0 || 27.6 | 9.7 |

| W | 50.0 | 33.3 | | 20.0 | 50.0 || 38.3 | 14.5 |

Acido oleico | N | 50.0 | 57.1 | | 0.0 | 40.0 || 36.8 | 25.5 |

| W | 25.0 | 16.7 | | 20.0 | 12.5 || 18.6 | 5.3 |

-------- E vs. N ------|

Fruttato | E | 28.6 | 22.2 | | 32.4 | 35.3 || 29.6 | 5.7 |

| N | 50.0 | 42.9 | | 25.0 | 20.0 || 34.5 | 14.3 |

Voto calcolato | E | 14.3 | 30.6 | | 26.5 | 17.7 || 22.3 | 7.6 |

| N | 33.3 | 42.9 | | 50.0 | 20.0 || 36.6 | 13 0 |

Fitolo | E | 42.9 | 5.4 | | 35.3 | 17.7 || 25.3 | 17.0 |

| N | 20.0 | 14.3 | | 0.0 | 20.0 || 13.6 | 9.4 |

Beta-Sitosterolo | E | 42.9 | 37.8 | | 20.6 | 35.3 || 34.2 | 9.6 |

| N | 40.0 | 14.3 | | 50.0 | 40.0 || 36.1 | 15.3 |

Delta-5-avenasterolo | E | 42.9 | 37.9 | | 17.7 | 35.3 || 33.5 | 11.0 |

| N | 40.0 | 42.9 | | 50.0 | 20.0 || 38.2 | 12.9 |

Squalene | E | 57.1 | 13.5 | | 35.3 | 35.3 || 35.3 | 17.9 |

| N | 20.0 | 28.6 | | 25.0 | 20.0 || 23.4 | 4.2 |

Page 79: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

79

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEModelli di classificazione quadriennali, calcolati percoppie di zone, basati su funzioni discriminantilineari univariate

Variabili selezionate

W vs N

Cicloartenoloattribuzioni erronee: 38% da N e 39% da W

E vs N

Cicloartenoloattribuzioni erronee: 29% da N e 26% da E

Page 80: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

80

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEConsiderazioni sulla variabilità annuale 1

Casi esemplificativi

Acido Palmitico[grafico 9]

Risultano sempre vere le relazioni tra le medie:E<W (e N<W).

Eppure la media della zona E relativa all'anno1990/91 è maggiore della media della zona Wdell'anno successivo.

Acido Palmitoleico[grafico 10]

Risultano sempre vere le relazioni tra le medie:N<W e E<W.

Eppure la media della zona N relativa all'anno1990/91 è maggiore delle medie della zona Wdegli anni 1991/92 e 1992/93.

Page 81: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

81

Page 82: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

82

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINE

Errori percentuali di classificazione per zona o per anno dei migliori modelli

Prima SecondaTerza Quarta Quinta Sesta Settima Zone Anni

Variabile Variabile Variabile Variabile Variabile Variabile Variabile E N W Tot. 89 90 91 92 93

di analisi di analisi di analisi di analisi di analisi di analisi di analisi

Fitolo 19 62 43 41 56 46 44 15 38

Fitolo Cicloart. 19 43 48 36 53 39 41 27 30

Fitolo Squalene 23 38 52 38 36 37 46 32 40

Fitolo Palmitic.Cicloart. 22 38 39 33 44 26 35 23 38

Fitolo Palmitic.Tetracos.Cicloart. 18 33 39 30 44 31 38 10 38

Fitolo Palmitic.Palmitol.Cicloart.Squalene 24 43 35 34 40 22 38 22 43

Fitolo Palmitic Tetracos.Cicloart.Squalene 20 43 39 34 40 32 35 21 45

Fitolo Palmitic Palmitol.Oleico Tetracos.Squalene 27 38 43 36 36 18 38 27 43

Fitolo Palmitic Palmitol.Oleico Tetracos.SqualeneCicloart. 24 43 43 37 41 28 41 22 33

quadriennali, multivariati, cross-validati, calcolati per terne di zone su variabili standardizzateannualmente rispetto alla zona Est (eccetto il Cicloartenolo).

I dati dell'anno 1991/92 sono usati come sottoinsieme-test.

Sono sottolineati gli errori >45% e gli errori >50%.

Page 83: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

83

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEFunzione discriminante lineare del modello multivariatoquadriennale di classificazione per zona comprendente levariabili: Fitolo, Acido palmitico, Tetracosanolo, Cicloartenolo.Variabili standardizzate annualmente rispetto alla zona Est,eccetto il Cicloartenolo.

Zona E N W

CONSTANT -12.76260 -7.59981 -11.09198

Fitolo (mg/kg) 0.12775 0.25739 0.29154

Acido palmitico (% chrom. area) -1.15294 -1.02032 0.05379

Tetracosanolo (% chrom. area) -0.07990 -0.01367 0.12611

Cicloartenolo (% chrom. area) 0.68900 0.51221 0.57362

Page 84: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

84

Discriminant Analysis Classification Summary for Calibration Data:WORK.AR8893ST

Cross-validation Summary using Linear Discriminant Function

Number of Observations and Percent Classified into ZONA:

From ZONA E N W Total

E 78 13 4 95 82.11 13.68 4.21 100.00

N 3 14 4 21 14.29 66.67 19.05 100.00

W 3 6 14 23 13.04 26.09 60.87 100.00

Total 84 33 22 139 Percent 60.43 23.74 15.83 100.00

Priors 0.3333 0.3333 0.3333

Error Count Estimates for ZONA:

E N W Total

Rate 0.1789 0.3333 0.3913 0.3012

Priors 0.3333 0.3333 0.3333

Page 85: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

85

Page 86: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

86

Canonical Discriminant Analysis

Test of H0: The canonical correlations in the Eigenvalues of INV(E)*H current row and all that follow are zero Adjusted Approx Squared = CanRsq/(1-CanRsq) Canonical Canonical Standard Canonical Likelihood Correlation Correlation Error Correlation Eigenvalue Difference Proportion Cumulative Ratio Approx F Num DF Den DF Pr > F

1 0.668936 0.657014 0.047034 0.447475 0.8099 0.6663 0.8494 0.8494 0.48314290 14.5859 8 266 0.0001 2 0.354362 0.341458 0.074436 0.125572 0.1436 . 0.1506 1.0000 0.87442754 6.4144 3 134 0.0004

Raw Canonical Coefficients

CAN1 CAN2

C160STD 0.4391208567 0.5502662114C24STD 0.0818345613 0.0556185746FITOLSTD 0.0771891310 -.0234541082ALTR1 -.0678391826 0.0916661908 Cycloartenol (% chrom. area)

Class Means on Canonical Variables

ZONA CAN1 CAN2

E -0.584460201 0.067124078N 0.826217880 -0.817597565W 1.659701896 0.469250499

Page 87: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

87

LDA on the first canonical variablemethod=normal pool=yes

ZONA

E N W

CONSTANT -0.17080 -0.34132 -1.37731CAN1 -0.58446 0.82622 1.65970

Discriminant Analysis Classification Summary for Calibration Data: WCT.CDA_O

Cross-validation Summary using Linear Discriminant Function

Number of Observations and Percent Classified intoZONA:

From ZONA E N W Total

E 77 14 4 95 81.05 14.74 4.21 100.00

N 4 11 6 21 19.05 52.38 28.57 100.00

W 3 9 11 23 13.04 39.13 47.83 100.00

Total 84 34 21 139 Percent 60.43 24.46 15.11 100.00

Priors 0.3333 0.3333 0.3333

Error Count Estimates for ZONA:

E N W Total

Rate 0.1895 0.4762 0.5217 0.3958

Page 88: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

88

LDA on the second canonical variablemethod=normal pool=yes

Discriminant Analysis Classification Summary for Calibration Data: WCT.CDA_O

Cross-validation Summary using Linear Discriminant Function

Number of Observations and Percent Classified into ZONA:

From ZONA E N W Total

E 21 35 39 95 22.11 36.84 41.05 100.00

N 5 14 2 21 23.81 66.67 9.52 100.00

W 8 3 12 23 34.78 13.04 52.17 100.00

Total 34 52 53 139 Percent 24.46 37.41 38.13 100.00

Priors 0.3333 0.3333 0.3333

Error Count Estimates for ZONA:

E N W Total

Rate 0.7789 0.3333 0.4783 0.5302

Priors 0.3333 0.3333 0.3333

Page 89: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

89

CLASSIFICAZIONE IN BASE ALLA ZONA DI ORIGINEConsiderazioni sulla variabilità annuale 2Gruppi di variabili selezionate per costituiremodelli multivariati di classificazione per zona

N vs W vs E

Fitolo, Acido Palmitico, e Cicloartenolo(errore totale 33%)

Fitolo, Acido Palmitico, Tetracosanolo eCicloartenolo (errore totale 30%)

Collaudo su campagna oleicola 1997/98: notevoledegrado di prestazioni:

errore totale

Modello a 3 variabili 48%.Modello a 4 variabili 52%

Page 90: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

90

Motividei resultati 1997/98

I contenuti medi di Acido palmitico

[grafico 9] e Tetracosanolo [grafico 12]

delle zone E ed W sono risultati

particolarmente vicini nell'annata

1997/98, così come i contenuti medi

di Fitolo [grafico 15] delle zone E e N.

Page 91: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

91

Modello lineare

Applicazioni

3.23.2

Page 92: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

92

996 osservazioni utili fino alla campagna 1999/2000.

Anni: 1988/89 - 1993/94triennio di interruzione1997/98 - 1999/2000

Epoche di raccolta:I epoca corrispondente alla prima meta' di Novembre,II epoca corrispondente alla seconda meta' di Novembre,III epoca corrispondente alla prima meta' di Dicembre.Dalla campagna 1997/98 e' stato comunque privilegiato lo studio degli oli di prima epoca

Origine geografica:Zona Nord (Massa Carrara, Pistoia, Lucca e Pisa)Zona Est (entroterra grossetano e le province di Firenze, Arezzo e Siena)Zona Ovest (provincia di Livorno e parte sud-orientale della provincia di Grosseto).

Parametri tecnologici: "T", "C"

Collettivo statistico di riferimento: Campione casuale estratto dall’insieme deglioleifici operanti in Toscana (Strumento: censimento e catalogazione dell'amministrazione

regionale)..

Page 93: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

93

L'influenza delle fonti di variazione nel loro insieme viene valutata

mediante modelli univariati plurifattoriali di analisi della varianza (ANOVA),

a quattro vie (4W) ed a tre vie (3W).

I modelli 3W sono calcolati entro la prima epoca di raccolta.

L'influenza dell'epoca di raccolta viene analizzata anche ricorrendo a

modelli di regressione lineare

modelli di analisi dell'eterogeneita' delle pendenze

Le differenze tra le medie vengono valutate attraverso i test multipli

secondo Bonferroni.

Page 94: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

94

Anche tenendo conto della variabilita' attribuibile:all'epoca di raccolta,alla tecnologia di lavorazione,alla zona di coltivazione,

l'effetto dell'annata siconferma decisivo e

generalizzato

Page 95: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

95

ECCEZIONI

(non risultano associati a significativita' superiori al 95%, perl'effetto-anno, nell’ANOVA a 4W e a 3W)

acidita' libera (4w)coefficiente di estinzione a 232 nm (4W)contenuti relativi di cicloartenolocontenuti relativi di 24-metilen-cicloartanolocontenuto totale assoluto in alcoli triterpenici (4W)contenuti relativi di alcuni steroli presenti in piccoli quantitativi(stigmasterolo, delta-7-campesterolo, clerosterolo, delta-7-stigmasterolo [1 anno 3W]) (4W)quantitativo assoluto totale in componenti minori polari (4W)[1 anno 3W]attributi organolettici

Page 96: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

96

Significatività Zona di coltivazione

ANOVA 4W

acidita' libera (Grafico 1)composizione acidicacomposizione alcolicacomponenti minori polari totali (Grafico 2)

"Mela""Dolce" (Grafico 3)

Page 97: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

97

Page 98: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

98

Page 99: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

99

Significatività Zona di coltivazione

ANOVA 3W

Analizzando i dati entro la prima epoca di raccolta si hauna maggiore differenziazione tra le zone, che coinvolgequasi tutte le variabili con poche eccezioni, alcune delle qualisono in realtà eccellenti marcatori territoriali, perchéeccezionalmente stabili rispetto alle variazioni annuali(cicloartenolo e polifenoli totali).

Page 100: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

100

Significatività dell'epoca diraccolta - (ANOVA 3W)

Aumentanonumero di perossidi (Grafico 4)difetto di "Muffa" [OMOGENEO] (Grafico 5)Diminuisconodelta-7-avenasterolo [OMOGENEO] (Grafico 6)

Abbassando la soglia di significativita' al 90%Diminuiscono

Voto [OMOGENEO] (Grafico 20 **22**)Fruttato (Grafico 23 **19**)Amaro (Grafico 25 **20**)Piccante (Grafico 26 **21**)

Page 101: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

101

Page 102: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

102

Significatività della tecnologia di estrazione

Parametri chimici rilevanti (quantitativi assoluti e loro differenze)

Linea continua (ANOVA 4W e 3W):contenuti assoluti superiori di alcoli alifatici totali (Grafico 7)

Linea tradizionale (ANOVA 4W):contenuti assoluti leggermente superiori di steroli totali (Grafico 8)

Profilo sensoriale (ANOVA 4W)

quasi tutti gli attributi eccezioni:

"Mela""Altra frutta matura”

Page 103: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

103

Differenze tra zone di coltivazione(approfondimento ANOVA 3W, 4W, Bonferroni)

3 zoneacido palmitico (Grafico 9)acido palmitoleico (Grafico 10)polifenoli totali (Grafico 2)

zona Ovest acido oleico (Grafico 11) livelli minimitetracosanolo (Grafico 13) livelli massimiacido linoleico (Grafico 16) livelli massimioctacosanolo (Grafico 17) livelli minimi

zona Nordcicloartenolo (Grafico 15) livelli minimicitrostadienolo (Grafico 18) livelli massimi (3W)

zona Estfitolo (Grafico 12) livelli minimiVoto e Fruttato livelli massimiacidita' libera (Grafico 1) livelli minimialcoli alifatici totali (Grafico 7) livelli minimisteroli totali livelli minimi

Page 104: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

104

L'effetto-anno(approfondimento)

delta-7-stigmasterolopolifenoli totali

significativita’ superiore al 95% nell’ANOVAentro la prima epoca di raccolta

maun solo anno "deviante"

Possono quindi essere considerati stabili rispetto allavariabilita’ annuale

Page 105: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

105

Gli effetti anno ed e.d.r(approfondimento)

L'effetto dell'anno risulta generalmentesignificativo o altamente significativo siain termini di differenze fra gli anni che di influenza sugli andamenti frale epoche entro ciascun anno.

Si assiste cioe' a modifiche sostanziali,passando da un anno all'altro, dellarisposta alle variazioni dell'epoca diraccolta dei parametri chemioanalitici esensoriali considerati.

Page 106: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

106

L'effetto-epoca di raccolta(approfondimento 1 - modelli di regressione significativi)

Aumentanonumero di perossidi [V.S.>10% ] (Grafico 4)difetto di "Muffa" [OMOGENEO] (Grafico 5)Diminuisconodelta-7-avenasterolo [OMOGENEO] (Grafico 6)

Abbassando la soglia di significativita' al 90% (ANOVA 3W)

DiminuisconoVoto [OMOGENEO] (Grafico 20 **22**)Fruttato [V.S.>10% ] (Grafico 23 **19**)Amaro [V.S.>10% ] (Grafico 25 **20**)Piccante [V.S.>10% ] (Grafico 26 **21**)

(V.S.=Varianza Spiegata dal modello)

Page 107: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

107

L'effetto-epoca di raccolta(approfondimento 2 - modelli di regressione significativi)

Diminuiscono con significatività<90% (ANOVA 3W)

ma [V.S.>10% ] Palmitico (Grafico 9)Polifenoli [OMOGENEO] (Grafico 2)Alfa-tocoferolo (Grafico 21 **23**)Tocoferoli tot. (Grafico 22 **24**)Verde (Grafico 24 **25**)

I componenti minori polari diminuiscono inmedia di circa 100 mg/ kg dalla prima allaterza epoca. Contestualmente si perdono inmedia 70 mg/ kg di tocoferoli.

Page 108: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

108

Page 109: 1. 2 1.1 3 4 annata 5 6 7 8 9 Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta.

109