Post on 02-May-2015
Il numero di cifre significative è il numero minore di cifre necessarie per esprimere una quantità con la precisione richiesta
Il numero di cifre significative indica la precisione dell’esperimento
CIFRE SIGNIFICATIVE
Statistica: concetti base
In pratica come cifre significative si indicano tutte le cifre certe più la prima incerta
278.4; 27.84·101; 2.784·102; 2784·10-1
Quattro cifre significative:
Quattro cifre significative:
Cinque cifre significative:
2.7840·10-3
3.604·10-3; 0.003604
CALCOLI
Addizione e sottrazione:il risultato finale non può avere più cifre significative, dopo la virgola decimale, dei dati con il minor numero di cifre significative dopo la virgola decimale:
Moltiplicazione e divisione:il risultato finale non può avere più cifre significative di quante ne abbia il dato con il minor numero di cifre significative:
73.24 x 4.52 = 331.0448 331
1648 / 0.023 = 71652.17... 72·103
Logaritmi ed esponentiIl numero di cifre significative dell’argomento deve essere pari a quello della mantissa:
log 236 = 2.373
3.246 + 2.311 = 5.557; 3.24 + 2.311 = 5.551 5.55
Dati Codificati
CODIFICA
Una semplice operazione matematica che consente di semplificare i calcoli statistici
Moltiplicazione/Divisione
0.51, 0.52, 0.47, 0.50,… 51, 52, 47, 50, …..X 100
1.08, 1.10, 1.03, 1.05 8, 10, 3, 5, …..-1, X 100
Addizione / Sottrazione
TIPI DI ERRORE
GROSSOLANI SISTEMATICI CASUALI
accuratezza
prossimità al valore vero
precisione
dispersione dei dati ottenuti intorno al valore medio
Errori casuali e sistematiciStudente Risultato Commento (ml)
10.0810.11
A 10.09 Preciso10.10 Inaccurato10.12
9.88 10.14
B 10.02 Accurato 9.80 Impreciso10.21
10.19 9.79
C 9.69 Inaccurato10.05 Impreciso 9.78
10.04 9.98
D 10.02 Accurato 9.97 Preciso10.04
JC Miller, JN Miller; Statistics for analytical chemistryEllis Horwood, 1988,
REGOLE PER L’ARROTONDAMENTO
1. Eliminare le cifre tutte insieme2. Se la prime cifra da eliminare è minore di cinque, l’ultima cifra significativa non
cambia3. Se la prime cifra da eliminare è maggiore di cinque, l’ultima cifra significativa si
aumenta di uno
4. Se la prima cifra da eliminare è cinque e le altre sono zeri:se l’ultima cifra significativa è pari, questa rimane invariatase l’ultima cifra significativa è dispari, questa viene aumentata di
uno
1.5 2
12.25
103.75
12.2
103.8
ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI
Esempio: il classico lancio del dado
Un insieme di 35 dati
Si tratta di una VARIABILE DISCRETA: può assumere solo determinati valori
DISTRIBUZIONE DI FREQUENZA
Una prima classificazione dell’informazione è effettuata impiegando le distribuzioni di frequenza
modalità
Numero di volte in cui la modalità compare in una serie statistica
Rapporto fra effettivo della modalità e effettivo della serie statistica
Rappresentazione dei dati
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Distribuzione della FREQUENZA CUMULATA dei punteggi ottenuti in 35 lanci di un dado
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
In presenza di VARIABILI CONTINUE è necessario suddividere il campo di variazioni in classi
Ogni classe è delimitata da LIMITI DI CLASSE che ne definiscono l’INTERVALLO
Il valore assoluto della differenza dei limiti definisce l’ AMPIEZZA della classe
La media aritmetica dei due limiti definisce il CENTRO della classe
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Esempio: determinazione di ione nitrato in acqua
Un insieme di 50 dati
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
La definizione dell’ampiezza dell’intervallo della classe deve essere scelto in modo da ottenere una rappresentazione
che non abbia troppo o troppo poco dettaglio
Gli intervalli delle classi devono avere tutti la stessa ampiezza
La pratica porta a consigliare l’impiego di un numero di classi variabile da 5 a 25 e, indicativamente, pari alla radice
quadrata del numero di dati
Nell’esempio dei dati del nitrato l’intervallo della serie è 0.53 – 0.46 = 0.07
Il numero di dati è 50 Il numero di classi che si potrebbero scegliere è sette
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Guardando però la struttura dei dati si vede che per avere intervalli di classe identici
conviene suddividere la serie in otto classi
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Questa suddivisione porta alla seguente rappresentazione grafica
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Riduciamo a quattro il numero di classi, in modo da mantenere costante il valore
dell’intervallo di classe
Questa suddivisione porta alla seguente rappresentazione grafica
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Riduciamo a due sole classi
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
La CURVA DELLE FREQUENZE CUMULATE viene costruita riportando sull’asse delle ascisse il limite inferiore della prima classe e quello superiore della prima classe e di quelle successive. L’ordinata è la frequenza cumulata
Rappresentazione dei datiVALORI CARATTERISTICI
È possibile rappresentare una serie di dati in modo sintetico attraverso l’uso di indicatori di posizione
La distribuzione dei dati può assumere diverse forme, riconducibili ad una forma “a campana” caratterizzate da tre parametri principali
LOCALIZZAZIONE DELLA SERIE DI DATI
DISPERSIONE DELLA SERIE DI DATI
FORMA DELLA SERIE DI DATI
Rappresentazione dei datiMedia, Mediana e Percentili
MEDIA ARITMETICA
n
xx i
i
Somma dei valori divisa per l’effettivo della serie
50.050
49.051.051.0
x
Media
La media aritmetica è uno dei più usati fra i valori caratteristici di tendenza centrale
La media aritmetica di una serie di dati si ottiene dividendo la somma di tutti i valori della serie per il numero dei dati della serie
2 37 1 6 11 45 5 15
Sergio Zappoli:Sergio Zappoli:Sergio Zappoli:Sergio Zappoli:
Sergio Zappoli:Sergio Zappoli:Media, mediana e percentili
Mediana
La mediana è quel valore della variabile statistica tale per cui la metà dei valori osservati presenta un valore inferiore e l’altra metà un valore superiore
La mediana, a differenza della media, è meno sensibile ai valori estremi della serie di dati e, talvolta, rappresenta meglio le condizioni “medie” di un sistema
Media, mediana e percentili
Mediana
Per calcolare la mediana si deve innanzitutto ordinare in senso crescente i valori osservati:
1 2 5 6 11 37 452 37 1 6 11 45 5
Media, mediana e percentili
Mediana
1 2 5 6 11 37 45
Se il numero di osservazioni è dispari, la mediana è il valore dell’elemento che divide la serie in due gruppi
Se il numero di osservazioni è pari, si individua un intervallo mediano. La mediana è la media aritmetica fra i due valori delimitanti tale intervallo
1 2 5 6 11 37
5.5
Media, mediana e percentili
Quantili
I quantili (o percentili) sono parametri di posizione che dividono una serie di dati in gruppi.
La mediana è quel particolare quantile che divide la serie dei dati in due parti di uguale dimensione.
Il quantile di ordine 0.98, o 98° percentile, divide la serie di dati in due parti: il 98% dei dati ha valore inferiore al quantile dato
Media, mediana e percentili
Quantili
Le procedure di calcolo dei percentili sono simili a quelle per il calcolo della mediana.
Una misura più accurata del valore della mediana o dei percentile si ottiene per interpolazione.
Media, mediana e percentili
Esempio
Consideriamo una serie di 72 misure di SO2 (µg/m3) in atmosfera
26/07/99 31/07/99 16/08/99Ora1 12.6 12.6 14.9Ora2 12.6 12.6 13.8Ora3 12.6 11.5 13.8Ora4 11.5 12.6 11.5Ora5 10.3 11.5 10.3Ora6 12.6 11.5 12.6Ora7 12.6 11.5 12.6Ora8 14.9 11.5 12.6Ora9 16.1 16.1 13.8Ora10 14.9 17.2 12.6Ora11 24.2 16.1 13.8Ora12 20.7 13.8 13.8
26/07/99 31/07/99 16/08/99Ora13 12.6 12.6 13.8Ora14 12.6 13.8 11.5Ora15 11.5 14.9 11.5Ora16 10.3 12.6 11.5Ora17 10.3 13.8 14.9Ora18 10.3 11.5 14.9Ora19 11.5 10.3 16.1Ora20 10.3 9.1 14.9Ora21 12.6 11.5 13.8Ora22 14.9 12.6 11.5Ora23 14.9 11.5 11.5Ora24 12.6 11.5 11.5
Media, mediana e percentili
9.1; 10.3; 10.3; 10.3; 10.3; 10.3; 10.3; 10.3; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 16.1; 16.1; 16.1; 16.1; 17.2; 20.7; 24.2
Esempio
Ordiniamo la serie di dati in senso crescente
72 x 0,98 = 70.56 71
Senza l’applicazione dell’interpolazione il 98° percentile è 20.7
Media, mediana e percentili
Esempio Media, mediana e percentili
In realtà più la serie di dati aumenta più l’assunzione della omogeneità della distribuzione dei dati nella classe diventa realistica
Il 98° percentile è un valore intermedio fra 20.7 e 17.2, calcolato in modo da tenere conto del numero dei valori delle due classi nelle quali sono divisi i dati e dell’ampiezza dell’intervallo nel quale ricade il percentile
Esempio Media, mediana e percentili
L’interpolazione può essere effettuata per via grafica
5
10
15
20
25
30
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
ingrandiamo questa zona, dove è compreso il valore del percentile
Va
lore
pa
ram
etr
o
Evento
Esempio
5
10
15
20
25
30
68 68.5 69 69.5 70 70.5 71 71.5 72
19.2
Media, mediana e percentili
Va
lore
pa
ram
etr
o
Evento
Grafico dei dati e dei parametri statistici
Rappresentazione dei datiVALORI CARATTERISTICI DI DISPERSIONE
Campo o Intervallo di variazione
minmax yyw
Nell’esempio dei dati del nitrato il campo di variazione è:
0.07 0.46 – 0.53 w
Nell’esempio dei dati di SO2 campo di variazione è:
15.1 9.1 –2.42 w
Varianza
Consideriamo tre serie di dati di uguale media e numero di datie calcoliamo la somma dei quadrati dei dati
13, 13, 13, 13, 13, 13, 13 13 1183
10, 11, 12, 13, 14, 15, 16 13 1211
8, 9, 10, 13, 16, 17, 18 13 1283
x 2iy
La somma dei quadrati dei dati cresce con la dispersione dei dati
Varianza
Una delle proprietà della media è che la sommatoria degli scarti è uguale a zero
0 yyi
05430345
13-18131713)-(1613-1313-1013-913-8
yyi
Sviluppiamo il quadrato degli scarti:
22222 22 yyyyyyyyyy iii ii
Varianza
22222
22222
2
22
yNyyNyNy
yNyNyyyyyyyy
ii
ii ii
Consideriamo ora che:
; 22 yNyyNyi
222 yNyyy ii
che ci consente la scomposizione della somma dei quadrati dei dati in due termini
Varianza
Vediamo cosa succede applicando la scomposizione ai nostri dati:
1183 100 137545
1183 28 137323
1183 0 137000
22222
22222
22222
i
i
i
y
y
y
Dipende dalla dispersione dei dati
Dipende dalla media
222 yNyyy ii
Varianza
Per normalizzare la misura di dispersione trovata, la sommatoria dei quadrati degli scarti, ne facciamo la media,
dividendo per il numero N dei dati
Tale valore di dispersione si definisce VARIANZA della serie di datie si indica con il termine 2
N
yyi
2
2
Deviazione standard
Nyyi 2
La DEVIAZIONE STANDARD della serie di dati è data dalla radice quadrata della varianza si indica con il termine
Coefficiente di variazione
Il COEFFICIENTE DI VARIAZIONE della serie di dati è un indicatore relativo, ottenuto dal rapporto percentuale fra deviazione standard
e media della serie e si indica con il termine CV
100
yCV
Box & Whisker PlotRappresentazioni grafiche
Box & Whisker Plot per le tre serie di dati
Box & Whisker PlotRappresentazioni grafiche
Box & Whisker Plot per i dati del nitrato
Concentrazione di NO3, g/mL
0 1 2 3 4 5 6 7 8 9
Freq
uenz
a
0
2
4
6
8
10
12
14
Distribuzione dei risultati per la determinazione del NO3
L’insieme di queste 50 misure è detto:
CAMPIONE
è l’insieme di tutte le possibili misure
la POPOLAZIONE
Rappresentazione dei datiDISTRIBUZIONE DI FREQUENZA
La distribuzione normale
La legge di probabilità di Laplace-Gauss, si applica alle variabili statistiche le cui variazioni sono dovute all’azione concomitante di numerose sorgenti di variazione indipendenti fra loro e i cui effetti si sommano senza che nessuno di essi abbia a prevalere
y f xx
exp
2 22
2
MEDIA e laDEVIAZIONE STANDARD
I parametri della distribuzione sono
La distribuzione normale
Una forma particolarmente utile della distribuzione normale è quella nella quale viene introdotta la variabile ridotta Z
XZ
Z ha media pari a zero e deviazione standard pari a uno. In questa distribuzione normale ridotta alla variabile X si sostituiscono gli scarti dalla media.
2
2exp 2zzfy
La distribuzione normale
La funzione di distribuzione permette di
1. determinare la probabilità di ottenere un valore della variabile aleatoria X inferiore od uguale ad un determinato limite x1
2. determinare la probabilità di ottenere un valore della variabile aleatoria X superiore ad un determinato limite x1
3. Calcolare la probabilità di ottenere un valore della variabile aleatoria X compresa fra i limiti x1 e x2
La probabilità cumulata dell’insieme dei valori della distribuzione di probabilità è per definizione pari a 1
DISTRIBUZIONE DI FREQUENZA
Tavole della distribuzione normale ridotta
Quale è la probabilità che un elemento della popolazione sia > 1.96 ?
Ovvero che = P (Z >1.96) ?
0.025
Ovvero il 2.5%
Tavole della distribuzione normale ridotta
La probabiltà trovata sulle tavole è quella segnata in rosso
La distribuzione normale: valori notevoli
5 % di probabilità di avere uno scarto dalla media
superiore a 1.96
1 % di probabilità di avere uno scarto dalla media
superiore a 2.58
Inoltre…
La distribuzione della media e il teorema centrale limite
Se si prendono tutti i possibili campioni, ognuno di dimensione n, da qualsiasi popolazione di media e deviazione standard , la distribuzione delle medie dei campioni avrà media x = e varianza 2
x = 2/n e
sarà distribuita normalmente se lo sarà la distribuzione di origine oppure tenderà ad essere normale per un numero grande di campioni.
Il teorema centrale limite
Popolazione originaria
Po
po
lazi
on
e d
elle
med
ie campioni di dimensione n=2
campioni di dimensione n=4
campioni di dimensione n=25
Il teorema centrale limite
Popolazione originaria
2; 21; 12 ; 34; 35; 5; 9; 12; 23; 3
Media = 15.6 = 132.4
Estrazione (con reimmissione) di campioni di dimensione 2: 100 campioni
Il teorema centrale limite
Dalla popolazione originaria
Il teorema centrale limite
Popolazione campionaria
Media = 15.6s = 66.2
Il teorema centrale limite
Popolazione originaria Media = 15.6 = 132.4
Popolazione campionariaMedia = 15.6s = 66.2
/ s = 132.4 / 66.2 = 2
s /n s /n
n=2 rappresenta la dimensione dei campioni estratti dalla popolazione di origine
ANALISTA #1 #2 #3 #4 #5 mediaA 0.51 0.51 0.49 0.51 0.51 0.506B 0.51 0.52 0.48 0.51 0.50 0.504C 0.51 0.53 0.46 0.51 0.50 0.502D 0.50 0.48 0.49 0.48 0.53 0.496E 0.51 0.49 0.49 0.50 0.52 0.502F 0.49 0.50 0.48 0.47 0.52 0.492H 0.52 0.52 0.49 0.50 0.50 0.506I 0.53 0.49 0.49 0.51 0.50 0.504L 0.50 0.49 0.51 0.49 0.51 0.500M 0.47 0.50 0.47 0.48 0.51 0.486
MEDIA 0.500
La distribuzione di queste medie è detta distribuzione della media campionaria. La media di questa popolazione è la stessa di quella originale e la sua deviazione standard è detta: deviazione standard della media o errore standard della media,
/ ns.e.m. =
Il teorema centrale limite
IL VALORE MEDIO, m, E’ UNA STIMA DEL VALORE VERO,
SI DEVE DEFINIRE UN INTERVALLO ALL’INTERNO DEL QUALE SI POSSA ASSUMERE CHE GIACCIA IL VALORE VERO
TALE INTERVALLO E’ DETTO INTERVALLO DI CONFIDENZA
I SUOI LIMITI SONO DETTI: LIMITI DI CONFIDENZA
nzmnzm //
Confidenza
INTRODURRE LA SPIEGAZIONE DELLA SCELTA DELL’INTERVALLO E DEL VALORE DI Z
Coefficienti per il calcolo dei limiti di confidenza ( N>30)P% 90 95 98 99
z 1.645 1.960 2.326 2.576
Confidenza
5.0,5.0
12
12
B
yx
xf
Teoria dei piccoli campioni
La distribuzione t di Student
dtttB 1
0
11 1),(
Dove B è la funzione beta data da:
La distribuzione t di Student
La distribuzione t di Student
m t s n/
Più la popolazione si riduce più l’incertezza introdotta usando s per stimare aumenta, allora:
dove il valore di t dipende:
1) dal numero di gradi di libertà
2) dal livello di confidenza voluto
La distribuzione t di Student
Limiti di confidenza: esempio
Sette misure di pH:
5.12; 5.20; 5.15; 5.17; 5.16; 5.19; 5.15
Media: 5.163 2: 0.0269
Gradi di liberta: 7-1 = 6
Calcolo del limite di confidenza per P=0.95 (=0.05)
=0.025 quindi si cerca il valore di t per P = 0.0975 e DF = 6
Calcolo del limite di confidenza per P=0.99 (=0.01)
=0.005 quindi si cerca il valore di t per P = 0.995 e DF = 6
t = 2.447
t = 3.707
sem: 0.0102
pH = 5.163 ± 2.447·0.0102 = 5.16 ± 0.025
pH = 5.163 ± 3.707·0.0102 = 5.16 ± 0.04
TEST DI SIGNIFICATIVITÀ
Quando si effettua un test di significatività si deve definire una ipotesi (ipotesi nulla,H0) la cui verità è confermata o rigettata.
All’ipotesi nulla si contrappone l’ipotesi alternativa, H1, che è la negazione dell’ipotesi nulla.
TEST DI ACCURATEZZA: TEST t
•Confronto di una media sperimentale con un valore noto•Confronto delle medie di due campioni
TEST DI PRECISIONE: TEST F
•Confronto delle deviazioni standard di due serie di misure
TEST DI SIGNIFICATIVITÀ
Ipotesi nulla, H0:H0: A = A
Ipotesi alternativa, H1:H1: A A
Ipotesi vera Ipotesi falsa
Ipotesi accettata Decisione corretta
Probabilità = (1-) Errore di II specie
Probabilità
Ipotesi rigettata Errore di I specie
Probabilità Decisione corretta Probabilità = 1 - (potenza del test)
e non sono complementari
Errore di I e II tipo
TEST DI ACCURATEZZA: TEST t
• Confronto di una media sperimentale con un valore noto
Il campione di dimensione n media m e varianza s2 , può considerarsi appartenete alla popolazione di media ?.
L’ipotesi nulla è che non vi sia differenza fra i due valori
= m ± t (s/n) tcalc = (m- ) (s/ n)
•se |t| >tcrit allora H0 è scartata
Confronto delle medie di due campioni
I due campioni indipendenti di dimensione n1 e n2 , media m1 e m2 e varianza s1
2 e s22 , possono considerarsi
appartenenti alla popolazione di media = 1 = 2?
L’ipotesi nulla è che i due metodi diano lo stesso risultato
tx x
s n ncalc
1 2
21 21 1( )
TEST DI ACCURATEZZA: TEST t
Se s12 e s2
2 sono omoscedastiche:
2
11
21
222
2112
nn
snsns
Se s12 e s2
2 sono eteroscedastiche non è possibile calcolare una varianza comune.
Dove:t1 è il tcrit per (n1-1) dft2 è il tcrit per (n2-1) df
2
221
21
22221
211'
nsns
nstnsttcrit
Confronto delle medie di due campioni
TEST DI ACCURATEZZA: TEST t
)2221
21
21
nsns
xxtcalc
Si applica il test di Cochran:
Si confronta
Con
I test che sono stati descritti sono detti a due code. Infatti la differenza fra le due medie può esistere in entrambe le direzioni. In alcuni casi può essere utile chiedersi se un determinato valore sia significativamente maggiore (o minore) di un altra.
Un esempio può essere la resa di una reazione o l’efficienza di una estrazione. In tutti questi casi sono più opportuni i test a una coda.
In un test a una coda il tcrit per P=0.05 è il valore che è superato con una probabilità del 5%. Per la simmetria della distribuzione della media, questa probabilità è la metà di quella che si otterrebbe in un test a due code, per cui il valore appropriato di t per il test a una coda si trova nella colonna di P=0.10.
Test a una e a due code
Test a una coda con = 0.05 si usa t = 1 – Test a due code con = 0.05 si usa t = 1 – /2
AMPLIARE QUESTA PARTE
Test a una e a due code: esempio
Valori di t per diversi gradi di libertà e limiti di confidenza.
La probabilità per la variabile di essere fuori dell’intervallo –t,t è pari ad .
Students Results (ml) Comment m s m s/n
10.08 10.11 A 10.09 Inaccurate 10.100 0.016 10.100 0.007 10.10 Precise 10.12
9.88 10.14 B 10.02 Accurate 10.010 0.172 10.0 0.08 9.8 Imprecise 10.21
10.19 9.79 C 9.69 Inaccurate 9.900 0.21 9.90 0.09 10.05 Imprecise 9.78
10.04 9.98 D 10.02 Accurate 10.010 0.033 10.01 0.015 9.97 Precise 10.04
Presentazione dei risultati
TEST DI PRECISIONE: TEST F
Il test F considera il rapporto di due varianze:
F =s
s12
22
H0: le popolazioni da cui sono stati estratti campioni sono normali e le varianze delle popolazioni sono identiche.
Se Fcalc > Fcrit , H0 è rigettata
scritto in modo che F > 1
Se si vuole verificare se due s differiscono significativamente:
test a una coda
test a due code
Se si vuole verificare se un metodo è più preciso di un altro:
TEST DI PRECISIONE: TEST F
DATI SOSPETTI: TEST Q di DIXON
Si dispongono i dati in ordine crescente e si calcola il valore di Q:
INTERVALLO
DIVARIOQ
Il DIVARIO e l’INTERVALLO, e di conseguenza il valore di Q, dipendono dalla dimensione del set di dati
Il Qcalc viene poi confrontato con tabelle che riportano i valori critici di Qper l’intervallo di confidenza desiderato
DATI SOSPETTI: TEST Q di DIXON
Dimensione campione da 3 a 7
1
1210 xx
xxQ
n
1
110 xx
xxQ
n
nn
Se Qcalc > Qtab il dato sospetto andrebbe scartato
Dato un insieme di n dati, la prima operazione è il loro ordinamento in ordine crescente
11
1211 xx
xxQ
n
Dimensione campione da 8 a 12
2
111 xx
xxQ
n
nn
12
1322 xx
xxQ
n
Dimensione campione > 13
3
222 xx
xxQ
n
nn
oppure
oppure
oppure
DATI SOSPETTI: TEST Q di DIXON
p24 RANGE 1.721 Q= 0.872
DIVARIO 1.501 Qcrit 0.413
p23 RANGE 1.373 Q= 0.883
DIVARIO 1.213 Qcrit 0.423
p22 RANGE 0.220 Q= 0.377
DIVARIO 0.083 Qcrit 0.43
p1 RANGE 0.520 Q= 0.737
DIVARIO 0.383 Qcrit 0.43
Banco mgNi/ml Ordinamento dopo test 1 dopo test 2 dopo test 4Banco Dato
1 131 4.193 198 2.437 2.437 2.437
2 135 2.82 156 2.698 2.698 2.698 2.698
3 136 2.92 135 2.82 2.82 2.82 2.82
4 140 2.871 202 2.820 2.820 2.820 2.820
5 141 2.980 145 2.856 2.856 2.856 2.856
6 143 2.891 146 2.868 2.868 2.868 2.868
7 145 2.856 208 2.869 2.869 2.869 2.869
8 146 2.868 140 2.871 2.871 2.871 2.871
9 151 2.956 191 2.887 2.887 2.887 2.887
10 156 2.698 206 2.887 2.887 2.887 2.887
11 181 2.929 143 2.891 2.891 2.891 2.891
12 185 4.541 186 2.893 2.893 2.893 2.893
13 186 2.893 195 2.902 2.902 2.902 2.902
14 188 2.920 190 2.903 2.903 2.903 2.903
15 190 2.903 210 2.903 2.903 2.903 2.903
16 191 2.887 136 2.92 2.92 2.92 2.92
17 195 2.902 188 2.920 2.920 2.920 2.920
18 196 3.040 181 2.929 2.929 2.929 2.92919 198 2.437 151 2.956 2.956 2.956 2.956
20 202 2.820 204 2.957 2.957 2.957 2.957
21 204 2.957 141 2.980 2.980 2.980 2.980
22 206 2.887 196 3.040 3.040 3.040 3.040
23 208 2.869 131 4.193 4.193
24 210 2.903 185 4.541
Media 2.894s 0.068
IC 95% 0.031
[Ni] 2.90±0.03 mg/mL
Valore dato 2.9251
ExpectedNormal
Dati Nichel AA 2000-2001 (mg/mL)
Upper Boundaries (x < boundary)
No.
of
obse
rvat
ions
0
1
2
3
4
52.
660
2.68
0
2.70
0
2.72
0
2.74
0
2.76
0
2.78
0
2.80
0
2.82
0
2.84
0
2.86
0
2.88
0
2.90
0
2.92
0
2.94
0
2.96
0
2.98
0
3.00
0
3.02
0
3.04
0
Risultati determinazione Ni con DimetilGliossima
Test di normalità
H0: le osservazioni appartengono ad una popolazione
caratterizzata da una legge di probabilità normale
TEST DI SHAPIRO-WILK
ESEMPIO
Prima serie di dati (n=16) : 90, 90, 80, 90, 92, 88, 90, 63, 70, 54, 78, 86, 99, 84, 56, 85
Seconda serie di dati (n=25): 19, 25, 26, 32, 35, 36, 38, 38, 41, 44, 44, 46, 46, 47, 48, 49, 50, 52, 54, 57, 58, 63, 64, 68, 76
Test di Shapiro Wilk: Serie 1
Test di Shapiro Wilk: Serie 1
Test di Shapiro Wilk: Serie 1
Dalle tavole di valori critici si legge per n=16 e = 0.05 (P=0.95)
W = 0.981
Siccome W < W abbiamo il 95% di probabilità di non sbagliare
nell’affermare che la distribuzione NON È NORMALE
Test di Shapiro Wilk: Serie 2
Test di Shapiro Wilk: Serie 2
Dalle tavole di valori critici si legge per n=25 e = 0.05 (P=0.95)
W = 0.985
Siccome W > W abbiamo il 95% di probabilità di non sbagliare
nell’affermare che la distribuzione È NORMALE
Controllo di qualità
Il controllo statistico di qualità fu introdotto da W.A.Shewart nel 1924 (Bell telephones)
“Quality improvement is the process of reducing the level of variability in a process so that it can be predicted”
consentono di mantenere in osservazione continua un sistema per rilevare variabilità nelle sue prestazioni
Shewart ha introdotto le carte di controllo
Tipi di carte di controllo
1. Carte di controllo della tendenza centrale
2. Carte di controllo della dispersione
3. Carte di controllo di misure singole
UWL
UCL
LWL
LCL
CL
Costruzione delle carte di controllo
DEFINIRE A PRIORI:
Parametro da esaminare
Criterio nella scelta delle unità prodotte
Frequenza ispezioni
Misure da effettuare
Unità di misura
Strumenti di misura
Costruzione delle carte di controllo
la media generale
k21 xxx ,,,
I parametri di controllo vanno determinati utilizzando un training set
Campionamento del sistema effettuando almeno 100 osservazioni suddivise in 20-25 campioni
Si ottiene:
le medie dei singoli campioni:
k
xX i
t
il campo di variazione dei singoli campioni k21 www ,,,
la media dei campi di variazione k
ww i
t
L e tte ra tura scien tifica
Essica zio n e, m acina zion e , e cc.
So lu b ilizzazion e,e stra zio ne
E limin a zio nein terferen ze
C alco lo d e i r isu lta ti V a lu taz ion e s ta tist ica
M isu ra zio ne d i u nap ropr ie tà de ll'an a li ta
O tten im e nto d e l cam p io nep er l'a na lisi
P repa raz io ne d i rep liche
T ra ttam e nto p re lim ina red e l cam p ione
C a m p io n am en to
S e le zio ne d e l m e to do
Da Skoog, West, Holler: Chimica analitica
SENZA CAMPIONE NON CI PUÒ ESSERE ALCUNA ANALISI
Trattamento del campione
Il campione deve essere rappresentativo della popolazione di origine
Campione aleatorio o casuale: gli elementi disponibili della popolazione di riferimento hanno la stessa probabilità di entrare a far parte del campione
Gli elementi della popolazione vanno scelti in modo casuale ma seguendo regole precise
CAMPIONAMENTO
CAMPIONAMENTO
I campioni si estraggono in base a diversi piani di campionamento
Campionamento elementare (a stadi)
Si estraggono a caso dalla popolazione di
origine i singoli elementi che entrano nel
campione
Campionamento a grappoli
Popolazione di origine ripartita in sottoinsiemi
(grappoli) con un criterio di omogeneità
Ogni grappolo è un’unità primaria di campionamento.
Campionamento sistematico
In questo caso si ordinano e numerano gli elementi
dell’insieme di partenza e si prelevano ad intervalli regolari.
Il punto di partenza del campionamento dovrebbe
essere scelto in modo casuale.
Esempio di tavola di numeri casuali
Uso dei numeri casuali
Un numero casuale è un numero composto da cinque cifre, ciascuna delle quali è stata estratta, in modo aleatorio, da un insieme di dieci cifre (da 0 a 9) in modo che ogni cifra abbia una probabilità su dieci di essere estratta. A questo punto numeriamo i campioni (dando lo stesso numero di cifre a tutti i campioni). Si sceglie una pagina delle tavole e si sceglie in modo arbitrario una riga e una colonna da cui si comincia la lettura dei numeri. Si opta per quale delle cinque cifre deve essere letta e si cominciano a elencare i vari numeri mantenendo quelli che corrispondono ai campioni (per ottenere una serie di numeri casuali si può visitare il sito http://www.wesleyan.edu/spn/random/rrform.htm).
1 2 3 4 5 6 7 8 9 101 80022 46032 31613 60524 66993 92188 96744 57874 58831 367572 84366 27392 67122 29736 79945 88216 38048 28707 57177 616243 04737 38347 78336 60890 83307 35878 16211 69189 86634 875514 51476 84982 39105 27547 59226 74494 50004 28403 84132 029085 69313 54868 65035 10569 68958 10706 54467 95123 20065 133986 48238 52584 96094 29944 01359 47865 85320 11757 95896 494857 73298 77245 85701 71887 30269 82071 67830 49342 41367 734478 89017 39604 27203 83795 65941 36255 69681 30009 65962 321409 65532 37177 49058 50490 27639 35894 85597 88250 34328 8311810 12871 20030 89698 46495 43631 89269 74632 48016 90114 58788
Tipi di Campionamento:
dal Decreto 13 Settembre 1999
Zone di Campionamento:
Zone di Campionamento:
Zone di Campionamento:
Campionamento sistematico
1. Un reticolo ideale determina la suddivisione della zona da campionare
2. I settori risultanti sono di uguali dimensioni. Il loro numero dipende dal dettaglio voluto
3. All’interno di ogni UC si preleva casualmente un campione
Campionamento irregolare
1. Si scelgono i punti usando tabelle di numeri casuali
2. Si preleva il campione all’interno del punto
Campionamento non sistematico
1. Si scelgono i punti lungo un tracciato a X o W
2. Si preleva un campione elementare in ogni punto