Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... ·...
Transcript of Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... ·...
![Page 1: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/1.jpg)
Análisis Estadístico de
Datos Climáticos
Facultad de Ciencias – Facultad de Ingeniería
2011
Mario Bidegain – Alvaro Díaz
Composites
Regresión lineal simple
![Page 2: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/2.jpg)
Composites
El método de “composites” consiste en clasificar los datos en categorías y comparar p. ej. los valores medios o anomalías de otras variables para las distintas categorías.
Puede servir para identificar “señales” no muy fuertes que están ocultas debido a la existencia de “ruido”.
![Page 3: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/3.jpg)
Composites
Ejemplo 1: componemos anomalías de lluvias en el trimestre OND según anomalías simultáneas de TSM positivas (eventos “cálidos”) o negativas (eventos “fríos”) en N3.4 en 1980-2000.
![Page 4: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/4.jpg)
-0.7-0.7-0.5-0.4-0.4-0.4-0.6-0.6-0.8-1.0-1.4-1.72000
-1.7-1.4-1.2-1.0-1.0-0.9-0.8-0.8-0.8-0.9-1.2-1.51999
-1.5-1.4-1.2-1.1-1.0-0.7-0.10.41.11.42.02.31998
2.52.52.42.22.01.71.30.80.3-0.1-0.3-0.41997
-0.4-0.3-0.2-0.1-0.2-0.1-0.2-0.2-0.3-0.5-0.7-0.81996
-0.8-0.8-0.6-0.5-0.2-0.10.10.20.30.60.91.21995
1.31.30.90.70.50.50.40.40.30.20.20.21994
0.30.30.30.30.30.40.70.70.70.50.40.41993
0.30.1-0.1-0.10.20.50.91.21.41.51.71.81992
1.61.30.90.90.91.00.80.60.30.30.40.41991
0.40.30.30.30.30.30.20.20.30.30.10.11990
-0.1-0.2-0.3-0.4-0.4-0.4-0.4-0.7-0.9-1.2-1.6-1.81989
-2.0-2.0-1.6-1.3-1.2-1.4-1.3-0.9-0.30.10.50.71988
1.11.21.51.61.71.51.21.01.11.21.31.21987
1.21.00.90.60.40.20.0-0.1-0.2-0.3-0.5-0.51986
-0.4-0.4-0.4-0.6-0.5-0.6-0.6-0.8-0.8-0.8-0.9-1.01985
-1.1-0.9-0.6-0.2-0.2-0.3-0.4-0.4-0.3-0.2-0.2-0.41984
-0.7-0.9-0.7-0.5-0.10.30.71.01.31.62.12.31983
2.32.21.91.51.00.80.70.70.40.20.10.01982
0.0-0.1-0.1-0.2-0.3-0.3-0.3-0.2-0.3-0.4-0.4-0.21981
0.00.00.0-0.10.00.20.30.30.20.30.40.51980
NDJONDSONASOJASJJAMJJAMJMAMFMAJFMDJFYear
Episodios cálidos y fríos en la región N3.4 (1980-2000)
http://www.cpc.noaa.gov/products/analysis_monitoring/ensostuff/ensoyears.shtml
![Page 5: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/5.jpg)
Composites
Eventos cálidos (1982-86-87-91-94-97)
Composites de lluvias
![Page 6: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/6.jpg)
Composites
Eventos fríos (1984-88-95-98-99)
Composites de lluvias
![Page 7: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/7.jpg)
Composites
4 regiones en Uruguay-Río Grande do Sul
(21 + 17 pluviómetros en 1950-1998) OND
Ejemplo 2: aplicación al prónóstico
Región Niño 3.4 en el Océano PacíficoJul-Ago anterior
![Page 8: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/8.jpg)
CompositesClimatología de precipitación en OND
Subpoblación condicionada a (0.34 ºC < (Jul-Ago N3.4) < 1. 24 º C )
(situación similar a la de N3.4 en Jul-Ago 2004)
!Los resultados debensometerse a pruebas para determinar si sonestadísticamente
significativos!
Se hacen “composites” de precipitaciones en OND en cada región, condicionados por el índice N3.4 dos meses antes.
![Page 9: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/9.jpg)
RegresiónWilks (Cap. 6)
La regresión se usa para describir relaciones que involucran variables medidas en una escala continua.
Para vincular variables aleatorias (ej., ancho de un anillo de árbol con la temperatura), o una variable aleatoria con uno o más factores externos no aleatorios (ej modelar tendencia lineal con un polinomio).
Se puede utilizar para la predicción cuando las variables a relacionar no son simultáneas.
![Page 10: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/10.jpg)
Regresión lineal simple
• Estimación de los parámetros
• Distribución de los residuos
• Tabla ANOVA
• Bondad del ajuste
• Análisis de los residuos
• Distribución muestral de coeficientes de la regresión
• Intervalos de confianza de la predicción
![Page 11: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/11.jpg)
Regresión lineal simple
Cor = 0.93
x
y
Dados los pares de valores: (x1, y1), (x2, y2)….(xn, yn)
se busca la recta de mejor ajuste:
n=58
Y = a + b x
![Page 12: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/12.jpg)
x variable independiente o “predictor”
y variable dependiente o “predictando”
¡ No se debe suponer que necesariamente existeuna relación de causalidad entre ambas variables !
Regresión lineal simple
y = a + b x
a y b son los parámetros a estimar
![Page 13: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/13.jpg)
Hay distintos criterios para estimar los parámetros.
El más habitual es el método de mínimos cuadrados.
SSE=)xba(y=en
ii
n
=i
i ∑∑ −−1
2
1
2 ˆˆ
(suma de errores cuadráticos)
Se busca minimizar
iii +xb+a=y e ˆˆ
Estimación de los parámetros
ei = yi − y(xi)
Error de estimación (distancia vertical entre el valor y la ordenada de la recta) es:
![Page 14: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/14.jpg)
Se plantea la anulación de las derivadas parciales
respecto de by a ˆˆ obteniéndose las soluciones:
xb y=a ˆˆ −
En el ejemplo:
090 =a
261 =b
.ˆ
.ˆ
ATENCIÓN: Existe asimetría entre x e y (si se invierten los roles, no se obtiene la misma recta!!)
Estimación de los parámetros
![Page 15: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/15.jpg)
En Matlab:
A=[ones(58,1) n34set5007'];
Y=n34nov5007';
ab=A\Y
ab =
0.0894
1.2563
![Page 16: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/16.jpg)
Distribución de los residuos
Supondremos que los residuos (o errores) ei son independientes e idénticamente distribuidos (iid) con media 0 y varianza σ (igual para todos los ei).
Además se suele suponer que los residuos siguen una distribución gaussiana.
En general, cuantas más hipótesis se hagan, más ricas serán las conclusiones estadísticas que podremos extraer, pero más limitada será la aplicabilidad del modelo.
Cuanto mayor sea el tamaño de la muestra (n), más se atenúa la eventual no gaussianidad.
![Page 17: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/17.jpg)
Distribución de los residuos
La suposición de varianza constante implica que la distribución condicionada a x constante, no depende de x.
![Page 18: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/18.jpg)
Estimación de la varianza de los residuos
En el ejemplo: 18=s 2
e 0.ˆ
[ ]∑ −n
iie xyy2-n
=s1
22)((
1ˆ
)
Donde dividimos por n-2 por tener dos parametros estimados: a y b ∑
n
ie e2-n
=s1
22 1ˆ
����
Distribución de los residuos
Una suposición fundamental es que la varianza de los residuos es constante:
![Page 19: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/19.jpg)
Distribución de los residuos
suma de cuadrados total
suma de los cuadrados de las diferencias dada por la regresión (es bueno que se acerque a SST)
suma de cuadrados de los residuos
Se cumple: SST = SSR + SSE
En el ejemplo anterior:SST = 72.47 (ºC)2
SSR = 62.49 (ºC)2
SSE = 9.98 (ºC)2
![Page 20: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/20.jpg)
Tabla ANOVA
F=MSR/MSE
MSE=se2SSEn-2Residuos
MSR=SSR/1SSR1Regresión
SSTn - 1Total
Media cuadrática
Suma de cuadrados
Grados de libertad
(ANOVA = Análisis de varianza)
![Page 21: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/21.jpg)
Tabla ANOVA
F=MSR/MSE= 347.2
MSE=se2 =0.18SSE=9.9856Residuos
MSR=SSR/1=62.49
SSR=62.491Regresión
SST=72.4757Total
Media cuadrática
Suma de cuadrados
Grados de libertad
Para el ejemplo:
![Page 22: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/22.jpg)
1) (da un promedio de la exactitud del ajuste;lo ideal sería MSE=0) �MSE = s
e
2
R2 =
SSR
SST= 1−
SSE
SST
Bondad del ajuste
Hay 3 indicadores usuales para la bondad de ajuste:
2) Coeficiente de determinación: en el peor caso vale 0, en el mejor, vale 1
3) El estadístico F=MSR/MSE (es mayor cuanto mejor es el ajuste)
En el ejemplo R2 = 0.86
![Page 23: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/23.jpg)
En general, cuanto más cercano a 0 esté el coeficiente angular b, menos información aporta la regresión lineal o, de otra forma, más débil es la relación entre x e y.
Bondad del ajuste
![Page 24: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/24.jpg)
Análisis de los residuos
![Page 25: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/25.jpg)
Análisis de los residuos
(para el ejemplo)
OK
![Page 26: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/26.jpg)
Distribución muestral de
coeficientes de la regresión
Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones son gaussianas, siendo sus desviaciones estándar respectivas:
y
Sin embargo, como se es una estimación, para las pruebas de hipótesis hay que usar la distribución t de Student con n-2 grados de libertad.
![Page 27: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/27.jpg)
Distribución muestral de
coeficientes de la regresión
)
)x{ - (xs(
0 - b= t
n
ie
2
1
/ˆ
ˆ
∑
Por ejemplo, para hacer una prueba en que la hipótesisnula sea H0: b = 0, contra la hipótesis H1: b ≠ 0 ,
observamos que el estadístico :
en la hipótesis nula sigue una distribución t de Student con n-2 grados de libertad.
En nuestro ejemplo, obtenemos: t = 18.7 , que, con 56 grados de libertad, es muy significativa (a menos del 0.1%), por lo que se rechaza la hipótesis nula.
No hay que olvidar que los datos pueden no ser independientes
![Page 28: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/28.jpg)
Puede interesar hallar intervalos de confianza para siendo x0 un valor cualquiera, independiente de losutilizados para construir el modelo.
Intervalos de confianza de la predicción
+
∑ 2
1
2
022
ˆ
11
)x - (x
)x - (x+
ns=s
n
i
ey
)(xy 0ˆ
Debido a la incertidumbre en la estimación de y de b, la varianza es mayor que se
2 :y
![Page 29: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones](https://reader034.fdocument.pub/reader034/viewer/2022042118/5e9725c4cfabc70e7024434e/html5/thumbnails/29.jpg)
Intervalos de confianza de la predicción
( )2
1
2
0210
11ˆˆ
)x - (x
)x - (x+
nst±xy
n
i
e)p+(
∑+
No son rectas!