Análisis Estadístico de Datos Climáticos

33
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Análisis de espectro singular

description

Análisis Estadístico de Datos Climáticos. Análisis de espectro singular. Facultad de Ciencias – Facultad de Ingeniería 2009. M. Barreiro – M. Bidegain – A. Díaz. Análisis de Espectro Singular. Motivación. - PowerPoint PPT Presentation

Transcript of Análisis Estadístico de Datos Climáticos

Page 1: Análisis Estadístico  de  Datos Climáticos

Análisis Estadístico de

Datos Climáticos

Análisis Estadístico de

Datos Climáticos

Facultad de Ciencias – Facultad de Ingeniería2009

M. Barreiro – M. Bidegain – A. Díaz

Análisis de espectro singular

Page 2: Análisis Estadístico  de  Datos Climáticos

Análisis de Espectro Singular

El análisis de espectro singular (SSA en inglés) está diseñado para extraer información de series temporales cortas y “ruidosas”.

Se destaca de métodos espectrales clásicos en que construye auto-elementos “adaptados a los datos”.

Motivación

Page 3: Análisis Estadístico  de  Datos Climáticos

Anomalías Salto Grande OND 1909-2007

Indice de Oscilación Sur (mensual)1942-1999

Page 4: Análisis Estadístico  de  Datos Climáticos

Dominio temporal vs. Dominio espectral

La función de autocorrelación (que se calcula en el dominio temporal) y el espectro de potencia (o densidad espectral) están vinculados a través de la transformada de Fourier.

El dominio espectral está motivado por el hecho de que el comportamiento más regular (y por tanto más predecible) de una serie temporal, es periódico. En el dominio espectral, se destacan las contribucionesde frecuencias predominantes y de sus períodos asociados.

T

1 f

T período (se mide en segundos, meses, años, etc)f frecuencia (ciclos por segundo, o por mes, etc.)

Page 5: Análisis Estadístico  de  Datos Climáticos

Dominio temporal Dominio espectral

Page 6: Análisis Estadístico  de  Datos Climáticos

La variabilidad del sistema climático está caracterizada por un espectro de potencia que presenta:

1) una componente de banda ancha de “color cálido”, con potencias creciendo de las altas a las bajas frecuencias.

2) una componente de línea asociada con forzantes puramente periódicos, (anual y diario).

3) varios picos anchos que podrían surgir de forzantes menos periódicos (ej., variabilidad solar), oscilaciones internas, o una combinación de ambas.

Page 7: Análisis Estadístico  de  Datos Climáticos

Series de tiempo y dinámica no lineal

Aun cuando una serie provenga de un sistema determinístico caótico, su comportamiento, para escalas de tiempo relativamente grandes, no es completamente irregular.

Algunas regularidades, p. ej. cuasi-periodicidades, pueden contribuir a una parte importante de su variabilidad.

El sistema climático tiene un límite de predictibilidad de un par de semanas para el tiempo meteorológico, debido a sus inestabilidades y no linealidades.

Page 8: Análisis Estadístico  de  Datos Climáticos

Series de tiempo y dinámica no lineal

Al mismo tiempo, el sistema climático presenta algunas cuasi-periodicidades, como:

•El Niño -Oscilación Sur (en océano- atmósfera) (~ 2 a 5 años).

•Las oscilaciones de 40 a 50 días en la atmósfera tropical.

Estas cuasi-periodicidades pueden, en principio, facilitar la predicción basada en el análisis de series temporales.

Page 9: Análisis Estadístico  de  Datos Climáticos

Aumento de la relación señal-ruido

• El SSA permite extraer información de la serie dada, descomponiéndola en patrones elementales aditivos, usando filtros adaptados a los datos.

• Esos patrones pueden ser: tendencias, patrones oscilatorios, y ruido.

• Algunas cuasi-periodicidades pueden contribuir a una parte importante de su variabilidad.

• Las tendencias no tienen por qué ser lineales, y los patrones oscilatorios (no necesariamente armónicos) pueden estar modulados en amplitud y fase.

Page 10: Análisis Estadístico  de  Datos Climáticos

Anomalías Salto Grande OND (1909-2007)

Page 11: Análisis Estadístico  de  Datos Climáticos

Para los cálculos, utilizamos el SSA-toolkit de la Universidad de California Los Angeles disponible en: www.atmos.ucla.edu/tcd/ssa/

Page 12: Análisis Estadístico  de  Datos Climáticos

Etapas del SSA

• Se construye la secuencia de vectores desfasados:

(t = 1,...,N´=N - M + 1)

Dada una serie de tiempo X(t):

Tiene bastante en común con el ACP, pero tiene diferenciasimportantes.

Page 13: Análisis Estadístico  de  Datos Climáticos

¿Cómo se elige M (longitud de “ventana”)?

No hay una respuesta única.

Surge de un compromiso: cantidad de información a extraer (mayor M) vs. grado de confianza estadística en esa información (N/M mayor ==> M menor).

Aquí elegimos M = 20 porque los seudo-períodos que aparecen son bastante menores, como veremos.

Es recomendable experimentar con más de un valor de M.

Page 14: Análisis Estadístico  de  Datos Climáticos

Matriz de covarianza

Una estimación de la matriz de covarianza CMxM es:

(Hay otras estimaciones posibles)Los autovalores y autovectores

(matriz de Toeplitz)

son la solución de:

Page 15: Análisis Estadístico  de  Datos Climáticos

Se construye la matriz de covarianza y se hace un análisis de componentes principales, obteniendo valores propios y funciones empíricas ortogonales (EOFs).

Valores propios

Page 16: Análisis Estadístico  de  Datos Climáticos

Ejemplo de EOFs

(M=60)

Page 17: Análisis Estadístico  de  Datos Climáticos

Funciones empíricas ortogonales

• Este método construye funciones empíricas ortogonales (EOFs, de longitud M) que son la contraparte de los senos y cosenos del análisis espectral clásico de Fourier.

• La ventaja sobre senos y cosenos es que los EOFs no son necesariamente funciones armónicas y, al ser adaptados a los datos, pueden capturar formas de oscilación altamente anarmónicas.

• Estas EOFs suelen presentarse en pares, con frecuencias y valores propios muy similares.

Page 18: Análisis Estadístico  de  Datos Climáticos

M

1 jkk (j) ρ 1)- j X(t (t) PC

Los componentes principales se calculan proyectandoadecuadamente la serie temporal sobre los EOFs:

Los PCs tienen longitud N-M+1

Page 19: Análisis Estadístico  de  Datos Climáticos

Método de Monte Carlo para SSA

En las señales climáticas, típicamente el ruido de fondo no es “blanco”, sino más bien “rojo”, es decir que presenta potencias mayores en frecuencias más bajas.

Utilizamos aquí el término “ruido rojo” en el sentido restrictivo de un proceso autoregresivo de orden 1, AR(1).

La idea es evaluar si, con algún nivel de significancia estadística, la serie original se distingue de un AR(1).

Para ello, se puede hacer una simulación por el método de Monte Carlo.

Page 20: Análisis Estadístico  de  Datos Climáticos

Método de Monte Carlo para SSA

Se ajusta un proceso AR(1) (“ruido rojo”) a la serie X(t) :

donde a1, y X0 se estiman a partir de la serie original.

Se genera un ensemble de muchos datos simulados de ruido rojo y, para cada realización se calcula una matriz de covarianza .

Se proyectan las matrices de covarianzas sobre la base de autovectores:

y se compara con:

Page 21: Análisis Estadístico  de  Datos Climáticos

•A partir de los EOFs y las componentes principales asociadas (p. ej. las que explican más varianza), se calculan series cuya suma aproxima a la serie original, llamados reconstruidos (RCs).

Reconstrucción parcial de la serie

Rec 1 + 2 1980-2007 Rec 3 + 4 1980-2007 Rec 5 + 6 1980-2007

Page 22: Análisis Estadístico  de  Datos Climáticos

Salto Grande OND: Espectro de serie reconstruida con 6 componentes 1909-2007 (estimado por el método de máxima entropía).

6.1 años 3.6 años 2.4 años

Los reconstruidos suelen tener la propiedad de presentar un espectro de banda angosta (es decir que hay una frecuencia predominante).

Page 23: Análisis Estadístico  de  Datos Climáticos

4 pasos para establecer confianza creciente en un resultado espectral (como, p. ej., la existencia de un modo oscilatorio)

• 1) Aplicar tests para un método espectral dado

• 2) Utilizar otros métodos espectrales y sus tests.

• 3) Encontrar el mismo modo en otras series de interés

• 4) Dar una explicación física convincente (el desafío mayor)

Page 24: Análisis Estadístico  de  Datos Climáticos

Salto Grande: Serie original vs reconstruido 1 a 6 (1909 - 2007)

Varianza explicada: 46%

Page 25: Análisis Estadístico  de  Datos Climáticos

Consecuencias para la predicción de fenómenos climáticos

• La naturaleza cuasi-cíclica de los RCs implica predictibilidad.

• Se puede hacer una predicción robusta de cada RC, ajustando un proceso autoregresivo de bajo orden a cada uno, y extendiéndolo hasta el instante deseado.

• Para elegir los RCs hay un compromiso entre la cantidad de varianza que uno espera predecir, y la confiabilidad de la predicción. Esta última indicaría elegir sólo los RCs oscilatorios.

• La exactitud de la predicción dependerá en cada caso de cuán bien representan los datos de la serie al comportamiento regular del sistema.

Page 26: Análisis Estadístico  de  Datos Climáticos

Ejercicio de predicción lineal para 2008-2013

Dada la naturaleza oscilatoria de cada reconstruido,se ajusta un proceso auto-regresivo de orden K (AR(K)) a cada uno de ellos y se extrapola al futuro.

j)K -(t Xa 1)(t X K

1 jj

No hay una forma única de determinar el orden K del AR, siendo conveniente que no sea demasiado grande pues puede provocar inestabilidades numéricas.

Page 27: Análisis Estadístico  de  Datos Climáticos

Hicimos pruebas con valores de K entre 1 y 15 para el período 1909-2002, y realizamos “predicciones” de los reconstruidos para 2003 a 2007.

Así obtuvimos un 80% de coincidencias en los signos de anomalías entre la suma de reconstruidos “pronosticados” y observados para K entre 2 y 15.

Finalmente, elegimos K = 5.

Page 28: Análisis Estadístico  de  Datos Climáticos

Salto Grande OND: Reconstruido y su predicción 2008-2013

Page 29: Análisis Estadístico  de  Datos Climáticos

Pero queremos predecir la serie de anomalías que tiene mucho más varianza…

Page 30: Análisis Estadístico  de  Datos Climáticos

Ajuste lineal entre reconstruidos y anomalías

Page 31: Análisis Estadístico  de  Datos Climáticos

Salto Grande OND: Anomalías 1980-2008 y predicción 2008-2013

Page 32: Análisis Estadístico  de  Datos Climáticos
Page 33: Análisis Estadístico  de  Datos Climáticos

ConclusionesEl SSA es una herramienta útil de diagnóstico para identificar señales cuasi-periódicas en series relativamente cortas y “ruidosas”.

La naturaleza oscilatoria de esas señales implica la existencia de predictibilidad potencial. La realización de pronósticos útiles usando esta técnica parece promisoria y, a la vez, presenta limitaciones a superar.