Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 1

Análisis de Datos en Física de Partículas

Sección de PosgradoFacultad de CienciasUniversidad Nacional de Ingeniería

C. Javier [email protected]://compinformatidf.wordpress.com/

Página del curso:http://compinformatidf.wordpress.com/2013/04/13/curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/

Análisis de Datos en Física de Partículas: Capítulo 5

1 Teorema de Probabilidad de Bayes, Variables aleatorias, y pdfs2 Funciones de r.v.s, Valores de expectación, propagación de errores3 Catálogo de pdfs4 El método de Monte Carlo5 Test estadísticos: conceptos generales6 Test statistics, métodos multivariantes7 Tests Bondad de ajuste (goodness-of-fit)8 Parámetros de estimación, maximum likelihood9 Mas de maximum likelihood10 Método de mínimos cuadrados (least squares)11 Intervalo de estimación, establecimiento de límites12 Parámetros molestos (nuisance), incertidumbres sistemáticas13 Ejemplos de aproximación Bayesiana


Límites de decisión lineal


Una frontera de decisión lineales sólo óptima cuando ambas clases siguen gaussianas multivariadas con covarianzasequivalentes y diferentes medias.

Para algunos casos un límite lineales casi inútil.

Transformaciones no lineales de los inputs/entradas


Tratemos de encontrar una transformación, 1, ...,

n->

1(),...,

n(), de

modo que las variables transformadas, de "características espaciales",se pueden separar mejor por una frontera lineal.

Aquí, suponer funciones de base fija(no parámetros libres)

Pruebas/Tests estadísticas no lineales


La frontera de decisión óptima puede no ser un hiperplano,→ prueba estadística no lineal t(x)

Métodos estadísticos multivariantesson una gran industria:- redes neuronales,- máquinas de vectores soporte,- métodos de densidad kernel,- …

Física de Partículas puede beneficiarse de los avancesen Machine Learning (aprendizaje automático)

Introducción a las redes neuronales


Se usa en neurobiología, reconocimiento de patrones, previsión financiera,...Aquí, redes neuronales son sólo un tipo de prueba estadística.

Supongamos que tomamos t(x) para tener la forma Logísticasigmoide

Esto se llamaperceptrón de una sola capa

s(·) es monotónica → equivalente a lineal t(x)

Introducción a las redes neuronales


Generalizar a partir de una capaa perceptrón multicapa:

Los valores de los nodos de lacapa intermedia (oculta) son

y la salida de la red está dada por

pesos (fuerzas de conexión)

Análisis de redes neuronales


Fácil de generalizar a número arbitrario de capas.

Red feed-forward: los valores de un nodo dependen sólo de las capas

anteriores, por lo general sólo de capa anterior ("arquitectura de red").

Más nodos → red neuronal se acerca a óptimo t(x), pero másparámetros necesitan ser determinados.

Parámetros generalmente determinados minimizando función de error,

donde t(0) , t(1) son valores, por ej., 0 y 1 para sigmoide logística. Valores

de expectación reemplazados por medias de datos entrenados (ej. MC).

En general entrenamiento puede ser difícil; software estándar disponible.

Ejemplo de redes neuronales del LEP II


Señal: e+e− → W+W− (frecuente: 4 jets hadrónicos bien separados)

Background: e+e− → qqgg (4 jets hadrónicos menos bien separados)

←variables de entrada/input basadas enla estructura del jet, forma del evento,...ninguna da sola mucha separación.

output redes neuronales lo hace mejor...

(Garrido, Juste and Martinez, ALEPH 96-144)

Algunos asuntos con redes neuronales


En el ejemplo, con eventos WW, el objetivo era seleccionar a estos eventos con el fin de estudiar las propiedades del bosón W.

Necesario evitar el uso de variables input correlacionadas con laspropiedades que eventualmente queremos estudiar (no trivial)

En principio, una sola capa oculta con un número suficientemente nodospuede aproximar arbitrariamente bien la prueba óptima de variables (likelihood ratio / razón de probabilidad).

En general comenzamos con un número pequeño de nodos yaumentamos hasta que los errores de clasificación en la validaciónde datos de la muestra deja de disminuir.

En general el entrenamiento MC de datos es barato -- problemas con quedaratrapado en mínimos locales, sobreentrenamiento, etc., menos importante qla preocupación por las diferencias sistemáticas entre los datos entrenadosy la Naturaleza, y las preocupaciones por la facilidad de interpretación delos resultados (output).

Técnicas de estimación de densidad de probabilidad (PDE)


Ver, ej. K. Cranmer, Kernel Estimation in High Energy Physics, CPC 136 (2001) 198; hep-ex/0011057;T. Carli and B. Koblitz, A multi-variate discrimination technique based on range-searching, NIM A 501 (2003) 576; hep-ex/0211019

Construir estimadores no paramétricos de los pdfs

y usarlos para construir el likelihood ratio

(histograma n-dimensional es un ejemplo de fuerza bruta de esto.)

Técnicas de estimación más inteligentes pueden conseguir que estofuncione para dimensiones (un poco) mayores.

PDE basado en Kernel (KDE, ventana de Parzen)


Considerar d dimensiones, N eventos de entramiento, x1, ..., xN, estimar f (x) con

Usar, x ej. Kernel Gausiano:

kernelancho de banda (parámetro smoothing)

Necesidad de sumar N términos para evaluar la función (lento); algoritmos más rápidos solo cuentan eventos en vecindad de x (k-ésimo vecino más cercano, búsqueda por rango).

Correlación vs independencia


En una distribución multivariante general p(x) no factoriza en un producto de distribuciones marginales para las variables individuales:

Más importante, los componentes de x tendrán en general covarianciadiferente de cero (es decir, están correlacionadas):

Se mantiene solo sicomponentes de xson independientes

Decorrelación de variables de entrada


Podemos definir un conjunto de variables de entrada no correlacionadaspor una transformación lineal, es decir, hallar la matriz A tal que para las covarianciasy⃗=A x⃗ cov [ y i ,y j ]=0

Para lo siguiente suponer que las variables son “decorrelacionadas” deesta manera para cada una de p(x|H

0) y p(x|H

1) separadamente (desde

que en general sus correlaciones son diferentes)

Decorrelación no es suficiente


Porque aún con correlación cero, una pdf multivariante p(x) en generaltendrá no linealidades y entonces las variables decorrelacionadas aúnno son independientes.

pdf con covariancia cero perocomponentes todavía no sonindependientes, desde que

y por lo tanto

Bayes sencillo (naive)


Pero si las nolinealidades no son muy grandes, es razonable primerodecorrelacionar las entradas/inputs y tomar como nuestro estimador para cada pdf

Entonces esto al menos reduce el problema a uno de hallar estimadosde pdfs 1-dim.

El estimado resultante de likelihood ratio da el clasificador Naive Bayes(llamado algunas veces en HEP el “método likelihood” )

Árboles de decisión


De todas las variables de entrada, encontrar el ideal para que con un solo corte de la mayor mejora en la pureza de la señal:

Ejemplo del experimento MiniBooNE,B. Roe et al., NIM 543 (2005) 577

donde wi es el peso del ith evento.

Los nodos resultantes son clasificados como señal o background.

Iterar hasta el criterio de parada, alcanzado sobre la base de, por ejemplo, pureza o el número mínimo de eventos en un nodo.

El conjunto de cortes define la frontera de decisión.

Encontrando el mejor corte único


El nivel de separación dentro de un nodo puede, por ej, ser cuantificado por el coeficiente de Gini, calculado a partir de la pureza (s o b) como:

Para un corte, que divide un conj. de eventos a en subconjuntosb y c, se puede cuantificar la mejora en la separación por el cambioen los coeficientes de Gini ponderados:

donde, por ej,

Elija por ej. el corte para maximizar ∆; una variante de este esquemapuede usarse en vez del Gini, por ej. la tasa de errores de clasificación:

Árboles de decisión (2)


Los nodos terminales (hojas) se clasifican como señal o background en función de voto de la mayoría (o por ejemplo, fracción de señal superior a un umbral especificado).

Esto clasifica cada punto en el espacio de variable-input, ya sea como señal o background, un clasificador de árbol de decisión, con la función discriminante

f(x) = 1 si x region de señal, -1 en otro caso.

Los árboles de decisiones tienden a ser muy sensibles a fluctuaciones estadísticas en la muestra de entrenamiento.

Métodos tales como boosting se pueden utilizar para estabilizar el árbol.

Boosting


Boosting es un método general de creación de un conjunto de clasificadores que se pueden combinar para lograr un nuevo clasificador que es más estable y tiene un error menor que cualquier otro individualmente.

A menudo se aplica a árboles de decisión, pero se puede aplicar a cualquier clasificador.

Suponer que tenemos una muestra de entrenamiento T de N eventos con

x1,....,x

N vectores de datos de eventos (cada x multivariante)

y1,....,y

N etiquetas de clase reales (true), 1 para señal, -1 para background

w1,....,w

Npesos de eventos

Ahora definir una regla para crear a partir de este un conjunto de muestras de entrenamiento T

1, T

2, ..., derivar un clasificador de cada uno y

promediarlos.

AdaBoost


Un algoritmo exitoso para boosting es AdaBoost (Freund & Schapire, 1997).

Primero inicializar la muestra de entrenamiento Ti usando el original

x1,....,x

Nvectores de datos de eventos (cada x multivariante)

y1,....,y

Netiquetas/labels de clase reales/true, (+1 o -1)

w(1)1,....,w(1)

Npesos de eventos

Con los pesos igual y normalizados tal que

Entrenar el clasificador fi(x) (por ejemplo un arbol de decision) usando los

pesos w(1) con el fin de minimizar el error de clasificación,

donde I(X) = 1 si X es verdadero y cero en otro caso

Actualizando los pesos de eventos (AdaBoost)


Asignar una puntuación al clasificador k-esimo basado en su tasa de error

Definir la muestra de entrenamiento para el paso k+1 a partir del paso k, actualizando los pesos de los eventos de acuerdo a

Iterar K veces, el clasificador final es

Sobreentrenamiento


muestra de entrenamiento muestra de prueba independiente

Si frontera de decisión es demasiado flexible que se ajusta muchoa los puntos de formación → sobreentrenamiento.Supervisar aplicando clasificador para muestra independiente.

Monitoreando el sobreentrenamiento


De ejemplo MiniBooNE:

Rendimiento establedespués de unos cientosde árboles.

Resumen de árbol de decisión boosted


Ventaja de árbol de decisiones boosted es que puede manejar un gran número

de entradas. Los que prestan poca/ninguna separación rara vez se utilizan

como divisores de árbol, se ignoran efectivamente.

Fácil de hacer frente a entradas de tipo mixto (real, entero, categórica, ...).

Si un árbol tiene sólo unas pocas hojas, es fácil de visualizar (pero rara vez

utilizan un solo árbol).

Hay una serie de algoritmos de boosted, que difieren principalmente en el

estado de actualización de los pesos (e-Boost, Logit-Boost, ...).

Otras formas de combinar clasificadores débiles: Bagging (Agregadores-boost)

genera el conjunto de clasificadores mediante muestreo aleatorio con

reemplazo de la muestra completa de entrenamiento.

Comparando métodos multivariados (TMVA)


Escoger el mejor

Software para análisis multivariado


TMVA, Hocker, Stelzer, Tegenfeldt, Voss, physics/0703039De tmva.sourceforge.net, también distribuida con ROOTVariedad de clasificadoresBuen manual

StatPatternRecognition, I. Narsky, physics/0507143Mas información en www.hep.caltech.edu/~narsky/spr.htmlAmplia variedad de métodos, complementarios a TMVA(este proyecto ya no tiene soporte :( )

Fuentes de métodos multivariados


Libros

Material de congresos

Terminando Capítulo 6


Nos fijamos en tests estadísticos y asuntos relacionados:discriminar entre tipos de eventos (hipótesis),determinar la eficacia de la selección, pureza de la muestra, etc

Hemos discutido algunos métodos modernos (y no tan modernos):discriminante de Fisher, redes neuronales,

PDE, KDE, árboles de decisión, ...

En una extensión de este curso veríamos...… tests de significancia (goodness-of-fit):

p-value expresa el nivel de concordancia entre los datosy la hipótesis

Slides adicionales


Identificación de partículas en MiniBooNE


El detector es un tanque de 12-m diametro de aceite mineral expuesto a un haz de neutrinos y visto por 1520 tubos PMTs:

H.J. Yang, MiniBooNE PID, DNP06H.J. Yang, MiniBooNE PID, DNP06

Búsqueda de oscilaciones νµ a νe

requirió i.d. de partículas usando información de los PMTs.

Ejemplo BDT en MiniBooNE


~200 variables de entrada para c/evento (interacción ν produciendo e, µ or π)

Cada árbol individual es relativamente débil, con una tasa de error de clasificación de ~ 0.4 – 0.45

B. Roe et al., NIM 543 (2005) 577

Comparación de algoritmos Boosted


Un número de algoritmos de boosting en el mercado;difieren en la regla de actualización de los pesos.

Usando output del clasificador para el descubrimiento


y

f(y)

y

N(y)

Normalizado a unidad Normalizado a númeroesperado de eventos

¿exceso?

señal

background background

región debúsqueda

Descubrimiento = número de eventos hallados en región de búsqueda incompatible con hipótesis de solo-background.p-valor de hipótesis de solo-background puede depender crucialmente de distribución f(y|b) en la "región de búsqueda".

ycut

Producción de un quark top (CDF/D0)


Top quark descubierto en pares, peroSM predice producción de single top.

Usar muchas entradas basadas enpropiedades de jet, i.d. de partículas,...

Producción de pares de tops sonahora un proceso de background

señal(azul +verde)

Diferentes clasificadores para un top (single)


También Naive Bayes y varias aproximaciones a likelihood ratio,....

Resultado final combinado es estadísticamente significativa (nivel >5σ) pero no fácil de entender las salidas (outputs) de losclasificadores.

Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...

Documents

Transcript of Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...