Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...
Transcript of Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 1
Análisis de Datos en Física de Partículas
Sección de PosgradoFacultad de CienciasUniversidad Nacional de Ingeniería
C. Javier [email protected]://compinformatidf.wordpress.com/
Página del curso:http://compinformatidf.wordpress.com/2013/04/13/curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/
Análisis de Datos en Física de Partículas: Capítulo 5
1 Teorema de Probabilidad de Bayes, Variables aleatorias, y pdfs2 Funciones de r.v.s, Valores de expectación, propagación de errores3 Catálogo de pdfs4 El método de Monte Carlo5 Test estadísticos: conceptos generales6 Test statistics, métodos multivariantes7 Tests Bondad de ajuste (goodness-of-fit)8 Parámetros de estimación, maximum likelihood9 Mas de maximum likelihood10 Método de mínimos cuadrados (least squares)11 Intervalo de estimación, establecimiento de límites12 Parámetros molestos (nuisance), incertidumbres sistemáticas13 Ejemplos de aproximación Bayesiana
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 2
Límites de decisión lineal
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 3
Una frontera de decisión lineales sólo óptima cuando ambas clases siguen gaussianas multivariadas con covarianzasequivalentes y diferentes medias.
Para algunos casos un límite lineales casi inútil.
Transformaciones no lineales de los inputs/entradas
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 4
Tratemos de encontrar una transformación, 1, ...,
n->
1(),...,
n(), de
modo que las variables transformadas, de "características espaciales",se pueden separar mejor por una frontera lineal.
Aquí, suponer funciones de base fija(no parámetros libres)
Pruebas/Tests estadísticas no lineales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 5
La frontera de decisión óptima puede no ser un hiperplano,→ prueba estadística no lineal t(x)
Métodos estadísticos multivariantesson una gran industria:- redes neuronales,- máquinas de vectores soporte,- métodos de densidad kernel,- …
Física de Partículas puede beneficiarse de los avancesen Machine Learning (aprendizaje automático)
Introducción a las redes neuronales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 6
Se usa en neurobiología, reconocimiento de patrones, previsión financiera,...Aquí, redes neuronales son sólo un tipo de prueba estadística.
Supongamos que tomamos t(x) para tener la forma Logísticasigmoide
Esto se llamaperceptrón de una sola capa
s(·) es monotónica → equivalente a lineal t(x)
Introducción a las redes neuronales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 7
Generalizar a partir de una capaa perceptrón multicapa:
Los valores de los nodos de lacapa intermedia (oculta) son
y la salida de la red está dada por
pesos (fuerzas de conexión)
Análisis de redes neuronales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 8
Fácil de generalizar a número arbitrario de capas.
Red feed-forward: los valores de un nodo dependen sólo de las capas
anteriores, por lo general sólo de capa anterior ("arquitectura de red").
Más nodos → red neuronal se acerca a óptimo t(x), pero másparámetros necesitan ser determinados.
Parámetros generalmente determinados minimizando función de error,
donde t(0) , t(1) son valores, por ej., 0 y 1 para sigmoide logística. Valores
de expectación reemplazados por medias de datos entrenados (ej. MC).
En general entrenamiento puede ser difícil; software estándar disponible.
Ejemplo de redes neuronales del LEP II
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 9
Señal: e+e− → W+W− (frecuente: 4 jets hadrónicos bien separados)
Background: e+e− → qqgg (4 jets hadrónicos menos bien separados)
←variables de entrada/input basadas enla estructura del jet, forma del evento,...ninguna da sola mucha separación.
output redes neuronales lo hace mejor...
(Garrido, Juste and Martinez, ALEPH 96-144)
Algunos asuntos con redes neuronales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 10
En el ejemplo, con eventos WW, el objetivo era seleccionar a estos eventos con el fin de estudiar las propiedades del bosón W.
Necesario evitar el uso de variables input correlacionadas con laspropiedades que eventualmente queremos estudiar (no trivial)
En principio, una sola capa oculta con un número suficientemente nodospuede aproximar arbitrariamente bien la prueba óptima de variables (likelihood ratio / razón de probabilidad).
En general comenzamos con un número pequeño de nodos yaumentamos hasta que los errores de clasificación en la validaciónde datos de la muestra deja de disminuir.
En general el entrenamiento MC de datos es barato -- problemas con quedaratrapado en mínimos locales, sobreentrenamiento, etc., menos importante qla preocupación por las diferencias sistemáticas entre los datos entrenadosy la Naturaleza, y las preocupaciones por la facilidad de interpretación delos resultados (output).
Técnicas de estimación de densidad de probabilidad (PDE)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 11
Ver, ej. K. Cranmer, Kernel Estimation in High Energy Physics, CPC 136 (2001) 198; hep-ex/0011057;T. Carli and B. Koblitz, A multi-variate discrimination technique based on range-searching, NIM A 501 (2003) 576; hep-ex/0211019
Construir estimadores no paramétricos de los pdfs
y usarlos para construir el likelihood ratio
(histograma n-dimensional es un ejemplo de fuerza bruta de esto.)
Técnicas de estimación más inteligentes pueden conseguir que estofuncione para dimensiones (un poco) mayores.
PDE basado en Kernel (KDE, ventana de Parzen)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 12
Considerar d dimensiones, N eventos de entramiento, x1, ..., xN, estimar f (x) con
Usar, x ej. Kernel Gausiano:
kernelancho de banda (parámetro smoothing)
Necesidad de sumar N términos para evaluar la función (lento); algoritmos más rápidos solo cuentan eventos en vecindad de x (k-ésimo vecino más cercano, búsqueda por rango).
Correlación vs independencia
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 13
En una distribución multivariante general p(x) no factoriza en un producto de distribuciones marginales para las variables individuales:
Más importante, los componentes de x tendrán en general covarianciadiferente de cero (es decir, están correlacionadas):
Se mantiene solo sicomponentes de xson independientes
Decorrelación de variables de entrada
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 14
Podemos definir un conjunto de variables de entrada no correlacionadaspor una transformación lineal, es decir, hallar la matriz A tal que para las covarianciasy⃗=A x⃗ cov [ y i ,y j ]=0
Para lo siguiente suponer que las variables son “decorrelacionadas” deesta manera para cada una de p(x|H
0) y p(x|H
1) separadamente (desde
que en general sus correlaciones son diferentes)
Decorrelación no es suficiente
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 15
Porque aún con correlación cero, una pdf multivariante p(x) en generaltendrá no linealidades y entonces las variables decorrelacionadas aúnno son independientes.
pdf con covariancia cero perocomponentes todavía no sonindependientes, desde que
y por lo tanto
Bayes sencillo (naive)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 16
Pero si las nolinealidades no son muy grandes, es razonable primerodecorrelacionar las entradas/inputs y tomar como nuestro estimador para cada pdf
Entonces esto al menos reduce el problema a uno de hallar estimadosde pdfs 1-dim.
El estimado resultante de likelihood ratio da el clasificador Naive Bayes(llamado algunas veces en HEP el “método likelihood” )
Árboles de decisión
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 17
De todas las variables de entrada, encontrar el ideal para que con un solo corte de la mayor mejora en la pureza de la señal:
Ejemplo del experimento MiniBooNE,B. Roe et al., NIM 543 (2005) 577
donde wi es el peso del ith evento.
Los nodos resultantes son clasificados como señal o background.
Iterar hasta el criterio de parada, alcanzado sobre la base de, por ejemplo, pureza o el número mínimo de eventos en un nodo.
El conjunto de cortes define la frontera de decisión.
Encontrando el mejor corte único
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 18
El nivel de separación dentro de un nodo puede, por ej, ser cuantificado por el coeficiente de Gini, calculado a partir de la pureza (s o b) como:
Para un corte, que divide un conj. de eventos a en subconjuntosb y c, se puede cuantificar la mejora en la separación por el cambioen los coeficientes de Gini ponderados:
donde, por ej,
Elija por ej. el corte para maximizar ∆; una variante de este esquemapuede usarse en vez del Gini, por ej. la tasa de errores de clasificación:
Árboles de decisión (2)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 19
Los nodos terminales (hojas) se clasifican como señal o background en función de voto de la mayoría (o por ejemplo, fracción de señal superior a un umbral especificado).
Esto clasifica cada punto en el espacio de variable-input, ya sea como señal o background, un clasificador de árbol de decisión, con la función discriminante
f(x) = 1 si x region de señal, -1 en otro caso.
Los árboles de decisiones tienden a ser muy sensibles a fluctuaciones estadísticas en la muestra de entrenamiento.
Métodos tales como boosting se pueden utilizar para estabilizar el árbol.
Boosting
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 20
Boosting es un método general de creación de un conjunto de clasificadores que se pueden combinar para lograr un nuevo clasificador que es más estable y tiene un error menor que cualquier otro individualmente.
A menudo se aplica a árboles de decisión, pero se puede aplicar a cualquier clasificador.
Suponer que tenemos una muestra de entrenamiento T de N eventos con
x1,....,x
N vectores de datos de eventos (cada x multivariante)
y1,....,y
N etiquetas de clase reales (true), 1 para señal, -1 para background
w1,....,w
Npesos de eventos
Ahora definir una regla para crear a partir de este un conjunto de muestras de entrenamiento T
1, T
2, ..., derivar un clasificador de cada uno y
promediarlos.
AdaBoost
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 21
Un algoritmo exitoso para boosting es AdaBoost (Freund & Schapire, 1997).
Primero inicializar la muestra de entrenamiento Ti usando el original
x1,....,x
Nvectores de datos de eventos (cada x multivariante)
y1,....,y
Netiquetas/labels de clase reales/true, (+1 o -1)
w(1)1,....,w(1)
Npesos de eventos
Con los pesos igual y normalizados tal que
Entrenar el clasificador fi(x) (por ejemplo un arbol de decision) usando los
pesos w(1) con el fin de minimizar el error de clasificación,
donde I(X) = 1 si X es verdadero y cero en otro caso
Actualizando los pesos de eventos (AdaBoost)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 22
Asignar una puntuación al clasificador k-esimo basado en su tasa de error
Definir la muestra de entrenamiento para el paso k+1 a partir del paso k, actualizando los pesos de los eventos de acuerdo a
Iterar K veces, el clasificador final es
Sobreentrenamiento
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 23
muestra de entrenamiento muestra de prueba independiente
Si frontera de decisión es demasiado flexible que se ajusta muchoa los puntos de formación → sobreentrenamiento.Supervisar aplicando clasificador para muestra independiente.
Monitoreando el sobreentrenamiento
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 24
De ejemplo MiniBooNE:
Rendimiento establedespués de unos cientosde árboles.
Resumen de árbol de decisión boosted
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 25
Ventaja de árbol de decisiones boosted es que puede manejar un gran número
de entradas. Los que prestan poca/ninguna separación rara vez se utilizan
como divisores de árbol, se ignoran efectivamente.
Fácil de hacer frente a entradas de tipo mixto (real, entero, categórica, ...).
Si un árbol tiene sólo unas pocas hojas, es fácil de visualizar (pero rara vez
utilizan un solo árbol).
Hay una serie de algoritmos de boosted, que difieren principalmente en el
estado de actualización de los pesos (e-Boost, Logit-Boost, ...).
Otras formas de combinar clasificadores débiles: Bagging (Agregadores-boost)
genera el conjunto de clasificadores mediante muestreo aleatorio con
reemplazo de la muestra completa de entrenamiento.
Comparando métodos multivariados (TMVA)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 26
Escoger el mejor
Software para análisis multivariado
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 27
TMVA, Hocker, Stelzer, Tegenfeldt, Voss, physics/0703039De tmva.sourceforge.net, también distribuida con ROOTVariedad de clasificadoresBuen manual
StatPatternRecognition, I. Narsky, physics/0507143Mas información en www.hep.caltech.edu/~narsky/spr.htmlAmplia variedad de métodos, complementarios a TMVA(este proyecto ya no tiene soporte :( )
Fuentes de métodos multivariados
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 28
Libros
Material de congresos
Terminando Capítulo 6
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 29
Nos fijamos en tests estadísticos y asuntos relacionados:discriminar entre tipos de eventos (hipótesis),determinar la eficacia de la selección, pureza de la muestra, etc
Hemos discutido algunos métodos modernos (y no tan modernos):discriminante de Fisher, redes neuronales,
PDE, KDE, árboles de decisión, ...
En una extensión de este curso veríamos...… tests de significancia (goodness-of-fit):
p-value expresa el nivel de concordancia entre los datosy la hipótesis
Slides adicionales
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 30
Identificación de partículas en MiniBooNE
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 31
El detector es un tanque de 12-m diametro de aceite mineral expuesto a un haz de neutrinos y visto por 1520 tubos PMTs:
H.J. Yang, MiniBooNE PID, DNP06H.J. Yang, MiniBooNE PID, DNP06
Búsqueda de oscilaciones νµ a νe
requirió i.d. de partículas usando información de los PMTs.
Ejemplo BDT en MiniBooNE
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 32
~200 variables de entrada para c/evento (interacción ν produciendo e, µ or π)
Cada árbol individual es relativamente débil, con una tasa de error de clasificación de ~ 0.4 – 0.45
B. Roe et al., NIM 543 (2005) 577
Comparación de algoritmos Boosted
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 33
Un número de algoritmos de boosting en el mercado;difieren en la regla de actualización de los pesos.
Usando output del clasificador para el descubrimiento
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 34
y
f(y)
y
N(y)
Normalizado a unidad Normalizado a númeroesperado de eventos
¿exceso?
señal
background background
región debúsqueda
Descubrimiento = número de eventos hallados en región de búsqueda incompatible con hipótesis de solo-background.p-valor de hipótesis de solo-background puede depender crucialmente de distribución f(y|b) en la "región de búsqueda".
ycut
Producción de un quark top (CDF/D0)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 35
Top quark descubierto en pares, peroSM predice producción de single top.
Usar muchas entradas basadas enpropiedades de jet, i.d. de partículas,...
Producción de pares de tops sonahora un proceso de background
señal(azul +verde)
Diferentes clasificadores para un top (single)
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 36
También Naive Bayes y varias aproximaciones a likelihood ratio,....
Resultado final combinado es estadísticamente significativa (nivel >5σ) pero no fácil de entender las salidas (outputs) de losclasificadores.