Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.
-
Upload
gerard-bonhomme -
Category
Documents
-
view
108 -
download
1
Transcript of Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.
Réseaux bayésiens: Inférence
Chap. 14
Sections 4 – 5
Plan
• Inférence exacte par énumération
• Inférence exacte par élimination de variable
• Inférence par simulation stochastique
• Inférence par Chaîne de Markov Monte-Carlo (MCMC)
Tâches d’inférences• Requête simples: la probabilité a-posteriori
– E.g.
• Requêtes conjonctives:
• Décision optimale: le réseau de décision contient les informations d’utilité. L’inférence probabiliste requise pour
• Valeur d’information: Quelle évidence à chercher ensuite?
• Analyse de sensibilité: Quelle valeur de probabilité est la plus critique?
• Explication: Pourquoi ai-je besoin d’un nouveau démarreur?
Inférence par énumération• Méthode naïve: énumérer tous les cas• Requête simple sur le réseau du cambriolage
• Légèrement plus intelligent: sommer (sum out) sur les variables sur une distribution conjointe sans construire sa représentation explicite
• Réécrire la distribution conjointe en utilisant les CPT:
• Peut être implanté avec une recherche en profondeur d’abord récursive: Espace O(n) et Temps O(dn)
Algorithme par énumération
Arbre d’évaluation
Calcul répété: inefficace
Inférence par élimination de variables• Élimination de variables: Effectuer les sommations de droite à
gauche, stocker des résultats intermédiaires (facteurs) pour éviter de recalculer
Élimination de variables: opérations de base
Sommation (sum out) d’une variable à partir d’un produit de facteurs:
E.g.• Bouger tous les facteurs constant dehors• Additionner les sous matrices en produit point-par-point (pointwise)
pour les facteurs restant
Supposons que ne dépendent pas de
Produit point-par-point de facteurs f1 et f2
Algorithme
Variable non pertinente
• Soit la requête
• Sommation sur m donne toujours 1. Ainsi M est non pertinente à la requête
• Théorème 1: Y est non pertinente à moins que
• Ici, et
Donc, est non pertinente
Variable non pertinente
• Définition: Graphe moral d’un réseau bayésien: marier les parents et enlever les flèches
• Définition: A est m-séparé de B par C ssi séparé par C dans le graphe moral
• Théorème 2: Y est non pertinent si m-séparé de X par E• Burglary et Earthequake sont non pertinentes• Éliminer ces variables du calcul
• Pour
Complexité de l’inférence exacte• Polytree (réseau connecté par des liens simples):
– Chaque paires de nœuds connectés au max. par un lien– Temps et espace sont O(dkn)
• Réseau de connexions multiples:– Peut se réduire à 3SAT NP-difficile– Équivalent à compter les modèles 3SAT #P-complet
• Idée de base:1. Tirer N échantillons à partir d’une distribution d’échantillonnage
S
2. Calculer une probabilité a posteriori approximative
3. Montrer que ceci converge vers la raie probabilité P
• Méthodes– Échantillonnage à partir d’un réseau vide
– Échantillonnage avec rejet: rejeter les échantillons qui ne se conforme pas avec l’évidence
– Pondération de vraisemblance: utiliser l’évidence pour pondérer les échantillons
– Chaîne de Markov Monte-Carlo (MCMC): échantillonnage à partir d’un processus stochastique dont la distribution stationnaire est la vraie probabilité
–
Inférence par simulation stochastique
Échantillonnage à partir d’un réseau vide
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
• Probabilité que PriorSample génère un événement particulier:
• E.g. • Soit le nombre d’échantillons générés pour
l’événement • Alors nous avons
donc consistent
Autrement dit:
• i.e. la vraie probabilité
Échantillonnage à partir d’un réseau vide
Échantillonnage avec rejet• est estimée selon les échantillons conformes à
• Rejeter les échantillons non conformes
• E.g. Pour utilisant 100 échantillons– 27 avec
• Dont 8 et 19
Analyse: échantillonnage avec rejet
• Donc, l’échantillonnage avec rejet retourne des estimations a posteriori consistantes
• Problème: Très coûteux quand P(e) est petite• P(e) descend exponentiellement avec le nombre
de variables d’évidence !
Pondération de vraisemblance• Idée: Fixer les variables évidences, échantillonner sur les variables
non-évidences et pondérer selon la vraisemblance qu’elles sont conformes aux évidence
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Analyse de l’échantillonnage pondéré• Échantillonner pour• Note: Surveiller seulement les évidences des ancêtres
– Quelque part entre les distributions a priori et a posteriori
• Pondérer les échantillons z et e:
• Prob. d’échantillonnage pondéré est:
• Donc: la pondération d’espérance retourne des estimations consistantes, mais la performance dégrade avec beaucoup de variables d’évidence parce que seulement quelques échantillons ont tout le poids
Inférence approximative avec MCMC• État du réseau = les assignations courantes des variables
• Générer l’état prochain en tirant sur une variable étant donné la couverture Markov
• Échantillonner sur chaque variable à tour de rôle, en gardant les évidences fixes
• Échantillonnage Gibbs: un cas spécial
Exemple• Avec , il y a 4 états:
• Laisser airer un moment, et prendre la moyenne
Exemple• Estimer • Tirer sur et étant donné la couverture Markov, et
répéter• Compter le nombre de fois est vrai et faux • E.g. 100 échantillons avec 31 et 69
• Théorème: La chaîne Markov approche la distribution stationnaire:
Le temps resté sur chaque état dans une longue expérience est exactement proportionnel à sa probabilité a posteriori
Échantillonnage couverture Markov• La couverture de Cloudy est
Sprinkler et Rain• La couverture Markov de Rain est
Cloudy, Sprinkler et WetGrass• Probabilité étant donné la couverture Markov:
• Peut être implanté comme passage de message dans un système parallèle
• Problèmes:– Difficile de déterminer si ça converge
– Peut gaspiller du temps si la couverture Markov est large
ne change pas beaucoup
Sommaire• Inférence exacte par élimination de variables
– Temps polynomial en polytree et NP-difficile en général– Espace = temps, sensible à la topologie
• Inférence approximative– Pondération d’espérance: fonctionne mal quand il y a beaucoup
d’évidences– Pondération d’espérance et MCMC généralement non sensible
à la topologie– Convergence peut être lente quand prob. proche de 0 ou 1– Peut traiter des combinaisons arbitraires des variables discrètes
et continues