Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.

Réseaux bayésiens: Inférence

Chap. 14

Sections 4 – 5

Plan

• Inférence exacte par énumération

• Inférence exacte par élimination de variable

• Inférence par simulation stochastique

• Inférence par Chaîne de Markov Monte-Carlo (MCMC)

Tâches d’inférences• Requête simples: la probabilité a-posteriori

– E.g.

• Requêtes conjonctives:

• Décision optimale: le réseau de décision contient les informations d’utilité. L’inférence probabiliste requise pour

• Valeur d’information: Quelle évidence à chercher ensuite?

• Analyse de sensibilité: Quelle valeur de probabilité est la plus critique?

• Explication: Pourquoi ai-je besoin d’un nouveau démarreur?

Inférence par énumération• Méthode naïve: énumérer tous les cas• Requête simple sur le réseau du cambriolage

• Légèrement plus intelligent: sommer (sum out) sur les variables sur une distribution conjointe sans construire sa représentation explicite

• Réécrire la distribution conjointe en utilisant les CPT:

• Peut être implanté avec une recherche en profondeur d’abord récursive: Espace O(n) et Temps O(dn)

Algorithme par énumération

Arbre d’évaluation

Calcul répété: inefficace

Inférence par élimination de variables• Élimination de variables: Effectuer les sommations de droite à

gauche, stocker des résultats intermédiaires (facteurs) pour éviter de recalculer

Élimination de variables: opérations de base

Sommation (sum out) d’une variable à partir d’un produit de facteurs:

E.g.• Bouger tous les facteurs constant dehors• Additionner les sous matrices en produit point-par-point (pointwise)

pour les facteurs restant

Supposons que ne dépendent pas de

Produit point-par-point de facteurs f1 et f2

Algorithme

Variable non pertinente

• Soit la requête

• Sommation sur m donne toujours 1. Ainsi M est non pertinente à la requête

• Théorème 1: Y est non pertinente à moins que

• Ici, et

Donc, est non pertinente

Variable non pertinente

• Définition: Graphe moral d’un réseau bayésien: marier les parents et enlever les flèches

• Définition: A est m-séparé de B par C ssi séparé par C dans le graphe moral

• Théorème 2: Y est non pertinent si m-séparé de X par E• Burglary et Earthequake sont non pertinentes• Éliminer ces variables du calcul

• Pour

Complexité de l’inférence exacte• Polytree (réseau connecté par des liens simples):

– Chaque paires de nœuds connectés au max. par un lien– Temps et espace sont O(dkn)

• Réseau de connexions multiples:– Peut se réduire à 3SAT NP-difficile– Équivalent à compter les modèles 3SAT #P-complet

• Idée de base:1. Tirer N échantillons à partir d’une distribution d’échantillonnage

S

2. Calculer une probabilité a posteriori approximative

3. Montrer que ceci converge vers la raie probabilité P

• Méthodes– Échantillonnage à partir d’un réseau vide

– Échantillonnage avec rejet: rejeter les échantillons qui ne se conforme pas avec l’évidence

– Pondération de vraisemblance: utiliser l’évidence pour pondérer les échantillons

– Chaîne de Markov Monte-Carlo (MCMC): échantillonnage à partir d’un processus stochastique dont la distribution stationnaire est la vraie probabilité

–

Inférence par simulation stochastique

Échantillonnage à partir d’un réseau vide

Exemple

• Probabilité que PriorSample génère un événement particulier:

• E.g. • Soit le nombre d’échantillons générés pour

l’événement • Alors nous avons

donc consistent

Autrement dit:

• i.e. la vraie probabilité

Échantillonnage à partir d’un réseau vide

Échantillonnage avec rejet• est estimée selon les échantillons conformes à

• Rejeter les échantillons non conformes

• E.g. Pour utilisant 100 échantillons– 27 avec

• Dont 8 et 19

Analyse: échantillonnage avec rejet

• Donc, l’échantillonnage avec rejet retourne des estimations a posteriori consistantes

• Problème: Très coûteux quand P(e) est petite• P(e) descend exponentiellement avec le nombre

de variables d’évidence !

Pondération de vraisemblance• Idée: Fixer les variables évidences, échantillonner sur les variables

non-évidences et pondérer selon la vraisemblance qu’elles sont conformes aux évidence

Exemple

Analyse de l’échantillonnage pondéré• Échantillonner pour• Note: Surveiller seulement les évidences des ancêtres

– Quelque part entre les distributions a priori et a posteriori

• Pondérer les échantillons z et e:

• Prob. d’échantillonnage pondéré est:

• Donc: la pondération d’espérance retourne des estimations consistantes, mais la performance dégrade avec beaucoup de variables d’évidence parce que seulement quelques échantillons ont tout le poids

Inférence approximative avec MCMC• État du réseau = les assignations courantes des variables

• Générer l’état prochain en tirant sur une variable étant donné la couverture Markov

• Échantillonner sur chaque variable à tour de rôle, en gardant les évidences fixes

• Échantillonnage Gibbs: un cas spécial

Exemple• Avec , il y a 4 états:

• Laisser airer un moment, et prendre la moyenne

Exemple• Estimer • Tirer sur et étant donné la couverture Markov, et

répéter• Compter le nombre de fois est vrai et faux • E.g. 100 échantillons avec 31 et 69

• Théorème: La chaîne Markov approche la distribution stationnaire:

Le temps resté sur chaque état dans une longue expérience est exactement proportionnel à sa probabilité a posteriori

Échantillonnage couverture Markov• La couverture de Cloudy est

Sprinkler et Rain• La couverture Markov de Rain est

Cloudy, Sprinkler et WetGrass• Probabilité étant donné la couverture Markov:

• Peut être implanté comme passage de message dans un système parallèle

• Problèmes:– Difficile de déterminer si ça converge

– Peut gaspiller du temps si la couverture Markov est large

ne change pas beaucoup

Sommaire• Inférence exacte par élimination de variables

– Temps polynomial en polytree et NP-difficile en général– Espace = temps, sensible à la topologie

• Inférence approximative– Pondération d’espérance: fonctionne mal quand il y a beaucoup

d’évidences– Pondération d’espérance et MCMC généralement non sensible

à la topologie– Convergence peut être lente quand prob. proche de 0 ou 1– Peut traiter des combinaisons arbitraires des variables discrètes

et continues

Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.

Documents

Transcript of Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.