Post on 14-Feb-2020
Extensive Games with Imperfect
Information
Παύλος Στ. Εφραιµίδης
Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών
Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Παύλος Στ. Εφραιµίδης
Εκτεταμένα παίγνια με ατελή
πληροφόρηση
• Στα εκτεταµένα παίγνια (µε τέλεια πληροφόρηση) κάθε
παίκτης όποτε επιλέγει µια ενέργεια είναι
πληροφορηµένος σχετικά µε τις ενέργειες που έχουν
επιλεγεί προηγουµένως από όλους τους παίκτες
• Τα εκτεταµένα παίγνια µε ατελή πληροφόρηση γενικεύουν
το αρχικό µοντέλο για περιστάσεις όπου οι παίκτες µπορεί
να µην έχουν τέλεια πληροφόρηση για τις προηγούµενες
ενέργειες των άλλων παικτών.
Algorithmic Game TheoryExtensive Games with Imperfect
Information2
Ορισμός
• Extensive game with perfect information
– Παίκτες (players):
– Τερματικά ιστορικά (terminal histories):
– Συνάρτηση παίκτη (player function)
– Προτιμήσεις (preferences)
• Extensive game with imperfect information
– Παίκτες (players):
– Τερματικά ιστορικά (terminal histories):
– Συνάρτηση παίκτη (player function)
– Μια συνάρτηση για κινήσεις που αποδίδονται στην “τύχη”
– Για κάθε παίκτη, μια διαμέριση πληροφοριών (information partition) των
ιστορικών που αντιστοιχίζονται σε αυτόν
– Προτιμήσεις (preferences)
Algorithmic Game TheoryExtensive Games with Imperfect
Information3
Ορισμός
• Η συνάρτηση για κινήσεις που αποδίδονται στην “τύχη”
αντιστοιχεί σε κάθε ιστορικό μία κατανομή πιθανοτήτων στις
ενέργειες που είναι εφικτές μετά από εκείνο το ιστορικό.
Κάθε τέτοια κατανομή είναι ανεξάρτητη από κάθε άλλη
κατανομή.κατανομή.
• Η διαμέριση πληροφοριών καθορίζει την πληροφορία που
έχει στη διάθεσή του ο παίκτης κάθε φορά που πρέπει να
επιλέξει μια ενέργεια. Συγκεκριμένα πριν από κάθε ενέργειά
του, ο παίκτης γνωρίζει το σύνολο πληροφόρησης
(information set) στο οποίο ανήκει το τρέχον ιστορικό.
Algorithmic Game TheoryExtensive Games with Imperfect
Information4
Bach or Stravinsky
• Παίκτες (players): Παίκτες Α και Β
• Τερματικά ιστορικά (terminal histories): (B, B), (B, S), (S, B) και (S,S)
• Συνάρτηση παίκτη (player function): P(∅) = A, P(B) = P(S) = Β
• Κινήσεις της “τύχης”: Καμία.
• Για κάθε παίκτη, μια διαμέριση πληροφοριών:
– Παίκτης Α: ∅ (ο παίκτης Α παίζει πρώτος)
– Παίκτης Β: {B,S} (ο παίκτης Β βλέπει το ίδιο σύνολο πληροφόρησης, είτε ο Α
επέλεξε B είτε επέλεξε S.)
• Προτιμήσεις (preferences): Όπως τις έχουμε πει για το κλασικό παιχνίδι
Bach or Stravinsky ή Βαμβακάρης ή Τσιτσάνης κτλ.
Algorithmic Game TheoryExtensive Games with Imperfect
Information5
Bach or Stravinsky
Algorithmic Game TheoryExtensive Games with Imperfect
Information6
Η διακεκομμένη γραμμή μεταξύ των δύο
κόμβων δηλώνει ότι ο παίκτης 2 δεν
γνωρίζει σε ποιον από τους δύο κόμβους
βρίσκεται το παίγνιο.
Οι δύο κόμβοι με ετικέτα “2:1” αποτελούν
ένα σύνολο πληροφόρησης.
A simple poker game
• H Alice τραβάει ένα τυχαίο χαρτί από την τράπουλα.
• Έστω ότι υπάρχουν “high” και “low” χαρτιά.
• Η πιθανότητα επιλογής κάθε κατηγορίας είναι η ίδια. Μπορεί πχ. τα
κόκκινα (κούπες, καρό) να θεωρούνται “high” και τα μαύρα (μπαστούνι,
σπαθί) “low”.
• Η Alice μπορεί στη συνέχεια να επιλέξει “raise” ή “fold”• Η Alice μπορεί στη συνέχεια να επιλέξει “raise” ή “fold”
– Εάν επιλέξει “fold” τελειώνει το παιχνίδι.
– Εάν επιλέξει “raise” τότε είναι η σειρά του Bob, οποίος μπορεί να
επιλέξει
• “meet” ή
• “pass”,
και μετά τελειώνει το παιχνίδι.
Algorithmic Game TheoryExtensive Games with Imperfect
Information7
A simple poker game
Algorithmic Game TheoryExtensive Games with Imperfect
Information8
A simple poker game
Algorithmic Game TheoryExtensive Games with Imperfect
Information9
στρατηγική
• Μια (αγνή) στρατηγική ενός παίκτη i σε ένα εκτεταμένο παίγνιο είναι μια συνάρτηση Ii
που αντιστοιχεί σε κάθε σύνολο πληροφόρησης (information set) του παίκτη iμία ενέργεια A(i).μία ενέργεια A(i).
• Μια μεικτή στρατηγική είναι μια κατανομή πιθανοτήτων πάνω στις αγνές στρατηγικές του παίκτη.
Algorithmic Game TheoryExtensive Games with Imperfect
Information10
Belief systems, Behavioral strategy
• Ένα belief system σε ένα εκτεταμένο παίγνιο είναι μια συνάρτηση που
αντιστοιχεί σε κάθε σύνολο πληροφόρησης μία κατανομή πιθανοτήτων
για τα ιστορικά που ανήκουν στο σύνολο πληροφόρησης αυτό.
• Μια behavioral strategy ενός παίκτη i σε ένα εκτεταμένο παίγνιο είναι μια
συνάρτηση που αντιστοιχεί σε κάθε σύνολο πληροφόρησης του i μια συνάρτηση που αντιστοιχεί σε κάθε σύνολο πληροφόρησης του i μια
κατανομή πιθανοτήτων για τις ενέργειες A(i), με την ιδιότητα ότι κάθε
κατανομή πιθανοτήτων είναι ανεξάρτητη από κάθε άλλη κατανομή.
• Behavioral strategy vs mixed strategy
Algorithmic Game TheoryExtensive Games with Imperfect
Information11
Behavioral strategies vs. mixed strategies
• Σε πολλές περιπτώσεις mixed strategies και
behavioral strategies είναι ισοδύναμες
• BoS: Κάθε παίκτης έχει ένα information set • BoS: Κάθε παίκτης έχει ένα information set
και επομένως μια behavioral strategy είναι
μια μοναδική κατανομή πιθανοτήτων και
ταυτίζεται με την αντίστοιχη mixed strategy
Algorithmic Game TheoryExtensive Games with Imperfect
Information12
Simple card game (από το βιβλίο)
• Δύο παίκτες, Alice και Bob που ποντάρουν από 1€ ο καθένας
• Η Alice τραβάει ένα τυχαίο χαρτί από την τράπουλα.
• Έστω ότι υπάρχουν “high” και “low” χαρτιά.
• Η Alice μπορεί στη συνέχεια να επιλέξει “see” ή “raise”
– Εάν επιλέξει “see” αποκαλύπτει το χαρτί της
εάν έχει “high” παίρνει τα χρήματα,• εάν έχει “high” παίρνει τα χρήματα,
• εάν έχει “low” παίρνει ο Bob τα χρήματα, και
τελειώνει το παιχνίδι.
– Εάν επιλέξει “raise” τότε ποντάρει ακόμα 1€ και είναι η σειρά του Bob,
οποίος μπορεί να επιλέξει
• “meet” (ποντάρει 1€, ανοίγουν το χαρτί της Αlice, και με “high” κερδίζει η Αλίκη,
με “low” ο Bob) ή
• “pass” (η Αλίκη παίρνει κατευθείαν τα χρήματα),
και μετά τελειώνει το παιχνίδι.
Algorithmic Game TheoryExtensive Games with Imperfect
Information13
Simple Card Game
Algorithmic Game TheoryExtensive Games with Imperfect
Information14
Algorithmic Game TheoryExtensive Games with Imperfect
Information15
Πηγές - Αναφορές
• An Introduction to Game Theory, Κεφάλαιο 10
• Gambit Tutorial: A simple poker game
Algorithmic Game TheoryExtensive Games with Imperfect
Information16