Decision making in multiplayer environments: application in backgammon variants

Το πρόγραμμα TD-Gammon του Tesauro ήταν η πρώτη μεγάλη επιτυχία της μηχανικής μάθησης και της τεχνητής νοημοσύνης γενικότερα, όταν επέδειξε απόδοση παγκόσμιας κλάσης εναντίον του παγκόσμιου πρωταθλητή του ταβλιού (backgammon) εκείνη την εποχή. Ακόμη, το πιο εντυπωσιακό στοιχείο είναι ότι η χρησιμοποιηθείσα μέθοδος χρειάστηκε ελάχιστη γνώση από εξπέρ του είδους; βασιζόμενη μόνο στο παίξιμο με αντίπαλο τον εαυτό του και στην εκπαίδευση νευρωνικών δικτύων μέσω της ενισχυτικής μάθησης. Παρόλα αυτά, εκτός από το backgammon, υπάρχουν αρκετές ανεξερεύνητες παραλλαγές του ταβλιού που χρησιμοποιούν το ίδιο ταμπλό, αριθμό πουλιών και ζάρια, αλλά έχουν διαφορετικούς κανόνες για την κίνηση των πουλιών, διαφορετική αρχική θέση ή φορά κίνησης.Σε αυτή τη διατριβή επικεντρώνεται η έρευνα σε τρεις πολύ δημοφιλείς παραλλαγές στην Ελλάδα και γειτονικές χώρες, τις "Πόρτες", το "Πλακωτό" και το "Φεύγα", οι οποίες συγκεντρωτικά αποκαλούνται τάβλι. Εμπνεόμενοι από τις επιτυχημένες μεθόδους του TD-Gammon, επεκτείνουμε τις μεθόδους εκπαίδευσης και δημιουργούμε καινούργιες, ώστε να δημιουργηθούν πράκτορες τεχνητής νοημοσύνης που να παίζουν σε πολύ υψηλό επίπεδο τα παιχνίδια αυτά. Όλοι οι παραχθέντες πράκτορες ενσωματώνονται στο δωρέαν διαθέσιμο λογισμικό "Παλαμήδης", όπου ο καθένας μπορεί να παίξει με αντίπαλο την τεχνητή νοημοσύνη. Για να δοκιμαστεί η αποτελεσματικότητα της προσέγγισης που αναπτύχθηκε, ο Παλαμήδης συμμετείχε σε δύο Ολυμπιάδες Υπολογιστών στο παιχνίδι του ταβλιού, και με αντιπάλους μερικά από τα καλύτερα προγράμματα ταβλιού παγκοσμίως, κατάφερε να κερδίσει την πρώτη θέση και το χρυσό μετάλλιο και τις δύο φορές.Επιπρόσθετα, οι εκπαιδευμένοι πράκτορες χρησιμοποιήθηκαν σε συνδυασμό με προσομοιώσεις Monte-Carlo, έτσι ώστε να αναλυθούν για πρώτη φορά κάποια σημαντικά χαρακτηριστικά των παιχνιδιών, εντοπίζοντας ένα σημαντικό μειονέκτημα στο “Φεύγα”. Τα παραχθέντα στατιστικά χρησιμοποιήθηκαν για να ευρεθούν στρατηγικές παιξίματος σε συνθήκες ματς.Τέλος, προκειμένου να διευκολυνθούν μελλοντικές ερευνητικές προσπάθειες, επινοήθηκε ένα πλαίσιο που ονομάζεται bcdGammon για τη μείωση / αύξηση της πολυπλοκότητας των παιχνιδιών ταβλιού.

περισσότερα

Περίληψη σε άλλη γλώσσα

Tesauro’s TD-Gammon was the first major success of machine learning and artificial intelligence in general, when it demonstrated world-class performance against the human backgammon champion of that time. Even more impressively, the method used required little expert knowledge, relying on self-playing and training neural networks using reinforcement learning. However, apart from standard backgammon, several – yet unexplored – variants of the game exist, which use the same board, number of checkers and dice, but have different rules for moving the checkers, starting positions or movement direction. In this thesis we focus our research on three such popular variants in Greece and neighboring countries, named Portes, Plakoto, and Fevga (collectively called Tavli). Motivated by the successful methods of TD-Gammon, we extend and devise new reinforcement learning methods for building artificial intelligent agents and show that expert-level play can also be achieved in these games. All the re ...

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (4.21 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/43622
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/43622
ND	43622
Εναλλακτικός τίτλος	Decision making in multiplayer environments: application in backgammon variants
Συγγραφέας	Παπαχρήστου, Νικόλαος (Πατρώνυμο: Ελευθέριος)
Ημερομηνία	2015
Ίδρυμα	Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Σχολή Επιστημών Πληροφορίας. Τμήμα Εφαρμοσμένης Πληροφορικής
Εξεταστική επιτροπή	Ρεφανίδης Ιωάννης Σαμαράς Νικόλαος Σακελαρίου Ηλίας Στεφανίδης Γεώργιος Σατρατζέμη Μαρία Σιφαλέρας Άγγελος Βεργίδης Κωνσταντίνος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Ενισχυτική μάθηση; Τάβλι; Μάθηση χρονικών διαφορών; Νευρωνικά δίκτυα
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	146 σ., εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Συνοπτική και δυναμική μελέτη των θερμών και ψυχρών εισβολών στον ευρύτερο ελλαδικό χώρο

Η διακριτική ικανότητα της αλληλεπίδρασης ψυχολογικών παραγόντων και διατροφικών συνηθειών στην εκτίμηση της πιθανότητας εμφάνισης οξέος στεφανιαίου συνδρόμου ή αγγειακού εγκεφαλικού: μελέτη ασθενών - μαρτύρων

ΣΥΜΒΟΛΗ ΣΤΗ ΜΕΛΕΤΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΗΣ ΚΥΚΛΟΓΕΝΕΣΗΣ ΣΤΟ ΑΙΓΑΙΟ ΠΕΛΑΓΟΣ

Ο υποτροπικός αεροχείμαρρος και η συμβολή του στη δημιουργία και ένταση εξαιρετικών καιρικών φαινομένων στον ευρύτερο ελλαδικό χώρο

ΑΝΑΛΥΣΗ ΒΡΟΧΟΠΤΩΣΕΩΝ ΚΑΤΑ ΤΥΠΟ ΚΑΙΡΟΥ

Study of the urban heat island effect using a meso-scale atmospheric model and analyzing observational data

ΕΚΤΙΜΗΣΗ ΚΑΙ ΠΡΟΓΝΩΣΗ ΚΑΤΑΙΓΙΔΩΝ ΚΑΙ ΠΛΗΜΜΥΡΩΝ ΜΕ ΧΡΗΣΗ ΜΕΤΕΟΡΟΛΟΓΙΚΟΥ ΡΑΝΤΑΡ

ΑΝΘΡΩΠΟΒΙΟΜΕΤΕΩΡΟΛΟΓΙΚΗ ΕΚΤΙΜΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΤΗΣ ΕΛΛΑΔΟΣ

Μελέτη των χαρακτηριστικών του φαινομένου της ομίχλης στο αεροδρόμιο "Μακεδονία" και δυνητικότητα αντιμετώπισης αυτού

Σωματίδια PM10 και PM2.5 στην Ευρώπη: τοπικές πήγες, ατμοσφαιρική μεταφορά, επιπτώσεις στην ποιότητα του αέρα

"Λήψη αποφάσεων σε πολυπρακτορικά περιβάλλοντα: εφαρμογή σε παραλλαγές ταβλιού"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .