Κατευθυνόμενη αναζήτηση του χώρου πολιτικών στην ενισχυτική μάθηση

Περίληψη

Η ενισχυτική μάθηση αναφέρεται σε μια ευρεία κατηγορία προβλημάτων μάθησης. Οι αυτόνομες οντότητες τυπικά προσπαθούν να μάθουν να επιτυγχάνουν το στόχο τους αποκλειστικά μέσω της αλληλεπίδρασης με το περιβάλλον τους. Κάνουν διερευνητικές προσπάθειες αναζήτησης μέσω δοκιμών και ελέγχων και λαμβάνουν με καθυστέρηση ανταμοιβές (ή ποινές). Η πρόκληση είναι να μάθουν μια ικανοποιητική ή ακόμα και βέλτιστη πολιτική λήψης αποφάσεων, η οποία να μεγιστοποιεί τη συνολική μακροπρόθεσμη ανταμοιβή. Μια πολιτική λήψης αποφάσεων για μια αυτόνομη οντότητα είναι η γνώση του τι πρέπει να κάνει σε κάθε πιθανή κατάσταση προκειμένου να επιτευχθεί αποτελεσματικά ο μακροπρόθεσμος στόχος. Πολλές πρόσφατες προσεγγίσεις μάθησης για τη λήψη αποφάσεων υπό αβεβαιότητα προτείνουν τη χρήση ταξινομητών για την συμπαγή (προσεγγιστική) αναπαράσταση πολιτικών. Ωστόσο, ο χώρος των πιθανών πολιτικών, ακόμα και κάτω από τέτοιες δομημένες αναπαραστάσεις, είναι τεράστιος και πρέπει να αναζητηθεί προσεκτικά για να αποφευχθούν ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Reinforcement learning refers to a broad class of learning problems. Autonomous agents typically try to learn how to achieve their goal solely by interacting with their environment. They perform a trial-and-error search and they receive delayed rewards (or penalties). The challenge is to learn a good or even optimal decision policy, one that maximizes the total long-term reward. A decision policy for an autonomous agent is the knowledge of what to do in any possible state in order to achieve the long-term goal efficiently. Several recent learning approaches within decision making under uncertainty suggest the use of classifiers for the compact (approximate) representation of policies. However, the space of possible policies, even under such structured representations, is huge and must be searched carefully to avoid computationally expensive policy simulations. In this dissertation, our first contribution uncovers policy structure by deriving optimal policies for two standard two-dimens ...
περισσότερα
Πρέπει να είστε εγγεγραμένος χρήστης για έχετε πρόσβαση σε όλες τις υπηρεσίες του ΕΑΔΔ  Είσοδος /Εγγραφή

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/44083
ND
44083
Εναλλακτικός τίτλος
Directed exploration of policy space in reinforcement learning
Συγγραφέας
Ρεξάκης, Ιωάννης Κωνσταντίνος
Ημερομηνία
2018
Ίδρυμα
Πολυτεχνείο Κρήτης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εξεταστική επιτροπή
Λαγουδάκης Μιχαήλ
Πετράκης Ευριπίδης
Ποταμιάνος Αλέξανδρος
Χαλκιαδάκης Γεώργιος
Ζερβάκης Μιχάλης
Μπλέκας Κωνσταντίνος
Βλάσσης Νικόλαος
Επιστημονικό πεδίο
Μηχανική & Τεχνολογία
Επιστήμες Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού & Μηχανικού Η/Υ
Λέξεις-κλειδιά
Μηχανική μάθηση; Ενισχυτική μάθηση; Ταξινομητές; Λήψη Aποφάσεων υπό Aβεβαιότητα; Κατευθυνόμενη δειγματοληψία; Αναπαράσταση πολιτικών; Προβλήματα ελέγχου; Πολυδιάστατοι χώροι
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
xxvii, 160 σ., εικ., πιν., σχημ., γραφ.
Ειδικοί όροι χρήσης/διάθεσης
Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation:Creative Commons Αναφορά Δημιουργού 3.0 Ελλάδα