Περίληψη
Η ρομποτική λαβή και ο χειρισμός αντικειμένων σε αβέβαια περιβάλλοντα αποτελεί ένα από τα μέχρι στιγμής άλυτα προβλήματα της ρομποτικής. Η παρούσα διατριβή επικεντρώνεται σε δύο υποπροβλήματά του: στη ρομποτική λαβή αντικειμένων με χρήση επαφής με το περιβάλλον και στο χειρισμό αντικειμένων σε ένα περιβάλλον αταξίας με σκοπό την απομόνωση ενός αντικειμένου-στόχου προς διευκόλυνση της λαβής. Αρχικά, προτείνονται τρεις στρατηγικές ρομποτικής λαβής που χρησιμοποιούν επαφή με το περιβάλλον για τη λαβή αντικειμένων μικρού ύψους από μία υποστηρικτική επιφάνεια. Όσο πιο μικρό ύψος έχει το αντικείμενο (π.χ. ένα κινητό τηλέφωνο ή ένα πιάτο) τόσο πιο δύσκολο είναι να ληφθεί χωρίς να υπάρξει επαφή με την επιφάνεια. Εμπνεόμενες από την ανθρώπινη λαβή, οι προτεινόμενες στρατηγικές χρησιμοποιούν υποχωρητική επαφή του ρομποτικού χεριού με την επιφάνεια, κάτι το οποίο οδηγεί σε ευρωστία ενάντια σε αβεβαιότητες που πιθανά εισάγονται από το σύστημα όρασης και καλύπτουν ένα μεγάλο εύρος περιπτώσεων. Επίσ ...
Η ρομποτική λαβή και ο χειρισμός αντικειμένων σε αβέβαια περιβάλλοντα αποτελεί ένα από τα μέχρι στιγμής άλυτα προβλήματα της ρομποτικής. Η παρούσα διατριβή επικεντρώνεται σε δύο υποπροβλήματά του: στη ρομποτική λαβή αντικειμένων με χρήση επαφής με το περιβάλλον και στο χειρισμό αντικειμένων σε ένα περιβάλλον αταξίας με σκοπό την απομόνωση ενός αντικειμένου-στόχου προς διευκόλυνση της λαβής. Αρχικά, προτείνονται τρεις στρατηγικές ρομποτικής λαβής που χρησιμοποιούν επαφή με το περιβάλλον για τη λαβή αντικειμένων μικρού ύψους από μία υποστηρικτική επιφάνεια. Όσο πιο μικρό ύψος έχει το αντικείμενο (π.χ. ένα κινητό τηλέφωνο ή ένα πιάτο) τόσο πιο δύσκολο είναι να ληφθεί χωρίς να υπάρξει επαφή με την επιφάνεια. Εμπνεόμενες από την ανθρώπινη λαβή, οι προτεινόμενες στρατηγικές χρησιμοποιούν υποχωρητική επαφή του ρομποτικού χεριού με την επιφάνεια, κάτι το οποίο οδηγεί σε ευρωστία ενάντια σε αβεβαιότητες που πιθανά εισάγονται από το σύστημα όρασης και καλύπτουν ένα μεγάλο εύρος περιπτώσεων. Επίσης, προτείνεται ένας μηχανισμός λήψης αποφάσεων ώστε να επιλέγεται η κατάλληλη κατά περίπτωση στρατηγική. Οι στρατηγικές υλοποιήθηκαν σε ένα εύρος ρομποτικών συστημάτων και αξιολογήθηκαν πειραματικά σε διάφορα σενάρια χρήσης. Συγκεκριμένα, χρησιμοποιήθηκαν ο ρομποτικός βραχίονας KUKA LWR4+ σε συνδυασμό με πολυδάκτυλα ρομποτικά χέρια όπως το Barrett-Hand BH8-282, το Shadow-Hand Lite, καθώς και το Smart Grasping System. Επίσης, οι μέθοδοι ενσωματώθηκαν στην ρομποτική πλατφόρμα RAMCIP όπου δοκιμάστηκαν σε ρεαλιστικά σενάρια χρήσης, που έλαβαν χώρα σε πραγματικές κατοικίες. Για την εφαρμογή των παραπάνω στρατηγικών σε περιβάλλοντα αταξίας προτείνονται δύο μέθοδοι απομόνωσης αντικειμένου, οι οποίες προηγούνται της ρομποτικής λαβής και, προς διευκόλυνσή της, απελευθερώνουν το γειτονικό χώρο του αντικειμένου-στόχου από τα περιβάλλοντα αντικείμενα-εμπόδια. Οι μέθοδοι χρησιμοποιούν ενισχυτική μάθηση και δύο στρατηγικές ώθησης, ώστε να απομονώσουν το αντικείμενο-στόχο χρησιμοποιώντας τον ελάχιστο δυνατό αριθμό ρομποτικών δράσεων. Η πρώτη προτεινόμενη μέθοδος ονομάζεται SplitDQN και τροποποιεί τον αλγορίθμο Deep Q-Network (DQN), ώστε να χρησιμοποιεί πολλαπλά νευρωνικά δίκτυα για την εκτίμηση της αξίας-Q, με το καθένα να αντιστοιχεί σε μία στρατηγική ώθησης. Όπως δείχνουν τα πειραματικά αποτελέσματα, η προτεινόμενη μέθοδος οδηγεί σε αυξημένο ποσοστό επιτυχίας σε σχέση με τον DQN, αυξάνει την ταχύτητα εκμάθησης και επιτρέπει την προσθήκη επιπλέον στρατηγικών χωρίς την ανάγκη επανεκπαίδευσης των υπαρχόντων δικτύων. Η δεύτερη προτεινόμενη μέθοδος αποτελεί μία μέθοδο τμηματοποιημένης ενισχυτικής μάθησης (ΤΕΜ) που χρησιμοποιεί συνεχείς δράσεις, σε αντίθεση με τη SplitDQN. Μία πολιτική λήψης αποφάσεων υψηλού επιπέδου εκπαιδεύεται με χρήση ενισχυτικής μάθησης ώστε να επιλέγει μεταξύ διαφορετικών στρατηγικών πολιτικών (δηλαδή πολιτικών που κάθε μία αντιστοιχεί σε μία στρατηγική ώθησης), οι οποίες εκπαιδεύονται ξεχωριστά. Αυτή η μέθοδος επιτρέπει την χρήση στρατηγικών πολιτικών ακόμα και αν αυτές έχουν παραχθεί με διαφορετικό τρόπο, είτε μέσω εκπαίδευσης με ενισχυτική μάθηση, είτε μέσω εκπαίδευσης με επιτηρούμενη μάθηση, είτε μέσω αλγοριθμικών λύσεων. Επίσης, δίνεται έμφαση στην ενσωμάτωση πρότερης γνώσης μέσω της σχεδίασης των στρατηγικών ώθησης και των αναπαραστάσεων της κατάστασης κάτι που οδήγησε σε περαιτέρω αύξηση του ποσοστού επιτυχίας της μεθόδου σε σχέση με state-of-the-art μεθόδους. Επιπλέον, η μέθοδος επιτρέπει την απομόνωση αντικειμένου σε διαφορετικά περιβάλλοντα που παραδοσιακά απαιτούν διαφορετικές προσεγγίσεις. Οι πολιτικές μεταφέρονται ικανοποιητικώς σε ένα πραγματικό σύστημα, με την ΤΕΜ να επιτυγχάνει βελτιωμένο ποσοστό επιτυχίας σε σχέση με τη SplitDQN.
περισσότερα
Περίληψη σε άλλη γλώσσα
Robotic grasping and manipulation in uncertain environments is still one of the unsolved problems in robotics. This thesis focuses on two problems: robotic grasping with environmental contact and total singulation of a target object in clutter to facilitate its grasping. Firstly, three grasp strategies are proposed which exploit environmental contact for grasping flat objects from support surfaces. The flatter the object (e.g. a smartphone or a plate), the more difficult to find a grasp without colliding with the support surface. Inspired by humans, the proposed robotic grasp strategies utilize compliant contact with the support surface, which leads to robustness against uncertainties that may be introduced by the perception system and cover a wide variety of scenes. Furthermore, a decision-making mechanism is proposed in order to select the proper strategy given the scene. The strategies were implemented in a wide range of robotic hardware and experimentally evaluated in a variety of ...
Robotic grasping and manipulation in uncertain environments is still one of the unsolved problems in robotics. This thesis focuses on two problems: robotic grasping with environmental contact and total singulation of a target object in clutter to facilitate its grasping. Firstly, three grasp strategies are proposed which exploit environmental contact for grasping flat objects from support surfaces. The flatter the object (e.g. a smartphone or a plate), the more difficult to find a grasp without colliding with the support surface. Inspired by humans, the proposed robotic grasp strategies utilize compliant contact with the support surface, which leads to robustness against uncertainties that may be introduced by the perception system and cover a wide variety of scenes. Furthermore, a decision-making mechanism is proposed in order to select the proper strategy given the scene. The strategies were implemented in a wide range of robotic hardware and experimentally evaluated in a variety of use cases. In particular, the robotic arm KUKA LWR4+ was used along with multi-fingered hands such as Barrett-Hand BH8-282, Shadow-Hand Lite and Smart Grasping System. Furthermore, the method was implemented on the robotic platform RAMCIP and tested in realistic use cases, taken place in humans' apartments. Subsequently, the thesis proposes two singulation methods preceding the above grasp strategies and facilitating their usage in cluttered environments by creating free space around the target object. Both methods use reinforcement learning to train policies that use two pushing primitives, in order to totally singulate the target in the minimum number of actions. The first proposed method is called SplitDQN and modifies Deep Q-Network (DQN) by splitting the Q-Network to use one network per pushing primitive. In the experimental results is shown that the proposed method leads to increased success rate, faster convergence and allows the addition of a new primitive without retraining the existing networks. The second proposed method is a modular reinforcement learning method (MRL) which, in contrast to SplitDQN, uses continuous actions. A high-level policy is trained to select between primitive policies, which are learned separately. This method allows to combine different primitive policies, which may be produced independently by means of reinforcement learning, supervised learning or algorithmic design. Also, it uses effectively prior knowledge by properly designing the pushing primitives and reducing the variability of the state representations, which leads to increased success rate with respect to state-of-the-art methods. Furthermore, the method achieves singulation in different environments, like a surface with open limits (table) and a surface with walls on its limits (bin), which traditionally require different manipulation methods. The policies that are trained with the above two methods are effectively transferred to a real-world environment in both cases, with MRL outperforming SplitDQN.
περισσότερα