Περίληψη
Ο στόχος αυτής της διδακτορικής εργασίας ήταν να διερευνήσει και να αναπτύξει μία νέα, γρήγορη, φορητή, αξιόπιστη μέθοδο για τρισδιάστατη εκτίμηση της πόζας του σώματος των ανθρώπων που να λαμβάνει εικόνες από κάμερες χαμηλού κόστους και να εξάγει με ακρίβεια την τρισδιάστατη διαμόρφωση του σώματος ενός επιλεγμένου ατόμου που απεικονίζεται στη σκηνή. Η προτεινόμενη αρχιτεκτονική εκμεταλλεύτηκε τις πρόσφατες εξελίξεις στα Νευρωνικά ∆ίκτυα παίρνοντας την τελική της μορφή ως μια σύνθεση ενός σύνολου κωδικοποιητών νευρωνικών δικτύων. Εντοπίσαμε και γεφυρώσαμε κενά μεταξύ των μεθόδων βαθιάς μάθησης αιχμής και των παλαιότερων και πιο παγιωμένων μεθοδολογιών όρασης που βασίζονται σε μοντέλα που προηγήθηκαν των CNN. Το όνομα της, ≪MocapNET≫ επινοήθηκε για να την περιγράψει συνοπτικά, καθώς έγινε το πρώτο νευρωνικό δίκτυο στη βιβλιογραφία που επιτυγχάνει άμεσα τη σύλληψη κίνησης (motion capture - Mocap) χρησιμοποιώντας ένα νευρωνικό δίκτυο. Για να βελτιωθεί η ακρίβεια της μεθόδου και να αντιμετ ...
Ο στόχος αυτής της διδακτορικής εργασίας ήταν να διερευνήσει και να αναπτύξει μία νέα, γρήγορη, φορητή, αξιόπιστη μέθοδο για τρισδιάστατη εκτίμηση της πόζας του σώματος των ανθρώπων που να λαμβάνει εικόνες από κάμερες χαμηλού κόστους και να εξάγει με ακρίβεια την τρισδιάστατη διαμόρφωση του σώματος ενός επιλεγμένου ατόμου που απεικονίζεται στη σκηνή. Η προτεινόμενη αρχιτεκτονική εκμεταλλεύτηκε τις πρόσφατες εξελίξεις στα Νευρωνικά ∆ίκτυα παίρνοντας την τελική της μορφή ως μια σύνθεση ενός σύνολου κωδικοποιητών νευρωνικών δικτύων. Εντοπίσαμε και γεφυρώσαμε κενά μεταξύ των μεθόδων βαθιάς μάθησης αιχμής και των παλαιότερων και πιο παγιωμένων μεθοδολογιών όρασης που βασίζονται σε μοντέλα που προηγήθηκαν των CNN. Το όνομα της, ≪MocapNET≫ επινοήθηκε για να την περιγράψει συνοπτικά, καθώς έγινε το πρώτο νευρωνικό δίκτυο στη βιβλιογραφία που επιτυγχάνει άμεσα τη σύλληψη κίνησης (motion capture - Mocap) χρησιμοποιώντας ένα νευρωνικό δίκτυο. Για να βελτιωθεί η ακρίβεια της μεθόδου και να αντιμετωπιστούν ζητήματα εξατομίκευσης, αναπτύχθηκε επίσης ένας νέος αλγόριθμος γενετικής βελτιστοποίησης σε πραγματικό χρόνο με το όνομα ἢΙεραρχική Κάθοδος Συντεταγμένωνὢ, ο οποίος εφαρμόζεται στην έξοδο των υπό συνθήκες ανεξάρτητων κωδικοποιητών του MocapNET. Η φιλοδοξία σχετικά με το εύρος της ανακτημένης 3∆ εξόδου σταδιακά διευρύνθηκε καθώς η μέθοδος γενικεύτηκε με επιτυχία σε πιο πολλές αρθρωτές δομές του ανθρώπινου σώματος. Η συνολική λύση τρισδιάστατης εκτίμησης της πόζας περιλαμβάνει το πάνω και κάτω μέρος του κορμού του σώματος, τα χέρια, το πρόσωπο και το βλέμμα. Το MocapNET είναι μία από τις πολύ λίγες μεθόδους που μπορούν να αντιμετωπίσουν με επιτυχία όλα αυτά τα υποπροβλήματα που παραδοσιακά αποτελούν υποπεδία της ευρύτερης έρευνας στην υπολογιστική όραση. Με τον όρο τρισδιάστατη λήψη δεν αναφερόμαστε μόνο σε ϑέσεις σημείων σε έναν τρισδιάστατο χώρο αλλά στην πλήρη κινηματική λύση του σκελετού. Η μέθοδος λειτουργεί σε πραγματικό χρόνο και η έξοδος της είναι άμεσα και εγγενώς συμβατή με λογισμικά 3∆ επεξεργασίας, λόγω της κωδικοποίησης BVH. Αυτό καθιστά το MocapNET παγκοσμίως μοναδικό. Επίσης, η εκτίμησης της 3∆ ανθρώπινης πόζας που αναπτύχθηκε μπορεί να χρησιμοποιηθεί σε συσκευές όπως κινητά τηλέφωνα, γυαλιά εικονικής πραγματικότητας, αυτοοδηγούμενα αυτοκίνητα, έξυπνες συσκευές, οικιακά και εργοστασιακά ρομπότ κ.λπ., προσδίδοντάς τους δυνατότητες αντίληψης, σύγκρισης και απαρίθμησης στάσεων του ανθρώπινου σώματος, κάτι που ϑα διευκολύνει τελικά την υπολογιστική κατανόηση και ερμηνεία των ανθρώπινων δράσεων. Η διατριβή επιχειρεί να τεκμηριώσει προσεκτικά όλες τις πτυχές της μεθόδου, συμπεριλαμβανομένων των 2∆ περιγραφέων σχήματος, της συμπίεσης PCA για να επιτρέπεται η χρήση σε κινητές συσκευές και τις διάφορες προσπάθειες που διαμόρφωσαν τη μέθοδο μέχρι την τελική της έκδοση.
περισσότερα
Περίληψη σε άλλη γλώσσα
The goal of the presented thesis was to investigate and develop a novel, fast, portable, robust and accurate plug and play 3D Human Capture module that receives RGB images captured in-the-wild and regresses the 3D body configuration of any depicted person in the scene. The proposed architecture was built from scratch using first principles and taking advantage of recent advancements in Neural Networks, taking its final form as an ensemble of neural networks. We identified and bridged gaps between state-of-art deep learning methods and well-established model-based vision methodologies predating CNNs. Its name, “MocapNET” was coined to concisely describe it as it became the first neural network-based method in the literature to directly regress Motion Capture (Mocap) output in an end-to-end fashion. To improve accuracy and address personalization aspects, a novel real-time generative optimization algorithm was also developed named “Hierarchical Coordinate Descent” and tailored to the con ...
The goal of the presented thesis was to investigate and develop a novel, fast, portable, robust and accurate plug and play 3D Human Capture module that receives RGB images captured in-the-wild and regresses the 3D body configuration of any depicted person in the scene. The proposed architecture was built from scratch using first principles and taking advantage of recent advancements in Neural Networks, taking its final form as an ensemble of neural networks. We identified and bridged gaps between state-of-art deep learning methods and well-established model-based vision methodologies predating CNNs. Its name, “MocapNET” was coined to concisely describe it as it became the first neural network-based method in the literature to directly regress Motion Capture (Mocap) output in an end-to-end fashion. To improve accuracy and address personalization aspects, a novel real-time generative optimization algorithm was also developed named “Hierarchical Coordinate Descent” and tailored to the conditionally independent encoders of the MocapNET ensemble complementing their output. The ambition and scope of the retrieved 3D output gradually broadened as the method successfully generalized to more articulated structures during the course of its development. The total 3D capture solution presented includes upper body, lower body, hands, face and gaze. With the term 3D Human Capture we refer not only to positions in a 3D space but rather, the full kinematic solution of the skeleton. The method performs in real-time and its output is natively compatible with 3D editing software due to its BVH container. This makes it globally unique and among a select very few methods that can successfully tackle all these sub-problems that traditionally were sub-fields of the broader computer vision research. The 3D human pose estimation solution developed can be used in devices such as mobile phones, AR/VR headsets, self-driving cars, smart devices, home and factory robots etc, endowing them with capabilities to perceive, compare and enumerate human body poses, which would ultimately facilitate understanding of human behavior. The thesis attempts to carefully document all the aspects of the method including 2D shape descriptors, NN design, PCA compression to allow usage on mobile devices and the various attempts that shaped the method to its final version.
περισσότερα