Περίληψη
Η αναγνώριση των ανθρώπινων δραστηριοτήτων σε ακολουθίες εικόνων (βίντεο) είναι ένας επί μακρόν επιδιωκόμενος στόχος του τομέα της Υπολογιστικής όρασης, εξαιτίας της ευρείας γκάμας εφαρμογών που προσφέρει, όπως για παράδειγμα στις τεχνολογίες υποστήριξης της αλληλεπίδρασης ανθρώπου-ρομπότ, σε οικιακά αλλά και βιομηχανικά περιβάλλοντα. Στην πιο πολύπλοκη εκδοχή του προβλήματος, συναντούμε (α) δραστηριότητες που μπορεί να αποτελούνται από πολλαπλές δράσεις, των οποίων η σειρά εκτέλεσης είτε δεν είναι απόλυτα καθορισμένη είτε εκδηλώνεται σε μεγάλη ποικιλομορφία, (β) περιπτώσεις υπο-ομάδων δράσεων που είναι δύσκολο να διακριθούν μεταξύ τους λόγω της υψηλής ομοιότητας των χαρακτηριστικών τους και, (γ) δραστηριότητες με μεγάλα τμήματα κοινών υποακολουθιών δράσεων (κοινών βημάτων εκτέλεσης μιας δραστηριότητας). Στην παρούσα διατριβή εστιάζουμε στο πρόβλημα της κατανόησης ανθρώπινων δράσεων που εμφανίζουν παρόμοια εμφάνιση και χαρακτηριστικά κίνησης με άλλες δράσεις, γνωστές ως αμυδρώς διαφορο ...
Η αναγνώριση των ανθρώπινων δραστηριοτήτων σε ακολουθίες εικόνων (βίντεο) είναι ένας επί μακρόν επιδιωκόμενος στόχος του τομέα της Υπολογιστικής όρασης, εξαιτίας της ευρείας γκάμας εφαρμογών που προσφέρει, όπως για παράδειγμα στις τεχνολογίες υποστήριξης της αλληλεπίδρασης ανθρώπου-ρομπότ, σε οικιακά αλλά και βιομηχανικά περιβάλλοντα. Στην πιο πολύπλοκη εκδοχή του προβλήματος, συναντούμε (α) δραστηριότητες που μπορεί να αποτελούνται από πολλαπλές δράσεις, των οποίων η σειρά εκτέλεσης είτε δεν είναι απόλυτα καθορισμένη είτε εκδηλώνεται σε μεγάλη ποικιλομορφία, (β) περιπτώσεις υπο-ομάδων δράσεων που είναι δύσκολο να διακριθούν μεταξύ τους λόγω της υψηλής ομοιότητας των χαρακτηριστικών τους και, (γ) δραστηριότητες με μεγάλα τμήματα κοινών υποακολουθιών δράσεων (κοινών βημάτων εκτέλεσης μιας δραστηριότητας). Στην παρούσα διατριβή εστιάζουμε στο πρόβλημα της κατανόησης ανθρώπινων δράσεων που εμφανίζουν παρόμοια εμφάνιση και χαρακτηριστικά κίνησης με άλλες δράσεις, γνωστές ως αμυδρώς διαφοροποιημένες δράσεις. Ο απώτερος στόχος είναι, μέσω της ενίσχυσης της διακριτικής ικανότητας των μοντέλων σε τέτοιου είδους δράσεις, να βελτιώσουμε την απόδοση των μοντέλων αναγνώρισης δραστηριοτήτων, και να μειώσουμε την πιθανότητα εσφαλμένων αναγνωρίσεων δραστηριοτήτων οι οποίες μοιράζονται πολλά κοινά βήματα (δράσεις), ακόμα και στην περίπτωση που τα βήματα που διαφέρουν παρουσιάζουν αρκετή ομοιότητα μεταξύ τους. Για να το επιτύχουμε αυτό αναπτύξαμε στην παρούσα διατριβή μια σειρά προσεγγίσεων οι οποίες ακολουθούν δύο μεθοδολογικούς κορμούς. Πηγή έμπνευσης για τις προσεγγίσεις του πρώτου κορμού αποτέλεσε η ικανότητα της ανθρώπινης γλώσσας να αποτυπώνει συνοπτικά έννοιες που αφορούν τα μοτίβα κίνησης και τα χαρακτηριστικά εμφάνισης που συναντάμε σε μια δράση, καθώς και οι συνεχείς εξελίξεις στα μοντέλα γλώσσας. Σε αυτό το πλαίσιο παρουσιάζουμε τρεις προσεγγίσεις που εκμεταλλεύονται τη γλωσσική περιγραφή των ετικετών των δράσεων για να ενισχύσουν την απόδοση μοντέλών οπτικής αναγνώρισης δράσεων απο δεδομένα βίντεο. Οι προσεγγίσεις μας εκμεταλλεύονται τη γνώση που προκύπτει από γλωσσικές βάσεις δεδομένων μεγάλης κλίμακας για να ορίσουν σημασιολογικές ομοιότητες μεταξύ των λεξιλογικών περιγραφών των ετικετών δράσεων όπως αυτές εμφανίζονται στα σετ βίντεο δεδομένων. Αυτές οι ομοιότητες χρησιμοποιούνται με δύο τρόπους. Αφενός, ως πηγή εκ των προτέρων γνώσης για ενδεχόμενες οπτικές ομοιότητες των δράσεων, η οποία εισάγεται στα μοντέλα οπτικής αναγνώρισης υπο την μορφή βαρών αρνητικής αποτίμησης εσφαλμένων κατηγοριοποιήσεων. Αφετέρου, ως βάση για τον ορισμό πολυεπίπεδων συσχετισμών μεταξύ δράσεων μέσω της ιεραρχικής αποδόμησης της συσχέτισης των λεξιλογικών περιγραφών των ετικετών (μέρη του λόγου, ομάδες λέξεων, προτάσεις). Ως προς αυτην την κατεύθυνση, παρουσιάζουμε ένα ευέλικτο πλαίσιο που επιτρέπει την ενσωμάτωση της ιεραρχικής λεξιλογικής συσχέτισης των δράσεων, στον σχεδιασμό και στην εκμάθηση μοντέλων οπτικής αναγνώρισης δράσεων. Η συγκεκριμένη προσέγγιση αναδιαμορφώνει το πρόβλημα της εκμάθησης ως ενα πρόβλημα δυο βαθμίδων εκμάθησης αναπαραστάσεων, (α) ως προς γενικευμένα πρότυπα κίνησης / εμφάνισης που εμφανίζονται σε μια δράση όπως αυτά εκφράζονται με ομοιότητες ως προς συγκεκριμένα μέρη του λόγου, και (β) ως προς λεπτομερέστερα μοτίβα κίνησης / εμφάνισης, όπως αυτά εκφράζονται απο το περιεχόμενο ολόκληρης της λεξιλογικής περιγραφής των ετικετών αξιοποιώντας συγχρόνως τις γενικευμένες αναπαράστασεις του (α). Το συγκεκριμένο σχήμα εκμάθησης επιτυγχάνει την ενίσχυση τόσο της διακριτικής ικανότητας όσο και της ταχύτητας εκμάθησης των μοντέλων οπτικής αναγνώρισης δράσεων, επιλύοντας προβλήματα όπως η υποεκπροσώπηση δράσεων τα οποία δυσχαιρένουν την διαδικασία εκμάθησης.Ο δεύτερος μεθολογικός κορμός στηρίζεται στην ενίσχυση της περιγραφικής ικανότητας των μοντέλων μέσω της ανίχνευσης και της αξιοποίησης της επίδρασης που έχει η εκτέλεση της δράσης στις καταστάσεις εμφάνισης / κίνησης των αντικειμένων της σκηνής. Για να το επιτύχουμε αυτό εισάγουμε μια νέα προσέγγιση η οποία αξιοποιεί την επαναλαμβανόμενη εκτέλεση των βημάτων μιας δράσης για να ανιχνεύσει σε κάθε επανάληψη την εκάστοτε κατάσταση των αντικειμένων. Στο πλαίσιο της συγκεκριμένης ερευνητικής κατεύθυνσης προτείνουμε ένα νέο μοντέλο καθώς και ένα σχήμα τροποποίησης υπάρχοντων μοντέλων με στόχο την εκμετάλλευση της επαναληψιμότητας ως μέσο αποτύπωσης της πορείας αλλαγών των καταστάσεων αντικειμένων στην διαδικασία οπτικής μοντελοποίησης δράσεων με έμφαση στην κατηγορία των αμυδρώς διαφοροποιημένων δράσεων. Επιπλέον, εισάγουμε δυο νέα σετ δεδομένων τα οποία επιτρέπουν την στόχευση και διερεύνηση των χαρακτηριστικών των επαναλαμβανόμενων δράσεων και τα οποία αναδεικνύουν τις προοπτικές της συγκεκριμένης κατεύθυνσης. Συνοψίζοντας, η παρούσα διατριβή παρουσιάζει νέα μοντέλα που εκμεταλλεύονται σημασιολογικές σχέσεις μεταξύ των οπτικών χαρακτηριστικών των ανθρώπινων δράσεων και των λεξιλογικών περιγραφών των ετικετών τους και μελετά την επίδραση και τα χαρακτηριστικά των επαναληπτικών δράσεων στην κατανόηση τους, αναπτύσσοντας ένα σύνολο νέων μοντέλων και δημιουργώντας νέα σετ δεδομένων τα οποία στοχεύουν στην αξιολόγηση της συγκεκριμένης προσέγγισης. Στο σύνολο τους οι προσεγγίσεις που παρουσιάζονται στην παρούσα διατριβή αξιολογήθηκαν διεξοδικά, τόσο στα νέα, προτεινόμενα όσο και σε υφιστάμενα σύνολα δεδομένων, και συγκρίθηκαν με μοντέλα των οποίων η απόδοση τα κατατάσσει στις κορυφαίες προσεγγίσεις αναγνώρισης ανθρώπινης δραστηριότητας. Τέλος, ολοκληρώνουμε αυτή τη διατριβή αναφέροντας τις κυριότερες μελλοντικές ερευνητικές κατευθύνσεις που ϑα μπορούσαν να ενισχύσουν περαιτέρω την απόδοση μοντέλων οπτικής αναγνώρισης ανθρώπινων δράσεων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The recognition of human activities in video sequences represents a longstanding objective within the domain of Computer Vision. This endeavor holds vast implications across a diverse spectrum of applications, encompassing fields such as assistive technologies and human-robot interactions, spanning both industrial and everyday life contexts. In the most complex manifestation of the problem, we are dealing with activities that may comprise of, (a) multiple constituent actions characterized by varying temporal structures, (b) action groups that are hard to distinguish due to high similarity in their characteristics, and, (c) large portions of shared action sub-sequences. Amidst this multifaceted landscape, the overarching objective is the unwavering achievement of robust human action recognition. This dissertation proposes several supervised learning models and techniques for addressing the problem of action recognition robustness, with a special interest on the challenge of disambiguati ...
The recognition of human activities in video sequences represents a longstanding objective within the domain of Computer Vision. This endeavor holds vast implications across a diverse spectrum of applications, encompassing fields such as assistive technologies and human-robot interactions, spanning both industrial and everyday life contexts. In the most complex manifestation of the problem, we are dealing with activities that may comprise of, (a) multiple constituent actions characterized by varying temporal structures, (b) action groups that are hard to distinguish due to high similarity in their characteristics, and, (c) large portions of shared action sub-sequences. Amidst this multifaceted landscape, the overarching objective is the unwavering achievement of robust human action recognition. This dissertation proposes several supervised learning models and techniques for addressing the problem of action recognition robustness, with a special interest on the challenge of disambiguation between actions that exhibit similar appearance and motion characteristics, commonly referred to as fine-grained. We investigate fine-grained action recognition under two perspectives. As a first direction, motivated by the ability of language to provide context to video data and the on-going advancements in language models, we present three approaches that exploit semantic ambiguity and distinctiveness of action labels to assist video action recognition models. Our approaches exploit knowledge from large-scale text-corpora to define semantic similarities between the available action labels. These semantic similarities are then utilized either as a means to strictly penalize model mis-classifications to actions with similar semantic context, or to define multi-granular action class associations based on abstract or finer contextual relations of the lexical descriptions of the action labels. Additionally, we present a flexible multi-granular temporal aggregation framework based on the latter direction which facilitates the learning of human action recognition models, under both single- and dual-dataset learning scenarios. This framework is particularly advantageous when dealing with under-represented actions in human action/activity recognition datasets, which is a common characteristic of the fine-grained action class. It empowers the models to gain meaningful insights and distinctions even for actions with limited data availability. In our subsequent set of contributions, our efforts are primarily motivated by the general observation that actions, whether of a fine-grained nature or in their broader generality, are intricately associated with the transformative impact they exert upon the states of scene elements. To capture this characteristic, we propose a novel supervised approach, structured around the concept of task repetitiveness, for learning representations from videos suitable for enriching the discrimination ability of action recognition models, especially in the case of fine-grained actions. We also contribute a set of datasets that aims to highlight and explore the characteristics of repetitive actions, and the effect of exploiting task repetitiveness to enrich the general understanding of human actions. This dissertation introduces innovative model architectures that harness the semantic relationships between human actions and their associated label annotations. It also investigates the implications and attributes of task repetitiveness in the realm of human action comprehension, incorporating a series of novel model designs and datasets to support this exploration. A comprehensive evaluation of these methodologies is conducted across established benchmarks and contemporary state-of-the-art models. The dissertation culminates by delineating the distinctive features of prospective research avenues and highlighting unresolved issues within the domain of human action understanding research.
περισσότερα