Περίληψη
Στην παρούσα διατριβή παρουσιάζεται ένα σύνολο από 4 μεθόδους για την αντιμετώπιση του προβλήματος της ανάκτησης 3Δ πλεγματοσειρών ανθρώπινων ενεργειών. Στην πρώτη μέθοδο, ένα σύνολο από στατικούς περιγραφείς σχήματος της τρέχουσας τεχνολογικής στάθμης χρησιμοποιούνται για την αναπαράσταση του ανθρώπινου σώματος σε κάθε στιγμιότυπο των ακολουθιών και κάθε πλεγματοσειρά θεωρείται μια Ν-διάστατη καμπύλη, όπου Ν είναι η διάσταση του αντίστοιχου στατικού περιγραφέα σχήματος. Σε αυτή τη μέθοδο, η χρονική αντιστοίχιση μεταξύ των στιγμιοτύπων των ακολουθιών δε λαμβάνεται υπόψιν στο στάδιο της εξαγωγής του περιγραφέα. Στη δεύτερη μέθοδο εισάγεται ένας περιγραφέας ο οποίος ενσωματώνει τη χρονική εξέλιξη των πλεγματοσειρών. Αυτός ο περιγραφέας αποτελείται από δύο υπο-περιγραφείς: ο πρώτος βασίζεται σε ένα σύνολο από διαφορικά χαρακτηριστικά κίνησης των τροχιών του κέντρου μάζας, που εξάγεται σε κάθε στιγμιότυπο των ακολουθιών, ενώ ο δεύτερος υπο-περιγραφέας βασίζεται στην πρώτη προτεινόμενη μέθο ...
Στην παρούσα διατριβή παρουσιάζεται ένα σύνολο από 4 μεθόδους για την αντιμετώπιση του προβλήματος της ανάκτησης 3Δ πλεγματοσειρών ανθρώπινων ενεργειών. Στην πρώτη μέθοδο, ένα σύνολο από στατικούς περιγραφείς σχήματος της τρέχουσας τεχνολογικής στάθμης χρησιμοποιούνται για την αναπαράσταση του ανθρώπινου σώματος σε κάθε στιγμιότυπο των ακολουθιών και κάθε πλεγματοσειρά θεωρείται μια Ν-διάστατη καμπύλη, όπου Ν είναι η διάσταση του αντίστοιχου στατικού περιγραφέα σχήματος. Σε αυτή τη μέθοδο, η χρονική αντιστοίχιση μεταξύ των στιγμιοτύπων των ακολουθιών δε λαμβάνεται υπόψιν στο στάδιο της εξαγωγής του περιγραφέα. Στη δεύτερη μέθοδο εισάγεται ένας περιγραφέας ο οποίος ενσωματώνει τη χρονική εξέλιξη των πλεγματοσειρών. Αυτός ο περιγραφέας αποτελείται από δύο υπο-περιγραφείς: ο πρώτος βασίζεται σε ένα σύνολο από διαφορικά χαρακτηριστικά κίνησης των τροχιών του κέντρου μάζας, που εξάγεται σε κάθε στιγμιότυπο των ακολουθιών, ενώ ο δεύτερος υπο-περιγραφέας βασίζεται στην πρώτη προτεινόμενη μέθοδο της διατριβής. Μια σημαντική συμβολή αυτής της μεθόδου είναι μια νέα συνθετική βάση δεδομένων, η οποία έγινε δημοσίως διαθέσιμη για ερευνητικούς σκοπούς. Οι ενέργειες που περιέχονται σε αυτή τη βάση δεδομένων αποτελούν συνηθισμένες ανθρώπινες ενέργειες και παραλλαγές τους, δημιουργώντας νέες προκλήσεις στο αντίστοιχο πρόβλημα ανάκτησης. Δεδομένου του μικρού αριθμού δημοσίως διαθέσιμων 4Δ βάσεων ανθρώπινων ενεργειών με πλέγματα, αυτή η βάση δεδομένων είναι μια πολύ πρακτική συνεισφορά της παρούσας διατριβής. Η τρίτη προτεινόμενη μέθοδος βασίζεται στην παρατήρηση ότι το ανθρώπινο οπτικό σύστημα είναι ικανό να διακρίνει τις ανθρώπινες ενέργειες χωρίς να παρατηρεί όλο το σώμα ενός ανθρώπου που κινείται, παρά μόνο τις αρθρώσεις του. Ένας νέος αλγόριθμος για την εξαγωγή των τροχιών των ακραίων σημείων του ανθρώπινου σώματος εισάγεται. Ο περιγραφέας της δεύτερης προτεινόμενης μεθόδου που βασίζεται στις τροχιές, χρησιμοποιείται προκειμένου να εξαχθεί ένας περιγραφέας για καθένα από τα 6 κρίσιμα σημεία του ανθρώπινου σώματος (δηλαδή την κορυφή του κεφαλιού, τα άκρα των άνω και των κάτω άκρων και το κέντρο μάζας). Η επιλογή των συγκεκριμένων σημείων προκύπτει από το γεγονός ότι το ανθρώπινο σώμα μπορεί να κατατμηθεί σε 6 βασικά τμήματα (δηλαδή το κεφάλι, τα άνω άκρα, τα κάτω άκρα και τον κορμό του σώματος), επομένως καθένα από τα εξαγόμενα σημεία είναι ένα αντιπροσωπευτικό σημείο αυτών των τμημάτων. Η τελευταία μέθοδος είναι μια επέκταση της τρίτης προτεινόμενης μεθόδου. Ο τελικός περιγραφέας των ακολουθιών συντίθεται από ένα σύνολο στατιστικών μεγεθών, δημιουργώντας έναν περιγραφέα σταθερού μήκους, ανεξάρτητα από το αρχικό πλήθος στιγμιοτύπων των ακολουθιών. Ο πειραματισμός με τις δύο πρώτες προτεινόμενες μεθόδους βασίστηκε σε όλες τις σχετικές, δημοσίως διαθέσιμες βάσεις δεδομένων, που περιέχουν είτε πραγματικά είτε συνθετικά δεδομένα, συμπεριλαμβανομένης και της βάσης δεδομένων που παρουσιάστηκε μαζί με τη δεύτερη προτεινόμενη μέθοδο. Από την άλλη, οι μέθοδοι που βασίζονται στα ακραία σημεία του ανθρώπινου σώματος μπορούν να εφαρμοστούν μόνο σε καθαρές πλεγματοσειρές. Σε όλες τις περιπτώσεις, η απόδοση ανάκτησης αποτιμάται χρησιμοποιώντας διαδεδομένες βαθμωτές μετρικές (Πλησιέστερος Γείτονας, Πρώτη Βαθμίδα, Δεύτερη Βαθμίδα, Προσαρμοσμένο Συσσωρευμένο Κέρδος) και διαγράμματα πρόβλεψης-ανάκλησης. Η αντίστοιχη απόδοση ανάκτησης είναι εφάμιλλη ή ανώτερη της απόδοσης που προκύπτει από την τρέχουσα τεχνολογική στάθμη και σε ορισμένες περιπτώσεις βάσεων δεδομένων που χρησιμοποιήθηκαν για τον πειραματισμό, είναι ιδανική.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this Thesis, a set of 4 methods are presented to deal with the problem of unsupervised human action retrieval of 3D mesh sequences. In the first method, a set of state-of-the-art static shape descriptors are used to represent the human body in each frame of the sequences and each mesh sequence is considered as an N-dimensional curve, where N is the dimension of the corresponding shape descriptor. In this method, the temporal correspondence between the frames of the sequences is not taken into account at the descriptor extraction stage. In the second method, a descriptor which incorporates the temporal evolution in mesh sequences is introduced. This descriptor consists of two sub-descriptors: the first is based on a set of differential kinematic features of the trajectories of the centroid extracted in each frame of the sequences, while the second sub-descriptor is based on the first method. An important contribution of this method is an accompanying novel artificial dataset, which w ...
In this Thesis, a set of 4 methods are presented to deal with the problem of unsupervised human action retrieval of 3D mesh sequences. In the first method, a set of state-of-the-art static shape descriptors are used to represent the human body in each frame of the sequences and each mesh sequence is considered as an N-dimensional curve, where N is the dimension of the corresponding shape descriptor. In this method, the temporal correspondence between the frames of the sequences is not taken into account at the descriptor extraction stage. In the second method, a descriptor which incorporates the temporal evolution in mesh sequences is introduced. This descriptor consists of two sub-descriptors: the first is based on a set of differential kinematic features of the trajectories of the centroid extracted in each frame of the sequences, while the second sub-descriptor is based on the first method. An important contribution of this method is an accompanying novel artificial dataset, which was made publicly available for research purposes. The actions contained in this dataset include common human actions and their variations, making the corresponding retrieval problem more challenging. Given the small number of publicly available 4D human action datasets of meshes, this dataset is a very practical contribution of the present Thesis. The third proposed method is based on the observation that the human visual system is able to discriminate human actions without observing the whole body of a moving human but only its joints. A new algorithm for extracting the trajectories of the protrusions of human body is thus introduced. The trajectory-based descriptor proposed in the second method is used to extract a descriptor for each of six salient points of the human body (i.e. the top of the head, the ends of upper and lower limbs and the centroid). The selection of the specific points originates from the fact that the human body can be segmented in six basic parts (i.e. the head, the upper limbs, the lower limbs and the core), so each of the extracted points (as well as the centroid) is a representative point of these segments. The last method is an extension of the third one. Specifically, the Wavelet transformation in various scales is applied on the features extracted by the third method. The final sequence descriptor is composed of a set of statistics, forming a descriptor with constant length, independently from the initial length of the sequences. The experimentation of the two first methods was based on all related publiclyavailable datasets, both real and artificial, including the dataset introduced with the second method. On the other hand, the salient points-based methods can be applied only on clean mesh sequences. In all cases, the retrieval performance is evaluated using standard scalar (Nearest Neighbor, First Tier, Second Tier, Discounted Cumulative Gain) and precision-recall diagrams. The corresponding retrieval performance is at or beyond the state of the art and in some cases it is ideal for the experimentation datasets.
περισσότερα