Περίληψη
Ο στόχος αυτής της Διατριβής είναι να εξετάσει προσεγγίσεις και στρατηγικές για την εκπαίδευση αρχιτεκτονικών βαθιών δικτύων με σκοπό την Αναγνώριση Ανθρώπινης Δρασ-τηριότητας (Human Activity Recognition -- HAR). Στην προσπάθεια να βελτιωθούν τα συσ-τήματα αυτά, η Διατριβή ξεκινά με μια εκτενή μελέτη διαφόρων πρόσφατων ερευνητι-κών προσπαθειών στον τομέα της αναγνώρισης δραστηριοτήτων. Οι ερευνητικές προσ-πάθειες αρχίζουν με την εισαγωγή μιας νέας προσέγγισης για την διδιάστατη αναπαράστα-ση της τρισδιάστατης κίνησης των σκελετικών αρθρώσεων, βασισμένη σε γνωστούς 2Δ φασματικούς μετασχηματισμούς εικόνας (DFT, FFT, DCT, DST), αποδεικνύοντας την απο-τελεσματικότητά της στην αναγνώριση. Ωστόσο, σε περιπτώσεις όπου το υποκείμενο μπορεί να παρατηρηθεί υπό διαφορετικές οπτικές γωνίες σε σχέση με αυτές που έχει εκπαιδευθεί το μοντέλο, παρατηρείται μια σημαντική πτώση της απόδοσης, οδηγώντας την έρευνα προς τεχνικές και στρατηγικές που θα μπορούσαν να προσφέρουν προοπτικές βελτίωσης.Επομένως, ...
Ο στόχος αυτής της Διατριβής είναι να εξετάσει προσεγγίσεις και στρατηγικές για την εκπαίδευση αρχιτεκτονικών βαθιών δικτύων με σκοπό την Αναγνώριση Ανθρώπινης Δρασ-τηριότητας (Human Activity Recognition -- HAR). Στην προσπάθεια να βελτιωθούν τα συσ-τήματα αυτά, η Διατριβή ξεκινά με μια εκτενή μελέτη διαφόρων πρόσφατων ερευνητι-κών προσπαθειών στον τομέα της αναγνώρισης δραστηριοτήτων. Οι ερευνητικές προσ-πάθειες αρχίζουν με την εισαγωγή μιας νέας προσέγγισης για την διδιάστατη αναπαράστα-ση της τρισδιάστατης κίνησης των σκελετικών αρθρώσεων, βασισμένη σε γνωστούς 2Δ φασματικούς μετασχηματισμούς εικόνας (DFT, FFT, DCT, DST), αποδεικνύοντας την απο-τελεσματικότητά της στην αναγνώριση. Ωστόσο, σε περιπτώσεις όπου το υποκείμενο μπορεί να παρατηρηθεί υπό διαφορετικές οπτικές γωνίες σε σχέση με αυτές που έχει εκπαιδευθεί το μοντέλο, παρατηρείται μια σημαντική πτώση της απόδοσης, οδηγώντας την έρευνα προς τεχνικές και στρατηγικές που θα μπορούσαν να προσφέρουν προοπτικές βελτίωσης.Επομένως, αναγνωρίζοντας αυτήν την πρόκληση, η έρευνα στράφηκε στο να σχεδιαστεί μια προηγμένη τεχνική επαύξησης δεδομένων, χρησιμοποιώντας τεχνητά δεδομένα που προκύπτουν έπειτα από την εφαρμογή γεωμετρικής περιστροφής στα πραγματικά δείγμα-τα και επιβάλλοντας, επίσης, ένα βήμα ευθυγράμμισης της οπτικής γωνίας παρατήρησης. Με αυτόν τον τρόπο αποδείχθηκε πειραματικά ότι η προτεινόμενη μεθοδολογία μπορεί να εμφανίσει ισχυρή απόδοση και σε συνθήκες διαφορετικής οπτικής γωνίας παρατήρησης, η οποία κατέστη πλεόν συγκρίσιμη με τις τιμές άλλων συνθηκών αξιολόγησης. Μέσω διεξοδικών πειραμάτων, αυτή η μείωση της απόδοσης αντισταθμίστηκε, επιδεικνύοντας την προσαρμοστικότητα της προτεινόμενης προσέγγισης σε διαφορετικές οπτικές γωνίες και βοηθώντας την εφαρμογή της σε πραγματικές συνθήκες. Το επόμενο βήμα της έρευνας ήταν η εξέταση τεχνικών προσαρμογής πεδίου, όπου η ανταγωνιστική εκπαίδευση χρησιμοποιήθηκε για να γεφυρώσει τα κενά απόδοσης. Ενώ αυτές οι προσπάθειες έφεραν ελπιδοφόρα αποτελέσματα υπό συγκεκριμένες συνθήκες, αναγνωρίστηκε επίσης ότι αυξημένη πολυπλοκότητα συνδέεται με αυτήν την προσέγγιση, καθιστώντας την ανεφάρμοστη για εφαρμογές στην πραγματική ζωή. Έτσι, το επόμενο βήμα ήταν να εξεταστούν προσεγγίσεις σύντηξης, που συνδύαζαν διάφορες αναπαρα-στάσεις κίνησης, δηλαδή RGB και σκελετικά δεδομένα. Αυτές οι τεχνικές σύντηξης όχι μόνο υπερέβησαν την απόδοση των πρόσφατων ερευνητικών μεθόδων, αλλά και υπο-γράμμισαν την ευελιξία και την ανθεκτικότητα της προτεινόμενης μεθοδολογίας στην αναγ-νώριση ανθρώπινης δραστηριότητας σε διάφορα σενάρια. Τέλος, αυτή η Διατριβή ολοκληρώνεται με μια νέα μέθοδο επαύξησης δεδομένων με βάση την παρεμπόδιση της ανθρώπινης κίνησης. Αυτή η προσέγγιση όχι μόνο υπερέβη την αποτελεσματικότητα της αρχικής μεθοδολογίας, αλλά συνέβαλε σημαντικά και στη συνολι-κή βελτίωση της απόδοσης στο πρόβλημα της αναγνώρισης. Αυτή η τεχνική επαύξησης επιβεβαίωσε επιπλέον την πρακτική εφαρμοσιμότητα των ερευνητικών ευρημάτων. Συνοπτικά, η πορεία αυτής της Διατριβής μέσω πειραματισμών στις περιοχές της προσαρμογής πεδίου, της σύντηξης και της επαύξησης δεδομένων προτείνει μια ολιστική προσέγγιση στην προαγωγή των συστημάτων αναγνώρισης, ανοίγοντας το δρόμο για πιο ανθεκτικές και ευέλικτες τεχνολογίες για την αναγνώριση ανθρώπινων δραστηριοτήτων σε διάφορα περιβάλλοντα.
περισσότερα
Περίληψη σε άλλη γλώσσα
The goal of this Thesis is to investigate approaches and training strategies for training deep networks architectures with the goal of Human Activity Recognition (HAR). In the pursuit to enhance (HAR) systems, this Thesis begins with a comprehensive exploration of various recent research efforts on the field of HAR. The research efforts begin with the introduction of a novel approach for 2D representation of 3D motion of skeletal joints, based on well-known 2D spectral image transformations (DFT, FFT, DCT, DST), demonstrating its efficacy in HAR tasks. However, as this approach transitioned to cross-view setups, a notable decline in performance emerged, driving research towards a thorough examination, aiming to uncover nuanced details that could shed light on potential avenues for improvement. Therefore, recognizing this challenge, research turned into devising an advanced data augmentation approach using artificial data which resulted upon applying geometric rotation transformation t ...
The goal of this Thesis is to investigate approaches and training strategies for training deep networks architectures with the goal of Human Activity Recognition (HAR). In the pursuit to enhance (HAR) systems, this Thesis begins with a comprehensive exploration of various recent research efforts on the field of HAR. The research efforts begin with the introduction of a novel approach for 2D representation of 3D motion of skeletal joints, based on well-known 2D spectral image transformations (DFT, FFT, DCT, DST), demonstrating its efficacy in HAR tasks. However, as this approach transitioned to cross-view setups, a notable decline in performance emerged, driving research towards a thorough examination, aiming to uncover nuanced details that could shed light on potential avenues for improvement. Therefore, recognizing this challenge, research turned into devising an advanced data augmentation approach using artificial data which resulted upon applying geometric rotation transformation to real samples and also imposed a view alignment step. This way it was demonstrated that cross-view scenarios may also exhibit strong performance, comparable to other evaluation setups. Through meticulous experimentation, this performance drop was mitigated, showcasing the adaptability of the proposed approach across different viewing perspectives and reinforcing its relevance in real-world scenarios. The next step of research was the investigation of domain adaptation techniques, where adversarial training was leveraged to bridge performance gaps. While these endeavors yielded promising results under specific circumstances, it was also acknowledged that heightened complexity was associated with this approach, rendering it impractical for real-life applications. Therefore, the next step was to explore fusion approaches that combined various motion representations, i.e., RGB and skeletal data. These fusion techniques not only surpassed the performance of state-of-the-art methods but also underscored the versatility and robustness of the proposed methodology in capturing nuanced human actions across diverse contexts. Finally, this Thesis concludes with a novel occlusion-based data augmentation method. This approach not only surpassed the efficacy of the initial work but also contributed significantly to overall HAR performance enhancement. By addressing occlusion challenges inherent in real-world scenarios, this augmentation technique further validated the practical applicability of the research findings. In essence, the journey of this Thesis through experimentation, adaptation, fusion, and augmentation underscores a holistic approach to advancing HAR systems, paving the way for more robust and versatile human activity recognition technologies in diverse environments.
περισσότερα