Περίληψη
Η πολυτροπική μάθηση είναι το υπολογιστικό παράδειγμα που επικεντρώνεται στην εκμάθηση από, και σύμμειξη ετερογενών και διασυνδεδεμένων πηγών πληροφοριών, δηλαδή τροπικοτήτων. Στον πυρήνα κάθε πολυτροπικού συστήματος μάθησης βρίσκεται η εκμάθηση πολυτροπικών αναπαραστάσεων, η οποία στοχεύει στην εκμάθηση αναπαραστάσεων που αντικατοπτρίζουν τόσο τα μονοτροπικά χαρακτηριστικά όσο και, συλλαμβάνουν αποτελεσματικά τις πολύπλοκες πολυτροπικές αλληλεπιδράσεις. Αυτή η διατριβή εξετάζει την εκμάθηση πολυτροπικών αναπαραστάσεων στο πλαίσιο της Πολυτροπικής Ανάλυσης Συναισθημάτων (ΠΑΣ), ένα πεδίο που απαιτεί τον αποτελεσματικό συνδυασμό γλωσσικών, ακουστικών και οπτικών πληροφοριών για την κατανόηση της πολύπλοκης φύσης του ανθρώπινου συναισθήματος. Η σημασία της ΠΑΣ έγκειται στο γεγονός οτι αποτελεί ένα μικρόκοσμο που φέρει τις ευρύτερες προκλήσεις πολυτροπικής μάθησης. Από προκλήσεις που κυμαίνονται από τη σύμμειξη ετερογενών τροπικοτήτων (από φυσικά σήματα έως συμβολική γλώσσα) έως τη μη βέλτ ...
Η πολυτροπική μάθηση είναι το υπολογιστικό παράδειγμα που επικεντρώνεται στην εκμάθηση από, και σύμμειξη ετερογενών και διασυνδεδεμένων πηγών πληροφοριών, δηλαδή τροπικοτήτων. Στον πυρήνα κάθε πολυτροπικού συστήματος μάθησης βρίσκεται η εκμάθηση πολυτροπικών αναπαραστάσεων, η οποία στοχεύει στην εκμάθηση αναπαραστάσεων που αντικατοπτρίζουν τόσο τα μονοτροπικά χαρακτηριστικά όσο και, συλλαμβάνουν αποτελεσματικά τις πολύπλοκες πολυτροπικές αλληλεπιδράσεις. Αυτή η διατριβή εξετάζει την εκμάθηση πολυτροπικών αναπαραστάσεων στο πλαίσιο της Πολυτροπικής Ανάλυσης Συναισθημάτων (ΠΑΣ), ένα πεδίο που απαιτεί τον αποτελεσματικό συνδυασμό γλωσσικών, ακουστικών και οπτικών πληροφοριών για την κατανόηση της πολύπλοκης φύσης του ανθρώπινου συναισθήματος. Η σημασία της ΠΑΣ έγκειται στο γεγονός οτι αποτελεί ένα μικρόκοσμο που φέρει τις ευρύτερες προκλήσεις πολυτροπικής μάθησης. Από προκλήσεις που κυμαίνονται από τη σύμμειξη ετερογενών τροπικοτήτων (από φυσικά σήματα έως συμβολική γλώσσα) έως τη μη βέλτιστη βελτιστοποίηση δικτύου και την ανισορροπία πληροφορίας στις τροπικότητες, η ΠΑΣ παρέχει ένα πολύτιμο παράδειγμα μελέτης, μέσω της οποίας εξετάζεται η εκμάθηση πολυτροπικών αναπαραστάσεων. Στο πρώτο μέρος αυτής της διατριβής, επικεντρωνόμαστε στην ανάπτυξη νέων τεχνικών που επιτελούν μετασχηματισμούς σε επίπεδο χαρακτηριστικών και κρυφών αναπραστάσεων - εμπνευσμένες από τεχνικές ομαλοποίησης - με στόχο να αυξήσουν τον αριθμό των σεναρίων που θα δει το μοντέλο κατά τη διάρκεια της εκπαίδευσης. Αυτές οι μέθοδοι μπορούν να εφαρμοστούν πάνω σε υπάρχουσες πολυτροπικές αρχιτεκτονικές. Εξετάζουμε ένα ευρύ φάσμα προκλήσεων, από την επαύξηση δεδομένων στο χώρο χαρακτηριστικών, έως την τροπική ανισορροπία, και τη γενικευμένη ομαλοποίηση παράγοντας νέα πολυτροπικά μίγματα. Η διατριβή καλύπτει ένα ευρύ και ποικίλο φάσμα υπολογιστικών μεθόδων: επαύξηση χαρακτηριστικών βασισμένη σε μεταθέσεις που αυξάνει την ποικιλομορφία των δεδομένων εισάγωντας θόρυβο στα δεδομένα μέσα από την ίδια την κατανομή της ακολουθίας (SeqAug), μια στρατηγική μασκαρίσματος λανθάνοντος χώρου που μπορεί να εφαρμοστεί σαν ομαλοποίηση και περαιτέρω να αντιμετωπίζει άμεσα την ανισορροπία τροπικότητας (M3), και μια ευέλικτη τεχνική κανονικοποίησης, κατάλληλη για πολυτροπικά δίκτυα, η οποία παράγει μίγματα σε επίπεδο αναπαραστάσεων, και εμπλουτίζει τα σενάρια που βλέπει το δίκτυο κατά τη διάρκεια της εκπαίδευσης (PowMix). Αυτοί οι αλγόριθμοι επεκτείνουν σημαντικά την ποικιλία των μετασχηματισμών που βασίζονται σε τεχνικές ομαλοποίησης για πολυτροπικές αρχιτεκτονικές, και επιδεικνύουν ότι τα υπάρχοντα πολυτροπικά δίκτυα είναι υπο-βελτιστοποιημένα και μπορούν να επωφεληθούν σημαντικά από τέτοιους μετασχηματισμούς. Στο δεύτερο μέρος, διερευνούμε την ιδέα της βαθιάς πολυτροπικής σύμμειξης και εισάγουμε δύο καινοτόμους αρχιτεκτονικούς σχεδιασμούς, ένα βασισμένο σε κωδικοποιητές (encoder-based) και ένα βασισμένο σε κωδικοποιητή-αποκωδικοποιητή (encoder-decoder). Η βασική αρχή της βαθιάς σύμμειξης είναι ότι ο συνδυασμός πληροφοριών πραγματοποιείται σε πολλαπλά επίπεδα του δικτύου, με τη σύμμεικτη πληροφορία να διαδίδεται εντός του δικτύου. Η πρώτη προσέγγιση αξιοποιεί την ιεραρχική δομή της γλώσσας για τη σύμμειξη πληροφοριας σε επίπεδο λέξεων, προτάσεων και αναπαράστασης συναισθημάτων, διατηρώντας ξεχωριστές υπολογιστικές ροές για μονοτροπικές και σύμμεικτες πολυτροπικές αναπαραστάσεις (DHF). Επιβεβαιώνουμε εμπειρικά ότι πρόκειται για ένα ισχυρό σχήμα σύμμειξης το οποίο μπορεί να επεκταθεί και σε transformers (DeepSER). Στη δεύτερη προσέγγιση, επανεξετάζουμε την έννοια της βαθιάς σύμμειξης με μια αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή που υλοποιείται ως πολυτροπικό γλωσσικό μοντέλο εμπλουτισμένο με πρωτότυπα cross-attention δομές και εκπαιδεύσιμες αναπαραστάσεις (tokens) σύμμειξης (DeepMLF). Αυτός ο σχεδιασμός επιτρέπει με φυσικό τρόπο το βάθος και την κλιμάκωση, καθώς και τις ελεγχόμενες αλληλεπιδράσεις τροπικοτήτων στη διαδικασία σύμμειξης. Επιπλέον, ο σχεδιασμός μας επιτρέπει τον έλεγχο της χωρητικότητας που θα ανατεθεί στην πολυτροπική πληροφορία. Αυτές οι προσεγγίσεις δείχνουν ότι οι μακροσκοπικές επιλογές, όπως η βαθιά σύμμειξη, είναι πιο κρίσιμες από τις μικροσκοπικές επιλογές σύμμειξης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Multimodal learning is the computational paradigm focused on learning and integrating heterogeneous and interconnected information sources, i.e., modalities. At the core of any multimodal learning system lies multimodal representation learning, which aims to learn representations that both reflect unimodal characteristics and effectively capture complex cross-modal interactions. This thesis examines multimodal representation learning within the context of Multimodal Sentiment Analysis (MSA), a domain that requires effectively combining linguistic, acoustic, and visual information to uncover the complex nature of human sentiment. MSA's significance lies in its role as an exemplary microcosm of broader multimodal learning challenges. By addressing issues ranging from the integration of heterogeneous modalities (from natural signals to symbolic language) to suboptimal network optimization and modality information imbalance, MSA provides a valuable case study through which to examine multi ...
Multimodal learning is the computational paradigm focused on learning and integrating heterogeneous and interconnected information sources, i.e., modalities. At the core of any multimodal learning system lies multimodal representation learning, which aims to learn representations that both reflect unimodal characteristics and effectively capture complex cross-modal interactions. This thesis examines multimodal representation learning within the context of Multimodal Sentiment Analysis (MSA), a domain that requires effectively combining linguistic, acoustic, and visual information to uncover the complex nature of human sentiment. MSA's significance lies in its role as an exemplary microcosm of broader multimodal learning challenges. By addressing issues ranging from the integration of heterogeneous modalities (from natural signals to symbolic language) to suboptimal network optimization and modality information imbalance, MSA provides a valuable case study through which to examine multimodal representation learning. In the first part of this thesis, we focus on developing novel feature and latent space transformations which are inspired by regularization techniques and aim at increasing the scenarios seen by the model during training. These methods can be applied on top of existing multimodal architectures. We address a wide range of challenges from feature space augmentation, to modality imbalance and generic regularization by generating new multimodal mixtures. Our work covers a wide and diverse range of computational methodologies: a permutation-based feature augmentation method which increases data diversity by "injecting noise" from the underlying sample distribution (SeqAug); a latent space masking strategy that can be applied as regularization and can be further shifted to directly tackle modality imbalance (M3); and a versatile mixing-based regularization approach suitable for multimodal networks, which generates latent space mixtures which enrich the scenarios seen by the model during training (PowMix). These algorithms significantly extend the arsenal of regularization-based feature and latent space transformations for multimodal architectures, and demonstrate that existing networks are often underoptimized and can benefit substantially from proper regularization. In the second part, we explore the idea of deep multimodal fusion and introduce two novel architectural designs, one encoder-based and one encoder-decoder based. The core principle of the deep fusion paradigm is that information integration occurs across multiple network layers, with fused information propagating through the network. The first approach leverages the hierarchical structure of language to fuse information at word, sentence, and sentiment representation levels, maintaining separate computational streams for modality-specific (unimodal encoders) and fused representations (DHF). We empirically verify that this scheme is a powerful fusion paradigm and can be further extended to transformer-based approaches (DeepSER). The second approach revisits the concept of deep fusion from an encoder-decoder architectural perspective. We implement a multimodal language model augmented with novel cross-attention blocks and learnable fusion tokens (DeepMLF). This design naturally allows for depth, scalability and controlled interactions in the fusion process. Furthermore, this design allows for explicitly handling the capacity allocated to multimodal information. These approaches demonstrate that macroscopic architectural considerations such as deep fusion are more crucial than the microscopic core fusion operations.
περισσότερα