Περίληψη
Παρά τα πρόσφατα επιτεύγματα στον τομέα της Μηχανικής Μάθησης, υπάρχουν ακόμα ανοιχτές προσκλήσεις. Ο σκοπός της διατριβής αυτής είναι να παρουσιάσει δύο διαφορετικές προσεγγίσεις τόσο για δεδομένα παρτίδας (batch data) όσο και για σειριακά (sequential data). Κάθε προσέγγιση αποσκοπεί στη δημιουργία πιο ευέλικτων και αποδοτικών μοντέλων, επιδιώκοντας την αύξηση των δυνατοτήτων μοντελοποίησης με ταυτόχρονη μείωση της πολυπλοκότητας των συμβατικά χρησιμοποιούμενων προσεγγίσεων. Στην πρώτη προσέγγιση της διατριβής, επικεντρωνόμαστε σε δεδομένα παρτίδας χρησιμοποιώντας βαθιές νευρωνικές αρχιτεκτονικές (Deep Neural Architectures). Η άνοδος της βαθιάς μηχανικής μάθησης (Deep Learning), η οποία κατέστη εφικτή με τις πρόσφατες τεχνολογικές εξελίξεις, τόσο σε επίπεδο υλικού (hardware) όσο και σε επίπεδο αλγορίθμων, έχει παράξει αξιοσημείωτα αποτελέσματα τα τελευταία χρόνια, σε ένα ευρύ πεδίο εφαρμογών. Εν τούτοις, οι συνήθως χρησιμοποιούμενες βαθιές αρχιτεκτονικές, πάσχουν από υπερ-παραμετροποί ...
Παρά τα πρόσφατα επιτεύγματα στον τομέα της Μηχανικής Μάθησης, υπάρχουν ακόμα ανοιχτές προσκλήσεις. Ο σκοπός της διατριβής αυτής είναι να παρουσιάσει δύο διαφορετικές προσεγγίσεις τόσο για δεδομένα παρτίδας (batch data) όσο και για σειριακά (sequential data). Κάθε προσέγγιση αποσκοπεί στη δημιουργία πιο ευέλικτων και αποδοτικών μοντέλων, επιδιώκοντας την αύξηση των δυνατοτήτων μοντελοποίησης με ταυτόχρονη μείωση της πολυπλοκότητας των συμβατικά χρησιμοποιούμενων προσεγγίσεων. Στην πρώτη προσέγγιση της διατριβής, επικεντρωνόμαστε σε δεδομένα παρτίδας χρησιμοποιώντας βαθιές νευρωνικές αρχιτεκτονικές (Deep Neural Architectures). Η άνοδος της βαθιάς μηχανικής μάθησης (Deep Learning), η οποία κατέστη εφικτή με τις πρόσφατες τεχνολογικές εξελίξεις, τόσο σε επίπεδο υλικού (hardware) όσο και σε επίπεδο αλγορίθμων, έχει παράξει αξιοσημείωτα αποτελέσματα τα τελευταία χρόνια, σε ένα ευρύ πεδίο εφαρμογών. Εν τούτοις, οι συνήθως χρησιμοποιούμενες βαθιές αρχιτεκτονικές, πάσχουν από υπερ-παραμετροποίηση (over-parameterization). Συχνά, τα μοντέλα αποτελούνται από εκατομμύρια παραμέτρους, πολλές από τις οποίες είναι περιττές. Το γεγονός αυτό οδηγεί σε μη-αναγκαία υπολογιστική πολυπλοκότητα, περιορίζοντας την επεκτασιμότητα τους σε πιο περίπλοκες εφαρμογές. Η υπερ-παραμετροποίηση αυτή συνεισφέρει ταυτόχρονα στη γνωστή τάση των νευρωνικών δικτύων να υπερ-μοντελοποιούν τα δεδομένα εκπαίδευσης (over-fitting), περιορίζοντας μ'αυτό τον τρόπο τη γενίκευση τους σε δεδομένα δοκιμής. Επιπροσθέτως, είναι κοινώς γνωστό, ότι παρόλο που οι ευρέως χρησιμοποιούμενες μη-γραμμικές ενεργοποιήσεις, π.χ. Rectified Linear Units, αποτελούν ένα βολικό μαθηματικό εργαλείο για την εκπαίδευση βαθέων αρχιτεκτονικών, δεν έχουν τη βάση τους σε βιολογικές διεργασίες. Πράγματι, υπάρχει ένα αυξανόμενο πλήθος ερευνητικών στοιχείων που υποδηλώνουν ότι, οι νευρώνες σε ένα βιολογικό σύστημα, οι οποίοι παρουσιάζουν παρόμοιες λειτουργικές ιδιότητες, συγκεντρώνονται μαζί σε ομάδες, μέσα στις οποίες πραγματοποιείται τοπικός ανταγωνισμός. Προς την κατεύθυνση αυτή, πολλοί ερευνητές έχουν καταβάλλει σημαντικές προσπάθειες για τη δημιουργία δικτύων, που αντί των κλασσικών μη-γραμμικών ενεργοποιήσεων, προσφεύγουν σε αρχιτεκτονικές που εμπεριέχουν τον ανταγωνισμό μεταξύ γραμμικών μονάδων. Ο προκύπτων μηχανισμός ονομάζεται Winner-Takes-All και έχει παράξει σημαντικά αποτελέσματα σε διάφορες εφαρμογές της Μηχανικής Μάθησης. Στο πλαίσιο αυτό, αναθεωρούμε το τωρινό σχεδιαστικό μοντέλο των βαθέων νευρωνικών δικτύων, αποσκοπώντας στο να εισάγουμε μια νέα, δομημένη προσέγγιση για κλάδεμα (network pruning) και συμπίεση (compression) του δικτύου, βασισμένη στα βιολογικώς-εμπνευσμένα βαθιά νευρωνικά δίκτυα τοπικού ανταγωνισμού (Local Winner-Takes-All). Προς αυτή την κατεύθυνση, προτείνουμε μια συμπεραστική κατασκευή (inferential construction) με σκοπό το ρητό συμπερασμό της χρησιμότητας των συνιστωσών του δικτύου (συνδέσεις/μονάδες) στο πλαίσιο των δικτύων τοπικού ανταγωνισμού. Χρησιμοποιούμε επιχειρήματα από το ισχυρό μη-παραμετρικό Bayesian πλαίσιο, και συγκεκριμένα τα stick-breaking priors. Ο εισαχθέν μηχανισμός αποτελεί μια διαδικασία που οδηγείται από τα δεδομένα (data-driven), επιτρέποντας στην αυτόνομη προσαρμογή της δομής του δικτύου στην πολυπλοκότητα των δεδομένων, με ταυτόχρονο συμπερασμό της απαραίτητης ακρίβειας για την αναπαράσταση των βαρών του δικτύου. Ενώνουμε όλα τα στοιχεία αυτά, υπό το Variational Inference πλαίσιο και παρουσιάζουμε αποδοτικές διαδικασίες για την εκπαίδευση του δικτύου και το συμπερασμό σε καινούρια δεδομένα. Επιδεικνύουμε την ικανότητα του παραγόμενου μοντέλου σε εποπτευόμενη κατηγοριοποίηση (supervised classification) σε πληθώρα αρχιτεκτονικών και δεδομένων αναφοράς. Τα εμπειρικά δεδομένα μαρτυρούν για την αποδοτικότητα της προσέγγισης μας, αποδίδοντας αντίστοιχη ακρίβεια κατηγοριοποίησης με εναλλακτικές state-of-the-art μεθόδους, επιτρέποντας ταυτόχρονα το καλύτερο κλάδεμα και συμπίεση του δικτύου σε σχέση με τον ανταγωνισμό. Επιπρόσθετα, η ενδελεχής εξέταση της συμπεριφοράς του μηχανισμού τοπικού ανταγωνισμού υποδηλώνει ότι η συγκεκριμένη προσέγγιση επιτυγχάνει στην κωδικοποίηση διακριτών χαρακτηριστικών των δεδομένων μέσω του μηχανισμού επιλογής νικητή (winner selection mechanism). Στο δεύτερο μέρος της διατριβής, επικεντρωθήκαμε σε σειριακά δεδομένα, τα οποία αποτελούν μία από τις πιο σημαντικές προκλήσεις στην κοινότητα της Μηχανικής Μάθησης. Τα Κρυφά Μαρκοβιανά Μοντέλα (Hidden Markov Models) και οι παραλλαγές τους, χρησιμοποιούνταν παραδοσιακά για να μοντελοποιήσουν τέτοιου είδους δεδομένα, αποτελώντας μια ισχυρή και ευέλικτη προσέγγιση. Εν τούτοις, με τη σύγχρονη πρόοδο στις βαθιές αρχιτεκτονικές, τα μοντέλα αυτά έχουν κατά κόρον αντικατασταθεί από τις βαθιές εναλλακτικές τους προσεγγίσεις, Recurrent Neural Networks και τις παραλλαγές τους. Η εγγενής δομή των δικτύων αυτών, καθώς και οι χρησιμοποιούμενες μη-γραμμικές ενεργοποιήσεις, επιτρέπουν την πιο περίπλοκη ενημέρωση των κρυφών καταστάσεων τους (hidden states). Παρόλα αυτά, η διακριτή δομή και γενετική προσέγγιση (generative structure) των Κρυφών Μαρκοβιανών Μοντέλων, επιτρέπει μια πιο εύρωστη εκπαίδευση και ερμηνεία των παραγόμενων μοντέλων. Ωστόσο, η απλοϊκότητα της συνήθως χρησιμοποιούμενης παραδοχής για πρώτης τάξης Μαρκοβιανής δυναμική στις παραδοσιακές αρχιτεκτονικές προς όφελος χαμηλής υπολογιστικής πολυπλοκότητας, περιορίζει την ικανότητα μοντελοποίησης τους, καθιστώντας τα μοντέλα ακατάλληλα για χρήση σε πραγματικά σενάρια. Οι προτεινόμενες παραλλαγές μεγαλύτερης τάξης (higher order) χαλαρώνουν τον περιορισμό αυτό, επιτρέποντας μια πιο περίπλοκη δυναμική. Πάραυτα, η εγγενής προκύπτουσα πολυπλοκότητα εμποδίζει την επιτυχή χρησιμοποίηση τους σε ρεαλιστικά προβλήματα. Τα Κρυφά Ημι-Μαρκοβιανα Μοντέλα (Hidden Semi-Markov Models) και οι παραλλαγές τους, προτάθηκαν σαν εναλλακτική στα προβλήματα αυτά, όπου μέσω της ρητής μοντελοποίησης της διάρκειας των κρυφών καταστάσεων, η προκύπτουσα ευελιξία και ικανότητα μοντελοποίησης των μοντέλων αυτών μπορεί να αυξηθεί. Παρά το γεγονός αυτό, και στις δύο αυτές θεωρήσεις, τα μοντέλα αποτυγχάνουν στο να λάβουν υπόψιν δυνητικές μη-ομοιογενείς χρονικές δυναμικές στα δεδομένα. Προς το σκοπό αυτό, έχει καταβληθεί σημαντική ερευνητική προσπάθεια για τη δημιουργία μοντέλων, τα οποία υλοποιούν μιας μεταβλητής τάξης αλυσίδα. Οι προσεγγίσεις όμως αυτές, παρουσιάζουν με τη σειρά τους διάφορα μειονεκτήματα, όπως για παράδειγμα η αδυναμία μοντελοποίησης συνεχών παρατηρήσεων. Η διατριβή αυτή αντλεί έμπνευση από τα προαναφερθέντα αποτελέσματα, και επιχειρεί να προσφέρει μια δομημένη προσέγγιση για τη μοντελοποίηση πολύπλοκων σειριακών δεδομένων και χρονοσειρών γενικότερα. Προς αυτή τη κατεύθυνση, παρουσιάζουμε μια παραλλαγή των κλασικών Κρυφών Μαρκοβιανών Μοντέλων, βασισμένη σε μια ιεραρχική επέκταση: εισάγουμε μια επιπρόσθετη πρώτης τάξης Κρυφή Μαρκοβιανή αλυσίδα, επιτρέποντας με τον τρόπο αυτό στο μοντέλο να μεταβάλλει ουσιαστικά τη χρονική δυναμική της συμβατικής Μαρκοβιανής Αλυσίδας παραγωγής παρατηρήσεων (Observation-emitting Ma-rkov Chain). Τοιουτοτρόπως, το μοντέλο μπορεί δυναμικά να συνάγει ποια προηγούμενη κατάσταση επηρεάζει περισσότερο την τωρινή χρονική στιγμή. Χρησιμοποιούμε επιχειρήματα από το Bayesian πλαίσιο, και συγκεκριμένα αξιοποιούμε την τεχνική Variational Inference αποσκοπώντας στο να αυξήσουμε την ικανότητα μοντελοποίησης και τη σταθερότητα της προσέγγισης. Επιδεικνύουμε τη δυνατότητα μοντελοποίησης της προκύπτουσας δομής, εξετάζοντας της ακρίβεια αναγνώρισης σε έναν από τους πιο προκλητικούς τομείς της Μηχανικής Όρασης (Computer Vision), την αναγνώριση ανθρώπινης κίνησης (Human Action Recognition). Για το σκοπό αυτό, χρησιμοποιούμε τέσσερα διαφορετικά δεδομένα αναφοράς και συγκρίνουμε την επίδοση της προσέγγισης μας σε σχέση τόσο με βασικά μοντέλα όσο και και με state-of-the-art τεχνικές. Εξερευνούμε επιπρόσθετα την ικανότητα της προσέγγισης στη μοντελοποίηση δεδομένων με ελλείπουσες τιμές (data with missing values). Τα προκύπτοντα πειραματικά αποτελέσματα επιβεβαιώνουν την αυξημένη δυνατότητα μοντελοποίησης των δεδομένων της προσέγγισης μας, επιδεικνύοντας ανταγωνιστική ακρίβεια αναγνώρισης σε όλα τα εξεταζόμενα σετ δεδομένων, καθώς και αποτελεσματικό χειρισμό δεδομένων με ελλείπουσες τιμές, παρουσιάζοντας την μικρότερη πτώση της ακρίβειας αναγνώρισης σε αναλογία με το αυξανόμενο ποσοστό ελλειπουσών τιμών. Τέλος, η περαιτέρω ανάλυση της συμπεριφοράς της εισαχθείσας κρυφής διαδικασίας παρήγαγε ισχυρά εμπειρικά αποτελέσματα ότι τα συνήχθη χρονικά μοτίβα μπορούν επιτυχώς να μοντελοποιήσουν δεδομένα με περίπλοκες χρονικές εξαρτήσεις.
περισσότερα
Περίληψη σε άλλη γλώσσα
Despite the recent successes in Machine Learning, there remain many open challenges. The goal of this thesis is to introduce two different design paradigms for both batch as well as sequential data. Each of the considered approaches comprises the construction of more flexible and efficient models, aspiring to increase the modeling capacity while addressing the complexity issues of the conventionally employed approaches. The thesis initially focuses on the batch scenario, where we consider Deep Neural architectures. Recent hardware advances, as well as the availability of large datasets, have enabled the construction of networks, that comprise a large number of neurons, connected via synaptic weights, in a layered fashion. When a multi-layer (deep) architecture is considered, the network is called a Deep Neural Network, and the corresponding discipline is referred to as Deep Learning. Application of DL approaches, has provided significant achievements in a wide range of domains. Howev ...
Despite the recent successes in Machine Learning, there remain many open challenges. The goal of this thesis is to introduce two different design paradigms for both batch as well as sequential data. Each of the considered approaches comprises the construction of more flexible and efficient models, aspiring to increase the modeling capacity while addressing the complexity issues of the conventionally employed approaches. The thesis initially focuses on the batch scenario, where we consider Deep Neural architectures. Recent hardware advances, as well as the availability of large datasets, have enabled the construction of networks, that comprise a large number of neurons, connected via synaptic weights, in a layered fashion. When a multi-layer (deep) architecture is considered, the network is called a Deep Neural Network, and the corresponding discipline is referred to as Deep Learning. Application of DL approaches, has provided significant achievements in a wide range of domains. However, the currently employed deep architectures, suffer from over-parameterization; usually, the models entail millions of parameters, many of which are redundant. This leads to unnecessary computational complexity, limiting their scalability, while at the same time contributing to the well-known over-fitting tendencies of deep networks, undermining their generalization capabilities. Moreover, it is generally known that, even though the widely used non-linearities, such as the Rectified Linear Units, are a convenient mathematical tool, allowing the effective training of deep architectures, they do not come with a biologic plausibility. Indeed, there is an increasing body of evidence that neurons in a biological system that have similar functional properties are aggregated together, and local competition takes place among them. To this end, researchers have devoted significant effort to design more biologically plausible networks where instead of employing the common non-linearities, competition among linear units takes place. The resulting competition mechanism is called Winner-Takes-All and has provided significant results in the community. In this context, we revisit the current design paradigms of deep neural networks, aiming to introduce a novel, principled approach for network pruning and compression based on biologically inspired Local Winner-Takes-All deep networks. To this end, we propose an inferential construction for explicitly inferring the utility of network components (connections/units) in the context of LWTA-based networks. We employ appropriate arguments from the solid nonparametric Bayesian framework, namely stick-breaking priors. The introduced mechanism constitutes a data-driven procedure, allowing the model structure to intelligently adapt to the complexity of the data, while simultaneously inferring the needed floating point precision to represent its weights. We tie all the components under the variational inference framework, and we derive efficient training and inference procedures for our model. We demonstrate the capacity of our approach in a supervised classification setting in a variety of benchmark architectures and datasets. The empirical evidence vouch for the efficacy of the approach, yielding predictive accuracy at least competitive with the state-of-the-art, while allowing pruning and compressing the network much better than the competition. Furthermore, our closer examination of the behavior of the employed LWTA mechanism suggests that the considered competition-based approach succeeds in encoding salient distinctive features through the winner selection mechanism.In the second approach, we consider sequential data, that still remain one of the most challenging tasks in the Machine Learning community. Traditionally, Hidden Markov Models and their variants, were used to model such data, constituting a flexible and powerful approach. However, through the recent advances in deep architectures, Hidden Markov Models have largely been replaced by their deep alternatives, namely Recurrent Neural Networks and their variants. Even though, the inherent structure of RNNs and the employed non-linearities therein, allow for updating the states in more complicated ways, the discrete bottlenecks and generative structure of HMMs, allows for more robust training and interpretability. However, the simplicity of the commonly employed first-order assumption of the Markovian dynamics, usually chosen due to the resulting low computational complexity in conventional HMMs, restricts their modeling capacity, rendering the models unusable in real-world scenarios. The proposed higher-order variants aleviate this restriction by allowing more complex temporal dynamics; yet, their inherent computational complexity obstructs them from successful employment to realistic tasks. Hidden Semi-Markov Models and their variants have been proposed as an alternative, where by explicitly modeling the lasting time of each state, the flexibility and capacity of the resulting models can be increased. Nevertheless, in both cases, the models fail to consider potential non-homogeneous temporal dynamics in the data. To this end, significant research effort has been devoted in creating models that comprise a variable order chain. Nonetheless, the considered approaches also exhibit several drawbacks, such as the inability to model continuous observations. This work draws inspiration from the aforementioned results, and attempts to offer a principled way of modeling complex sequential data and time-series in general. To this end, we introduce a variant of rigid HMM architectures that constitutes an hierarchical extension; we postulate an additional latent first-order Markov Chain, allowing the model to alter the effective temporal dynamics of the conventional observation emitting Markov Chain. In this way, the model can dynamically infer which past state more strongly affects the current time frame. To increase the modeling capacity and robustness of the considered approach, we employ arguments from the solid Bayesian framework, relying on Variational Inference for tractable approximations. We demonstrate the modeling capabilities of the resulting model, in terms of recognition accuracy in one of the most challenging tasks in the Computer Vision community, namely, Human Action Recognition. Thus, we employ four benchmark datasets and compare the model's performance to similar baseline methods such as HMMs and LTSMs. We additionally explore the potency of the introduced hierarchical extension when compared to state-of-the-art methods, while examining its ability to model data with missing values. The provided experimental results assert the increased modeling capacity of the considered model, providing competitive recognition accuracy in all of the considered datasets, and effectively handling data with missing values, while exhibiting the smallest decrease in recognition accuracy relative to the increasing portion of missing values. Finally, further investigation of the behavior of the postulated latent process has provided strong evidence that the inferred temporal patterns can successfully model data with complex temporal dependencies.
περισσότερα