Περίληψη
Η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στον τομέα της μηχανικής μάθησης και πιο συγκεκριμένα στις περιοχές της μάθησης από δεδομένα πολλαπλών ετικετών και των μοντέλων θεμάτων. Το κύριο πρόβλημα που αντιμετωπίζεται αφορά ένα σενάριο όπου υπάρχει ένα σύνολο δεδομένων για τα οποία υποθέτουμε ότι κάθε στοιχείο μπορεί να περιγραφεί από περισσότερες της μίας σημασιολογικές έννοιες, ή μία κατανομή επί αυτών. Ο στόχος μας σε αυτή την περίπτωση, είναι να προσδιορίσουμε τις έννοιες αυτές για κάθε στοιχείο του συνόλου δεδομένων.Στην περίπτωση της μάθησης από δεδομένα πολλαπλών ετικετών, το πρόβλημα ανήκει στην επιβλεπόμενη μάθηση: υπάρχει ένα σύνολο δεδομένων εκπαίδευσης και μια δοσμένη οντολογία εννοιών και ο στόχος είναι να εκπαιδευτεί ένα μοντέλο πολλαπλών ετικετών που θα προβλέπει επιτυχώς έννοιες σε νέα δεδομένα. Τα μοντέλα θεμάτων αφορούν ένα πλαίσιο μη επιβλεπόμενης μάθησης, στοχεύοντας στον προσδιορισμό τόσο της οντολογίας των εννοιών, δηλαδή των θεμάτων της συλλογής, όσο και τις έν ...
Η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στον τομέα της μηχανικής μάθησης και πιο συγκεκριμένα στις περιοχές της μάθησης από δεδομένα πολλαπλών ετικετών και των μοντέλων θεμάτων. Το κύριο πρόβλημα που αντιμετωπίζεται αφορά ένα σενάριο όπου υπάρχει ένα σύνολο δεδομένων για τα οποία υποθέτουμε ότι κάθε στοιχείο μπορεί να περιγραφεί από περισσότερες της μίας σημασιολογικές έννοιες, ή μία κατανομή επί αυτών. Ο στόχος μας σε αυτή την περίπτωση, είναι να προσδιορίσουμε τις έννοιες αυτές για κάθε στοιχείο του συνόλου δεδομένων.Στην περίπτωση της μάθησης από δεδομένα πολλαπλών ετικετών, το πρόβλημα ανήκει στην επιβλεπόμενη μάθηση: υπάρχει ένα σύνολο δεδομένων εκπαίδευσης και μια δοσμένη οντολογία εννοιών και ο στόχος είναι να εκπαιδευτεί ένα μοντέλο πολλαπλών ετικετών που θα προβλέπει επιτυχώς έννοιες σε νέα δεδομένα. Τα μοντέλα θεμάτων αφορούν ένα πλαίσιο μη επιβλεπόμενης μάθησης, στοχεύοντας στον προσδιορισμό τόσο της οντολογίας των εννοιών, δηλαδή των θεμάτων της συλλογής, όσο και τις έννοιες που περιγράφουν κάθε στιγμιότυπο δεδομένων, δηλαδή τις κατανομές στιγμιότυπου-θεμάτων. Αν και το πεδίο εφαρμογής της διατριβής είναι το κείμενο, εντούτοις οι συνεισφορές της μπορούν εύκολα να επεκταθούν και σε άλλους τομείς εφαρμογών.Σε αυτή την εργασία, μας απασχολούν τα εξής προβλήματα: α) ο αποτελεσματικός συνδυασμός μοντέλων μάθησης πολλαπλών ετικετών, β) η βελτίωση του υπολογισμού των παραμέτρων για επιβλεπόμενα και μη επιβλεπόμενα μοντέλα θεμάτων γ) η επέκταση επιβλεπόμενων μοντέλων θεμάτων, ώστε να αντιμετωπίζουν επιτυχώς προβλήματα μάθησης από δεδομένα πολλαπλών ετικετών που έχουν πάρα πολύ μεγάλες οντολογίες εννοιών.Αρχικά, παρουσιάζουμε μια μέθοδο συνόλου για μεθόδους μάθησης από δεδομένα πολλαπλών ετικετών, που συνδυάζει ταξινομητές πολλαπλών ετικετών και εφαρμόζει ένα τεστ στατιστικής σημαντικότητας ώστε να επιβεβαιώσει τις επιλογές του. Στη συνέχεια, εισάγεται μια καινοτόμα μέθοδος υπολογισμού των παραμέτρων για μοντέλα θεμάτων. Η μέθοδος κάνει χρήση της πλήρους κατανομής πιθανότητας της Λανθάνουσας Κατανομής \textlatin{Dirichlet (LDA)}, προτείνοντας βελτιωμένους εκτιμητές παραμέτρων τόσο από πλευράς απόδοσης όσο και χρονικής πολυπλοκότητας. Τέλος, προτείνουμε μια επέκταση για μοντέλα θεμάτων επιβλεπόμενης μάθησης, που καταφέρνουν να αντιμετωπίσουν επιτυχώς προβλήματα με εκατοντάδες χιλιάδες έννοιες. Οι παραπάνω μέθοδοι αξιολογούνται σε εκτενή πειράματα με την αιχμή της τεχνολογίας σε κάθε τομέα, με τα αποτελέσματα να φανερώνουν σημαντικά πλεονεκτήματα για τις μεθόδους μας, σε όλες τις περιπτώσεις.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents an original research in the field of machine learning andmore specifically in the areas of multi-label learning and topic models. Themain task considered in this thesis involves a setting in which there exists acollection of data and we are interested in determining the concepts describingeach of these data points.In the case of multi-label learning, the task is supervised: there exist atraining data set and a given concepts ontology and the goal is to train amulti-label learning model that will effectively predict concepts on new data.Topic models entail an unsupervised context, aiming at specifying both theontology of concepts, or, in other words, the topics of the collection, as wellas the concepts describing each data point. Throughout the dissertation theapplication domain is text, nevertheless the contributions of the thesis canreadily be extended to other data domains.In this thesis, we are interested in the following problems: a) effectivecombination of mul ...
This thesis presents an original research in the field of machine learning andmore specifically in the areas of multi-label learning and topic models. Themain task considered in this thesis involves a setting in which there exists acollection of data and we are interested in determining the concepts describingeach of these data points.In the case of multi-label learning, the task is supervised: there exist atraining data set and a given concepts ontology and the goal is to train amulti-label learning model that will effectively predict concepts on new data.Topic models entail an unsupervised context, aiming at specifying both theontology of concepts, or, in other words, the topics of the collection, as wellas the concepts describing each data point. Throughout the dissertation theapplication domain is text, nevertheless the contributions of the thesis canreadily be extended to other data domains.In this thesis, we are interested in the following problems: a) effectivecombination of multi-label learning methods, b) improving parameter estimationfor supervised and unsupervised topic models c) adaptation of supervisedtopic modelling algorithms, to deal successfully with multi-label learning taskshaving extremely large concept taxonomies.First, we present a multi-label ensemble method, that combines multilabelclassifiers and employs a statistical significance test in order to validateits choices. Second, two novel estimators are introduced for topic models.These methods, employ a full probability distribution to compute improvedestimators for the topic model parameters, both in terms of performance andtime complexity. Finally, we propose an extension to multi-label learningtopic models, that effectively scales up to tasks with hundreds of thousandsof concepts. The above methods are evaluated and compared against therelevant state-of-the-art, in multiple experimental settings and for diverseevaluation procedures.
περισσότερα