Περίληψη
Στην παρούσα μελέτη εξετάζονται αναπαραστάσεις δεδομένων για προβλήματα Mηχανικής Mάθησης, με έμφαση τον εμπλουτισμό τους με πληροφορία από πηγές γνώσεων.Αρχικά, εκπονήθηκε βιβλιογραφική μελέτη για αναπαραστάσεις δεδομένων κειμένου, εικόνας και ήχου στο πρόβλημα της κατηγοριοποίησης. Έγινε συγκριτική καταγραφή και κατάταξη των μεθόδων σε α) αναπαραστάσεις χαμηλού επιπέδου και τοπικής εφαρμογής προτύπων β) συνδυασμός τοπικών χαρακτηριστικών με μεθόδους συνένωσης, συνδυασμού και μετασχηματισμού και γ) μοντέλα βαθιάς εκμάθησης αναπαραστάσεων. Έγινε μία σύγκριση θετικών και αρνητικών χαρακτηριστικών μεταξύ των τεχνικών και εντοπίστηκαν περιοχές βελτίωσης / επέκτασης τους για αναβάθμιση του σημασιολογικού περιεχομένου της παραγόμενης αναπαράστασης.Στη συνέχεια, έγιναν ερευνητικές προτάσεις / επεκτάσεις μεθόδων αναπαράστασης σε διαφορετικά προβλήματα μηχανικής μάθησης και ποικίλων δεδομένων εισόδου σε στοχευμένες μελέτες και πειραματικές αξιολογήσεις. Συγκεκριμένα μελετήθηκαν διαφορετικές αν ...
Στην παρούσα μελέτη εξετάζονται αναπαραστάσεις δεδομένων για προβλήματα Mηχανικής Mάθησης, με έμφαση τον εμπλουτισμό τους με πληροφορία από πηγές γνώσεων.Αρχικά, εκπονήθηκε βιβλιογραφική μελέτη για αναπαραστάσεις δεδομένων κειμένου, εικόνας και ήχου στο πρόβλημα της κατηγοριοποίησης. Έγινε συγκριτική καταγραφή και κατάταξη των μεθόδων σε α) αναπαραστάσεις χαμηλού επιπέδου και τοπικής εφαρμογής προτύπων β) συνδυασμός τοπικών χαρακτηριστικών με μεθόδους συνένωσης, συνδυασμού και μετασχηματισμού και γ) μοντέλα βαθιάς εκμάθησης αναπαραστάσεων. Έγινε μία σύγκριση θετικών και αρνητικών χαρακτηριστικών μεταξύ των τεχνικών και εντοπίστηκαν περιοχές βελτίωσης / επέκτασης τους για αναβάθμιση του σημασιολογικού περιεχομένου της παραγόμενης αναπαράστασης.Στη συνέχεια, έγιναν ερευνητικές προτάσεις / επεκτάσεις μεθόδων αναπαράστασης σε διαφορετικά προβλήματα μηχανικής μάθησης και ποικίλων δεδομένων εισόδου σε στοχευμένες μελέτες και πειραματικές αξιολογήσεις. Συγκεκριμένα μελετήθηκαν διαφορετικές αναπαραστάσεις κειμένου για πρόβληματα όπως η Ανίχνευση Ρητορικής Μίσους σε δεδομένα από κοινωνικά δίκτυα και η Αυτόματη Εξαγωγή Περιλήψεων σε ποικιλία τύπου κειμένων(δημοσιογραφικά / εγκυκλοπαιδικά άρθρα, αξιολογήσεις ηλεκτρονικών παιχνιδιών, κείμενα σε ιστοσελίδες κοινωνικής δικτύωσης). Επιπλέον, έγινε μελέτη αναπαραστάσεων για Συσταδοποίηση / Εντοπισμό Γεγονότων σε κείμενο, καθώς και για την κατηγοριοποίησηβίντεο με αξιοποίηση αναπαράστασης εικόνας και ήχου. Το σύνολο της βιβλιογραφικής / ερευνητικής μελέτης ανέδειξε κατευθύνσεις βελτίωσης μεθόδων αναπαραστάσεων με τη χρήση υπάρχουσας πληροφορίας από δομημένες και υψηλής ποιότητας πηγές γνώσεων – τεχνική που είναι απούσα ή ελλιπής στη βιβλιογραφία.Στη βάση αυτή, δόθηκε μία περιγραφή από πιθανά οφέλη που μπορεί να φέρει ο εμπλουτισμός με πληροφορία από εξωτερικές πηγές γνώσης. Επιπλέον, εκπονήθηκε βιβλιογραφική μελέτη με έμφαση σε μεθόδους εμπλουτισμού αναπαραστάσεων για διαφορετικούς τύπους δεδομένων (κείμενο, εικόνα και ήχος) και πηγών γνώσεων (οντολογίες, λεξικά, οπτικοακουστικές ιεραρχίες, κ.α.), για το πρόβλημα της ταξινόμησης. Επιπλέον, καταγράφηκαν λεπτομερώς υπάρχουσες μέθοδοι εμπλουτισμού και κατατάχθηκαν σε τρεις κατηγορίες: α) μέθοδοι εμπλουτισμού εισόδου με δεδομένα γνώσης β) μετασχηματισμός /συνδυασμός αναπαραστάσεων καθοδηγούμενος από γνώση και γ) συστήματα γνώσης βαθιάς μάθησης. Βάσει αυτής της μελέτης και αναγνωρίζοντας ελλείψεις και περιοχές βελτίωσης στην παρούσα βιβλιογραφία, προτάθηκε μία τεχνική εμπλουτισμού βασισμένη στον εμπλουτισμός εισόδου σε δεδομένα βαθιών αναπαραστάσεων, πάνω στην οποία επικεντρώθηκαν οι ερευνητικές προσπάθειες της διατριβής. Με γνώμονα τα παραπάνω, μελετήθηκαν και προτάθηκαν δύο νέοι τρόποι εμπλουτισμού αναπαραστάσεων, δίνοντας έμφαση σε δεδομένα κειμένου. Αρχικά, αναπτύχθηκε ένα σύστημα νευρωνικών αναπαραστάσεων λέξεων, εμπλουτισμένων με σημασιολογική πληροφορία από την ιεραρχική οντολογία Wordnet. Ερευνήθηκαν διαφορετικοί τρόποι εμπλουτισμού της εισόδου, τρόποι εξαγωγής σημασιολογίας από την οντολογία, τεχνικών διάχυσηςβάρους στα δεδομένα γνώσης και προσεγγίσεων συνδυασμού της με τα χαρακτηριστικά περιεχομένου από το κείμενο. Έγινε πειραματική αξιολόγηση μεγάλης κλίμακας, ανάλυση στατιστικής σημαντικότητας και σύγκριση με άλλα συστήματα κατηγοριοποίησης και εμπλουτισμού, με χρήση μεγάλων συλλογών κειμένων ποικίλης θεματολογίας και χαρακτηριστικών. Η μέθοδος αποδίδει καλύτερα από υπάρχοντα συστήματα, και κατασκευάζει αναπαραστάσεις και μοντέλα μάθησης που είναι πιο αποδοτικά και παράγουν πιο εύκολα ερμηνεύσιμες προβλέψεις και χαρακτηριστικά. Στη συνέχεια, το παραπάνω σύστημα επεκτάθηκε με επιπλέον τεχνικές συμβατικών και νευρωνικών αναπαραστάσεων, διαφορετικές μεθόδους μείωσης διάστασης και τεχνικών συσταδοποίησης. Έγινε πειραματική αξιολόγηση στο πρόβλημα της αυτόματης εξαγωγής περιλήψεων σε δεδομένα από εγκυκλοπαιδικά άρθρα, η οποία επιβεβαίωσε τη συνεισφορά της προτεινόμενης μεθόδου εμπλουτισμού και ανέδειξε επιπλέον ενδιαφέροντα ευρήματα.Τέλος, το σύνολο των ευρημάτων της μελέτης χρησιμοποιήθηκε για την κατασκευή ενός συστήματος εντοπισμού ρητορικής μίσους για αξιοποίηση στην βιομηχανία. Η παρούσα διατριβή κλείνει συνοψίζοντας το συνολικού ερευνητικό έργο και προσφέροντας κατευθύνσεις μελλοντικής επέκτασης της μελέτης που εκπονήθηκε.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis conducts an investigation on data representation approaches for Machine Learning problems, focused on representation enrichment methods from knowledge resources. The study begins with a literature review on representations for classification over text, image and audio data, where methods were grouped to broad paradigms accordingto richness of information encompassed in the produced representation to a) low-level and template-matching approaches, b) aggregation-based methods and c) deep representation learning systems. After a comparison of pros and cons between paradigms,directions of potential improvements and extensions were identified, towards enhancing the richness of encapsulated information in the representation.Subsequently, we moved on to specific proposals / extensions of representations for various learning problems, data modalities and domains, evaluated under novel applicationsand experimental evaluations. Specifically, different representations for text were ev ...
This thesis conducts an investigation on data representation approaches for Machine Learning problems, focused on representation enrichment methods from knowledge resources. The study begins with a literature review on representations for classification over text, image and audio data, where methods were grouped to broad paradigms accordingto richness of information encompassed in the produced representation to a) low-level and template-matching approaches, b) aggregation-based methods and c) deep representation learning systems. After a comparison of pros and cons between paradigms,directions of potential improvements and extensions were identified, towards enhancing the richness of encapsulated information in the representation.Subsequently, we moved on to specific proposals / extensions of representations for various learning problems, data modalities and domains, evaluated under novel applicationsand experimental evaluations. Specifically, different representations for text were evaluated for the Hate Speech Detection task on social media posts, the Automatic Summarization task for multiple domains (online articles, game reviews and social media texts),the Clustering / Event Detection task over articles and Social Media posts and the videoclassification task under a multimodal (image and audio) setting, over a variety of videodatasets, labelling configuration and domain setting. This broad collection of studies ondata representations verified the motivation of this thesis, namely that introduction of existing knowledge into representations is both under-utilized and a viable way of arriving at semantically rich features, for multiple representation extraction techniques.Given this, we reiterated potential benefits of applying enrichment to Machine Learningproblems and proceeded with a literature review of i) knowledge resources and ii) representation enrichment methods. This was conducted with respect to a classification tasksetting, considering text, images or audio data. We grouped enrichment approaches intothree broad paradigms: a) input modification b) knowledge-guided representation refinement and c) end-to-end knowledge-aware systems. This comparative literature overviewhighlighted points of improvement and under-investigated areas, which led to adopting theapproach of enriching deep neural content-based features with input modification methods. This is avenue pursued and investigated for the remainder of the thesis.Given the above, two novel representation enrichment methods were proposed, with afocus on machine learning tasks for text data. First, we implemented a word embeddingenrichment approach, using semantic information mined from the Wordnet knowledge resource. We investigated different techniques for data combination, knowledge extraction,diffusion and spread, dimensionality reduction and filtering and semantic disambiguation.We performed a large-scale experimental evaluation over multiple datasets and domains,along with statistical significance testing and a comparison to existing approaches. Ourmethod was shown to the competition, with enrichment improving results significantly,enhancing prediction and representation explainability and yielding intuitive and predominantly edge-case errors. Subsequently, the system was extended with different neuraland conventional embeddings as well as proposed dimensionality reduction and clustering capabilities, all evaluated on the automatic summarization task over on encyclopedic articles.Finally, we utilized the findings of this study into semantically enriched Hate Speech Detection system to be used in the Industry. The thesis is concluded by a summary of the totality of research work conducted, along with proposed directions of future study.
περισσότερα