Περίληψη
Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα είναι συσχετισμένο με πολλαπλές δυαδικές μεταβλητές εξόδους (ετικέτες), το οποίο επιτρέπει αναπαραστάσεις με πλουσιότερη σημασιολογία σε σύγκριση με τα δυαδικά ή πολλαπλών κλάσεων δεδομένα. Κατά τη διάρκεια των τελευταίων δύο δεκαετιών, η μάθηση πολλαπλών ετικετών έχει σταδιακά προσελκύσει την προσοχή της ερευνητικής κοινότητας, και έχει ευρέως εφαρμοστεί σε ποικίλα προβλήματα, συμπεριλαμβανομένης της κατηγοριοποίησης κειμένων, της επισημείωσης πολυμέσων και της βιοπληροφορικής. Η ανισορροπία κλάσεων είναι ένα εγγενές χαρακτηριστικό των δεδομένων πολλαπλών ετικε\-τών, το οποίο εισάγει μια κρίσιμη πρόκληση για τις μεθόδους μάθησης πολλαπλών ετικετών. Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα συνήθως συσχετίζεται με μερικές ετικέτες που επιλέγονται από ένα σύνολο ετικετών μεγάλης κλίμακας, καθιστώντας των χώρο των ετικετών εξόδου αραιό και πολλές φορές μεροληπτικό. Αν και έχουν προταθεί πολλές μέθοδοι για την αντιμετώπιση της ανισορ ...
Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα είναι συσχετισμένο με πολλαπλές δυαδικές μεταβλητές εξόδους (ετικέτες), το οποίο επιτρέπει αναπαραστάσεις με πλουσιότερη σημασιολογία σε σύγκριση με τα δυαδικά ή πολλαπλών κλάσεων δεδομένα. Κατά τη διάρκεια των τελευταίων δύο δεκαετιών, η μάθηση πολλαπλών ετικετών έχει σταδιακά προσελκύσει την προσοχή της ερευνητικής κοινότητας, και έχει ευρέως εφαρμοστεί σε ποικίλα προβλήματα, συμπεριλαμβανομένης της κατηγοριοποίησης κειμένων, της επισημείωσης πολυμέσων και της βιοπληροφορικής. Η ανισορροπία κλάσεων είναι ένα εγγενές χαρακτηριστικό των δεδομένων πολλαπλών ετικε\-τών, το οποίο εισάγει μια κρίσιμη πρόκληση για τις μεθόδους μάθησης πολλαπλών ετικετών. Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα συνήθως συσχετίζεται με μερικές ετικέτες που επιλέγονται από ένα σύνολο ετικετών μεγάλης κλίμακας, καθιστώντας των χώρο των ετικετών εξόδου αραιό και πολλές φορές μεροληπτικό. Αν και έχουν προταθεί πολλές μέθοδοι για την αντιμετώπιση της ανισορροπίας των δεδομένων πολλαπλών ετικετών, υπάρχει ακόμα περιθώριο περαιτέρω βελτίωσης της ακρίβειας πρόβλεψης, ειδικά για ετικέτες με μεγάλη ανισορροπία και για δύσκολα παραδείγματα. Επιπρόσθετα, μια σημαντική και ουσιαστική εφαρμογή μάθησης πολλαπλών ετικετών στον τομέα της βιοπληροφορικής είναι η πρόβλεψη της αλληλεπίδρασης φαρμάκου-στόχου (DTI) μέσω υπολογιστικών μεθόδων, η οποία επιταχύνει την κουραστική επικύρωση πειράματος in-vitro και παίζει κύριο ρόλο στη διαδικασία ανακάλυψης φαρμάκων. Ωστόσο, εκτός από την ανισορροπία κλάσεων, η πρόβλεψη DTI αντιμετωπίζει και άλλα προβλήματα, όπως η διαθεσιμότητα διμερών πλευρικών πληροφοριών, η ύπαρξη ελλιπών αλληλεπιδράσεων, και η ανάγκη για μάθηση χωρίς παραδείγματα. Τα προβλήματα αυτά καθιστούν την πρόβλεψη DTI πιο δύσκολη από τη συμβατική μάθηση πολλαπλών ετικετών. Ο γενικός στόχος αυτής της διατριβής είναι να αναπτύξει νέες τεχνικές που χειρίζονται πιο αποτελεσματικά την ανισορροπία κλάσεων των δεδομένων πολλαπλών ετικετών. Οι συνεισφορές αυτής της διατριβής αφορούν την αντιμετώπιση προκλήσεων που προκαλούνται από την ανισορροπία των δεδομένων πολλαπλών ετικετών σε τέσσερις διαφορετικές διαστάσεις. 1) Προτείνεται μια σειρά συνόλων ταξινομητών αλυσίδας που συνδυάζει την υποδειγματοληψία με σκοπό τη μείωση της ανισορροπίας κάθε ετικέτας. Τα μοντέλα αυτά όχι μόνο μοντελοποιούν συσχετίσεις ετικετών υψηλής τάξης, αλλά προωθούν επίσης την εκμετάλλευση παραδειγμάτων πλειοψηφικών κλάσεων για την πρόβλεψη ετικετών με υψηλή ανισορροπία. 2) Παρουσιάζονται τεχνικές διπλής δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Αυτές προσαρμόζουν τα παραδείγματα εκπαίδευσης με βάση την τοπική ανισορροπία των ετικετών, η οποία παρέχει περισσότερη πληροφορία από ότι η καθολική ανισορροπία των ετικετών ολόκληρου του συνόλου δεδομένων. 3) Προτείνεται ο συνδυασμός μοντέλων που βασίζονται στη γειτνίαση για την πρόβλεψη DTI, ο οποίος ανακτά ελλιπείς αλληλεπιδράσεις για να αυξήσει τα δεδομένα με λίγες αλληλεπιδράσεις, και αξιοποιεί ποικίλες στρατηγικές δειγματοληψίας για κάθε ξεχωριστό μοντέλο με σκοπό τη βελτίωση της σταθερότητας και ανθεκτικότητας της πρόβλεψης. 4) Αναπτύσσονται τρεις τεχνικές πρόβλεψης DTI βάσει παραγοντοποίησης πινάκων, οι οποίες βελτιστοποιούν άμεσα μετρικές που υπολογίζουν την περιοχή κάτω της καμπύλης που χρησιμοποιούνται ευρέως στο πλαίσιο ανισορροπίας κλάσεων. Επίσης, ενσωματώνουν μια διαδικασία συνδυασμού ομοιοτήτων με βάση την τοπική συνέπεια αλληλεπίδρασης για τον χειρισμό πολλαπλών ομοιοτήτων εισόδου.
περισσότερα
Περίληψη σε άλλη γλώσσα
In multi-label data, each instance is associated with multiple binary output variables (labels), which allows the expression of much richer semantics compared to binary and multi-class data. During the past two decades, multi-label learning has gradually attracted a plethora of research attention, and has been widely applied to diverse problems, including text categorization, multimedia annotation and bioinformatics. Class imbalance is an intrinsic characteristic of multi-label data, which imposes a crucial challenge for the multi-label learning approach. In multi-label data, each instance is typically associated with a few labels picked from a large-scale label set, leading to the sparse and skewed output label space. Although plenty of methods have been proposed to deal with imbalanced multi-label data, there is still a room for further improvement in predicting accuracy, especially for highly imbalanced labels and difficult instances. Furthermore, predicting drug-target interaction ...
In multi-label data, each instance is associated with multiple binary output variables (labels), which allows the expression of much richer semantics compared to binary and multi-class data. During the past two decades, multi-label learning has gradually attracted a plethora of research attention, and has been widely applied to diverse problems, including text categorization, multimedia annotation and bioinformatics. Class imbalance is an intrinsic characteristic of multi-label data, which imposes a crucial challenge for the multi-label learning approach. In multi-label data, each instance is typically associated with a few labels picked from a large-scale label set, leading to the sparse and skewed output label space. Although plenty of methods have been proposed to deal with imbalanced multi-label data, there is still a room for further improvement in predicting accuracy, especially for highly imbalanced labels and difficult instances. Furthermore, predicting drug-target interaction (DTI) via computational methods, which accelerates the tedious in vitro experiment validation and plays an essential role in the drug discovery process, is an important and meaningful multi-label learning application in the bioinformatics area. Nevertheless, apart from the class imbalance, DTI prediction has its distinct properties, such as the availability of bipartite side information, the existence of missing interactions, the task of zero-shot predictions. Those properties make DTI prediction more challenging than the conventional multi-label learning. The general goal of this dissertation is to develop novel approaches that handle the class imbalance in multi-label data more effectively. Contributions of this thesis concern addressing challenges provoked by the imbalanced multi-label data in four different aspects. 1) We propose a series of ensemble chain models coupling undersampling to reduce the class imbalance for each label, which not only model high-order label correlations, but also promote the exploitation of majority class examples for highly imbalanced labels. 2) We present twin sampling approaches for multi-label data, which adjust training instances based on their local label imbalance that is more informative than the global imbalance level of the whole dataset. 3) We propose ensemble of neighbourhood based approaches for DTI prediction, which recovers missing interactions to increase the minor interacting data and leverage diverse sampling strategy for each base model to improve the robustness. 4) We develop three matrix factorization (MF) based DTI prediction approaches, which directly optimize area under the curve metrics that are widely used in the class imbalance context, and incorporate a local interaction consistency based similarity integrating procedure to handle multiple input similarities.
περισσότερα