Addressing class imbalance in multi-label data

Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα είναι συσχετισμένο με πολλαπλές δυαδικές μεταβλητές εξόδους (ετικέτες), το οποίο επιτρέπει αναπαραστάσεις με πλουσιότερη σημασιολογία σε σύγκριση με τα δυαδικά ή πολλαπλών κλάσεων δεδομένα. Κατά τη διάρκεια των τελευταίων δύο δεκαετιών, η μάθηση πολλαπλών ετικετών έχει σταδιακά προσελκύσει την προσοχή της ερευνητικής κοινότητας, και έχει ευρέως εφαρμοστεί σε ποικίλα προβλήματα, συμπεριλαμβανομένης της κατηγοριοποίησης κειμένων, της επισημείωσης πολυμέσων και της βιοπληροφορικής. Η ανισορροπία κλάσεων είναι ένα εγγενές χαρακτηριστικό των δεδομένων πολλαπλών ετικε\-τών, το οποίο εισάγει μια κρίσιμη πρόκληση για τις μεθόδους μάθησης πολλαπλών ετικετών. Στα δεδομένα πολλαπλών ετικετών, κάθε παράδειγμα συνήθως συσχετίζεται με μερικές ετικέτες που επιλέγονται από ένα σύνολο ετικετών μεγάλης κλίμακας, καθιστώντας των χώρο των ετικετών εξόδου αραιό και πολλές φορές μεροληπτικό. Αν και έχουν προταθεί πολλές μέθοδοι για την αντιμετώπιση της ανισορροπίας των δεδομένων πολλαπλών ετικετών, υπάρχει ακόμα περιθώριο περαιτέρω βελτίωσης της ακρίβειας πρόβλεψης, ειδικά για ετικέτες με μεγάλη ανισορροπία και για δύσκολα παραδείγματα. Επιπρόσθετα, μια σημαντική και ουσιαστική εφαρμογή μάθησης πολλαπλών ετικετών στον τομέα της βιοπληροφορικής είναι η πρόβλεψη της αλληλεπίδρασης φαρμάκου-στόχου (DTI) μέσω υπολογιστικών μεθόδων, η οποία επιταχύνει την κουραστική επικύρωση πειράματος in-vitro και παίζει κύριο ρόλο στη διαδικασία ανακάλυψης φαρμάκων. Ωστόσο, εκτός από την ανισορροπία κλάσεων, η πρόβλεψη DTI αντιμετωπίζει και άλλα προβλήματα, όπως η διαθεσιμότητα διμερών πλευρικών πληροφοριών, η ύπαρξη ελλιπών αλληλεπιδράσεων, και η ανάγκη για μάθηση χωρίς παραδείγματα. Τα προβλήματα αυτά καθιστούν την πρόβλεψη DTI πιο δύσκολη από τη συμβατική μάθηση πολλαπλών ετικετών. Ο γενικός στόχος αυτής της διατριβής είναι να αναπτύξει νέες τεχνικές που χειρίζονται πιο αποτελεσματικά την ανισορροπία κλάσεων των δεδομένων πολλαπλών ετικετών. Οι συνεισφορές αυτής της διατριβής αφορούν την αντιμετώπιση προκλήσεων που προκαλούνται από την ανισορροπία των δεδομένων πολλαπλών ετικετών σε τέσσερις διαφορετικές διαστάσεις. 1) Προτείνεται μια σειρά συνόλων ταξινομητών αλυσίδας που συνδυάζει την υποδειγματοληψία με σκοπό τη μείωση της ανισορροπίας κάθε ετικέτας. Τα μοντέλα αυτά όχι μόνο μοντελοποιούν συσχετίσεις ετικετών υψηλής τάξης, αλλά προωθούν επίσης την εκμετάλλευση παραδειγμάτων πλειοψηφικών κλάσεων για την πρόβλεψη ετικετών με υψηλή ανισορροπία. 2) Παρουσιάζονται τεχνικές διπλής δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Αυτές προσαρμόζουν τα παραδείγματα εκπαίδευσης με βάση την τοπική ανισορροπία των ετικετών, η οποία παρέχει περισσότερη πληροφορία από ότι η καθολική ανισορροπία των ετικετών ολόκληρου του συνόλου δεδομένων. 3) Προτείνεται ο συνδυασμός μοντέλων που βασίζονται στη γειτνίαση για την πρόβλεψη DTI, ο οποίος ανακτά ελλιπείς αλληλεπιδράσεις για να αυξήσει τα δεδομένα με λίγες αλληλεπιδράσεις, και αξιοποιεί ποικίλες στρατηγικές δειγματοληψίας για κάθε ξεχωριστό μοντέλο με σκοπό τη βελτίωση της σταθερότητας και ανθεκτικότητας της πρόβλεψης. 4) Αναπτύσσονται τρεις τεχνικές πρόβλεψης DTI βάσει παραγοντοποίησης πινάκων, οι οποίες βελτιστοποιούν άμεσα μετρικές που υπολογίζουν την περιοχή κάτω της καμπύλης που χρησιμοποιούνται ευρέως στο πλαίσιο ανισορροπίας κλάσεων. Επίσης, ενσωματώνουν μια διαδικασία συνδυασμού ομοιοτήτων με βάση την τοπική συνέπεια αλληλεπίδρασης για τον χειρισμό πολλαπλών ομοιοτήτων εισόδου.

περισσότερα

Περίληψη σε άλλη γλώσσα

In multi-label data, each instance is associated with multiple binary output variables (labels), which allows the expression of much richer semantics compared to binary and multi-class data. During the past two decades, multi-label learning has gradually attracted a plethora of research attention, and has been widely applied to diverse problems, including text categorization, multimedia annotation and bioinformatics. Class imbalance is an intrinsic characteristic of multi-label data, which imposes a crucial challenge for the multi-label learning approach. In multi-label data, each instance is typically associated with a few labels picked from a large-scale label set, leading to the sparse and skewed output label space. Although plenty of methods have been proposed to deal with imbalanced multi-label data, there is still a room for further improvement in predicting accuracy, especially for highly imbalanced labels and difficult instances. Furthermore, predicting drug-target interaction (DTI) via computational methods, which accelerates the tedious in vitro experiment validation and plays an essential role in the drug discovery process, is an important and meaningful multi-label learning application in the bioinformatics area. Nevertheless, apart from the class imbalance, DTI prediction has its distinct properties, such as the availability of bipartite side information, the existence of missing interactions, the task of zero-shot predictions. Those properties make DTI prediction more challenging than the conventional multi-label learning. The general goal of this dissertation is to develop novel approaches that handle the class imbalance in multi-label data more effectively. Contributions of this thesis concern addressing challenges provoked by the imbalanced multi-label data in four different aspects. 1) We propose a series of ensemble chain models coupling undersampling to reduce the class imbalance for each label, which not only model high-order label correlations, but also promote the exploitation of majority class examples for highly imbalanced labels. 2) We present twin sampling approaches for multi-label data, which adjust training instances based on their local label imbalance that is more informative than the global imbalance level of the whole dataset. 3) We propose ensemble of neighbourhood based approaches for DTI prediction, which recovers missing interactions to increase the minor interacting data and leverage diverse sampling strategy for each base model to improve the robustness. 4) We develop three matrix factorization (MF) based DTI prediction approaches, which directly optimize area under the curve metrics that are widely used in the class imbalance context, and incorporate a local interaction consistency based similarity integrating procedure to handle multiple input similarities.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.82 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/50783
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/50783
ND	50783
Εναλλακτικός τίτλος	Addressing class imbalance in multi-label data
Συγγραφέας	Λίου, Μπίν (Πατρώνυμο: Γιανμίν)
Ημερομηνία	2021
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Τσουμάκας Γρηγόριος Κούρνια Ζωή Αγγελής Ελευθέριος Βλαχάβας Ιωάννης Βράκας Δημήτριος Μπλέκας Κωνσταντίνος Παπαδόπουλος Απόστολος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Δεδομένα Πολλαπλών Ετικετών; Πρόβλεψη Αλληλεπίδρασης Φαρμάκου-Στόχου; Ανισορροπία Κλάσεων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Identification of fraudulent financial statements using data mining techniques

Political economy of fiscal reforms: the case of E.M.U.

Διασυνοριακή ροή οικονομικών δεδομένων: νομική προσέγγιση

Deep learning techniques for financial data

Λήψη βέλτιστων αποφάσεων για τη διασφάλιση της ποιότητας των οικονομικών καταστάσεων: εφαρμογές σε λογιστικούς και φορολογικούς ελέγχους

Information content of asset growth for future firm performance

Η εφαρμογή της τεχνητής νοημοσύνης στoν τραπεζικό κλάδο: πολυσταδιακή βαθιά μάθηση για τον εντοπισμό απάτης και την ερμηνευτικότητα μοντέλων

Forensic accounting: fraud examination and prevention through the identification of fraudster's profile and organizational culture

Финансијски аспекти кризног менаџмента у савременим условима привређивања

Energy and trade patterns in the neoclassical trade theory

"Αντιμετωπίζοντας την ανισορροπία κλάσης στα δεδομένα πολλαπλών ετικετών"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .