Συσταδοποίηση, ταξινόμηση και εκμάθηση λεξικού: θεωρητική επανεξέταση i) μιας εύρωστης παραλλαγής του αλγορίθμου k-μέσων, ii) παραλλαγών ταξινόμησης κοντινότερου γείτωνα, και iii) μεθόδων εκμάθησης λεξικών απο τα δεδομένα με τη χρήση περιβαλλουσών Moreau
Περίληψη
Το πρόβλημα της ελαχιστοποίησης κόστους με βάση εμπειρικά δεδομένα είναι αρκετά γενικό και περιλαμβάνει ως ειδικές περιπτώσεις τρία βασικά στατιστικά προβλήματα: i) το πρόβλημα της ταξινόμησης προτύπων, ii) το πρόβλημα της ομαδοποίησης/συσταδοποίησης δεδομένων και iii) το πρόβλημα της εκμάθησης λεξικών από δεδομένα. Η ταξινόμηση και η συσταδοποίησης έχουν μακρά ιστορία, ενώ η εκμάθηση λεξικών είναι ένας πρόσφατος κλάδος της μηχανικής μάθησης που στοχεύει στην εύρεση ενός πίνακα, ή αλλιώς λεξικού, που παρέχει αραιές αναπαραστάσεις για τα δεδομένα ενός υπο-μελέτη προβλήματος. Η παρούσα Διδακτορική Διατριβή αποτελείται από τρία μέρη και ασχολείται με στατιστικές ιδιότητες αλγορίθμων που επιλύουν τα τρία προαναφερθέντα θεμελιώδη προβλήματα ανάλυσης δεδομένων.Το πρώτο μέρος παρουσιάζει νέα αποτελέσματα σχετικά με μια δημοφιλή παραλλαγή του αλγορίθμου συσταδοποίησης k-μέσων, την εύρωστη παραλλαγή k-μέσων. Ενώ, σε πολλές περιπτώσεις, η κλασσική εκδοχή του αλγορίθμου k-μέσων παράγει αποδεκτές ...
περισσότερα
Περίληψη σε άλλη γλώσσα
The problem of risk minimization on the basis of empirical data is rather general and includes as particular cases three basic statistical problems: i) the problem of classification, ii) the problem of clustering, and iii) the problem of dictionary learning. Classification and clustering have a long history while dictionary learning is a recent branch of machine learning that aims at finding a matrix, or else dictionary, which provides sparse representations for the data points of a problem. This thesis consists of three parts and is specifically concerned with statistical properties of algorithms that solve these three fundamental data analysis problems.The first part presents new results regarding a popular variant of the k-means clustering procedure, robust k-means. While, in many cases, ordinary Euclidean k-means yields informative cluster structures, there exist cases where its performance dramatically deteriorates in the presence of arbitrary perturbations of input data. Robust k ...
περισσότερα
Κατεβάστε τη διατριβή σε μορφή PDF (8.86 MB)
(Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)
|
Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.
|
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.