Περίληψη
Η εκπαίδευση σε βαθιά νευρωνικά δίκτυα (ΒΝΔ) είναι μια απαραίτητη διαδικασία στη μηχανική μάθηση. Η διαδικασία εκπαίδευσης των ΒΝΔ στοχεύει στη βελτιστοποίηση των τιμών των παραμέτρων του δικτύου, που συχνά βασίζεται στην παράγωγο των λογαριθμικών πιθανοτήτων των παραμέτρων. Ως εκ τούτου, είναι πολύ πιθανό η διαδικασία βελτιστοποίησης να βρει τοπικές βέλτιστες τιμές αντί για καθολικές. Επιπλέον, οι συμβατικές προσεγγίσεις που χρησιμοποιούνται για αυτή τη διαδικασία, όπως οι μέθοδοι Μαρκοβιανής αλυσίδας Μόντε Κάρλο, όχι μόνο προσφέρουν μη βέλτιστη απόδοση χρόνου εκτέλεσης, αλλά επίσης αποτρέπουν την αποτελεσματική παραλληλοποίηση λόγω εγγενών εξαρτήσεων στη διαδικασία. Σε αυτή τη διατριβή, εξετάζουμε μια εναλλακτική προσέγγιση στις μεθόδους Μαρκοβιανής αλυσίδας Μόντε Κάρλο (Markov Chain Monte Carlo, MCMC), τον δειγματολήπτη ακολουθιακών Μόντε Κάρλο (Sequential Monte Carlo, SMC), ο οποίος γενικεύει τα φίλτρα σωματιδίων (particle filters). Πιο συγκεκριμένα, η διατριβή εστιάζει στη βελτίω ...
Η εκπαίδευση σε βαθιά νευρωνικά δίκτυα (ΒΝΔ) είναι μια απαραίτητη διαδικασία στη μηχανική μάθηση. Η διαδικασία εκπαίδευσης των ΒΝΔ στοχεύει στη βελτιστοποίηση των τιμών των παραμέτρων του δικτύου, που συχνά βασίζεται στην παράγωγο των λογαριθμικών πιθανοτήτων των παραμέτρων. Ως εκ τούτου, είναι πολύ πιθανό η διαδικασία βελτιστοποίησης να βρει τοπικές βέλτιστες τιμές αντί για καθολικές. Επιπλέον, οι συμβατικές προσεγγίσεις που χρησιμοποιούνται για αυτή τη διαδικασία, όπως οι μέθοδοι Μαρκοβιανής αλυσίδας Μόντε Κάρλο, όχι μόνο προσφέρουν μη βέλτιστη απόδοση χρόνου εκτέλεσης, αλλά επίσης αποτρέπουν την αποτελεσματική παραλληλοποίηση λόγω εγγενών εξαρτήσεων στη διαδικασία. Σε αυτή τη διατριβή, εξετάζουμε μια εναλλακτική προσέγγιση στις μεθόδους Μαρκοβιανής αλυσίδας Μόντε Κάρλο (Markov Chain Monte Carlo, MCMC), τον δειγματολήπτη ακολουθιακών Μόντε Κάρλο (Sequential Monte Carlo, SMC), ο οποίος γενικεύει τα φίλτρα σωματιδίων (particle filters). Πιο συγκεκριμένα, η διατριβή εστιάζει στη βελτίωση της απόδοσης και της ακρίβειας των μεθόδων SMC, ιδιαίτερα στο πλαίσιο της πλήρους Μπεϋζιανής μάθησης. Σε αυτό το πλαίσιο, η διατριβή προτείνει μια νέα μέθοδο εκπαίδευσης νευρωνικών δικτύων χρησιμοποιώντας τις μεθόδους σημαντικής δειγματοληψίας (μέθοδος importance sampling) και επαναδειγματοληψίας. Η αρχική σύγκριση των δύο μεθόδων αποκαλύπτει ότι η προτεινόμενη μεθοδολογία είναι χειρότερη τόσο στην ακρίβεια όσο και στην απόδοση. Αυτό οδήγησε την έρευνα να επικεντρωθεί στην βελτίωση της απόδοσης και ακρίβειας της προτεινόμενης μεθοδολογίας. Η ανάλυση απόδοσης ξεκίνησε με την εφαρμογή μιας νέας προτεινόμενης, παράλληλης και πλήρως κατανεμημένης μεθοδολογίας επαναδειγματοληψίας, με βελτιωμένη χρονική πολυπλοκότητα από την αρχική προσέγγιση χρησιμοποιώντας δύο πλαίσια MapReduce, το Hadoop και το Spark. Τα αποτελέσματα δείχνουν ότι το Spark είναι έως και 25 φορές ταχύτερο από το Hadoop, ενώ στο Spark η νέα προτεινόμενη μεθοδολογία είναι έως και 10 φορές ταχύτερη από την αρχική μέθοδο. Ωστόσο, παρατηρείται ότι η εφαρμογή του ίδιου αλγορίθμου στο Message Passing Interface (MPI) παρέχει σημαντικά καλύτερους χρόνους εκτέλεσης και είναι πιο κατάλληλος για τον προτεινόμενο αλγόριθμο. Η ανάλυση ακρίβειας ξεκίνησε με πειράματα που δείχνουν ότι ο βασικός δειγματολήπτης SMC παρέχει χειρότερη ακρίβεια από τους εναλλακτικούς ή ανταγωνιστικούς αλγόριθμους MCMC. Τρεις διαφορετικές στρατηγικές εφαρμόζονται στον βασικό δειγματολήπτη SMC παρέχοντας καλύτερη ακρίβεια. Η ανάλυση επεκτείνεται για να συμπεριλάβει ανταγωνιστικούς αλγόριθμους. Η εξαντλητική αξιολόγηση δείχνει ότι η προτεινόμενη προσέγγιση προσφέρει ανώτερη απόδοση και ακρίβεια.
περισσότερα
Περίληψη σε άλλη γλώσσα
Training of deep neural networks (DNN) is an indispensable process in machine learning. The training process of DNNs aims to optimise the parameter values of the network, often relies on the derivative of the log-likelihoods of the underlying parameter space. As such, it is highly probable that the optimisation process to find local optimum values instead of the global ones. In addition to this, conventional approaches used for this process, such as Markov chain Monte Carlo methods, not only offer suboptimal runtime performance, but also prevent effective parallelisation due to inherent dependencies in the process. In this thesis, we consider an alternative approach to Markov chain Monte Carlo (MCMC) methods, namely the Sequential Monte Carlo (SMC) sampler, which generalises particle filters. More specifically, the thesis focuses on improving the performance and accuracy of the SMC methods, particularly in the context of fully Bayesian learning. The Radial Basis Function (RBF) network ...
Training of deep neural networks (DNN) is an indispensable process in machine learning. The training process of DNNs aims to optimise the parameter values of the network, often relies on the derivative of the log-likelihoods of the underlying parameter space. As such, it is highly probable that the optimisation process to find local optimum values instead of the global ones. In addition to this, conventional approaches used for this process, such as Markov chain Monte Carlo methods, not only offer suboptimal runtime performance, but also prevent effective parallelisation due to inherent dependencies in the process. In this thesis, we consider an alternative approach to Markov chain Monte Carlo (MCMC) methods, namely the Sequential Monte Carlo (SMC) sampler, which generalises particle filters. More specifically, the thesis focuses on improving the performance and accuracy of the SMC methods, particularly in the context of fully Bayesian learning. The Radial Basis Function (RBF) network is an example of such training process based on fully Bayesian learning. In this setting, the thesis proposes a new method totrain neural networks using the importance sampling and resampling. The initial comparison of the two methods reveal that the proposed methodology is worse in both terms of accuracy and performance. This lead the research to concentrate of the performance and accuracy improvements of the proposed approach. The performance analysis began with application of a new proposed, parallel and fully distributed resampling methodology, with improved time complexity than the original approach using two MapReduce frameworks, Hadoop and Spark. Results indicate that Spark is up to 25 times faster than Hadoop, while on Spark the new proposed methodology is up to 10 times faster than the original method. However, it is noticed that application of the same algorithm on Message Passing Interface (MPI) provide significantly better runtimes and is more suitable for the proposed algorithm. The accuracy analysis began with experiments illustrating that the basic Sequential Monte Carlo sampler provides worse accuracy than alternative or competitor MCMC algorithms. Three different strategies are applied on the basic Sequential Monte Carlo sampler providing better accuracy. The analysis is extended to include competitor algorithms. The exhaustive evaluation shows that the proposed approach offers superior performance and accuracy.
περισσότερα