Περίληψη
Στην παρούσα Διδακτορική Διατριβή προτείνονται μέθοδοι μή παραμετρικής Μπεϋζιανής στατιστικής για την εκτίμηση παραμέτρων στοχαστικών δυναμικών συστημάτων διακριτού χρόνου κάνοντας χρήση τυχαίων μέτρων πιθανότητας με γεωμετρικά βάρη--Geometric stick breaking process (GSB).Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στις βασικές έννοιες της μή παραμετρικής Bayesian στατιστικής και τις βασικές έννοιες των Στοχαστικών Δυναμικών Συστημάτων. Επιπλέον, γίνεται ανασκόπηση της βιβλιογραφίας που είναι σχετική με το πρόβλημα της ανακατασκευής δυναμικών εξισώσεων.Στο Κεφάλαιο 2, παρουσιάζονται αναλυτικά οι πιο δημοφιλείς a--priori κατανομές της μή παραμετρικής στατιστικής κατά Bayes. Συγκεκριμένα, παρουσιάζεται το τυχαίο μέτρο Dirichlet και οι ιδιότητες του (posterior κατανομή, posterior κατανομή πρόβλεψης). Έπειτα, γίνεται ανασκόπηση των δημοφιλέστερων τρόπων αναπαράστασης του τυχαίου μέτρου Dirichlet. Συγκεκριμένα, παρουσιάζονται οι αναπαραστάσεις stick--breaking, generalized Polya urn καθώς και η ανα ...
Στην παρούσα Διδακτορική Διατριβή προτείνονται μέθοδοι μή παραμετρικής Μπεϋζιανής στατιστικής για την εκτίμηση παραμέτρων στοχαστικών δυναμικών συστημάτων διακριτού χρόνου κάνοντας χρήση τυχαίων μέτρων πιθανότητας με γεωμετρικά βάρη--Geometric stick breaking process (GSB).Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στις βασικές έννοιες της μή παραμετρικής Bayesian στατιστικής και τις βασικές έννοιες των Στοχαστικών Δυναμικών Συστημάτων. Επιπλέον, γίνεται ανασκόπηση της βιβλιογραφίας που είναι σχετική με το πρόβλημα της ανακατασκευής δυναμικών εξισώσεων.Στο Κεφάλαιο 2, παρουσιάζονται αναλυτικά οι πιο δημοφιλείς a--priori κατανομές της μή παραμετρικής στατιστικής κατά Bayes. Συγκεκριμένα, παρουσιάζεται το τυχαίο μέτρο Dirichlet και οι ιδιότητες του (posterior κατανομή, posterior κατανομή πρόβλεψης). Έπειτα, γίνεται ανασκόπηση των δημοφιλέστερων τρόπων αναπαράστασης του τυχαίου μέτρου Dirichlet. Συγκεκριμένα, παρουσιάζονται οι αναπαραστάσεις stick--breaking, generalized Polya urn καθώς και η αναπαράστασή του ως, κανονικοποιημένου, εντελώς τυχαίου μέτρου πιθανότητας. Στη συνέχεια, παρουσιάζεται το τυχαίο μέτρο GSB και αποδεικνύονται βασικές ιδιότητες του. Λόγω της διακριτής φύσης των παραπάνω μέτρων, για την μοντελοποίηση απολύτως συνεχών κατανομών, εισάγονται οι μίξεις τυχαίων μέτρων ως μίξεις πυρήνων παραμετρικής οικογένειας κατανομών χρησιμοποιώντας ως μέτρα μίξης διακριτά τυχαία μέτρα Dirichlet ή GSB. Έπειτα, παρουσιάζονται τα εξαρτημένα τυχαία μέτρα πιθανότητας για την μοντελοποίηση δεδομένων τα οποία παραβιάζουν τη συνθήκη της ανταλλαξιμότητας. Στο κεφάλαιο αυτό, παρουσιάζονται και τα βασικά στοιχεία της μεθοδολογίας Markov Chain Monte Carlo (MCMC), απαραίτητης για posterior συμπερασματολογία με τα μοντέλα αυτά. Συγκεκριμένα παρατίθονται οι μεθοδολογίες δειγματοληψίας κατά Gibbs και η δειγματοληψία με χρήση βοηθητικών μεταβλητών (slice sampling). Με βάση αυτές τις δύο μεθόδους, παρουσιάζονται οι MCMC αλγόριθμοι για το πρόβλημα εκτίμησης πυκνότητας χρησιμοποιώντας τυχαία μέτρα Dirichlet και τυχαία μέτρα GSB. Στο Κεφάλαιο 3, αρχικά γίνεται ανασκόπηση ενός μή παραμετρικού Bayesian μοντέλου για την ανακατασκευή δυναμικών εξισώσεων που βασίζεται στο τυχαίο μέτρο Dirichlet. Έπειτα εισάγεται ένα μοντέλο ανακατασκευής δυναμικών εξισώσεων, από παρατηρηθείσες χαοτικές χρονοσειρές, που βασίζεται στο τυχαίο μέτρο GSB και αναπτύσσεται ένας MCMC αλγόριθμος για posterior συμπερασματολογία. Η προτεινόμενη μεθοδολογία Geometric stick breaking reconstruction--GSBR επιτυγχάνει σωστή εκτίμηση των παραμέτρων των δυναμικών εξισώσεων ακόμη και από μικρό αριθμό παρατηρήσεων, ακόμη και σε περιπτώσεις που η κατανομή του θορύβου αποκλίνει από την Κανονική. Η μέθοδος μοντελοποιεί την κατανομή του θορύβου ως μια απειροδιάστατη μίξη κανονικών πυρήνων, όπου εκ των προτέρων, ο αριθμός των συνιστωσών καθώς και οι διακυμάνσεις των πυρήνων είναι άγνωστα. Η συμπερασματολογία γίνεται με μεθόδους MCMC όπου εκτιμάται ο αριθμός των συνιστωσών και οι αντίστοιχες διακυμάνσεις τους; δηλαδή εκτιμάται η πυκνότητα της διαδικασίας του θορύβου από τα διαθέσιμα δεδομένα. Η μεθοδολογία συγκρίνεται με τη μεθοδολογία που βασίζεται στο τυχαίο μέτρο DIrichlet χρησιμοποιώντας χαοτικές χρονοσειρές που έχουν παραχθεί από πολυωνυμικά δυναμικά συστήματα. Τέλος, προκύπτει οτι με την προτεινόμενη μεθοδολογία, το ημι--αναλλοίωτο μέτρο του Στοχαστικού Δυναμικού Συστήματος προκύπτει ως μια a--posteriori περιθώρια κατανομή πρόβλεψης, δημιουργώντας φράγμα στον ορίζοντα πρόβλεψης. Στο Κεφάλαιο 4, παρουσιάζεται μια νέα μέθοδος για την από κοινού εκτίμηση πυκνότητας μερικώς ανταλλάξιμων παρατηρήσεων, εισάγωντας εξάρτηση μεταξύ m τυχαίων πυκνοτήτων κατά ζεύγη, που μοντελοποιούνται σαν μίξεις από τυχαία μέτρα GSB. Οι πυκνότητες θεωρείται ότι έχουν κοινά χαρακτηριστικά και ο σκοπός είναι να επιτευχθεί σωστή εκτίμηση ακόμη και για τις πυκνότητες που υπάρχει μικρός αριθμός διαθέσιμων παρατηρήσεων. Η ιδέα αυτή βασίζεται στην πλήρως στοχαστικοποιημένη γενίκευση του μοντέλου Pairwise Dependent Dirichlet Prior mixture model (PDDP). Η βασική ιδέα είναι η εξάρτηση αυτή να εισαχθεί μέσω τυχαίων μέτρων, τα βάρη των οποίων είναι αναμενώμενες τιμές των βαρών των τυχαίων μέτρων Dirichlet. Η προτεινόμενη μέθοδος, Pairwise Dependent Geometric Stick Breaking Prior mixture model (PDGSBP) συγκρίνεται με την στοχαστικοποιημένη έκδοση της PDDP μεθόδου τόσο σε προσομοιωμένα όσο και σε πραγματικά δεδομένα. Συγκεκριμένα γίνεται σύγκριση των μεθόδων σε δεδομένα που έχουν παραχθεί από μίξεις κανονικών κατανομών καθώς και από μίξεις Γάμμα κατανομών. Η εγκυρότητα των εκτιμήσεων μετράται με την Hellinger μετρική. Η μέθοδος επίσης εφαρμόζεται σε πραγματικά δεδομένα που αφορούν την εκτίμηση πυκνότητας της κατανομής των μετρήσεων του ενζύμου SGOT από τρεις ομάδες ασθενών στις οποίες ο ασθενής είτε ζεί χωρίς μεταμόσχευση, είτε έκανε μεταμόσχευση είτε απεβίωσε χωρίς μεταμόσχευση. Τα αποτελέσματα στα πειράματα αυτά δείχνουν ότι η μοντελοποίηση με PDGSBP priors είναι επαρκής για εκτίμηση πυκνότητας και πρόβλεψη. Ο προτεινόμενος αλγόριθμος MCMC για posterior συμπερασματολογία με PDGSBP priors είναι ευκολότερος στην υλοποίηση και ταχύτερος στην εκτέλεση από τον αντίστοιχο MCMC αλγόριθμο για το PDDP μοντέλο. Στο Κεφάλαιο 5, αναπτύσσεται αλγόριθμος MCMC βασισμένος στα a--priori πολυδιάστατα μέτρα PDGSBP για το πρόβλημα της από κοινού αναδόμησης των δυναμικών εξισώσεων από παρατηρηθείσες χρονοσειρές οι οποίες περιέχουν δυναμικό θόρυβο, οι οποίες παράγονται από μη--γραμμικές εξισώσεις διαφορών πρώτης τάξης. Ιδιαίτερη έμφαση δίνεται στην περίπτωση στην οποία υπάρχει μια χρονοσειρά μικρού μεγέθους όπου είναι αδύνατη η επιτυχής αναδόμηση της δυναμικής της εξίσωσης, ενώ υπάρχει τουλάχιστον μία χρονοσειρά επαρκούς μεγέθους της οποίας η αναδόμηση της δυναμικής της εξίσωσης είναι εφικτή. Η προτεινόμενη μεθοδολογία εφαρμόζεται σε προσομοιωμένες χαοτικές χρονοσειρές που παράγονται από πολυωνυμικές απεικονίσεις που περιέχουν μη--Κανονικό θόρυβο. Υπό την υπόθεση ότι οι κατανομές των διαταραχών έχουν κοινά χαρακτηριστικά, χρησιμοποιώντας πληροφοριακές εκ των προτέρων κατανομές, είναι εφικτή η αναδόμηση των δυναμικών εξισώσεων που είναι υπεύθυνες για την παραγωγή των δειγμάτων μικρού μεγέθους με ποσοστιαία σχετικά σφάλματα μικρότερα του 1%. Τέλος, στο Κεφάλαιο 6, γίνεται σύντομη επισκόπηση της διδακτορικής διατριβής, παρουσιάζονται τα συμπεράσματα και προτείνονται θέματα για μελλοντική έρευνα. Συγκεκριμένα, στο πεδίο έρευνας των στοχαστικών δυναμικών συστημάτων, προτείνεται η κατασκευή ενός μοντέλου για την ανακατασκευή ενός στοχαστικού δυναμικού συστήματος χωρίς να υπάρχει κάποια υπόθεση για τη συναρτησιακή μορφή, θέτοντας ως prior στη συναρτησιακή μορφή μια Gaussian διαδικασία επεκτείνοντας έτσι το GSBR μοντέλο σε ένα πλήρως μη παραμετρικό Bayesian μοντέλο. Επιπλέον προτείνεται να μελετηθεί η μοντελοποίηση των κατανομών των θορύβων σε ένα state--space μοντέλο με GSB priors. Στην περιοχή της μή παραμετρικής Μπεϋζιανής στατιστικής προτείνεται η γενίκευση του PDGSBP μοντέλουν να συμπεριλαμβάνει όλες τις δυνατές αλληλεπιδράσεις μεταξύ των τυχαίων πυκνοτήτων. Τέλος προτείνεται η κατασκευή ενός μη παραμετρικού prior με σκοπό την επίλυση του προβλήματος ταυτοποίησης κατανομών ώστε να επιτυγχάνεται ταυτοποίηση των κοινών χαρακτηριστικών από μία συλλογή τυχαίων πυκνοτήτων.Ακολούθως παρατίθενται η βιβλιογραφία και τρία παραρτήματα. Το Παράρτημα Α παρέχει πληροφορίες για την δειγματοληψία από τις άγνωστες κατανομές που προκύπτουν στους MCMC αλγορίθμους που παρουσιάζονται στα Κεφάλαια 3 και 5. Στο Παράρτημα Β αναλύεται η δυναμική συμπεριφορά των πολυωνυμικών απεικονίσεων που χρησιμοποιούνται στα Κεφάλαια 3 και 5. Τέλος, το Παράρτημα C παρέχει πληροφορίες για την υλοποίηση των αλγορίθμων στη γλώσσα προγραμματισμού Julia καθώς και ένα σύνδεσμο (URL) για τη μεταφόρτωση των προγραμμάτων.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this thesis we use a Bayesian nonparametric prior with simple weights, namely the Geometric Stick--Breaking (GSB) random probability measure to deal with the problem of reconstruction and prediction of stochastic discretized nonlinear dynamical systems.In the first half of the thesis we propose a Bayesian nonparametric mixture model for the reconstruction and prediction from observed time series data, of discretized stochastic dynamical systems, based on Markov Chain Monte Carlo (MCMC) methods. Our approach is nonparametric in the sense that we model the noise component with a highly flexible family of density functions. While the common assumption is the normality of the noise process, here we model the noise component as an infinite mixture of Normal kernels with the mixing weights driven by a random probability measure sampled from a GSB process. In the second half we present a new approach on the joint estimation of partially exchangeable observations by constructing pairwise d ...
In this thesis we use a Bayesian nonparametric prior with simple weights, namely the Geometric Stick--Breaking (GSB) random probability measure to deal with the problem of reconstruction and prediction of stochastic discretized nonlinear dynamical systems.In the first half of the thesis we propose a Bayesian nonparametric mixture model for the reconstruction and prediction from observed time series data, of discretized stochastic dynamical systems, based on Markov Chain Monte Carlo (MCMC) methods. Our approach is nonparametric in the sense that we model the noise component with a highly flexible family of density functions. While the common assumption is the normality of the noise process, here we model the noise component as an infinite mixture of Normal kernels with the mixing weights driven by a random probability measure sampled from a GSB process. In the second half we present a new approach on the joint estimation of partially exchangeable observations by constructing pairwise dependence between a finite collection of random density functions, each of which is modeled as a mixture of GSB processes. This approach is based on a new random central masses version of the Pairwise Dependent Dirichlet Process prior mixture model. We show that modelling with Pairwise Dependent Geometric Stick--Breaking Processes (PDGSBP) is sufficient for estimation and prediction purposes.We also propose a Bayesian nonparametric mixture model for the full reconstruction of a finite collection of dynamical equations, given observed dynamically--noisy--corrupted chaotic time series based on PDGSBP mixture priors. Under the assumption that the each set of dynamical equations has a deterministic part with known functional form and that the noise processes are independent and identically distributed from some unknown zero mean process which may have common characteristics, we jointly estimate the parameters of the dynamical systems and perform density estimation of noise components. We show that if there is at least one sufficiently large data set, using borrowing--of--strength prior specifications we are able to reconstruct those dynamical processes that are responsible for the generation of time series with small sample sizes which are inadequate for an independent reconstruction. Our contention is that modeling with GSB random probability measures is sufficient for estimation and prediction purposes. The proposed MCMC algorithms are faster and easier to implement than their Dirichlet process based counterparts. The advantages of the use of such a simple random probability measure in Bayesian nonparametric inference in terms of sufficiency and time complexity are illustrated in both synthetic and real data sets.
περισσότερα