Περίληψη
Το θέμα της διατριβής είναι οι μέθοδοι εκτίμησης παραμέτρων σε πολυμεταβλητές οικογένειες κατανομών με εφαρμογές στη γεωργία ακριβείας και τη βιοστατιστική. Το κείμενο χωρίζεται σε τρία μέρη προκειμένου να παρέχει μια απρόσκοπτη εμπειρία ανάγνωσης. Το Μέρος Ι εστιάζει στις μεθοδολογικές εξελίξεις που σημειώθηκαν σε δύο πολυμεταβλητές οικογένειες κατανομών, την Dirichlet και την πολυμεταβλητή γάμμα. Το Μέρος II παρουσιάζει εφαρμογές των μεθόδων που αναπτύχθηκαν στο Μέρος Ι σε τρεις ξεχωριστές μελέτες περίπτωσης, δύο στη γεωργία ακριβείας με τηλεπισκοπικά δεδομένα και μία στη βιοστατιστική. Τέλος, το Μέρος III είναι αφιερωμένο στην ανάπτυξη λογισμικού, περιγράφοντας λεπτομερώς τη δημιουργία δύο πακέτων στη γλώσσα προγραμματισμού R, σχεδιασμένα να καταστήσουν τις προτεινόμενες μεθοδολογίες άμεσα διαθέσιμες στην ευρύτερη ερευνητική κοινότητα. Το Κεφάλαιο 1 καλύπτει το θεμελιώδες πλαίσιο της παραμετρικής στατιστικής που ασχολείται με ανεξάρτητες και ισόνομες παρατηρήσεις οι οποίες προέρχοντ ...
Το θέμα της διατριβής είναι οι μέθοδοι εκτίμησης παραμέτρων σε πολυμεταβλητές οικογένειες κατανομών με εφαρμογές στη γεωργία ακριβείας και τη βιοστατιστική. Το κείμενο χωρίζεται σε τρία μέρη προκειμένου να παρέχει μια απρόσκοπτη εμπειρία ανάγνωσης. Το Μέρος Ι εστιάζει στις μεθοδολογικές εξελίξεις που σημειώθηκαν σε δύο πολυμεταβλητές οικογένειες κατανομών, την Dirichlet και την πολυμεταβλητή γάμμα. Το Μέρος II παρουσιάζει εφαρμογές των μεθόδων που αναπτύχθηκαν στο Μέρος Ι σε τρεις ξεχωριστές μελέτες περίπτωσης, δύο στη γεωργία ακριβείας με τηλεπισκοπικά δεδομένα και μία στη βιοστατιστική. Τέλος, το Μέρος III είναι αφιερωμένο στην ανάπτυξη λογισμικού, περιγράφοντας λεπτομερώς τη δημιουργία δύο πακέτων στη γλώσσα προγραμματισμού R, σχεδιασμένα να καταστήσουν τις προτεινόμενες μεθοδολογίες άμεσα διαθέσιμες στην ευρύτερη ερευνητική κοινότητα. Το Κεφάλαιο 1 καλύπτει το θεμελιώδες πλαίσιο της παραμετρικής στατιστικής που ασχολείται με ανεξάρτητες και ισόνομες παρατηρήσεις οι οποίες προέρχονται από μια οικογένεια κατανομής με άγνωστες, υπό εκτίμηση παραμέτρους. Το Κεφάλαιο 2 καλύπτει τις μεθόδους εκτίμησης παραμέτρων για την οικογένεια κατανομής Dirichlet. Παρουσιάζονται οι νέες σκορ-προσαρμοσμένες (score adjusted) εκτιμήτριες ροπών και η ασυμπτωτική τους διακύμανση συγκρίνεται τόσο αναλυτικά όσο και αριθμητικά με αυτήν της ΕΜΠ και της ΕΡ. Δύο εκδόσεις των κλασικών ΕΡ περιγράφονται και συγκρίνονται μεταξύ τους αναλυτικά. Το κεφάλαιο 3 καλύπτει τις μεθόδους εκτίμησης παραμέτρων για την πολυμεταβλητή γάμμα. Ομοίως, οι νέες σκορ-προσαρμοσμένες εκτιμήτριες ροπών παρουσιάζονται και συγκρίνονται με την ΕΜΠ και την ΕΡ, μαζί με ορισμένα αποτελέσματα διόρθωσης μεροληψίας. Ακόμη, διερευνόνται ορισμένα προκαταρκτικά αποτελέσματα για την οικογένεια κατανομών της πινακικής γάμμα (matrix gamma). Το Μέρος Ι ολοκληρώνεται με το Κεφάλαιο 4, στο οποίο επανεξετάζεται το μοντέλο μικτών επιδράσεων αθροιστικής σύνδεσης (cumulative link mixed-effects model), ένας ιδιαίτερος τύπος διατακτικού γενικευμένου γραμμικού μοντέλου μικτών επιδράσεων (ordinal generalized mixed-effects linear model), και προσαρμόζεται για χρήση στα εξειδικευμένα προβλήματα του Μέρους II. Το Κεφάλαιο 5 εισάγει την πρώτη και πιο εκτεταμένη εφαρμογή της διατριβής, η οποία αφορά την εκτίμηση και πρόβλεψη της προόδου των καλλιεργειών, δηλαδή η κατανομή των φυτών μίας μεγάλης περιοχής στα διάφορα στάδια ανάπτυξης, χρησιμοποιώντας δορυφορικά δεδομένα. Σε αυτό το πλαίσιο, παρουσιάζονται δύο εφαρμογές της μεθοδολογίας που αναπτύχθηκε στο Μέρος Ι: μια σταθερή εκτίμηση της προόδου των καλλιεργειών με τις νέες εκτιμήτριες για την Dirichlet, και μια μοντελοποίηση της πλήρους καλλιεργητικής περιόδου με το μοντέλο μικτών επιδράσεων αθροιστικής σύνδεσης. Το Κεφάλαιο 6 επισημαίνει μια εφαρμογή των νέων εκτιμητριών για την πολυμεταβλητή γάμμα σε μια παρόμοια εφαρμογή μικρής κλίμακας, η οποία παρακολουθεί την ανάπτυξη φυτών Arabidopsis Thaliana χρησιμοποιώντας εικόνες κάμερας. Το Μέρος II ολοκληρώνεται με το Κεφάλαιο 7, που αφορά μια μονοετή μελέτη κοόρτης (cohort study) που διεξήχθη στην Ελλάδα, η οποία παρακολουθεί την ποιότητα ζωής ασθενών που έχουν υποστεί εγκεφαλικό επεισόδιο σε τρία χρονικά σημεία: αρχικά (μία εβδομάδα μετά το εγκεφαλικό επεισόδιο), στην μεταοξεία φάση (έξι μήνες μετά το εγκεφαλικό επεισόδιο) και στη χρόνια φάση (ένα έτος μετά το εγκεφαλικό επεισόδιο). Η μελέτη παρακολουθεί μια σειρά από σημαντικές υποκείμενες παθήσεις όπως ο διαβήτης και η υπέρταση, μαζί με διάφορα δημογραφικά χαρακτηριστικά όπως η οικογενειακή κατάσταση και το επίπεδο εκπαίδευσης. Στόχος της μελέτης είναι να παρουσιάσει μια σαφή και συνοπτική μεθοδολογική προσέγγιση χρησιμοποιώντας διωνυμικά και διατακτικά λογιστικά γραμμικά μοντέλα μικτών επιδράσεων, προκειμένου να ποσοτικοποιηθεί η επίδραση της θεραπείας, των υποκείμενων παθήσεων, και των δημογραφικών χαρακτηριστικών. Η παρούσα έρευνα αποτελεί συνεργασία με το Τμήμα Νοσηλευτικής του Πανεπιστημίου Δυτικής Αττικής. Το κεφάλαιο 8 εστιάζει στο πακέτο joker, το οποίο παρέχει ένα ολοκληρωμένο πλαίσιο για πιθανότητες και μαθηματική στατιστική. Επεκτείνει το εύρος των διαθέσιμων οικογενειών κατανομής και διευκολύνει τον υπολογισμό βασικών παραμετρικών ποσοτήτων, όπως ροπές και μέτρα πληροφορίας. Η κεντρική συυνεισφορά του πακέτου είναι η εκτίμηση παραμέτρων υπό ένα διαισθητικό και αποτελεσματικό πλαίσιο. Όλα τα εργαλεία του πακέτου είναι διαθέσιμα τόσο με την κλασική σύνταξη του πακέτου stats για χρήστες εισαγωγικού επιπέδου, όσο και σε ένα αντικειμενοστρεφές σύστημα προγραμματισμού S4 για έμπειρους χρήστες. Το joker περιλαμβάνει νέες οικογένειες κατανομών που δεν περιλαμβάνονται στο πακέτο stats, όπως η Dirichlet και η πολυμεταβλητή γάμμα. Η εκτίμηση παραμέτρων πραγματοποιείται αναλυτικά, εάν είναι δυνατόν, ενώ η αριθμητική βελτιστοποίηση της ΕΜΠ (όποτε απαιτείται, π.χ. στις οικογένειες βήτα και γάμμα) πραγματοποιείται με υψηλή υπολογιστική αποδοτικότητα, αξιοποιώντας το σύστημα εξισώσεων σκορ για τη μείωση της διάστασης του προβλήματος βελτιστοποίησης. Τέλος, εστιάζοντας στην αναπαραγωγή της έρευνας, το Κεφάλαιο 9 εισάγει το Ages of Man, ένα οικοσύστημα πακέτων της R το οποίο αυτοματοποιεί τις διαδικασίες λήψης και επεξεργασίας δεδομένων καλλιεργειών και δορυφόρων. Τα πακέτα αυτά μπορούν να χρησιμοποιηθούν για την εφαρμογή του μοντέλου μικτών επιδράσεων αθροιστικής σύνδεσης σε όλες τις διαθέσιμες καλλιέργειες και όλες τις πολιτείες των ΗΠΑ.
περισσότερα
Περίληψη σε άλλη γλώσσα
The topic of this dissertation is parameter estimation methods in multivariate distribution families with applications in remote sensing agriculture and biostatistics. In order to provide a seamless reading experience, the text is divided into three parts. Part I focuses on the methodological advances made in the Dirichlet and multivariate gamma distribution families. Part II demonstrates the developed methodologies in three distinct case studies, two agricultural and one biostatistical. Finally, Part III is dedicated to software implementation, detailing the development of two R packages designed to make the proposed methodologies readily available to the broader research community. Chapter 1 covers the foundational framework in parametric statistics that deals with independent and identically distributed (iid) observations, presumed to be drawn from a distribution family with some unknown parameters requiring estimation. Chapter 2 covers the parameter estimation methods for the Diric ...
The topic of this dissertation is parameter estimation methods in multivariate distribution families with applications in remote sensing agriculture and biostatistics. In order to provide a seamless reading experience, the text is divided into three parts. Part I focuses on the methodological advances made in the Dirichlet and multivariate gamma distribution families. Part II demonstrates the developed methodologies in three distinct case studies, two agricultural and one biostatistical. Finally, Part III is dedicated to software implementation, detailing the development of two R packages designed to make the proposed methodologies readily available to the broader research community. Chapter 1 covers the foundational framework in parametric statistics that deals with independent and identically distributed (iid) observations, presumed to be drawn from a distribution family with some unknown parameters requiring estimation. Chapter 2 covers the parameter estimation methods for the Dirichlet distribution family. The new score-adjusted moment estimators are presented, and their asymptotic variance is compared both analytically and numerically to that of the MLE and the ME. Two versions of the classic moment estimators are described and compared against each other. Chapter 3 covers the parameter estimation methods for the multivariate gamma distribution family. The new score-adjusted moment estimators are presented, and their asymptotic variance is compared numerically against that of the MLE and the ME. Some bias correction results are also included. Finally, some preliminary results for the matrix gamma distribution family are presented as well. Part I is concluded with Chapter 4, in which the cumulative link mixed-effects model (CLMM), a particular type of ordinal generalized mixed-effects linear model is revisited and adapted for use in the specialized application settings of Part II.Chapter 5 introduces the first and most extended application of the dissertation, which concerns the estimation and prediction of crop progress, i.e. the percentage of crops that have reached a certain phenological stage over a large area, using satellite data. In this context, two applications of the methodology developed in Part I are demonstrated: a constant in-time estimation of crop progress with the Dirichlet SAME, and a full growing season modeling with the CLMM. Chapter 6 highlights an application of the multivariate gamma SAME in a similar small-scale application, which monitors the growth of Arabidopsis Thaliana plants using camera imagery. Part II is concluded with Chapter 7, which concerns a one-year cohort study conducted in Greece, tracking the quality of life (QoL) of patients who have experienced a stroke at three time points: initially (one week after the stroke), in the post-acute phase (six months after the stroke), and in the chronic phase (one year after the stroke). A number of important underlying health conditions like diabetes and hypertension are tracked by the study, along with several demographic characteristics such as marital status and education level. The study's aim is to present a clear and concise methodological approach by employing binomial and ordinal logistic mixed-effects linear models in order to quantify the impact of both the treatment and these factors. This research is a collaboration with the Nursing Department of the University of West Attica. Chapter 8 focuses on the joker package, which provides a comprehensive set of features for probabilities and mathematical statistics. It extends the range of available distribution families and facilitates the computation of key parametric quantities, such as moments and information theoretic measures. The main focus of the package is parameter estimation through maximum likelihood and moment-based methods under an intuitive and efficient framework. All package features are available both in a stats-like syntax for entry-level users, and in an S4 object-oriented programming system for more experienced ones. New distribution families, such as Dirichlet and multivariate gamma, not included in the stats package are made available. Parameter estimation is performed analytically if possible, while numerical optimization of the MLE (whenever required, e.g. the beta and gamma distribution families) is performed with computational efficiency, taking advantage of the score equation system to reduce the dimensionality of the optimization problem. Finally, focusing on research reproducibility, Chapter 9 introduces the Ages of Man R package ecosystem, which streamlines the crop and satellite data download and editing processes. This project can be used to apply the CLMM methodology to all available crops for all US states.
περισσότερα