Περίληψη
Τα αναβολικά ανδρογόνα στεροειδή (AAΣ) συχνά εντοπίζονται ως ουσίες ντόπινγκ στα αθλήματα με ανταγωνιστικό χαρακτήρα. Προκειμένου να ανιχθευθεί η χρήση των ΑΑΣ ως ντόπινγκ με ψευδο-ενδογενή στεροειδή, δηλαδή στεροειδή που παράγονται στο ανθρώπινο σώμα όπως η Τεστοστερόνη (Τ), μετρώνται ανά τακτά χρονικά διαστήματα οι συγκεντρώσεις στα ούρα που αποτελούν το στεροειδές προφίλ και κατ’επέκταση το βιολογικό διαβατήριο του αθλητή (ΒΔΑ). Η παρακολούθηση των ουρικών επιπέδων των αναβολικών στεροειδών αποτελεί πρόβλημα μεγάλης δυσκολίας, αφού η διάκριση μεταξύ της φυσικής παραγωγής και της εξωγενούς χορήγησής τους είναι εξαιρετικά δύσκολο να επιβεβαιωθεί. Οι υπάρχουσες μέθοδοι για την παρακολούθηση των ΑΑΣ βασίζονται σε ένα μονομεταβλητό Μπεϋζιανό μοντέλο που εφαρμόζεται σε κάθε βιοδείκτη ξεχωριστά. Το πρώτο μέρος αυτής της έρευνας επικεντρώνεται στην επέκταση του ισχύοντος μονομεταβλητού Μπεϋζιανού μοντέλου σε ένα πολυμεταβλητό προσαρμοστικό μοντέλο, το οποίο είναι ικανό να υποστηρίξει επαναλ ...
Τα αναβολικά ανδρογόνα στεροειδή (AAΣ) συχνά εντοπίζονται ως ουσίες ντόπινγκ στα αθλήματα με ανταγωνιστικό χαρακτήρα. Προκειμένου να ανιχθευθεί η χρήση των ΑΑΣ ως ντόπινγκ με ψευδο-ενδογενή στεροειδή, δηλαδή στεροειδή που παράγονται στο ανθρώπινο σώμα όπως η Τεστοστερόνη (Τ), μετρώνται ανά τακτά χρονικά διαστήματα οι συγκεντρώσεις στα ούρα που αποτελούν το στεροειδές προφίλ και κατ’επέκταση το βιολογικό διαβατήριο του αθλητή (ΒΔΑ). Η παρακολούθηση των ουρικών επιπέδων των αναβολικών στεροειδών αποτελεί πρόβλημα μεγάλης δυσκολίας, αφού η διάκριση μεταξύ της φυσικής παραγωγής και της εξωγενούς χορήγησής τους είναι εξαιρετικά δύσκολο να επιβεβαιωθεί. Οι υπάρχουσες μέθοδοι για την παρακολούθηση των ΑΑΣ βασίζονται σε ένα μονομεταβλητό Μπεϋζιανό μοντέλο που εφαρμόζεται σε κάθε βιοδείκτη ξεχωριστά. Το πρώτο μέρος αυτής της έρευνας επικεντρώνεται στην επέκταση του ισχύοντος μονομεταβλητού Μπεϋζιανού μοντέλου σε ένα πολυμεταβλητό προσαρμοστικό μοντέλο, το οποίο είναι ικανό να υποστηρίξει επαναλαμβανόμενες μετρήσεις από διάφορους ευαίσθητους βιοδείκτες καθώς και τις αναλογίες των συγκεντρώσεών τους. Η μεθοδολογία που αναπτύχθηκε εφαρμόστηκε σε δεδομένα από δείγματα ούρων που λήφθηκαν από επαγγελματίες αθλητές. Μεταξύ αυτών των δειγμάτων, εντοπίστηκαν φυσιολογικές, άτυπες και μη φυσιολογικές τιμές. Μια τεχνική ανίχνευσης ανωμαλιών βασισμένη σε έναν αλγόριθμο ταξινόμησης μιας τάξης (one-class classification, OCC) εφαρμόστηκε για να ανιχνεύσει τις μη φυσιολογικές τιμές στα προφίλ στεροειδών των αθλητών, είτε λόγω κατάχρησης ΑΑΣ, ανταλλαγής δειγμάτων ή άλλων συγχυτικών παραγόντων. Σε ένα Μπεϋζιανό πλαίσιο, η βασική ιδέα είναι να κατασκευαστούν προσαρμοστικά όρια απόφασης γύρω από τις φυσιολογικές τιμές συγκέντρωσης καθώς συλλέγονται νέα δεδομένα, και να διαφοροποιηθούν από τις μη φυσιολογικές (γνωστές επίσης και ως ακραίες τιμές ή ανωμαλίες). Βελτιωμένη απόδοση πρόβλεψης επιτεύχθηκε όταν εφαρμόστηκε το προτεινόμενο μοντέλο και συγκρίθηκε με τις τυπικές μεθόδους χρησιμοποιώντας το ίδιο σύνολο δεδομένων. Οι υψηλότερες τιμές των μετρήσεων αξιολόγησης υποδηλώνουν ότι η προτεινόμενη προσέγγιση μπορεί να χρησιμοποιηθεί για τη βελτίωση της ακρίβειας των τυπικών τεχνικών για την ανίχνευση ντόπινγκ. Το προτεινόμενο μοντέλο εφαρμόστηκε μέσω μιας εφαρμογής Rshiny για τον έλεγχο ντόπινγκ. Η εφαρμογή BioScan είναι μια διαδικτυακή εφαρμογή, η οποία αποτελεί ένα φιλικό προς τον χρήστη λογισμικό για τα εργαστήρια κατά του ντόπινγκ που χρησιμοποιείται για την αξιολόγηση των αθλητών σε πραγματικές συνθήκες. Τα ΑΑΣ έχουν επίσης τη δυνατότητα να ανιχνεύσουν μεταβολικές ανισορροπίες και παθολογικές καταστάσεις όπως η καλοήθης υπερπλασία του προστάτη και τον καρκίνο του προστάτη. Το δεύτερο μέρος της έρευνας αυτής εστιάζει στην ανάπτυξη νέας μεθοδολογίας στη στατιστική μοντελοποίηση για τη βελτίωση της διάγνωσης του καρκίνου του προστάτη με την ανάλυση διαφόρων ουρικών στεροειδών. Η προτεινόμενη προσέγγιση αποτελεί μια μη επεμβατική, χαμηλού κόστους και βελτιωμένη μέθοδο διάγνωσης σε σύγκριση με τo ευρέως χρησιμοποιούμενo τεστ PSA. Αυτή η διατριβή χρησιμοποιεί Dirichlet process (DP) μοντέλα για μία μίξη από Gaussian κατανομές σε ένα πλαίσιο Μπεϋζιανό ως ένα βελτιωμένο εργαλείο ταξινόμησης. Πρόκειται για ένα μη παραμετρικό μοντέλο το οποίο μπορεί να εφαρμοστεί τόσο σε μονομεταβλητά όσο και σε πολυμεταβλητά σύνολα δεδομένων, παρέχοντας την ευελιξία για άγνωστο και πιθανώς άπειρου αριθμού συνιστωσών. Τα μοντέλα που εισήγαγαν οι Görür και Rasmussen (2010) έχουν επεκταθεί σε μοντέλα που περιλαμβάνουν συμμεταβλητές, τα οποία λαμβάνουν υπόψη τυχόν μοτίβα μέσα σε αυτές. Σε αυτή τη διατριβή επισημαίνονται τα κύρια χαρακτηριστικά των DP mixture μοντέλων με και χωρίς συμμεταβλητές. Ιδιαίτερη έμφαση δίνεται στη δομή του μοντέλου όταν περιλαμβάνονται συμμεταβλητές στο μοντέλο χρησιμοποιώντας μια τεχνική για τη μείωση του αριθμού των παραμέτρων του μοντέλου. Αυτή η τεχνική αποτελεί επίσης μια κομψή προσέγγιση για την αντιμετώπιση μεγάλης διάστασης προβλεπτικών μεταβλητών, συμβάλλοντας σημαντικά στη μείωση των διαστάσεων. Ο πρωτεύον στόχος είναι η σύγκριση της προβλεπτικής απόδοσης του μοντέλου έναντι της πολυπλοκότητάς του καθώς και της υπολογιστικής του δύναμης. Δεδομένης της μαθηματικής και πρακτικής ευκολίας, τα DP μοντέλα ορίζονται με τον καθορισμό υπό συνθήκη συζυγών a-priori κατανομών για τις βασικές τους κατανομές. Οι μέθοδοι Markov chain Monte Carlo (MCMC), που βασίζονται στη δειγματοληψία Gibbs και τη δειγματοληψία προσαρμοστικής απόρριψης (Adaptive Rejection Sampling, ARS), είναι οι απαιτούμενες μέθοδοι για τη δημιουργία δειγμάτων κάθε μεταβλητής από την υπό συνθήκη κατανομή της, δεδομένων των υπολοίπων μεταβλητών στο σύστημα. Η απόδοση της τεχνικής ομαδοποίησης και ταξινόμησης των μοντέλων εξετάζεται σε προσομοιωμένα και πραγματικά δεδομένα. Εστιάζουμε λοιπόν στις εφαρμογές που πραγματοποιούνται σε πραγματικά κλινικά δεδομένα σχετικά με τον καρκίνο του προστάτη χρησιμοποιώντας αυτή τη μεθοδολογία με στόχο την ταξινόμηση των καταστάσεων του καρκίνου του προστάτη. Η εφαρμογή του μοντέλου Dirichlet process Gaussian mixture model (DP-GMM), αναλύοντας τους βιοδείκτες και έχοντας την ηλικία ως συμμεταβλητή, αυξάνει την ακρίβεια πρόβλεψης σε σύγκριση με το αντίστοιχο μοντέλο χωρίς συμμεταβλητές. Τέλος, το προτεινόμενο μοντέλο ταξινόμησης αποδείχθηκε ανώτερο σε σύγκριση με τις τυπικές μεθόδους μηχανών υποστήριξης διανυσμάτων (support vector machines, SVM) καθώς και της γραμμικής διακριτικής ανάλυσης (linear discriminant analysis , LDA) σε τρεις από τις τέσσερις εφαρμογές σε διαφορετικά σύνολα δεδομένων, συμπεριλαμβανομένων των δεδομένων για τον καρκίνο του προστάτη.
περισσότερα
Περίληψη σε άλλη γλώσσα
Anabolic androgenic steroids (AAS) are frequently detected doping substances in competitive sports. In order to detect AAS doping with pseudo-endogenous steroids, i.e. steroids that are produced in the human body, such as testosterone (T), urinary concentrations of the athlete’s steroid profile are measured over time in the steroidal module of the Athlete Biological Passport (ABP). Monitoring the urinary levels of anabolic steroids can be highly challenging since the distinction between their natural production and exogenous administration is difficult to ascertain. Current methods for monitoring AAS are based on a univariate Bayesian model applied on a single biomarker at a time. The first part of this research work focuses on extending the current univariate Bayesian model to a multivariate adaptive model, able to accommodate repeated measurements from various sensitive biomarkers and their concentration ratios. The developed methodology was applied on data from urine samples obtaine ...
Anabolic androgenic steroids (AAS) are frequently detected doping substances in competitive sports. In order to detect AAS doping with pseudo-endogenous steroids, i.e. steroids that are produced in the human body, such as testosterone (T), urinary concentrations of the athlete’s steroid profile are measured over time in the steroidal module of the Athlete Biological Passport (ABP). Monitoring the urinary levels of anabolic steroids can be highly challenging since the distinction between their natural production and exogenous administration is difficult to ascertain. Current methods for monitoring AAS are based on a univariate Bayesian model applied on a single biomarker at a time. The first part of this research work focuses on extending the current univariate Bayesian model to a multivariate adaptive model, able to accommodate repeated measurements from various sensitive biomarkers and their concentration ratios. The developed methodology was applied on data from urine samples obtained from professional athletes. Among these samples, normal, atypical, and abnormal values were identified. An anomaly detection technique based on a one-class classification (OCC) algorithm was carried out to detect the abnormal values within the athletes’ steroid profiles, either due to AAS misuse, samples’ exchange or other confounding factors. In a Bayesian context, the main idea is to construct adaptive decision boundaries around normal concentration values as new data come, and differentiate them from the abnormal ones (also called outliers or anomalies). Improved prediction performance was obtained when using the same data applied on the proposed model and compared to standard methodologies. Higher values of evaluation metrics suggest that the proposed approach can be used to improve the accuracy of standard techniques for doping detection. The proposed model was implemented in an Rshiny app for doping testing purposes. The BioScan App is a web application which constitutes a user-friendly software for anti-doping laboratories to use for athletes’ evaluation in real-life casework. AAS also have the potential to identify metabolic imbalance and pathological conditions such as benign prostatic hyperplasia and prostatic carcinoma. The second research part focuses on developing novel methodology in statistical modelling to improve prostate cancer diagnosis by analysing a variety of urinary steroids. The proposed approach constitutes a non-invasive, low cost and an improved screening method compared to the widely used PSA test. The thesis uses the Dirichlet process (DP) models for a mixture of Gaussian distributions in a Bayesian framework as an improved classification tool. This parameter-free model can be applied to both univariate and multivariate data sets providing the flexibility of unknown and possible infinite number of components. The models introduced by Görür and Rasmussen (2010) have been extended to models with covariates, which account for possible patterns within them. The main features of the DP mixture models with and without covariate information are highlighted in this dissertation. Emphasis is given to the model structure when covariates are included in the model using a technique to reduce the number of model parameters. This technique also constitutes an elegant way to deal with high-dimensional predictors, providing a significant contribution in dimensionality reduction. The main goal is to compare their predictive performance versus model complexity and computational effort. Given the mathematical and practical convenience, the DP models are defined by specifying conditionally conjugate priors for their base distributions. Markov chain Monte Carlo (MCMC) methods, based on the Gibbs sampling and Adaptive Rejection Sampling (ARS), are the required methods for each variable to generate samples from its conditional distribution given the rest variables in the system. Clustering and classification performance of the models are examined on simulated and real data. We focus on the applications carried out on real clinical data regarding prostate cancer using this methodology as an aim to classify prostate cancer conditions. The implementation of DP-GMM using biomarkers only with age as a covariate increases the prediction accuracy as compared to the corresponding covariate-free model. Finally, the proposed classification model proved to be superior compared to the standard methods of support vector machines (SVM) and linear discriminant analysis (LDA) on three out of four applications on different data sets, including prostate cancer data.
περισσότερα