Περίληψη
Κατά την διάρκεια των τελευταίων χρόνων η πρόοδος της τεχνολογίας έχει προσφέρει μια πληθώρα ψηφιακών μηχανών και αισθητήρων, που σε συνδυασμό με τις πρόσφατες εξελίξεις στην βιοτεχνολογία και πιο συγκεκριμένα τις μεθόδους αλληλούχισης υψηλής απόδοσης έχουν συντελέσει σε μια πρωτοφανή έκρηξη των δεδομένων σε κάθε πτυχή της επιστήμης της βιολογίας. Γίνεται αντιληπτό ότι οι περιοχές της ανακάλυψης γνώσης και της μηχανικής μάθησης είναι σήμερα, περισσότερο από ποτέ, αναγκαίες και σημαντικές για την ευφυή ανάλυση των διαθέσιμων βιολογικών δεδομένων, την εξαγωγή πολύτιμης γνώσης από αυτά και τελικά την απάντηση θεμελιωδών ερωτημάτων από την επιστήμη της βιολογίας και της ιατρικής. Το αντικείμενο της παρούσας διδακτορικής διατριβής είναι η ανακάλυψη γνώσης από βιολογικά δεδομένα. Η διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της ανακάλυψης γνώσης από βάσεις δεδομένων, της μηχανικής μάθησης και της βιοπληροφορικής, ο οποίος είναι ένας γενικός όρος που χρησιμοποιείται για να πε ...
Κατά την διάρκεια των τελευταίων χρόνων η πρόοδος της τεχνολογίας έχει προσφέρει μια πληθώρα ψηφιακών μηχανών και αισθητήρων, που σε συνδυασμό με τις πρόσφατες εξελίξεις στην βιοτεχνολογία και πιο συγκεκριμένα τις μεθόδους αλληλούχισης υψηλής απόδοσης έχουν συντελέσει σε μια πρωτοφανή έκρηξη των δεδομένων σε κάθε πτυχή της επιστήμης της βιολογίας. Γίνεται αντιληπτό ότι οι περιοχές της ανακάλυψης γνώσης και της μηχανικής μάθησης είναι σήμερα, περισσότερο από ποτέ, αναγκαίες και σημαντικές για την ευφυή ανάλυση των διαθέσιμων βιολογικών δεδομένων, την εξαγωγή πολύτιμης γνώσης από αυτά και τελικά την απάντηση θεμελιωδών ερωτημάτων από την επιστήμη της βιολογίας και της ιατρικής. Το αντικείμενο της παρούσας διδακτορικής διατριβής είναι η ανακάλυψη γνώσης από βιολογικά δεδομένα. Η διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της ανακάλυψης γνώσης από βάσεις δεδομένων, της μηχανικής μάθησης και της βιοπληροφορικής, ο οποίος είναι ένας γενικός όρος που χρησιμοποιείται για να περιγράψει κάθε είδους υπολογιστική ανάλυση βιολογικών δεδομένων. Στόχος της διδακτορικής διατριβής ήταν η έρευνα και η συνεισφορά στην περιοχή της ανακάλυψης γνώσης και της μηχανικής μάθησης και πιο συγκεκριμένα, αφενός η δημιουργία νέων ή η επέκταση υπαρχουσών μεθόδων για την ανάλυση βιολογικών δεδομένων και αφετέρου η εφαρμογή τους για την εξαγωγή πολύτιμης γνώσης από τα δεδομένα αυτά. Απώτερος επιθυμητός στόχος ήταν τα αποτελέσματα της (μέθοδοι, εργαλεία και γνώση) να αξιοποιηθούν από την επιστημονική κοινότητα είτε σε ερευνητικά προγράμματα, είτε στην κλινική πράξη. Αρχικά, η διατριβή επικεντρώνεται στην ανάλυση δεδομένων πληθυσμιακής γενετικής και πιο συγκεκριμένα πολυμορφισμών μονών νουκλεοτιδίων (SNPs), που έχουν σαν κύριο χαρακτηριστικό την μεγάλη διαστασιμότητα, εστιάζοντας στο πρόβλημα της επιλογής των πιο πληροφοριακών δεικτών για την ανάθεση ατόμων σε πληθυσμούς προέλευσης. Παρουσιάζεται μια νέα μέθοδος επιλογής δεικτών που βασίζεται στη θεωρία συχνών στοιχειοσυνόλων η οποία επιτυγχάνει πολύ καλύτερα αποτελέσματα από τις υπάρχουσες μεθόδους. Ακόμα, παρουσιάζονται οι αλγόριθμοι που υλοποιήθηκαν και χρησιμοποιούνται στην περιοχή για επιλογή χαρακτηριστικών καθώς και αλγόριθμοι χειρισμού συνόλων δεδομένων SNP. Στην ίδια περιοχή της πληθυσμιακής γενετικής, παρουσιάζεται ένας αλγόριθμος εύρεσης μικροδορυφόρων σε γονιδιώματα, καθώς και το ολοκληρωμένο σύστημα στο οποίο συμπεριλαμβάνεται. Στη συνέχεια παρουσιάζονται μεθοδολογίες συγκερασμού διαφορετικών πηγών ανοσογενετικών και κλινικοβιολογικών δεδομένων και ανάλυσης αυτών, που έχουν σαν στόχο την μελέτη για τα πρότυπα των μεταλλάξεων που συμβαίνουν κατά το φαινόμενο της Σωματικής Υπερμεταλλαξιγένεσης (ΣΥΜ). Η εφαρμογή των μεθόδων γίνεται σε δεδομένα ασθενών που πάσχουν από Χρόνια Λεμφοκυτταρική Λευχαιμία (ΧΛΛ). Επιπλέον, παρουσιάζεται μια μεθοδολογία βασισμένη στη θεωρία κοινωνικής επιλογής και ψηφοφορίας για την διερεύνηση του τρόπο του πιθανού οντογενετικού μετασχηματισμού γονιδίων προς άλλα γονίδια ή οικογένειες γονιδίων μέσω του φαινομένου της ΣΥΜ. Τέλος παρουσιάζεται μια μέθοδος για την εύρεση του σημείου πολυαδενυλίωσης σε ακολουθίες RNA. Η προτεινόμενη, είναι μια αρθρωτή μέθοδος που αποτελείται από δύο τμήματα, το πρώτο βασισμένο στα ενδιαφέροντα αναδυόμενα πρότυπα και το δεύτερο στην βαθμολόγηση των ακολουθιών με βάση την απόσταση τους από τις διάφορες τάξεις και υποτάξεις των αλληλουχιών, επιτυγχάνοντας υψηλά επίπεδα προσαρμοσμένης ακρίβειας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Recent advances in technology have produced a wealth of digital machines and sensors which, along with recent advancements in biotechnology and more specifically the high-throughput sequencing methods, have led to an unprecedented explosion of data on every aspect of biology. Consequently, knowledge discovery and machine learning are today, more than ever, crucial for the intelligent analysis of biological data, knowledge discovery and ultimately the answering of fundamental questions from biology and medicine. The scope of this thesis is the knowledge discovery from biological data. This thesis belongs to the research fields of knowledge discovery from databases, machine learning and bioinformatics, which is a general term used to describe any type of computational analysis applied to biological data. The contribution of this thesis lays on the knowledge discovery and machine learning field. More specifically, the aim of this thesis is to create or extend methods for the analysis of b ...
Recent advances in technology have produced a wealth of digital machines and sensors which, along with recent advancements in biotechnology and more specifically the high-throughput sequencing methods, have led to an unprecedented explosion of data on every aspect of biology. Consequently, knowledge discovery and machine learning are today, more than ever, crucial for the intelligent analysis of biological data, knowledge discovery and ultimately the answering of fundamental questions from biology and medicine. The scope of this thesis is the knowledge discovery from biological data. This thesis belongs to the research fields of knowledge discovery from databases, machine learning and bioinformatics, which is a general term used to describe any type of computational analysis applied to biological data. The contribution of this thesis lays on the knowledge discovery and machine learning field. More specifically, the aim of this thesis is to create or extend methods for the analysis of biological data and later to apply them to extract valuable knowledge from data. Moreover, a subsequent aim is to utilize and apply the methods, tools and knowledge produced, in research programs or in clinical practice. Initially, the thesis focuses on the analysis of population genomic data and more specifically single nucleotide polymorphisms (SNPs) data, which main feature is the high dimensionality, mainly focusing on the problem of selecting the most informative markers for assigning individuals to populations of origin. Α new method for feature selection based on frequent itemsets theory is presented, which achieves much superior results compared to the existing methods is also presented. Moreover, all well-known feature selection algorithms in the field, as well as algorithms for SNP dataset manipulation are presented. In the same area of population genetics, a microsatellite pattern discovery algorithm is developed along with the software application in which it is integrated. Later, methodologies which integrate different immunogenetic and clinicobiological data sources and analyze them to study the patterns of mutations that occur through Somatic Hypermutation (SHM) are developed. All methods were applied to patient data with Chronic Lymphocytic Leukemia (CLL). Moreover, a methodology based on social choice and voting theory is presented to investigate the potential ontogenetic transformation of genes towards other genes or gene families, through SHM. Finally, a method for the polyadenylation site prediction in RNA sequences is also developed. This is a modular method consisting of two parts, the one based on interesting emerging patterns and the other on a distance based scoring method, achieving high score of adjusted accuracy.
περισσότερα