Περίληψη
Το αντικείμενο της διατριβής είναι η ανάπτυξη τεχνικών ενοποίησης διαδικτυακών εργαλείων και επεξεργασίας βιολογικών δεδομένων με σκοπό την αντιμετώπιση των προβλημάτων υπολογιστικής πρόβλεψης γονιδιακών δομών στους ευκαρυωτικούς οργανισμούς. Η ετερογένεια των εργαλείων ανάλυσης των βιολογικών δεδομένων αποτελεί ένα από τα σημαντικότερα εμπόδια στη συνδυαστική χρήση και περαιτέρω αξιοποίηση των αποτελεσμάτων που εξάγουν. Τα συστήματα διαχείρισης ροής εργασιών προσφέρουν ενοποιημένα περιβάλλοντα μέσα από τα οποία επιτρέπεται η διαδοχική εκτέλεση εργαλείων με διαφανή τρόπο, ωστόσο η επιλογή του καταλληλότερου εργαλείου σε κάθε βήμα εκτέλεσης παραμένει ένα σημαντικό πρόβλημα, δεδομένου ότι πολύ συχνά τα αποτελέσματα των υπολογιστικών μοντέλων που υλοποιούν τα εργαλεία του ίδιου βήματος διαφοροποιούνται. Η αρχιτεκτονική ενοποίησης που προτείνεται στη διατριβή έχει ως αντικείμενο τη διαφανή χρήση διαδικτυακών εργαλείων που επιτελούν κοινές λειτουργίες και στόχο να επιτραπεί η περαιτέρω διαχ ...
Το αντικείμενο της διατριβής είναι η ανάπτυξη τεχνικών ενοποίησης διαδικτυακών εργαλείων και επεξεργασίας βιολογικών δεδομένων με σκοπό την αντιμετώπιση των προβλημάτων υπολογιστικής πρόβλεψης γονιδιακών δομών στους ευκαρυωτικούς οργανισμούς. Η ετερογένεια των εργαλείων ανάλυσης των βιολογικών δεδομένων αποτελεί ένα από τα σημαντικότερα εμπόδια στη συνδυαστική χρήση και περαιτέρω αξιοποίηση των αποτελεσμάτων που εξάγουν. Τα συστήματα διαχείρισης ροής εργασιών προσφέρουν ενοποιημένα περιβάλλοντα μέσα από τα οποία επιτρέπεται η διαδοχική εκτέλεση εργαλείων με διαφανή τρόπο, ωστόσο η επιλογή του καταλληλότερου εργαλείου σε κάθε βήμα εκτέλεσης παραμένει ένα σημαντικό πρόβλημα, δεδομένου ότι πολύ συχνά τα αποτελέσματα των υπολογιστικών μοντέλων που υλοποιούν τα εργαλεία του ίδιου βήματος διαφοροποιούνται. Η αρχιτεκτονική ενοποίησης που προτείνεται στη διατριβή έχει ως αντικείμενο τη διαφανή χρήση διαδικτυακών εργαλείων που επιτελούν κοινές λειτουργίες και στόχο να επιτραπεί η περαιτέρω διαχείριση των αποτελεσμάτων που εξάγουν. Η αρχιτεκτονική αυτή εφαρμόστηκε σε ένα σύνολο εργαλείων πρόβλεψης γονιδιακών δομών και προσφέρει: α) τη δυνατότητα υποβολής ερωτημάτων στα εργαλεία αυτά με διαφανή τρόπο, β) την ενοποιημένη περιγραφή των αποτελεσμάτων βάσει ενός κοινού σχήματος, γ) επιλογές συνδυαστικής απεικόνισης των λειτουργικών περιοχών που εντοπίστηκαν, και δ) τη δυνατότητα επεξεργασίας των αποτελεσμάτων μέσα από ένα μηχανισμό υποβολής συνδυαστικών ερωτημάτων. Η αρθρωτή σχεδίαση της αρχιτεκτονικής επιτρέπει την ενσωμάτωση επιπρόσθετων λειτουργιών αλλά και σχημάτων περιγραφής συναφών εργαλείων. Έτσι, ως επέκταση της αρχιτεκτονικής αυτής ενσωματώθηκαν σχήματα περιγραφής διαδικτυακών εργαλείων που προβλέπουν συγκεκριμένα σηματοδοτικά στοιχεία. Τα στοιχεία αυτά οριοθετούν τις λειτουργικές περιοχές των γονιδίων και μπορούν να χρησιμοποιηθούν σε συνδυασμό με τα εργαλεία πρόβλεψης γονιδιακών δομών για τη βελτίωση της ακρίβειας των υπολογιστικών μοντέλων στα οποία έχουν εκπαιδευτεί. Τα σηματοδοτικά στοιχεία που κρίνουν σε μεγάλο βαθμό τη σύνθεση του πρωτεϊνικού προϊόντος είναι οι θέσεις ματίσματος. Οι θέσεις ματίσματος σηματοδοτούν την αρχή και το τέλος των ιντρονικών περιοχών ενός γονιδίου και κατά συνέπεια καθορίζουν τις λειτουργικές περιοχές που στη συνέχεια θα μεταφραστούν στην αντίστοιχη αλυσίδα αμινοξέων. Ο βιολογικός μηχανισμός αναγνώρισης των θέσεων ματίσματος στους ευκαρυωτικούς οργανισμούς περιλαμβάνει πολλαπλές αλληλεπιδράσεις μεταξύ γειτονικών και μη γειτονικών νουκλεοτιδίων. Η ελλιπής κατανόηση των αλληλεπιδράσεων αυτών καθιστά δύσκολη την υλοποίηση αποτελεσματικών υπολογιστικών τεχνικών πρόβλεψης θέσεων ματίσματος. Η διατριβή προτείνει έναν υβριδικό τρόπο αναγνώρισης θέσεων ματίσματος που περιλαμβάνει δύο διαδοχικά βήματα. Στο πρώτο βήμα, χρησιμοποιείται μία γκαουσιανή μηχανή διανυσμάτων υποστήριξης, η οποία εκπαιδεύεται ακολουθώντας δύο διαφορετικούς τρόπους επιλογής των χαρακτηριστικών. Στο δεύτερο, συνδυάζονται τα αποτελέσματα της ταξινόμησης του πρώτου βήματος με τις ενδείξεις που προκύπτουν από σχετικές δημοσιευμένες μελέτες και κατασκευάζεται ένα δυαδικό δένδρο απόφασης που καταλήγει στην τελική εκτίμηση της ισχύος μιας υποψήφιας θέσης ματίσματος. Στο τελευταίο μέρος της, η διατριβή προτείνει διάφορους τρόπους ανάλυσης των εναλλακτικά συναρμολογούμενων εξονίων και των παρακείμενων ιντρονικών περιοχών, προκειμένου να διερευνηθούν τα διακριτά χαρακτηριστικά που διαφοροποιούν τις ιδιοσύστατες από τις εναλλακτικές μορφές γονιδιακής έκφρασης. Τα αποτελέσματα των αναλύσεων αποτελούν σημαντικές ενδείξεις που βιολογικά είναι πολύ χρήσιμες, γιατί δεν έχουν μελετηθεί πειραματικά, ενώ από την υπολογιστική σκοπιά θα μπορούσαν να χρησιμοποιηθούν από το υβριδικό μοντέλο που προτείνει η διατριβή για την πρόβλεψη των θέσεων εναλλακτικού ματίσματος.
περισσότερα
Περίληψη σε άλλη γλώσσα
The main objective of this thesis is the development of integrated methods for managing and processing biological data with specific emphasis on their application to computational prediction of gene structures in eukaryotes. Most biological analysis tools developed so far are characterized by multi-level heterogeneities that make combinatorial usage and further analysis difficult and problematic. Scientific workflow management systems offer integrated environments for tools orchestration in successive steps, though the selection of the best-fitting tool in each step remains an important issue, considering that the outcome of the underlying computational models are very frequently differentiated. The integration architecture proposed in this thesis offers transparent access to publicly available tools that fulfil common functions, enabling comparative post-analysis of their outcomes. Specifically, the proposed architecture consists of: a) Appropriate wrapping/parsing modules, b) a commo ...
The main objective of this thesis is the development of integrated methods for managing and processing biological data with specific emphasis on their application to computational prediction of gene structures in eukaryotes. Most biological analysis tools developed so far are characterized by multi-level heterogeneities that make combinatorial usage and further analysis difficult and problematic. Scientific workflow management systems offer integrated environments for tools orchestration in successive steps, though the selection of the best-fitting tool in each step remains an important issue, considering that the outcome of the underlying computational models are very frequently differentiated. The integration architecture proposed in this thesis offers transparent access to publicly available tools that fulfil common functions, enabling comparative post-analysis of their outcomes. Specifically, the proposed architecture consists of: a) Appropriate wrapping/parsing modules, b) a common schema for describing the results of the predictive modeling, c) combinatorial visualization modules, and d) query formation and execution modules that apply on multiple commonly-described outcomes. The applicability of the architecture was evaluated on a set of ab initio gene predictors. The modular design of the architecture allows for additional functionalities to be implemented, as well as for the incorporation of supplementary schemas describing relevant tools. In this context, the architecture was extended by embodying schema descriptions of publicly available tools that predict specific signal sensors. Signal sensors define the boundaries of functional tracts within a genomic region and their computational prediction, coupled with the outcome of gene structure predictors can be used to increase the efficiency of the underlying learning methods. Splice sites are important signal sensors that define the synthesis of the protein product. Splice sites are located at the beginning and end of an intron and signal the coding regions that are going to be translated into proteins. The biological mechanism that recognizes splice sites involves multiple, complex interactions among adjacent and non-adjacent nucleotides. Our deficient knowledge of these interactions put obstacles in predictive modeling of splice sites. This thesis presents a hybrid method for predicting splice sites that consists of two successive classification steps. The first step is undertaken by a Gaussian support vector machine that is trained on probabilistic data descriptions, using different feature selection methods. The second step combines the evidence of specific features resulted from relevant published studies with the probability estimates of the first classification step, in order to induce a binary decision tree. Finally, the thesis proposes different analysis types of alternatively spliced exons and their neighboring intronic regions, in order to investigate potential discriminative features that are differentiated between constitutive and alternative gene expressions. The results of the analysis give important evidence that is biologically useful, while from the computational point of view they could be used to feed the proposed hybrid identification method, in order to predict alternative splice sites.
περισσότερα