Περίληψη
H παρούσα διδακτορική διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της Βιοπληροφορικής και της Ανάλυσης Μεγάλων Δεδομένων με Μηχανική Μάθηση. Πρωταρχικό στόχο αποτελεί η ανάπτυξη υπολογιστικών μοντέλων ικανών να εξάγουν χρήσιμες πληροφορίες από την επεξεργασία βιολογικών δεδομένων, που θα οδηγήσουν στη διεύρυνση της γνώσης σε ανοιχτά βιολογικά ζητήματα. Η έρευνα εστιάζει σε δύο βιολογικούς στόχους, στην αναγνώριση μικρών ανοικτών παραθύρων ανάγνωσης (sORFs) που κωδικοποιούν πρωτεΐνες και στη ρύθμιση της έκφρασης κωδικών και μη κωδικών γονιδίων. Τα τελευταία χρόνια έχει αναγνωριστεί μια αυξανόμενη ποικιλία πεπτιδίων μικρότερων των 100 κωδικονίων σε διάφορους οργανισμούς, από βακτήρια έως ανθρώπους, τα οποία δρουν ως ρυθμιστές πολλών κρίσιμων διαδικασιών όπως ο μεταβολισμός, η ανάπτυξη, και ο κυτταρικός θάνατος. Επιπρόσθετα με τις αλληλουχίες που κωδικοποιούν μεγάλες πρωτεΐνες, υπάρχουν πολλά μικρά ανοιχτά πλαίσια ανάγνωσης που επεξεργάζονται από τον μεταφραστικό μηχανισμό τ ...
H παρούσα διδακτορική διατριβή εντάσσεται στα πλαίσια των ερευνητικών περιοχών της Βιοπληροφορικής και της Ανάλυσης Μεγάλων Δεδομένων με Μηχανική Μάθηση. Πρωταρχικό στόχο αποτελεί η ανάπτυξη υπολογιστικών μοντέλων ικανών να εξάγουν χρήσιμες πληροφορίες από την επεξεργασία βιολογικών δεδομένων, που θα οδηγήσουν στη διεύρυνση της γνώσης σε ανοιχτά βιολογικά ζητήματα. Η έρευνα εστιάζει σε δύο βιολογικούς στόχους, στην αναγνώριση μικρών ανοικτών παραθύρων ανάγνωσης (sORFs) που κωδικοποιούν πρωτεΐνες και στη ρύθμιση της έκφρασης κωδικών και μη κωδικών γονιδίων. Τα τελευταία χρόνια έχει αναγνωριστεί μια αυξανόμενη ποικιλία πεπτιδίων μικρότερων των 100 κωδικονίων σε διάφορους οργανισμούς, από βακτήρια έως ανθρώπους, τα οποία δρουν ως ρυθμιστές πολλών κρίσιμων διαδικασιών όπως ο μεταβολισμός, η ανάπτυξη, και ο κυτταρικός θάνατος. Επιπρόσθετα με τις αλληλουχίες που κωδικοποιούν μεγάλες πρωτεΐνες, υπάρχουν πολλά μικρά ανοιχτά πλαίσια ανάγνωσης που επεξεργάζονται από τον μεταφραστικό μηχανισμό των κυττάρων παράγοντας μικρά πεπτίδια. Οι μικρές πεπτίδικές αλυσίδες συνήθως δεν καταγράφονται στους σχολιασμούς πρωτεομικής καθώς λόγω του μικρού τους μεγέθους θεωρείται ότι συμβαίνουν τυχαία και αποτυγχάνουν να πετύχουν υψηλές βαθμολογίες σε δείκτες λειτουργικότητας όπως για παράδειγμα η συντήρηση. Το ανοιχτό ζήτημα της πιθανότητας κωδικοποίησης πεπτιδίων από μικρά ανοιχτά πλαίσια ανάγνωσης προσεγγίστηκε στην παρούσα διατριβή με την ανάπτυξη του D-sORF, ενός αλγορίθμου μηχανικής μάθησης που προβλέπει την ικανότητα των sORFs να κωδικοποιούν πρωτεΐνες, ενσωματώνοντας στατιστικά στοιχεία της νουκλεοτιδικής αλληλουχίας και πληροφορίες μοτίβου γύρω από το κωδικόνιο μεταγραφικής έναρξης. Ο αλγόριθμος βαθμολογεί τις αλληλουχίες εισόδου με τρόπο ανάλογο της πιθανότητας που αποδίδει το μοντέλο πρόβλεψης στην κωδικοποίηση πεπτιδίων από πραγματικά κωδικοποιητικά ORFs. Χρησιμοποιεί αποκλειστικά την υποκείμενη γονιδιωματική αλληλουχία, αποφεύγοντας την ενσωμάτωση παραμέτρων όπως η συντήρηση (conservation), η οποία στην περίπτωση των sORFs μπορεί να μειώσει την ποιότητα των αποτελεσμάτων. Το επόμενο βιολογικό ζήτημα που απασχόλησε την παρούσα διατριβή αποτελεί ο χαρακτηρισμός των υποκινητών κωδικών και μη κωδικών RNAs. Το πρωτόκολλο CAGE έχει αναδειχθεί ως μία εξαιρετικά αποδοτική πειραματική τεχνική στην αναγνώριση θέσεων έναρξης της μεταγραφής και κατ’ επέκταση των υποκινητών. Παρά την αυξανόμενη δημοτικότητά του ως πειραματικό πρωτόκολλο αναγνώρισης υποκινητών, η εξειδίκευση του CAGE σχετικά με την αναγνώριση συμβάντων έναρξης μεταγραφής στο γονιδίωμα έχει αρκετούς περιορισμούς. Υπάρχουν ισχυρές ενδείξεις ότι εκτός από τις περιοχές υποκινητών, το CAGE αναγνωρίζει θέσεις προσθήκης καλύπτρας (capping sites) σε διάφορες άλλες περιοχές όπως υποπροϊόντα ματίσματος (splicing byproducts) και εναλλακτικές ισομορφές (alternative isoforms), που μπορούν να συνοψιστούν ως μεταγραφικός θόρυβος. Ως αποτέλεσμα, μόνο ένα υποσύνολο των εμπλουτισμένων περιοχών σε σήμα CAGE βρέθηκε να αλληλεπικαλύπτεται με την περιβάλλουσα περιοχή σχολιασμένων TSS. Αυτό αποτελεί σημαντικό εμπόδιο στις ερευνητικές μελέτες που στοχεύουν στον εμπλουτισμό των βιολογικών μονοπατιών με τις ρυθμιστικές περιοχές των γονιδίων. Στοχεύοντας στον διαχωρισμό των πραγματικών γεγονότων μεταγραφής, αναπτύχθηκε το ADAPT-CAGE, ένα αλγοριθμικό πλαίσιο με υψηλή διακριτική ικανότητα που χρησιμοποιεί ένα πολύ-επίπεδο μοντέλο μηχανικής μάθησης. Εκμεταλλεύεται δομικά χαρακτηριστικά της ακολουθίας DNA, μοτίβα πρόσδεσης της POL II και την γονιδιακή έκφραση, για την απόδοση βαθμολογίας στην κάθε μία κορυφή CAGE. Πέρα του μοντέλου μηχανικής μάθησης αναπτύχθηκε και ένα πολυδιάστατο πλαίσιο αξιολόγησης, βασισμένο τόσο σε πειραματικά δεδομένα όσο και υπολογιστικές μεθόδους. Η σύγκριση με αντίστοιχους αλγόριθμους επεξεργασίας CAGE δεδομένων για την ταυτοποίηση TSS σέ όλες τις επιμέρους αξιολογήσεις ανέδειξε την ποιότητα των αποτελεσμάτων του αλγόριθμου. Στη συνέχεια της παρούσας ο αλγόριθμος ADAPT CAGE εφαρμόστηκε σε μεγάλο πλήθος δειγμάτων από κυτταρικές σειρές, πρωτογενή κύτταρα και ιστούς για την ταυτοποίηση των υποκινητών των miRNA. Η αναγνώριση υποκινητών των miRNA είναι μια θεμελιώδης προσπάθεια για την κατανόηση και τον χαρακτηρισμό των υποκείμενων μηχανισμών τόσο των φυσιολογικών όσο και των παθολογικών καταστάσεων. Ο αναλυτικός σχολιασμός των θέσεων έναρξης της μεταγραφής και των υποκινητών συνδυάστηκε με πειραματικά αλλά και υπολογιστικά ταυτοποιημένες θέσεις πρόσδεσης μεταγραφικών παραγόντων για κάθε δείγμα, τροφοδοτώντας ένα αποθετήριο δεδομένων ρύθμισης των miRNAs. Το αποθετήριο miRGen v4 είναι δημοσίως προσβάσιμο από την επιστημονική κοινότητα. Συνέχεια της έρευνας στον τομέα της ανίχνευσης των κορυφών του σήματος CAGE που αντιστοιχεί σε πραγματικά γεγονότα μεταγραφής αποτέλεσε ο Dis-TSS αλγόριθμος. Σε αυτή την έρευνα συγκεράστηκαν τεχνικές επεξεργασίας σήματος με Μηχανική Μάθηση. Χαρακτηριστικά από τα πεδία του χώρου και των συχνοτήτων εξήχθησαν από τις κορυφές CAGE. Η σημασία κάθε χαρακτηριστικού εκτιμήθηκε και διατηρήθηκαν μόνο εκείνα που εμφάνιζαν υψηλή προγνωστική ικανότητα. Στη συνέχεια αποτέλεσαν το σύνολο εκπαίδευσης ενός συστήματος μηχανικής μάθησης που διαχωρίζει τα γεγονότα έναρξης της μεταγραφής από τον θόρυβο. Η ανάπτυξη αξιόπιστων αλγορίθμων και αποθετηρίων στα πλαίσια της παρούσας διατριβής μπορεί να διαδραματίσουν θεμελιώδη ρόλο στην αποκάλυψη βιολογικών συμπερασμάτων, ωθώντας τον ορίζοντα της επιστημονικής γνώσης ακόμη περισσότερο.
περισσότερα
Περίληψη σε άλλη γλώσσα
This doctoral dissertation is part of the research areas of Bioinformatics and Big Data Analysis with Machine Learning. The primary goal is to develop computer models capable of extracting useful information from the processing of biological data, which will lead to the expansion of knowledge on open biological issues. The research focuses on two biological objectives, the functional characterization of small open reading frames (sORFs) and the regulation of coding and non-coding gene expression. Recently, an increasing variety of peptides of less than 100 codons have been identified in various organisms, from bacteria to humans, which act as regulators of many critical processes such as metabolism, growth, and cell death. In addition to the sequences encoding large proteins, there are many small open reading frames that are processed by the cell translation mechanism to produce small peptides. Small peptide chains are usually not recorded in proteomic annotations as due to their small ...
This doctoral dissertation is part of the research areas of Bioinformatics and Big Data Analysis with Machine Learning. The primary goal is to develop computer models capable of extracting useful information from the processing of biological data, which will lead to the expansion of knowledge on open biological issues. The research focuses on two biological objectives, the functional characterization of small open reading frames (sORFs) and the regulation of coding and non-coding gene expression. Recently, an increasing variety of peptides of less than 100 codons have been identified in various organisms, from bacteria to humans, which act as regulators of many critical processes such as metabolism, growth, and cell death. In addition to the sequences encoding large proteins, there are many small open reading frames that are processed by the cell translation mechanism to produce small peptides. Small peptide chains are usually not recorded in proteomic annotations as due to their small size they are considered to occur randomly and fail to achieve high scores on functionality indicators such as conservation. The open issue of the possibility that small open reading frames encoding peptides, was approached in the present dissertation with the development of D-sORF, a machine learning Framework that integrates statistical nucleotide context and motif information around the start codon to find exact solutions of coding sORFs. The algorithm scores for coding identity directly similar to established protein coding ORFs by only requiring the underlying genomic sequence, without incorporating parameters like conservation that in the case of sORFs may increase dispersion of scores. The next biological issue in this dissertation is the characterization of promoters of coding and non-coding RNAs. CAGE protocol has emerged as a highly efficient experimental technique in identifying transcription start sites and consequently promoters. Despite its increasing popularity as an experimental promoter recognition protocol, CAGE specialization in identifying transcription initiation events in the genome has several limitations. There is strong evidence that in addition to promoter regions, CAGE recognizes capping sites along various locations of transcribed loci such as different splicing products, isoforms and capped molecules that can be summed up as transcriptional noise. As a result, only a subset of the CAGE-enriched regions was found to overlap with the surrounding area of annotated TSS. This is a major obstacle in studies aimed to integrate regulatory regions into the framework of biological pathways.Aiming to distinguish the actual transcription events we developed ADAPT-CAGE, a high-resolution algorithmic framework that use a multilevel Machine Learning model. It utilizes structural features of the DNA sequence, POL II binding motifs and gene expression for scoring at each CAGE peak. In addition to the machine learning model, a multifaceted evaluation framework based on both experimental data and computational methods was developed. Comparison with corresponding CAGE data processing algorithms for TSS identification in all individual evaluations showed quality of the ADAPT-CAGE results. The ADAPT CAGE algorithm was then applied to a multitude of samples from cell lines, primary cells and tissues to identify miRNA promoters. The identification of miRNA promoters is a fundamental effort to understand and characterize the underlying mechanisms of both physiological and pathological conditions. Detailed annotation of transcription start sites -TSS and consequently promoters, combined with experimentally and computationally identified transcription factor binding sites for each sample, entered a repository of miRNAs regulation data. The repository is called miRGen v4 and is publicly available to the scientific community. The Dis-TSS algorithm was a continuation of the research in the field of detecting real TSS events from CAGE signals. In this effort signal processing techniques were combined with Machine Learning. Features from the spatial and frequency domain were extracted from the CAGE peaks and trained a machine learning system to separate transcription initiation events from noise. The significance of each feature was assessed and only those with high prognostic capability were retained. The development of reliable algorithms and repositories in the present dissertation could play a fundamental role in revealing biological conclusions by pushing the horizon of scientific knowledge even further.
περισσότερα