Περίληψη
Η επανάσταση του RNA μετέφερε τα μη κωδικά μετάγραφα (non-coding RNAs) στο επίκεντρο της βιολογικής έρευνας. Τα τελευταία χρόνια, στοιχεία από πολυάριθμα πειράματα αποκαλύπτουν πολλαπλούς ρυθμιστικούς ρόλους των μη κωδικών μεταγράφων στο γονιδίωμα σε ένα ευρύ φάσμα βιολογικών διεργασιών. H εργασία αυτή εστιάζει στην ανάπτυξη αλγορίθμων για την κατανόηση της λειτουργίας μη κωδικών μορίων και διερευνά εκτενώς τις αλληλεπιδράσεις μεταξύ ομάδων κωδικών και μη κωδικών μεταγράφων. Οι μεθοδολογίες που αναπτύχθηκαν κατά τη διάρκεια της διδακτορικής διατριβής συνδύασαν προηγμένες αναλύσεις δεδομένων αλληλούχησης επόμενης γενεάς και συμπεριέλαβαν αλγορίθμους αιχμής Μηχανικής Μάθησης, για την πραγματοποίηση αυτόματων αναλύσεων καθώς και εποπτείας των αντίστοιχων αποτελεσμάτων. H εργασία εστιάζει στη μελέτη ειδικών κατηγοριών μορίων: τα microRNAs (miRNAs) και τα long non-coding RNAs (lncRNAs). Τα miRNAs είναι μονόκλωνα μόρια RNA μήκους περίπου 22 νουκλεοτιδίων. Θεωρούνται βασικοί μετα-μεταγραφικ ...
Η επανάσταση του RNA μετέφερε τα μη κωδικά μετάγραφα (non-coding RNAs) στο επίκεντρο της βιολογικής έρευνας. Τα τελευταία χρόνια, στοιχεία από πολυάριθμα πειράματα αποκαλύπτουν πολλαπλούς ρυθμιστικούς ρόλους των μη κωδικών μεταγράφων στο γονιδίωμα σε ένα ευρύ φάσμα βιολογικών διεργασιών. H εργασία αυτή εστιάζει στην ανάπτυξη αλγορίθμων για την κατανόηση της λειτουργίας μη κωδικών μορίων και διερευνά εκτενώς τις αλληλεπιδράσεις μεταξύ ομάδων κωδικών και μη κωδικών μεταγράφων. Οι μεθοδολογίες που αναπτύχθηκαν κατά τη διάρκεια της διδακτορικής διατριβής συνδύασαν προηγμένες αναλύσεις δεδομένων αλληλούχησης επόμενης γενεάς και συμπεριέλαβαν αλγορίθμους αιχμής Μηχανικής Μάθησης, για την πραγματοποίηση αυτόματων αναλύσεων καθώς και εποπτείας των αντίστοιχων αποτελεσμάτων. H εργασία εστιάζει στη μελέτη ειδικών κατηγοριών μορίων: τα microRNAs (miRNAs) και τα long non-coding RNAs (lncRNAs). Τα miRNAs είναι μονόκλωνα μόρια RNA μήκους περίπου 22 νουκλεοτιδίων. Θεωρούνται βασικοί μετα-μεταγραφικοί ρυθμιστές της έκφρασης των γονιδίων και διαδραματίζουν καθοριστικό ρόλο σε πληθώρα βιολογικών διαδικασιών. Αποτελούν αντικείμενο έντονης μελέτης τα τελευταία χρόνια για τη δυναμική τους ως πιθανοί θεραπευτικοί στόχοι καθώς πέρα από το ρόλο τους σε φυσιολογικές διεργασίες, εμφανίζονται να εμπλέκονται σε ένα ευρύ φάσμα παθολογικών καταστάσεων. Βάσει τελευταίων ερευνών, τα miRNAs στοχεύουν και άλλα μη κωδικά RNAs, τα lncRNAs. Τα lncRNAs είναι μακρά μη κωδικά μετάγραφα και μέρος αυτών σχετίζεται με την ρύθμιση της γονιδιακής έκφρασης.Προκειμένου να χαρακτηριστεί ολόκληρο το φάσμα των αλληλεπιδράσεων των miRNAs με lncRNAs, σχεδιάστηκε η βάση δεδομένων DIANA-LncBase που υποστηρίζει τον μεγαλύτερο κατάλογο πειραματικά επιβεβαιωμένων miRNA-lncRNA αλληλεπιδράσεων. Περιέχει πάνω από 70.000 αλληλεπιδράσεις από πληθώρα πειραμάτων αλληλούχησης επόμενης γενεάς και ειδικές τεχνικές μικρής διεκπεραιωτικής ικανότητας σε 66 διαφορετικούς τύπους κυττάρων, που εκτείνονται σε 36 ιστούς του ανθρώπου και του μυός. Στη παρούσα διατριβή ανανεώθηκε και η βάση δεδομένων DIANA-TarBase, η βάση με τον εκτενέστερο κατάλογο πειραματικά επιβεβαιωμένων αλληλεπιδράσεων μεταξύ μικρών RNA και κωδικών γονιδίων στόχων παγκοσμίως. Περιέχει περισσότερες από 500.000 αλληλεπιδράσεις από 28 διάφορες πειραματικές μεθοδολογίες, καλύπτοντας 356 κυτταρικούς τύπους και 59 διαφορετικούς ιστούς. Κατά τη λεπτομερή καταγραφή του χάρτη των αλληλεπιδράσεων των μορίων στο επίπεδο του RNA σημειώθηκαν για πρώτη φορά και αλληλεπιδράσεις των μικρών RNAs που παράγονται από ιούς με τα μακρά μη κωδικά μετάγραφα του ανθρώπου. Η αναγνώριση τέτοιων αλληλεπιδράσεων έγινε σε ανθρώπινες κυτταρικές σειρές που έχουν προσβληθεί από κάποιο στέλεχος ιού. Αυτά τα δεδομένα βάζουν ένα ακόμη επίπεδο πολυπλοκότητας στις αλληλεπιδράσεις των μη κωδικών μορίων, καθώς χρειάζεται να μελετηθούν και αυτές μεταξύ των μεταγράφων του ιού και του ανθρώπου. Τα δεδομένα NGS που αναλύθηκαν, για την ανεύρεση στόχων των microRNAs με τα (μη)κωδικά μετάγραφα για το σχηματισμό των βάσεων LncBase και TarΒase, περιλαμβάνουν πάνω από 150 βιβλιοθήκες CLIP-Seq. Παράλληλα, συλλέχθηκαν και αναλύθηκαν δεδομένα αλληλούχησης για την έκφραση των microRNA και των μεταγράφων στα κύτταρα όπου πραγματοποιήθηκαν τα CLIP-Seq πειράματα. Αναπτύχθηκαν αλγόριθμοι για την ανάλυση των δεδομένων αλληλούχησης, ενώ ο εντοπισμός των αναγνωριστικών θέσεων πρόσδεσης των microRNAs στα μετάγραφα έγινε με μηχανική μάθηση. Η μεθοδολογία που υιοθετήθηκε συγκρίθηκε με αντίστοιχους αλγορίθμους αιχμής, ενώ εμφάνισε πληθώρα πλεονεκτημάτων σε κάθε σύγκριση.Κατά τη διάρκεια της διδακτορικής διατριβής, η συνεχής αρχειοθέτηση και ανάλυση πειραματικών δεδομένων από χαμηλής και υψηλής διεκπεραιωτικής ικανότητας μεθοδολογίες, μαζί με την εκτενή αξιολόγηση των διαθέσιμων CLIP-Seq προγραμμάτων, αποκάλυψε ότι υπήρχε περιθώριο για περαιτέρω βελτίωση. Οι διαθέσιμοι αλγόριθμοι αιχμής που εντοπίζουν στόχους των miRNAs μέσα από την ανάλυση CLIP-Seq δεδομένων επιτυγχάνουν την ορθή αναγνώριση σε περίπου μισές πειραματικά επικυρωμένες αλληλεπιδράσεις. Για το σκοπό αυτό, αναπτύχθηκε ένας καινοτόμος αλγόριθμος για την ανάλυση AGO-CLIP-Seq δεδομένων. Ο αλγόριθμος εκπαιδεύτηκε και δοκιμάστηκε εκτενώς σε μια υψηλής ποιότητας, ολοκληρωμένη συλλογή θετικών και αρνητικών αλληλεπιδράσεων των miRNAs με γονίδια βάσει πολυάριθμων πειραματικών δεδομένων. Επιπλέον αξιολογήθηκε έναντι παρόμοιων εφαρμογών αιχμής, συμπεριλαμβανομένου και του αλγορίθμου ανάλυσης CLIP-Seq δεδομένων των TarBase / LncBase. Τα αποτελέσματα παρουσίασαν ότι η νέα αλγοριθμική προσέγγιση ξεπερνά σημαντικά τις άλλες εφαρμογές όχι μόνο όσον αφορά την ακρίβεια, αλλά παράλληλα καταφέρνει να αυξήσει την ευαισθησία μέσω της πρόβλεψης περιοχών πρόσδεσης των μικρών RNA που δεν είχαν εντοπιστεί από οποιοδήποτε άλλο αλγόριθμο.Παράλληλα, η λειτουργική σημασία των αλληλεπιδράσεων των miRNAs με τις διάφορες κατηγορίες μεταγράφων μελετήθηκε μέσω της διερεύνησης της εξελικτικής συντήρησης των περιοχών πρόσδεσης σε κωδικές και μη κωδικές ακολουθίες. Η διδακτορική διατριβή περιλαμβάνει και τη μελέτη του χάρτη των αλληλεπιδράσεων των μορίων στο επίπεδο του RNA σε σχέση με ασθένειες και μοριακά μονοπάτια, γεγονός που θα βοηθήσει να προσδιοριστούν άγνωστες μέχρι τώρα πτυχές της δράσης των μικρών RNAs. Παράλληλα, αναβαθμίστηκαν και σχηματίστηκαν νέες λειτουργικότητες για τον εξυπηρετητή του DIANA-microT και πραγματοποιήθηκε η δημιουργία αυτόματων ροών ανάλυσης (workflows), δεδομένων που προκύπτουν από πειράματα NGS. Οι έτοιμες αναλύσεις διασυνδέουν εργαλεία του DIANA που αφορούν αλληλεπιδράσεις των μικρών RNAs με γονίδια και την εμπλοκή τους σε μοριακά μονοπάτια. Κατά τη διάρκεια της διδακτορικής διατριβής, η υποψήφια έλαβε μέρος σε 8 επιστημονικές μελέτες που περιλαμβάνουν υπολογιστικές προσεγγίσεις για τον προσδιορισμό της δράσης των μη κωδικών μεταγράφων, και σε τέσσερις από αυτές είναι πρώτη συγγραφέας. Οι μελέτες δημοσιεύτηκαν σε διεθνή έγκριτα περιοδικά και οι συνολικές αναφορές που έχουν λάβει έως τώρα είναι 310.
περισσότερα
Περίληψη σε άλλη γλώσσα
The RNA revolution has turned non-coding RNA (ncRNA) from dark-matter into a biological research hotspot. Accumulating evidence from multiple Next Generation Sequencing (NGS) experiments has recently introduced the regulatory roles of ncRNAs in a wide range of biological processes. This thesis focuses on the development of computational algorithms for the functional characterization of non-coding transcripts, while investigating in-depth their in-between interactions. The methodologies developed during this thesis combine advanced next-generation sequencing (NGS) data analyses and state-of-the-art Machine Learning algorithms in order to perform automated analyses and to monitor the corresponding results.This doctoral thesis studies specific categories of RNA transcripts: microRNAs (miRNAs) and long non-coding RNAs (lncRNAs). miRNAs are single stranded RNA molecules approximately 22 nucleotides long. They have been deemed central post-transcriptional gene regulators and play a key role ...
The RNA revolution has turned non-coding RNA (ncRNA) from dark-matter into a biological research hotspot. Accumulating evidence from multiple Next Generation Sequencing (NGS) experiments has recently introduced the regulatory roles of ncRNAs in a wide range of biological processes. This thesis focuses on the development of computational algorithms for the functional characterization of non-coding transcripts, while investigating in-depth their in-between interactions. The methodologies developed during this thesis combine advanced next-generation sequencing (NGS) data analyses and state-of-the-art Machine Learning algorithms in order to perform automated analyses and to monitor the corresponding results.This doctoral thesis studies specific categories of RNA transcripts: microRNAs (miRNAs) and long non-coding RNAs (lncRNAs). miRNAs are single stranded RNA molecules approximately 22 nucleotides long. They have been deemed central post-transcriptional gene regulators and play a key role in numerous biological processes. Therefore, miRNAs are intensively studied for their potential as biomarkers and/or therapeutic targets. Apart from their involvement in physiological processes, microRNAs appear to be associated with a plethora of pathological conditions. Although microRNAs are mainly considered mRNA repressors, there are studies supporting miRNA-lncRNA interactions. lncRNAs are long non-coding transcripts that can also regulate gene expression. To this end, DIANA-LncBase database was designed in order to characterize the entire spectrum of miRNA interactions with lncRNAs. LncBase supports a compendium of experimentally supported miRNA-lncRNA interactions. It contains more than 70,000 interactions derived from the analysis of numerous NGS experiments and specific low-throughput techniques, across 66 different types spanning 36 tissues in human and mouse species. DIANA-TarBase update was also part of the thesis. TarBase v7 is considered the largest available repository of miRNA-mRNA interactions as compared to any of the relevant databases. It hosts more than half a million interactions from published experiments on 356 different cell types (59 tissues), belonging to 24 species. The detailed cataloguing of RNA interactions unveiled a set of approximately 400 unique viral-miRNA:lncRNA interacting pairs in human virus-infected cells. This type of regulation adds an extra layer of complexity in the miRNA interactome, and perplexes the network with the inclusion of virus-encoded and human transcript interactions.By analyzing more than 150 raw CLIP-Seq datasets, DIANA-TarBase v7.0 and DIANA-LncBase are the first relevant databases to provide an unprecedented amount of experimentally supported interactions in many different cell types and tissues. Furthermore, RNA sequencing data were analyzed to accurately assess miRNA and transcript expression in the investigated cell types. Optimized pipelines were developed for the analysis of sequencing data, while a machine learning approach has been applied for the identification of miRNA binding sites. The adopted methodology for AGO-CLIP-Seq data analysis was compared against other available state-of-the-art implementations and has been proven robust and advantageous. During the course of the Doctoral thesis, the continuous archiving of experimental data from low and high-throughput methodologies, along with extensive evaluation of the available AGO-CLIP-Seq analysis programs, revealed that there was room for algorithms’ further improvement and optimization. State-of-the-art CLIP-guided target identification implementations currently manage to identify approximately half of the experimentally validated binding sites. To this end, a novel algorithm was developed for CLIP-Seq data analysis. The algorithm was trained and extensively tested on a comprehensive collection of accurate positive and negative miRNA-target interactions from numerous experimental data sources. It was additionally evaluated against all leading implementations, including CLIP-Seq analysis adopted by TarBase/LncBase. The results depict that the new approach not only significantly outperforms other implementations in terms of accuracy but also manages to increase sensitivity, predicting sites that were not detected by any other algorithm.The functional significance of miRNA interactions with coding and non-coding transcripts was further assessed with the evolutionary conservation of the miRNA binding sites. The thesis additionally associates the catalogued interactions to diseases and molecular pathways, providing new insights in ncRNA function. DIANA-microT web server was upgraded and enhanced with automated analyses pipelines (workflows) that can be applied to NGS-derived data. The ready-to-use modules seamlessly integrate DIANA supported algorithms for the identification of miRNA-gene interactions and miRNA-targeted pathway analyses.During the course of the Doctoral thesis, the candidate took part in 8 scientific studies involving computational approaches for determining the activity of the non-coding transcripts and in four of them the candidate is first author. The studies are published in international peer-reviewed scientific journals, while the total citations received to date are 310.
περισσότερα