Περίληψη
Οι ραγδαίες τεχνολογικές εξελίξεις την τελευταία δεκαετία επέτρεψαν αναλύσεις μεγάλης κλίμακας στο πεδίο του «ρυθμιστικού RNA», μετατρέποντας τα μη-κωδικά μετάγραφα, που αρχικά θεωρούνταν «σκουπίδια», σε ερευνητικό «χρυσωρυχείο». Τα μη-κωδικά μετάγραφα διαδραματίζουν καθοριστικό ρόλο σε ένα αξιοσημείωτο αριθμό από φυσιολογικές και παθολογικές βιολογικές διεργασίες. Η τεράστια παραγωγή δεδομένων ήταν επίσης ένας από τους σημαντικότερους παράγοντες της επιταχυνόμενης εξέλιξης του τομέα της βιοπληροφορικής, ενός τομέα εξειδικευμένου στην ανάλυση βιολογικών δεδομένων και την ανάπτυξη υπολογιστικών εργαλείων, απαραίτητων για την επεξεργασία και την ερμηνεία των αποτελεσμάτων τους. Αυτή η εργασία επικεντρώνεται στο λεπτομερή και ακριβή συνδυασμό υψηλής διεκπεραιωτικής ικανότητας δεδομένων και σύγχρονων τεχνικών μηχανικής μάθησης για την ανάπτυξη αλγορίθμων με στόχο το λειτουργικό χαρακτηρισμό των μη-κωδικών μεταγραφών.Η παρούσα διατριβή επικεντρώνεται σε μια συγκεκριμένη κατηγορία μεταγραφών ...
Οι ραγδαίες τεχνολογικές εξελίξεις την τελευταία δεκαετία επέτρεψαν αναλύσεις μεγάλης κλίμακας στο πεδίο του «ρυθμιστικού RNA», μετατρέποντας τα μη-κωδικά μετάγραφα, που αρχικά θεωρούνταν «σκουπίδια», σε ερευνητικό «χρυσωρυχείο». Τα μη-κωδικά μετάγραφα διαδραματίζουν καθοριστικό ρόλο σε ένα αξιοσημείωτο αριθμό από φυσιολογικές και παθολογικές βιολογικές διεργασίες. Η τεράστια παραγωγή δεδομένων ήταν επίσης ένας από τους σημαντικότερους παράγοντες της επιταχυνόμενης εξέλιξης του τομέα της βιοπληροφορικής, ενός τομέα εξειδικευμένου στην ανάλυση βιολογικών δεδομένων και την ανάπτυξη υπολογιστικών εργαλείων, απαραίτητων για την επεξεργασία και την ερμηνεία των αποτελεσμάτων τους. Αυτή η εργασία επικεντρώνεται στο λεπτομερή και ακριβή συνδυασμό υψηλής διεκπεραιωτικής ικανότητας δεδομένων και σύγχρονων τεχνικών μηχανικής μάθησης για την ανάπτυξη αλγορίθμων με στόχο το λειτουργικό χαρακτηρισμό των μη-κωδικών μεταγραφών.Η παρούσα διατριβή επικεντρώνεται σε μια συγκεκριμένη κατηγορία μεταγραφών, τα microRNAs. Τα microRNAs (miRNAs) είναι μικρά, μονόκλωνα, μη-κωδικά μόρια RNA, μήκους ~ 22 νουκλεοτιδίων, που προσδένονται στην πρωτεΐνη Αργοναύτη (AGO) για να προκαλέσουν τη διάσπαση του μεταγράφου-στόχου, την αποικοδόμηση ή την καταστολή της μετάφρασής του. Ο ακριβής χαρακτηρισμός των στόχων τους θεωρείται θεμελιώδης για την αποσαφήνιση του ρυθμιστικού τους ρόλου. Τα τελευταία 15 χρόνια, έχει αναπτυχθεί μία πληθώρα υπολογιστικών και πειραματικών προσεγγίσεων με στόχο τον προσδιορισμό των αλληλεπιδράσεων των μικρών RNAs. Επί του παρόντος, οι τεχνικές υψηλής απόδοσης επέτρεψαν την εύρεση νέων πειραματικά υποστηριζόμενων αλληλεπιδράσεων των miRNAs σε όλο το μεταγράφωμα. Αυτός ο πλούτος των πληροφοριών είναι διασκορπισμένος σε μεγάλο αριθμό δημοσιεύσεων και ακατέργαστων δεδομένων. Κατά τη διάρκεια αυτής της διατριβής, σχεδιάστηκε το DIANA-TarBase v8.0, μια βάση δεδομένων αναφοράς, αφιερωμένη στην ευρετηρίαση πειραματικά υποστηριζόμενων στόχων των miRNAs. Η 8η έκδοση είναι η πρώτη βάση δεδομένων που αναφέρει περισσότερες από 1 εκατομμύριο καταχωρήσεις, που αντιστοιχούν σε ~700.000 μοναδικές miRNA-gene αλληλεπιδράσεις, υποστηριζόμενες από περισσότερες από 33 πειραματικές μεθοδολογίες, που έχουν εφαρμοστεί σε 592 κυτταρικούς τύπους/ιστούς, υπό~ 430 πειραματικές συνθήκες.Τα πειράματα με ανοσοκατακρήμνηση της πρωτεΐνης AGO (AGO-CLIP-Seq) αποτελούν τις πιο διαδεδομένες μεθοδολογίες υψηλής απόδοσης. Η AGO-PAR-CLIP τεχνική έχει πραγματοποιηθεί ευρέως για τη χαρτογράφηση miRNA-gene αλληλεπιδράσεων σε μεγάλη κλίμακα σε υγιείς ή ασθενείς τύπους κυττάρων. Οι υπολογιστικές μέθοδοι που έχουν αναπτυχθεί με στόχο την ανάλυση αυτών των δεδομένων παρουσιάζουν μειωμένη ικανότητα να διακρίνουν ένα μεγάλο μέρος των πραγματικών miRNA-στόχων. Για το σκοπό αυτό, ένας από τους σκοπούς της παρούσας διατριβής είναι να επανεξετάσει, να εντοπίσει και να αντιμετωπίσει τα τρέχοντα εμπόδια στην ανάλυση AGO-CLIP-Seq δεδομένων. Παρουσιάζεται, λοιπόν, το μοντέλο microCLIP, μία υπολογιστική προσέγγιση για την κατευθυνόμενη από CLIP-Seq δεδομένα αναγνώριση των αλληλεπιδράσεων των miRNAs. Το microCLIP είναι ένα καινοτόμο ensemble μοντέλο βαθειάς εκμάθησης (super learner) και η μόνη διαθέσιμη υπολογιστική προσέγγιση που αναλύει AGO-PAR-CLIP δεδομένα από το Α έως το Ω. Επεξεργάζεται όλες τις εμπλουτισμένες σε AGO περιοχές, παρέχοντας λειτουργικές περιοχές πρόσδεσης των miRNAs με ισχυρή προσβασιμότητα, που μέχρι πρότινος αγνοούνταν.Η ανάπτυξη του microCLIP ενέπνευσε τη δημιουργία ενός αλγόριθμου επόμενης γενιάς, για την εύρεση των στόχων των miRNAs απουσία πειράματος. Παρά την εκτενή ανάπτυξη σχετικών προσεγγίσεων που παρατηρείται τα τελευταία χρόνια, ακόμη και οι αλγόριθμοι αιχμής εξακολουθούν να επιτυγχάνουν χαμηλή ακρίβεια και αυξημένο αριθμό ψευδώς θετικών προβλέψεων. Για αυτόν το λόγο, αναπτύχθηκε το μοντέλο microT Super Learning που διατηρεί και αναβαθμίζει τη μεθοδολογία του microCLIP αλγορίθμου, ενισχύοντας την εκπαίδευσή του με ακόμη περισσότερα πειράματα υψηλής απόδοσης υπό έναν ιστο-ειδικό σχεδιασμό. Το νέο μοντέλο χαρακτηρίζει αλληλεπιδράσεις με ισχυρότερη λειτουργικότητα και ανιχνεύει σωστά 1.5 φορές περισσότερες πειραματικά επιβεβαιωμένες περιοχές πρόσδεσης των μικρών RNAs, όταν αντιπαρατίθεται με κορυφαίες υπολογιστικές προσεγγίσεις. Η αυξημένη απόδοση των αλγορίθμων microCLIP και microT στην ανίχνευση των αλληλεπιδράσεων των miRNAs, αναδεικνύει ρυθμιστικά συμβάντα που μέχρι πρότινος αγνοούνταν και νέα μοριακά μονοπάτια που ελέγχονται από τα miRNAs.Κατά τη διάρκεια της παρούσας εργασίας, η υποψήφια διδάκτωρ συμμετείχε σε 9 επιστημονικές δημοσιεύσεις που αφορούσαν υπολογιστικές προσεγγίσεις για τον προσδιορισμό της λειτουργίας των μη κωδικών μεταγραφών και σε δύο από αυτές είναι η πρώτη συγγραφέας. Η κύρια ερευνητική δραστηριότητα και η συμβολή της υποψήφιας στις δημοσιεύσεις αυτές αφορά την εφαρμογή αλγορίθμων, αυτοματοποιημένων ροών ανάλυσης για την επεξεργασία πειραματικών δεδομένων επόμενης γενιάς και τον κατάλληλο συνδυασμό τους με στόχο την αποσαφήνιση της λειτουργίας των μη-κωδικών RNAs και της συμμετοχής τους σε μηχανισμούς μετα-μεταγραφικής γονιδιακής ρύθμισης. Οι μελέτες έχουν δημοσιευθεί σε διεθνή περιοδικά υψηλής απήχησης και οι συνολικές ετεροαναφορές μέχρι σήμερα, σύμφωνα με το Google Scholar, είναι 942.
περισσότερα
Περίληψη σε άλλη γλώσσα
The emerging technological developments during the past decade enable large scale analyses in the “regulatory RNA” field and have turned non-coding RNA (ncRNA), initially considered as junk, into a research goldmine. ncRNAs play a crucial role in a remarkable variety of physiological and pathological biological processes. The vast production of data has also been the most important factor underlying the accelerated growth of bioinformatics, a field dedicated to the analysis of data and the development of computational tools indispensable for handling, manipulating and interpreting the results. This thesis focuses on the thorough aggregation of high-throughput data and state-of-the-art Machine Learning techniques in order to develop algorithms for the functional characterization of non-coding transcripts.The current dissertation is specialized on a specific category of RNA transcripts, the microRNAs. microRNAs (miRNAs) are small single stranded non-coding RNA molecules, ~22 nucleotides ...
The emerging technological developments during the past decade enable large scale analyses in the “regulatory RNA” field and have turned non-coding RNA (ncRNA), initially considered as junk, into a research goldmine. ncRNAs play a crucial role in a remarkable variety of physiological and pathological biological processes. The vast production of data has also been the most important factor underlying the accelerated growth of bioinformatics, a field dedicated to the analysis of data and the development of computational tools indispensable for handling, manipulating and interpreting the results. This thesis focuses on the thorough aggregation of high-throughput data and state-of-the-art Machine Learning techniques in order to develop algorithms for the functional characterization of non-coding transcripts.The current dissertation is specialized on a specific category of RNA transcripts, the microRNAs. microRNAs (miRNAs) are small single stranded non-coding RNA molecules, ~22 nucleotides long, that are loaded into Argonaute (AGO) to induce target cleavage, degradation or translational suppression. Accurate characterization of their targets is considered fundamental to elucidate their regulatory roles. Over the last 15 years, a multitude of in silico and experimental procedures have been developed aiming to determine the miRNA interactome. Currently, high-throughput techniques have enabled the identification of novel experimentally-supported miRNA-gene interactions in a transcriptome-wide scale. This wealth of information is dispersed in a great number of publications and raw datasets. During this thesis DIANA-TarBase v8.0, a reference database devoted to the indexing of experimentally-supported miRNA targets, was designed. Its 8th version is the first database to index more than 1 million entries, corresponding to ~700,000 unique miRNA target pairs, supported by more than 33 experimental methodologies, applied to 592 cell types/tissues under ~430 experimental conditions.AGO-CLIP-Seq experiments are the most widely used high-throughput methodologies. PAR-CLIP variant against AGO proteins methodology has been performed to map miRNA-gene interactions on a transcriptome-wide scale for healthy or disease cell types. Computational methods devoted to AGO-PAR-CLIP present reduced ability to distinguish a large portion of genuine miRNA-targets. To this end, one of the aims of this thesis was to revisit, identify and address current obstacles in AGO-CLIP-Seq analysis. An in silico framework for CLIP-guided identification of miRNA interactions, microCLIP model, was developed. microCLIP is the first relevant implementation to employ the innovative super learner ensemble framework and the only available A-to-Z computational approach for the analysis of AGO-PAR-CLIP datasets. It operates on every AGO-enriched cluster, providing previously neglected functional miRNA binding events with strong RNA accessibility.microCLIP deployment emboldened the development of a next generation de novo miRNA target prediction algorithm. Even the extensive production of relevant approaches observed during the past few years, leading implementations still achieve a far from perfect predictive accuracy followed by an increased number of false positives predictions. Therefore, microT Super Learning framework is presented that maintains and upgrades the pipeline adopted in microCLIP, by enhancing the training with even more high-throughput experiments under a tissue-specific scheme. The new model characterizes interactions with stronger functional efficacy and correctly detects 1.5-fold more experimentally validated target sites when juxtaposed against leading computational approaches. The increased performance of microCLIP and microT frameworks in the detection of miRNA interactions, uncovers previously elusive regulatory events and miRNA-controlled pathways.During this thesis, the candidate participated in 9 scientific studies, involving computational approaches for determining the activity of non-coding transcripts and in two of them is first author. The candidate’s main research activity and contribution in the publications incorporates the implementation of algorithms and automated pipelines for the analysis of Next Generation Sequencing data, data integration for the elucidation of non-coding RNA function and their involvement in mechanisms of post-transcriptional gene regulation. The studies are published in international journals of high impact factor and a total of 942 citations have been received so far, according to Google Scholar.
περισσότερα