Περίληψη
Τα microRNAs (miRNAs) είναι μικρά, μη-κωδικά RNAs που λειτουργούν ως βασικοί μετα-μεταγραφικοί ρυθμιστές της γονιδιακής έκφρασης, επηρεάζοντας ποικίλες βιολογικές οδούς μέσω σύνθετων δικτύων ρύθμισης γονιδίων. Οι βιολογικές συνέπειες της δράσης των miRNAs εξαρτώνται όχι μόνο από τη βιογένεση και την αναγνώριση των στόχων τους, αλλά και από πλήθος άλλων μοριακών και κυτταρικών παραγόντων. Γενετικές παραλλαγές στα miRNAs και στις θέσεις πρόσδεσής τους μπορούν να μεταβάλουν αυτές τις αλληλεπιδράσεις, οδηγώντας σε αλλαγές στη γονιδιακή ρύθμιση που, μαζί με άλλους παράγοντες, συμβάλλουν στην παθογένεση νόσων και στο ρίσκο καρκινογένεσης. Ως εκ τούτου, η λεπτομερής μελέτη των miRNA::γονιδίων συσχετίσεων παραμένει κρίσιμη για την ιατρική και τη μεταφραστική γονιδιωματική. Η παρούσα διατριβή παρουσιάζει την ανάπτυξη και αξιολόγηση υπολογιστικών ροών εργασίας (pipelines) για τον αυτοματοποιημένο εντοπισμό και χαρακτηρισμό των αλληλεπιδράσεων miRNA::γονιδίων από τη βιοϊατρική βιβλιογραφία και τα ...
Τα microRNAs (miRNAs) είναι μικρά, μη-κωδικά RNAs που λειτουργούν ως βασικοί μετα-μεταγραφικοί ρυθμιστές της γονιδιακής έκφρασης, επηρεάζοντας ποικίλες βιολογικές οδούς μέσω σύνθετων δικτύων ρύθμισης γονιδίων. Οι βιολογικές συνέπειες της δράσης των miRNAs εξαρτώνται όχι μόνο από τη βιογένεση και την αναγνώριση των στόχων τους, αλλά και από πλήθος άλλων μοριακών και κυτταρικών παραγόντων. Γενετικές παραλλαγές στα miRNAs και στις θέσεις πρόσδεσής τους μπορούν να μεταβάλουν αυτές τις αλληλεπιδράσεις, οδηγώντας σε αλλαγές στη γονιδιακή ρύθμιση που, μαζί με άλλους παράγοντες, συμβάλλουν στην παθογένεση νόσων και στο ρίσκο καρκινογένεσης. Ως εκ τούτου, η λεπτομερής μελέτη των miRNA::γονιδίων συσχετίσεων παραμένει κρίσιμη για την ιατρική και τη μεταφραστική γονιδιωματική. Η παρούσα διατριβή παρουσιάζει την ανάπτυξη και αξιολόγηση υπολογιστικών ροών εργασίας (pipelines) για τον αυτοματοποιημένο εντοπισμό και χαρακτηρισμό των αλληλεπιδράσεων miRNA::γονιδίων από τη βιοϊατρική βιβλιογραφία και τα πειραματικά δεδομένα. Προηγμένες τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) - συμπεριλαμβανομένων μοντέλων μετασχηματιστών (transformers) και βαθιάς μάθησης (deep learning) - χρησιμοποιήθηκαν για εντοπισμό, σχολιασμό και εξαγωγή πιθανών συσχετίσεων. Η ροή εργασίας συνδύασε προσεκτική κανονικοποίηση οντοτήτων, ανάλυση εξαρτήσεων και φιλτράρισμα βασιζόμενο στα συμφραζόμενα, ακολουθούμενη από συστηματική αξιολόγηση έναντι χειροκίνητα επιμελημένων βάσεων αναφοράς. Για τη βελτίωση της ακρίβειας και την ανίχνευση σημασιολογικά έγκυρων σχέσεων, ενσωματώθηκαν μεγάλα γλωσσικά μοντέλα (LLMs) ως φίλτρα μετα-επεξεργασίας, χρησιμοποιώντας τεχνικές σχεδιασμού ερωτημάτων και παραδειγμάτων εντός συμφραζομένων για τη βελτίωση των προβλέψεων και τον αποκλεισμό λανθασμένων εξαγωγών. Παράλληλα, η διατριβή αυτή παρουσιάζει το microT-CNN: ένα συνελικτικό νευρωνικό δίκτυο σχεδιασμένο για την πρόβλεψη στόχων των miRNAs σε επίπεδο μεταγράφου. Εκπαιδευμένο σε διάφορα πειραματικά δεδομένα υψηλής απόδοσης - όπως CLIP-seq, χιμαιρικά θραύσματα miRNA::στόχων και πειράματα διαταραχής έκφρασης σε συμβατά ιστικά περιβάλλοντα - το microT-CNN εντοπίζει τόσο κανονικές όσο και μη-κανονικές περιοχές πρόσδεσης miRNA στις 3'UTR περιοχές και τις περιοχές κωδικοποίησης. Το μοντέλο καταγράφει επίσης αλληλεπιδράσεις μεταξύ ιογενών miRNA και γονιδίων του ξενιστή, αξιοποιώντας χαρακτηριστικά όπως η διατήρηση της αλληλουχίας, η προσβασιμότητα της περιοχής και η δομή πρόσδεσης. Αυτή η ευέλικτη αρχιτεκτονική επιτρέπει στο microT-CNN να προωθήσει τον χαρακτηρισμό των στόχων των miRNA πέρα από τα παραδοσιακά μοντέλα. Επεκτάσεις των μεθόδων εξαγωγής πληροφορίας επέτρεψαν τον συστηματικό εντοπισμό συσχετίσεων γονιδίου-παραλλαγής-καρκίνου, χρησιμοποιώντας ροές εργασίας LLM επικεντρωμένες σε οντότητες (entity-primed) και εφαρμοσμένες σε ευρύ σύνολο περιλήψεων της PubMed. Η προκύπτουσα πλατφόρμα υποστηρίζει συνεπή σχολιασμό και εξαγωγή σύνθετων τριπλών σχέσεων μεταξύ γονιδίων, παραλλαγών και τύπων καρκίνου, διευκολύνοντας την έρευνα σε μοριακούς μηχανισμούς, ασθένειες και κλινικά αποτελέσματα. Συνολικά, τα δεδομένα και τα υπολογιστικά εργαλεία που παρήχθησαν σε αυτή τη διατριβή προσφέρουν ένα πλαίσιο για μεταφραστική έρευνα, δημιουργία υποθέσεων και ενοποίηση με βιοϊατρικές βάσεις δεδομένων. Αν και οι προσεγγίσεις αυτές προσφέρουν σημαντικές προόδους, συνεχίζονται οι προσπάθειες για ενσωμάτωση νέων πειραματικών και βιβλιογραφικών πηγών, βελτίωση της αναγνώρισης οντοτήτων και προσαρμογή σε άλλες εργασίες συσχετίσεων βιομορίων, ώστε να επιτευχθεί περαιτέρω πρόοδος. Αναμένεται ότι οι συνεισφορές αυτής της εργασίας θα στηρίξουν τη συνεχή ανάπτυξη στην ανακάλυψη μοριακών δικτύων και την ιατρική ακριβείας. Κατά τη διάρκεια της διατριβής, η υποψήφια συνέβαλε σε πέντε επιστημονικές μελέτες που καλύπτουν τα πεδία της μηχανικής μάθησης, της επεξεργασίας φυσικής γλώσσας, της βαθιάς μάθησης και της εξόρυξης δεδομένων μεγάλης κλίμακας στη βιοπληροφορική. Η έρευνα επικεντρώθηκε τόσο στην αυτοματοποιημένη εξαγωγή και επιμέλεια συσχετίσεων μοριακών βιοδεικτών - χρησιμοποιώντας προηγμένες ροές NLP και μεγάλα γλωσσικά μοντέλα - όσο και στην ανάπτυξη νευρωνικών δικτύων προσαρμοσμένων για πρόβλεψη στόχων miRNA σε επίπεδο μεταγραφώματος. Κεντρικά θέματα αποτέλεσαν τα miRNAs, οι γενετικές παραλλαγές, τα γονίδια και οι τύποι καρκίνου. Ιδιαίτερη έμφαση δόθηκε στη δημιουργία, την αξιολόγηση και την εφαρμογή ανθεκτικών αλγορίθμων εξαγωγής πληροφορίας και πρόβλεψης για την προώθηση της μεταφραστικής γονιδιωματικής και της ανακάλυψης βιοϊατρικής γνώσης. Οι εν λόγω μελέτες έχουν δημοσιευθεί σε διεθνή περιοδικά υψηλού κύρους και έχουν συνολικά λάβει 418 αναφορές έως σήμερα (Google Scholar, 04/2025). Οι παρακάτω δημοσιεύσεις οργανώνονται ανάλογα με το κύριο ερευνητικό τους θέμα, με περίληψη των βασικών συνεισφορών της υποψήφιας και της ευρύτερης επίδρασης κάθε μελέτης.
περισσότερα
Περίληψη σε άλλη γλώσσα
MicroRNAs (miRNAs) are small non-coding RNAs that function as key post-transcriptional regulators of gene expression, modulating diverse pathways through complex gene regulatory networks. The biological consequences of miRNA activity depend not only on their biogenesis and target recognition but also on a variety of other molecular and cellular factors. Genetic variants in miRNAs and their binding sites can alter these interactions, leading to changes in gene regulation that, together with many other elements, contribute to disease pathogenesis and cancer susceptibility. As a result, detailed study of miRNA–gene associations remains vital for molecular medicine and translational genomics. This thesis presents the development and evaluation of computational pipelines for the automated identification and characterization of miRNA–gene interactions from biomedical literature and experimental data. Advanced natural language processing (NLP) methodologies - including transformer-based and d ...
MicroRNAs (miRNAs) are small non-coding RNAs that function as key post-transcriptional regulators of gene expression, modulating diverse pathways through complex gene regulatory networks. The biological consequences of miRNA activity depend not only on their biogenesis and target recognition but also on a variety of other molecular and cellular factors. Genetic variants in miRNAs and their binding sites can alter these interactions, leading to changes in gene regulation that, together with many other elements, contribute to disease pathogenesis and cancer susceptibility. As a result, detailed study of miRNA–gene associations remains vital for molecular medicine and translational genomics. This thesis presents the development and evaluation of computational pipelines for the automated identification and characterization of miRNA–gene interactions from biomedical literature and experimental data. Advanced natural language processing (NLP) methodologies - including transformer-based and deep learning models—were used for large-scale screening, annotation, and extraction of candidate associations. The pipeline combined careful entity normalization, dependency parsing, and contextual filtering, followed by systematic evaluation against manually curated gold-standard datasets. To improve precision and the capture of semantically meaningful relationships, large language models (LLMs) were incorporated as post-processing filters, using prompt design and in-context examples to refine predictions and exclude erroneous extractions. In parallel, this thesis introduces microT-CNN: a convolutional neural network designed for miRNA target prediction at the transcriptome scale. Trained on diverse high-throughput experimental datasets - such as CLIP-seq, chimeric miRNA–target fragments, and tissue-matched perturbation experiments—microT-CNN identifies both canonical and non-canonical miRNA binding within 3’ UTR and coding regions. The model also captures virus-encoded miRNA–host gene interactions, and leverages features such as sequence conservation, regional accessibility, and binding structure. This flexible architecture enables microT-CNN to advance the characterization of miRNA targeting beyond traditional models. Extensions of these information extraction methods enabled the systematic identification of gene–variant–cancer associations, using entity-primed LLM pipelines applied to a large corpus of PubMed abstracts. The resulting platform supports consistent annotation and extraction of complex triplet relationships among genes, variants, and cancer types—facilitating research into molecular mechanisms, disease associations, and clinical outcomes. Collectively, the datasets and computational tools produced in this thesis provide a framework for translational research, hypothesis generation, and integration with biomedical databases. While these approaches offer notable advances, ongoing efforts to incorporate new experimental and literature resources, improve entity recognition, and adapt to other biomolecular association tasks will be essential for further progress. It is anticipated that the contributions of this work will support continued development in molecular network discovery and precision medicine. During the course of this thesis, the candidate contributed to five scientific studies spanning machine learning, natural language processing, deep learning, and large-scale data mining in computational biology. The research focused on both the automated extraction and curation of molecular biomarker associations - using advanced NLP pipelines and large language models - and the development of neural networks tailored for transcriptome-scale miRNA target prediction. Central topics included microRNAs, genetic variants, genes, and cancer types. Special emphasis was placed on the creation, benchmarking, and application of robust information extraction and prediction algorithms to advance translational genomics and biomedical knowledge discovery. These works have been published in high-impact, international journals and have collectively received 418 citations to date (Google Scholar, 04/2025). The following publications are organized by their principal research topic, with a summary of the candidate’s main contributions and the broader impact of each study.
περισσότερα