Περίληψη
Η παρούσα μελέτη βρίσκει εφαρμογή στα πεδίο της βιοπληροφορικής καθώς και στην ανάλυση μεγάλων βιολογικών δεδομένων με την χρήση αλγορίθμων μηχανικής μάθησης. Η μελέτη εστιάζει σε ρυθμιστικές περιοχές και θέτει δύο στόχους. Δημιουργία αλγορίθμων μηχανικής μάθησης για την εύρεση θέσεων έναρξης μεταγραφής με ακρίβεια μιας νουκλεοτιδικής βάσης καθώς και τον λειτουργικό χαρακτηρισμό μεταλλάξεων σε ρυθμιστικές περιοχές. Ο πρώτος βιολογικός στόχος της παρούσας μελέτης είναι η εύρεση των υποκινητών των γονιδίων. Το CAGE είναι ένα πρωτόκολλο που προσφέρει πολλά πλεονεκτήματα για τη μελέτη των θέσεων έναρξης της μεταγραφής των γονιδίων, τη χρήση εναλλακτικού υποκινητή και την ταυτοποίηση των ενισχυτών (enhancers). Παρά την αυξημένη δημοτικότητα αυτού του πρωτοκόλλου, το CAGE δεν λείπει από τη λίστα των πειραματικών μεθόδων που εισάγουν βιολογικό και τεχνικό θόρυβο ο οποίος μπορεί να μειώσει σημαντικά την αξιοπιστία των αναλύσεων. Έτσι, προκύπτει η ανάγκη για υπολογιστικές μεθόδους, οι οποίες ...
Η παρούσα μελέτη βρίσκει εφαρμογή στα πεδίο της βιοπληροφορικής καθώς και στην ανάλυση μεγάλων βιολογικών δεδομένων με την χρήση αλγορίθμων μηχανικής μάθησης. Η μελέτη εστιάζει σε ρυθμιστικές περιοχές και θέτει δύο στόχους. Δημιουργία αλγορίθμων μηχανικής μάθησης για την εύρεση θέσεων έναρξης μεταγραφής με ακρίβεια μιας νουκλεοτιδικής βάσης καθώς και τον λειτουργικό χαρακτηρισμό μεταλλάξεων σε ρυθμιστικές περιοχές. Ο πρώτος βιολογικός στόχος της παρούσας μελέτης είναι η εύρεση των υποκινητών των γονιδίων. Το CAGE είναι ένα πρωτόκολλο που προσφέρει πολλά πλεονεκτήματα για τη μελέτη των θέσεων έναρξης της μεταγραφής των γονιδίων, τη χρήση εναλλακτικού υποκινητή και την ταυτοποίηση των ενισχυτών (enhancers). Παρά την αυξημένη δημοτικότητα αυτού του πρωτοκόλλου, το CAGE δεν λείπει από τη λίστα των πειραματικών μεθόδων που εισάγουν βιολογικό και τεχνικό θόρυβο ο οποίος μπορεί να μειώσει σημαντικά την αξιοπιστία των αναλύσεων. Έτσι, προκύπτει η ανάγκη για υπολογιστικές μεθόδους, οι οποίες να μπορούν να αυξήσουν με ακρίβεια την αναλογία σήματος προς θόρυβο στα δεδομένα CAGE, με αποτέλεσμα την ακριβή εύρεση θέσεων έναρξης της μεταγραφής καθώς και την ποσοτικοποίηση της έκφρασης των γονιδίων. Ο DiS-TSS, είναι ένα υπολογιστικό πλαίσιο, που για πρώτη φορά χρησιμοποιεί χαρακτηριστικά εμπνευσμένα από την επεξεργασία ψηφιακών σημάτων και προσαρμοσμένα στις ιδιαιτερότητες των δεδομένων CAGE. Χαρακτηριστικά μορφολογίας του σήματος και της συχνότητας συνδυάζονται με ένα άρτια εκπαιδευμένο μοντέλο Μηχανών Διανυσμάτων Υποστήριξης για την ακριβή διάκριση μεταξύ των κορυφών που σχετίζονται με πραγματικά συμβάντα έναρξης μεταγραφής και του θορύβου που προκαλείται. Όταν συγκρίθηκε με πειραματικά δεδομένα για ενεργές περιοχές μεταγραφής γονιδίων, ο DiS-TSS βρέθηκε να ξεπερνά τις υπάρχουσες υλοποιήσεις, παρέχοντας κατά μέσο όρο ~11.000 θετικές προβλέψεις και αύξηση της απόδοσης κατά ~5% σε αξιολογήσεις που συνδυάζουν και πειραματικά δεδομένα.Ο αλγόριθμος DeepTSS, ο οποίος είναι μια νέα υπολογιστική μέθοδος για την επεξεργασία δειγμάτων CAGE, που συνδυάζει την επεξεργασία γονιδιωματικού σήματος (GSP), δομικά χαρακτηριστικά του DNA, την συντήρηση των περιοχών και την αλληλουχία του DNA με Βαθιά Μάθηση (Deep Learning) ώστε να παρέχει προβλέψεις έναρξης της μεταγραφής των γονιδίων με ακρίβεια ενός νουκλεοτιδίου με υψηλή απόδοση.Ο δεύτερος βιολογικός στόχος εφαρμόζεται στον τομέα της γενετικής με την αξιολόγηση της επιβίωσης ασθενών με καρκίνο. Η πρόγνωση του καρκίνου είναι μια εξαιρετικά ευαίσθητη διαδικασία όπου γίνεται εκτίμηση του κινδύνου και της έκβασης της επιβίωσης των ασθενών. Για την πρόβλεψη της επιβίωσης σε καρκινοπαθείς ασθενείς, έχουν γίνει πολλές διαφορετικές προσεγγίσεις, χρησιμοποιώντας έκφραση κωδικών ή/και μη-κωδικών γονιδίων, μετα-δεδομένων (ηλικία, στάδιο καρκίνου, φύλο κ.λπ.), προφίλ μεθυλίωσης και ιατρικές εικόνες (MRI, αξονική τομογραφία κ.λπ.) . Έτσι, οι γονιδιωματικές αλλοιώσεις σε περιοχές ρυθμιστικών γονιδίων δεν έχουν μελετηθεί σε βάθος.Στην παρούσα διατριβή χρησιμοποιείται μια νέα τεχνική βαθιάς ομαδοποίησης (Deep Clustering), αξιοποιώντας τα πλεονεκτήματα των autoencoders σε δεδομένα αλληλουχίας DNA για τον ακριβή διαχωρισμό ασθενών υψηλού και χαμηλού κινδύνου σε οκτώ διαφορετικούς καρκίνους ιστούς. Έχουν αναλυθεί περισσότερα από 1000 ολόκληρα γονιδιώματα πρωτογενούς όγκου, που ανακτήθηκαν από το αποθετήριο ICGC. Τα συνολικά ευρήματα υποδηλώνουν ότι οι ρυθμιστικές περιοχές όπως ο υποκινητής, παίζουν βασικό ρόλο στην πρόγνωση του κινδύνου επιβίωσης σε οκτώ ιστούς με δύο επίπεδα θνησιμότητας για τις καμπύλες Kaplan-Meier. Έτσι, οι γονιδιωματικές μεταλλάξεις σε περιοχές υποκινητών έχουν υποκείμενα μοτίβα ικανά να διακρίνουν μεταξύ ασθενών υψηλού ή χαμηλού κίνδυνο επιβίωσης.
περισσότερα
Περίληψη σε άλλη γλώσσα
This study is part of the research areas of bioinformatics and large-scale data analysis by utilizing Machine Learning algorithms. Current research focuses on regulatory regions with two major biological objectives. Creating robust machine learning algorithms for single nucleotide resolutions transcription start site discovery and functional characterization of variants in regulatory regions. First biological objective for the current study is the characterization of regulatory promoter region of genes. CAGE is a protocol that offers a clear advantage when studying the dynamics related to transcription initiation, alternative promoter usage and the identification of enhancer RNAs. Despite the increased popularity of this protocol, CAGE is not absent from the list of experimental methods that suffer from biological and technical noise which can significantly diminish the robustness of downstream analyses. Thus, the need for computational methods emerges, that can accurately increase the ...
This study is part of the research areas of bioinformatics and large-scale data analysis by utilizing Machine Learning algorithms. Current research focuses on regulatory regions with two major biological objectives. Creating robust machine learning algorithms for single nucleotide resolutions transcription start site discovery and functional characterization of variants in regulatory regions. First biological objective for the current study is the characterization of regulatory promoter region of genes. CAGE is a protocol that offers a clear advantage when studying the dynamics related to transcription initiation, alternative promoter usage and the identification of enhancer RNAs. Despite the increased popularity of this protocol, CAGE is not absent from the list of experimental methods that suffer from biological and technical noise which can significantly diminish the robustness of downstream analyses. Thus, the need for computational methods emerges, that can accurately increase the signal-to-noise ratio in CAGE data, resulting in error-free transcription start site annotation and quantification of regulatory region usage.DiS-TSS, an annotation agnostic computational framework, that for the first time utilizes digital signal processing inspired features customized on the peculiarities of CAGE data. Features from the spatial and frequency domains are combined with a robustly trained Support Vector Machines model to accurately distinguish between peaks related to real transcription initiation events and biological or protocol-induced noise. When benchmarked on experimentally derived data on active transcription marks as well as annotated TSSs, DiS-TSS was found to outperform existing implementations, by providing on average ~11k positive predictions and an increase in performance by ~5% based on in the experimental and annotation-based evaluations.The DeepTSS algorithm, which is a novel computational method for processing CAGE samples, that combines genomic signal processing (GSP), structural DNA features, evolutionary conservation evidence and raw DNA sequence with Deep Learning (DL) to provide single-nucleotide TSS predictions with unprecedented levels of performance.Second biological objective applies in the field of genetics by assessing the survival risk of cancer patients. Cancer prognosis is a highly sensitive process where patients’ risk state and survival outcome are accessed. For the prediction of survival prognosis in cancerous patients, many approaches have been introduced, including coding and/or non-coding expression profiles, metadata (age, cancer stage, sex etc), methylation profiles and medical images (MRI, CT scan etc). Thus, genomic alterations in regulatory gene regions lack consideration and extensive exploratory analysis.A novel deep clustering technique is utilized, using the advantages of autoencoders in DNA sequencing data to accurately separate high and low risk patients in eight different primary cancer tissues. More than 1000 primary tumor whole genomes have been analyzed, retrieved from the ICGC repository. Overall findings suggest that promoter regulatory regions play a key role in survival risk prognosis in eight tissues with two levels of mortality for the Kaplan-Meier curves. Thus, promoter loci with genomic variations have underling patterns able to distinguish between high and low risk cancer patients.Development of reliable machine learning, as well as deep learning algorithms in current dissertation may pave the way for deciphering biological problems and contribute to advancing the field of gene regulation, as well as advance genetics by discovering the functional impact of variants in regulatory regions.
περισσότερα