Περίληψη
Η τεχνική σύλληψης κυκλικής διαμόρφωσης χρωμοσώματος ακολουθούμενη από προσδιορισμό αλληλουχίας υψηλής απόδοσης (4C-seq) έχει χρησιμοποιηθεί σε διάφορες μελέτες για τη διερεύνηση της δομής της χρωματίνης με τον εντοπισμό αλληλεπιδράσεων μεταξύ θραυσμάτων DNA. Θεωρείται ως μια οικονομικά αποδοτική και ισχυρή μέθοδος υψηλής ανάλυσης που μπορεί να μελετήσει όλες τις αλληλεπιδράσεις που πραγματοποιούνται σε όλο το γονιδίωμα από μια δεδομένη τοποθεσία ενδιαφέροντος. Αυτή η διατριβή περιγράφει μια μεθοδολογία ανάλυσης δεδομένων που είναι αφιερωμένη στην εύρεση, βάσει δεδομένων αλληλουχίας επόμενης γενιάς, γονιδιωματικών περιοχών που χαρακτηρίζονται από αυξημένη συχνότητα αλληλεπιδράσεων. Ο κύριος στόχος αυτής της διπλωματικής εργασίας είναι να παρουσιάσει λεπτομερώς αυτό το νέο σχήμα ανάλυσης, το οποίο αναπτύχθηκε ακολουθώντας δύο βασικές απαιτήσεις: την τήρηση των γενικά αποδεκτών κανόνων πειραματισμού και την προσπάθεια για μια ολοκληρωμένη περιγραφή των μελετημένων γονιδιωματικών γεγονότω ...
Η τεχνική σύλληψης κυκλικής διαμόρφωσης χρωμοσώματος ακολουθούμενη από προσδιορισμό αλληλουχίας υψηλής απόδοσης (4C-seq) έχει χρησιμοποιηθεί σε διάφορες μελέτες για τη διερεύνηση της δομής της χρωματίνης με τον εντοπισμό αλληλεπιδράσεων μεταξύ θραυσμάτων DNA. Θεωρείται ως μια οικονομικά αποδοτική και ισχυρή μέθοδος υψηλής ανάλυσης που μπορεί να μελετήσει όλες τις αλληλεπιδράσεις που πραγματοποιούνται σε όλο το γονιδίωμα από μια δεδομένη τοποθεσία ενδιαφέροντος. Αυτή η διατριβή περιγράφει μια μεθοδολογία ανάλυσης δεδομένων που είναι αφιερωμένη στην εύρεση, βάσει δεδομένων αλληλουχίας επόμενης γενιάς, γονιδιωματικών περιοχών που χαρακτηρίζονται από αυξημένη συχνότητα αλληλεπιδράσεων. Ο κύριος στόχος αυτής της διπλωματικής εργασίας είναι να παρουσιάσει λεπτομερώς αυτό το νέο σχήμα ανάλυσης, το οποίο αναπτύχθηκε ακολουθώντας δύο βασικές απαιτήσεις: την τήρηση των γενικά αποδεκτών κανόνων πειραματισμού και την προσπάθεια για μια ολοκληρωμένη περιγραφή των μελετημένων γονιδιωματικών γεγονότων και σημάτων.Αρχικά, περιγράφουμε την προετοιμασία, τα χαρακτηριστικά και τον σχεδιασμό ενός πειράματος 4C-seq. Στη συνέχεια, παρουσιάζουμε τις πιο σημαντικές μεθόδους ανάλυσης δεδομένων 4C-seq. Σε αυτό το πλαίσιο, προτείνουμε τη νέα μέθοδο ανάλυσης δεδομένων 4C-seq που ονομάζεται 4CseqR. Περιγράφουμε όλα τα στοιχεία του, δηλαδή τις επιλεγμένες υπολογιστικές και στατιστικές μεθόδους. Όλα τα βήματα της προτεινόμενης ανάλυσης μελετώνται και συζητούνται. Προχωρούν από την προεπεξεργασία των αναγνώσεων αλληλουχίας επόμενης γενιάς, μέσω της χαρτογράφησης και επεξεργασίας των χαρτογραφημένων αναγνώσεων, της κανονικοποίησης της κάλυψης ανάγνωσης, μέχρι την κλήση σημαντικών επαφών και τη συγκριτική στατιστική ανάλυση πειραματικών παραλλαγών. Το τελευταίο βήμα βασίζεται σε δύο στατιστικές προσεγγίσεις: ανάλυση μεταβλητών συνεχούς απόκρισης με γραμμικά μικτά μοντέλα και ανάλυση διακριτών αποκρίσεων σε πίνακες έκτακτης ανάγκης. Τέλος, παρουσιάζεται μια σύγκριση μεταξύ των αποτελεσμάτων που προέκυψαν από την προτεινόμενη μέθοδο 4CseqR και μιας από τις υπάρχουσες μεθόδους, το fourSig.Προκειμένου να απεικονιστεί η ροή εργασίας και τα αποτελέσματα της ανάλυσης δεδομένων, χρησιμοποιήθηκαν σύνολα δεδομένων που αφορούν δύο διαφορετικά είδη, ένα από μια μελέτη αφιερωμένη στον έλεγχο της εαρνοποίησης στο Arabidopsis thaliana από το γονίδιο FLOWERING LOCUS C (FLC) και ένα άλλο από μια μελέτη αλληλεπιδράσεις χρωματίνης μακράς εμβέλειας σε εμβρυϊκά βλαστοκύτταρα Mus musculus.
περισσότερα
Περίληψη σε άλλη γλώσσα
The circular chromosome conformation capture technique followed by high throughput sequencing (4C-seq) has been used in a number of studies to investigate chromatin structure by identifying interactions between DNA fragments. It is considered as a cost effective and powerful high resolution method which can study all interactions made across the genome by a given site of interest. This dissertation describes a data analysis methodology devoted to finding, on the basis of next generation sequencing data, genomic regions that are characterized by an elevated frequency of interactions. The main goal of this thesis is to present in detail this new analysis schema, which was developed by following two main requirements: adhering to the generally accepted rules of experimentation and striving at a comprehensive description of studied genomic events and signals. To begin with, we describe the preparation, the characteristics and the design of a 4C-seq experiment. Then, we present the most i ...
The circular chromosome conformation capture technique followed by high throughput sequencing (4C-seq) has been used in a number of studies to investigate chromatin structure by identifying interactions between DNA fragments. It is considered as a cost effective and powerful high resolution method which can study all interactions made across the genome by a given site of interest. This dissertation describes a data analysis methodology devoted to finding, on the basis of next generation sequencing data, genomic regions that are characterized by an elevated frequency of interactions. The main goal of this thesis is to present in detail this new analysis schema, which was developed by following two main requirements: adhering to the generally accepted rules of experimentation and striving at a comprehensive description of studied genomic events and signals. To begin with, we describe the preparation, the characteristics and the design of a 4C-seq experiment. Then, we present the most important 4C-seq data analysis methods. Against this background, we propose the new method of 4C-seq data analysis called 4CseqR. We describe all its elements, that is, the selected computational and statistical methods. All steps of the proposed analysis are studied and discussed. They proceed from the pre-processing of next-generation sequencing reads, through the mapping and treatment of mapped reads, the normalization of read coverage, until the calling of significant contacts and the comparative statistical analysis of experimental variants. The latter step is based on two statistical approaches: analysis of continuous response variables by linear mixed models and analysis of discrete responses in contingency tables. Finally, a comparison between the results obtained by the proposed 4CseqR method and one of the existing method, fourSig, is presented. In order to illustrate the workflow and the results of the data analysis, datasets concerning two different species have been used, one from a study devoted to vernalization control in Arabidopsis thaliana by the FLOWERING LOCUS C (FLC) gene and another one from a study of long-range chromatin interactions in Mus musculus embryonic stem cells.
περισσότερα