Περίληψη
Microbial communities are a cornerstone for most ecosystem types. To elucidate the mechanisms governing such assemblages, it is fundamental to identify the taxa present (who) and the processes that occur (what) in the various environments (where). Thanks to a series of technological breakthroughs vast amounts of information/data from all the various levels of the biological organization have been accumulated over the last decades. In this context, microbial ecology studies are now relying on bioinformatics methods and analyses. Therefore, a great number of challenges both from the biologist- and the computer scientist point-of-view have arisen; one among the most emerging ones being: "what shall we do with all these pieces of information?". The paradigm of Systems Biology addresses this challenge by moving from reductionism to more holistic approaches attempting to interpret how the properties of a system emerge.Aim of this PhD was to enhance microbiome data analyses by developing soft ...
Microbial communities are a cornerstone for most ecosystem types. To elucidate the mechanisms governing such assemblages, it is fundamental to identify the taxa present (who) and the processes that occur (what) in the various environments (where). Thanks to a series of technological breakthroughs vast amounts of information/data from all the various levels of the biological organization have been accumulated over the last decades. In this context, microbial ecology studies are now relying on bioinformatics methods and analyses. Therefore, a great number of challenges both from the biologist- and the computer scientist point-of-view have arisen; one among the most emerging ones being: "what shall we do with all these pieces of information?". The paradigm of Systems Biology addresses this challenge by moving from reductionism to more holistic approaches attempting to interpret how the properties of a system emerge.Aim of this PhD was to enhance microbiome data analyses by developing software addressing on-going computational challenges on the study of microbial communities. On top of that, to exploit such state-of-the-art methods to study microbial assemblages in extreme environments. To this end, the Tristomo marsh in Karpathos island (Greece), was chosen as a study case. Environmental DNA and metabarcoding have been widely used to estimate the biodiversity (the who) and the structure of communities. Vast amount of sequencing data targeting certain marker genes depending the taxonomic group of interest become available thanks to High Throughput Sequencing technologies. However, the bioinformatics analysis of such data require multiple steps and parameter settings as well as increase computing resources. Workflows along with computing infrastructures ease this need to a great extent; in this nontion, a Pipeline for environmental DNA Metabarcoding Analysis (PEMA) was developed (Chapter 2.1). However, eDNA metabarcoding has limitations too. Cytochrome c oxidase subunit I (COI) marker gene is a commonly used marker gene, especially in studies targeting eukaryotic taxa. It is well known that in COI studies a great number of the derived Operational Taxonomic Unitss (OTUs) get no taxonomic hits. The presence of pseudogenes but also of non-eukaryotic taxa among the amplicon data, with the simultaneous absence of the latter from the most commonly-used reference databases justify this phenomenon to a great extent. To identify such cases the Dark mAtteR iNvestigator (DARN) software was developed; DARN makes use of a COI-oriented tree of life toprovide further insight to such known unknown sequences (Chapter 2.2).Amplicon and shotgun metagenomics approaches along with the rest of the omics technologies, have led to vast amount of data and metadata, recording the who, the what and the where. To enable optimal accessibility and usage of this information, a great number of databases, ontologies as well as community-standards have been developed. By exploiting data integration techniques to bring such bits of information together, as well as text mining methods to retrieve knowledge "hidden" among the billions of text lines in already published literature, the PREGO knowledge-base returns thousands of what-where-who potential associations (Chapter 3).The driving question though is how the different microbial taxa ascertain their endurance as part of a community. Metabolic interactions among the various taxa play a decisive role for the composition of such assemblages. Genome-scale metabolic networks (GEMs) enable the inference of such interactions. Random sampling on the flux space of such metabolic models, provides a representation of the flux values a model can get under various conditions. However, flux sampling is challenging from a computational point of view, especially as the dimension of a metabolic model increases. To address such challenges, a Python library called dingo was developed using a Multiphase Monte Carlo Sampling algorithm (Chapter 4).Finally, sediment and microbial mat samples as well as microbial aggregates from a hypersaline marsh in Tristomo bay (Karpathos, Greece) were analyzed. Both amplicon(16S rRNA) and shotgun sequencing data were used to characterize the microbial structure of the communities and environmental parameters (e.g. salinity, oxygen concentration)were measured at the sampling sites. Key functions supporting life in such environments were identified and metagenome-assembled genomes (MAGs) of novel species found were built (Chapter 5). Similar to microbial communities, bioinformatics methods tend to build assemblages while "living" on your own is quite rare. The methods developed during this PhD project combined with state-of-the-art methods anticipate to build a framework that enables moving from the community to the species level and then back again to the one of the community. Such a framework is described for the study of microbial interactions at real-world communities.
περισσότερα
Περίληψη σε άλλη γλώσσα
Οι μικροβιακές κοινότητες αποτελούν ακρογωνιαίο λίθο για τους περισσότερους τύπους οικοσυστημάτων. Για να διευκρινιστούν οι μηχανισμοί που καθορίζουν τέτοιες κοινότητες είναι καθοριστικής σημασίας η αναγνώριση των τάξων που τις απαρτίζουν (ποιος) καθώς και των διεργασιών που πραγματοποιούνται (τι) στους διάφορους τύπους περιβαλλόντων (που). Χάρη σε μια σειρά τεχνολογικών επιτευγμάτων, ιδιαίτερα μεγάλες ποσότητες πληροφορίας/δεδομένων από όλα τα επίπεδα οργάνωσης της ζωής έχουν σωρευτεί τις τελευταίες δεκαετίες. Σε αυτό το πλαίσιο, οι μελέτες μικροβιακής οικολογίας είναι άρρηκτα συνδεδεμένες και βασίζονται σε βιοπληροφορικές μεθόδους και αναλύσεις. Ωστόσο, έχει προκύψει ένας σημαντικός αριθμός προκλήσεων τόσο από την βιολογική σκοπιά όσο και από αυτήν την επιστήμης υπολογιστών. Μεταξύ αυτών, καθοριστικό ερώτημα αποτελεί το τι μπορούμε να κάνουμε με όλα αυτά τα επιμέρους κομμάτια πληροφορίας·. Το παράδειγμα της Βιολογίας Συστημάτων απαντά σε αυτό το ερώτημα περνώντας από πιο αναγωγικές σ ...
Οι μικροβιακές κοινότητες αποτελούν ακρογωνιαίο λίθο για τους περισσότερους τύπους οικοσυστημάτων. Για να διευκρινιστούν οι μηχανισμοί που καθορίζουν τέτοιες κοινότητες είναι καθοριστικής σημασίας η αναγνώριση των τάξων που τις απαρτίζουν (ποιος) καθώς και των διεργασιών που πραγματοποιούνται (τι) στους διάφορους τύπους περιβαλλόντων (που). Χάρη σε μια σειρά τεχνολογικών επιτευγμάτων, ιδιαίτερα μεγάλες ποσότητες πληροφορίας/δεδομένων από όλα τα επίπεδα οργάνωσης της ζωής έχουν σωρευτεί τις τελευταίες δεκαετίες. Σε αυτό το πλαίσιο, οι μελέτες μικροβιακής οικολογίας είναι άρρηκτα συνδεδεμένες και βασίζονται σε βιοπληροφορικές μεθόδους και αναλύσεις. Ωστόσο, έχει προκύψει ένας σημαντικός αριθμός προκλήσεων τόσο από την βιολογική σκοπιά όσο και από αυτήν την επιστήμης υπολογιστών. Μεταξύ αυτών, καθοριστικό ερώτημα αποτελεί το τι μπορούμε να κάνουμε με όλα αυτά τα επιμέρους κομμάτια πληροφορίας·. Το παράδειγμα της Βιολογίας Συστημάτων απαντά σε αυτό το ερώτημα περνώντας από πιο αναγωγικές σε πιο ολιστικές προσεγγίσεις προσπαθώντας να ερμηνεύσει το πως προκύπτουν και συνδέονται οι ιδιότητες ενός συστήματος.Στόχος αυτής της διδακτορικής διατριβής ήταν να ενισχύσει την ανάλυση δεδομένων από μικροβιώματα αναπτύσσοντας λογισμικά εργαλεία που να απαντούν σε τρέχουσσες υπολογιστικές προκλήσεις για την μελέτη μικροβιακών κοινοτήτων. Επιπλέον, να μελετήσει μικροβιακές κοινότητες σε ακραία περιβάλλοντα εφαρμόζοντας σύγχρονες μεθόδους για την αναγνώριση τάξων και διεργασιών. Για την επίτευξη αυτού του στόχου, το έλος Τριστόμου στο νησί της Καρπάθου, επιλέχθηκε ως περιοχή μελέτης.Το περιβαλλοντικό DNA και η μέθοδος της μετακωδικοποίησης έχουν χρησιμοποιηθεί σημαντικά για την εκτίμηση της βιοποικιλότητας (ποιος) και τη δομή των κοινοτήτων. Σημαντικός αριθμός αλληλουχικών δεδομένων που στοχεύουν σε ορισμενα γονίδια δείκτες και που εξαρτόνται από τις ταξινομικές ομάδες στόχους, είναι διαθέσιμα χάρη στις τεχνικές αλληλούχισης υψηλής απόδοσης HTS. Ωστόσο, η βιοπληροφορική ανάλυση τέτοιων δεδομένων απαιτούν μεγάλο αριθμό βημάτων και παραμέτρων καθώς και σημαντικούς υπολογιστικούς πόρους. Οι ροές εργασιών σε συνδυασμό με υπολογιστικές υποδομές μπορούν να απαντήσουν σε αυτές τις απαιτήσεις σε σημαντικό βαθμό. Σε αυτό το πλαίσιο αναπτύχθηκε η ροή εργασίας PEMA με στόχο την ανάλυση δεδομένων μετακωδικοποίησης από περιβαλλοντικό DNA. Κεφάλαιο 2.1. Ωστόσο, η μέθοδος μετακωδικοποίησης χαρακτηρίζεται από σειρά περιορισμών. Η υπομονάδα I της κυτοχρωμικής οξειδάσης c (COI), αποτελεί έναν δείκτη που χρησιμοποιείται ευρέως, ειδικά στην περίπτωση ευκαρυωτικών τάξων-στόχων. Είναι γνωστό πως σε μελέτες όπου ο δείκτης αυτός χρησιμοποιείται, ένας μεγάλος αριθμός των λειτουργικών ταξινομικών μονάδων (OTUs) που προκύπτουν, δεν καταφέρνουν να ταυτοποιηθούν. Η παρουσία τοσο ψευδογονιδίων όσο όμως και μη-ευκαρυωτικών τάξων ανάμεσα σε τέτοια αλληλουχικά δεδομένα, με την ταυτόχρονη απουσία των τελευταίων από τις βάσεις αναφοράς, εξηγεί την μη ταυτοποίησή τους σε σημαντικό βαθμό. Για την αναγνώριση τέτοιων περιπτώσεων, αναπτύχθηκε το υπολογιστικό εργαλείο DARN το οποίο αξιοποιεί ένα φυλογενετικό δέντρο που καλύπτει και τις 3 επικράτειες του δέντρου της ζωής, βασισμένο σε αλληλουχίες του δείκτη Κεφάλαιο COI, Κεφάλαιο 2.2.Μέθοδοι γονιδίων δεικτών και μεταγονιδιωματικής καθώς και το σύνολο των μεθόδων αλληλούχισης υψηλή απόδοσης, έχουν οδηγήσει στην σώρευση σημαντικά μεγάλου αριθμού δεδομένων και μεταδεδομένων καταγράφοντας τάξα και διεργασίες σε σειρά τύπους περιβαλλόντων. Για να επιτρέψουν την βέλτιστη προσβασιμότητα και αξιοποίηση αυτής της πληροφορίας, έχουν δημιουργηθεί σειρά βάσεων δεδομένων, οντολογιών αλλά και προτύπων-κανόνων για να ακολουθεί η κοινότητα για την καταχώρηση τους. Αξιοποιώντας μεθόδους ενσωμάτωσης/ολοκλήρωσης δεδομένων data integration για την εύρεση των διάφορων κομματιών πληροφορίας και την συσχέτισή τους, καθώς και τεχνικών εξόρυξης κειμένου text mining για την ανάκτηση γνώσης από το σύνολος της δημόσια διαθέσιμης βιβλιογραφίας αναπτύχθηκε η βάση-γνώσης PREGO, Κεφάλαιο 3. η οποία επιστρέφει χιλιάδες σχέσεις μεταξύ τάξων, περιβαλλόντων και διεργασιών.Καθοριστικό ερώτημα ωστόσο σε οτι αφορά τις μικροβιακές κοινότητες, αποτελεί το ¨πώς’ τα διάφορα μικροβιακά τάξα εξασφαλίζουν την θέση τους ως μέλη της κοινότητας. Μεταβολικές αλληλεπιδράσεις μεταξύ των διάφορων τάξων παίζουν καθοριστικό ρόλο για την συγκρότηση τέτοιων κοινοτήτων. Μεταβολικά δίκτυα στην κλίμακα του γονιδιώματος (GEMs) επιτρέπουν την αναγνώριση τέτοιων αλληλεπιδράσεων. Η τυχαία δειγματοληψία στον χώρο που ορίζεται από τις πιθανές τιμές που μπορεί να πάρουν οι ροές των αντιδράσεων (flux sampling) επιτρέπει την αναπαράσταση των τιμών που μπορεί να λάβουν αυτές οι ροές κάτω από συγκεκριμένες συνθήκες. Ωστόσο η μέθοδος flux sampling είναι ιδιαίτερα απαιτητική από υπολογιστική σκοπιά, ιδιαίτερα όσο η διάσταση του μεταβολικού μοντέλου αυξάνει. Για τον σκοπό αυτό αναπτύχθηκε η βιβλιοθήκη dingo η οποία κάνει χρήση ενός πολυφασικού αλγορίθμου Monte Carlo, Κεφάλαιο 4.
περισσότερα