Περίληψη
Η παρούσα διατριβή επικεντρώνεται στην ανάπτυξη και εφαρμογή βιοπληροφορικών μεθόδων για την αξιολόγηση της παγκόσμιας μικροβιακής βιοποικιλότητας, με ιδιαίτερη έμφαση στα Αρχαία — μία από τις τρεις ϑεμελιώδεις επικράτειες της ζωής. Η ανάγκη για νέες μεθοδολογικές προσεγγίσεις προκύπτει από τον τεράστιο όγκο δεδομένων που παράγεται μέσω τεχνολογιών νέας γενιάς αλληλούχισης (NGS) και από τις σημαντικές αδυναμίες των παραδοσιακών μεθόδων ταξινόμησης και συσταδοποίησης, όπως η χρήση αυθαίρετων ορίων ομοιότητας και η απώλεια εξελικτικής πληροφορίας. Για την υπέρβαση αυτών των προβλημάτων αναπτύχθηκε η Taxonomy-InformedClustering (TIC), ένα καινοτόμο υπολογιστικό πλαίσιο που ενσωματώνει ρητά ταξινομική γνώση και εξελικτικούς περιορισμούς στη διαδικασία δημιουργίας συστάδων. Σε αντίθεση με τις παραδοσιακές μεθόδους, το TIC χρησιμοποιεί ιεραρχική προσέγγιση όπου οι αλληλουχίες πρώτα ταξινομούνται βάσει υπαρχουσών βάσεων δεδομένων (όπως SILVA, GTDB) και στη συνέχεια ομαδοποιούνται εντός των αν ...
Η παρούσα διατριβή επικεντρώνεται στην ανάπτυξη και εφαρμογή βιοπληροφορικών μεθόδων για την αξιολόγηση της παγκόσμιας μικροβιακής βιοποικιλότητας, με ιδιαίτερη έμφαση στα Αρχαία — μία από τις τρεις ϑεμελιώδεις επικράτειες της ζωής. Η ανάγκη για νέες μεθοδολογικές προσεγγίσεις προκύπτει από τον τεράστιο όγκο δεδομένων που παράγεται μέσω τεχνολογιών νέας γενιάς αλληλούχισης (NGS) και από τις σημαντικές αδυναμίες των παραδοσιακών μεθόδων ταξινόμησης και συσταδοποίησης, όπως η χρήση αυθαίρετων ορίων ομοιότητας και η απώλεια εξελικτικής πληροφορίας. Για την υπέρβαση αυτών των προβλημάτων αναπτύχθηκε η Taxonomy-InformedClustering (TIC), ένα καινοτόμο υπολογιστικό πλαίσιο που ενσωματώνει ρητά ταξινομική γνώση και εξελικτικούς περιορισμούς στη διαδικασία δημιουργίας συστάδων. Σε αντίθεση με τις παραδοσιακές μεθόδους, το TIC χρησιμοποιεί ιεραρχική προσέγγιση όπου οι αλληλουχίες πρώτα ταξινομούνται βάσει υπαρχουσών βάσεων δεδομένων (όπως SILVA, GTDB) και στη συνέχεια ομαδοποιούνται εντός των αντίστοιχων ταξινομικών βαθμίδων (είδος, γένος, οικογένεια κ.λπ.). Η μέθοδος TIC επιλύει κρίσιμα ζητήματα: • Ενσωματώνει φυλογενετική πληροφορία, αποτρέποντας τη συγχώνευση μακρινών εξελικτικά ομάδων. • Αντιμετωπίζει αποτελεσματικά τις αταξινόμητες ή νέες αλληλουχίες μέσω προσωρινών ταξινομικών μονάδων. • Παρέχει σταθερότητα και αναπαραγωγιμότητα, ανεξάρτητα από τη σειρά εισαγωγής των δεδομένων. • Είναι επεκτάσιμη, κατάλληλη για ανάλυση τεραστίων όγκων μεταγονιδιωματικών δεδομένων. Η μέθοδος εφαρμόστηκε σε μία από τις μεγαλύτερες βάσεις αρχαιακών δεδομένων, τη Global Archaea Diversity (GAD), η οποία περιλαμβάνει πάνω από 500.000 δείγματα. Μέσω του TIC: • Εντοπίστηκαν 2.8 εκατομμύρια μοριακά είδη (SOTUs) αρχαιακών μικροοργανισμών. • Αναγνωρίστηκαν πάνω από 500.000 υποψήφια νέα γένη. • Προτάθηκε νέα υποψήφια κλάση εντός των Asgardarchaeota με την ονομασία Sleipnirarchaeota . Η μέθοδος συγκρίθηκε με παραδοσιακούς αλγορίθμους (όπως OTU clustering μεχρήση USEARCH/VSEARCH ) και απέδωσε ανώτερα όσον αφορά την ακρίβεια, τη σταθερότητα και τη δυνατότητα αναγνώρισης νέων ταξινομικών μονάδων. Επιπλέον, η TIC εφαρμόστηκε και σε βακτηριακές οικογένειες όπως οι Bifidobac-teriaceae, επιβεβαιώνοντας τη γενικευσιμότητα και την αξία της στην ευρύτερη μικροβιολογική έρευνα. Συνολικά, η εργασία αυτή συνεισφέρει ουσιαστικά στην αναδόμηση της μικροβιακής ταξινόμησης μέσω της ανάπτυξης ενός εξελικτικά ευαίσθητου, επεκτάσιμου καισταθερού υπολογιστικού πλαισίου ταξινόμησης της μικροβιακής ζωής.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation focuses on the development and application of bioinformatics methods for assessing global microbial biodiversity, with particular emphasis on Archaea—one ofthe three fundamental domains of life. The demand for novel methodological approachesstems from the massive volume of data generated through Next-Generation Sequencing(NGS) technologies and from the significant limitations of traditional classification and clustering methods, such as reliance on arbitrary similarity thresholds and loss of evolutionary context. To overcome these challenges, a novel computational framework called Taxonomy-Informed Clustering (TIC) was developed. TIC explicitly integrates taxonomic knowledgeand phylogenetic constraints into the clustering process. Unlike traditional methods, TIC follows a hierarchical approach in which sequences are first taxonomically classified based on curated databases (e.g., SILVA, GTDB), and subsequently clustered within known taxonomic ranks (species, genus, fa ...
This dissertation focuses on the development and application of bioinformatics methods for assessing global microbial biodiversity, with particular emphasis on Archaea—one ofthe three fundamental domains of life. The demand for novel methodological approachesstems from the massive volume of data generated through Next-Generation Sequencing(NGS) technologies and from the significant limitations of traditional classification and clustering methods, such as reliance on arbitrary similarity thresholds and loss of evolutionary context. To overcome these challenges, a novel computational framework called Taxonomy-Informed Clustering (TIC) was developed. TIC explicitly integrates taxonomic knowledgeand phylogenetic constraints into the clustering process. Unlike traditional methods, TIC follows a hierarchical approach in which sequences are first taxonomically classified based on curated databases (e.g., SILVA, GTDB), and subsequently clustered within known taxonomic ranks (species, genus, family, etc.). The TIC method addresses critical issues in microbial taxonomy: • It incorporates phylogenetic information, avoiding the merging of distantly related evolutionary groups. • It handles novel or unclassified sequences by assigning them to provisional taxonomic units, preserving their evolutionary distinctiveness. • It provides reproducibility and stability, eliminating order-dependent results. • It is scalable and efficient, enabling analysis of massive metagenomic datasets. TIC was applied to one of the largest archaeal datasets ever compiled, the Global Archaea Diversity (GAD) dataset, comprising more than 500,000 samples. Using TIC: • Over 2.8 million molecular species (SOTUs) were identified. • More than 500,000 candidate novel genera were discovered. • A new candidate class within the Asgardarchaeota phylum was proposed, named Sleipnirarchaeota. TIC was benchmarked against traditional clustering algorithms (e.g., OTU clusteringwith USEARCH/VSEARCH) and demonstrated superior performance in terms of accuracy, consistency, and ability to detect novel taxonomic groups. Furthermore, TIC was applied beyond the archaeal domain, including to bacterial families such as Bifidobacteriaceae, confirming its generalizability and value across diverse microbial studies. Overall, this work makes a substantial contribution to the restructuring of microbial classification by offering a phylogenetically aware, scalable, and stable computational framework for exploring and organizing microbial diversity.
περισσότερα