Περίληψη
Η παρούσα διατριβή αφορά στο πρόβλημα της κατάτμησης και ομαδοποίησης αρχείων ομιλίας σε ομιλητές, πρόβλημα το οποίο απαντάται στη διεθνή βιβλιογραφία με τον όρο speaker diarization. Είναι ένα πρόβλημα κομβικό, καθώς πολλές εφαρμογές επεξεργασίας ανθρώπινης φωνής απαιτούν μία τέτοια βαθμίδα ως στάδιο προεπεξεργασίας. Θέλουν δηλαδή έναν μηχανισμό ο οποίος να είναι σε θέση αξιόπιστα και μέσα σε ένα εύλογο χρονικό διάστημα να εκτιμήσει α) πόσοι είναι οι συμμετέχοντες ομιλητές και β) σε ποιές χρονικές περιόδους μιλάει ο καθένας. Το πρόβλημα αυτό έχει ένα ιδιαίτερο χαρακτηριστικό που το καθιστά ταυτόχρονα δυσεπίλυτο και ελκυστικό, καθώς δεν υπάρχει καμία εκ των προτέρων πληροφορία όσον αφορά στον αριθμό και την ταυτότητα των ομιλητών. Επαφίεται έτσι στον αλγόριθμο να εκτιμήσει τα μοντέλα των ομιλητών και τον αριθμό τους, ομαδοποιώντας κατάλληλα τα διανύσματα χαρακτηριστικών που αποτελούν το αρχείο. Ο τομέας της μάθησης μηχανών με στατιστικές τεχνικές (statistical machine learning) έχει ανα ...
Η παρούσα διατριβή αφορά στο πρόβλημα της κατάτμησης και ομαδοποίησης αρχείων ομιλίας σε ομιλητές, πρόβλημα το οποίο απαντάται στη διεθνή βιβλιογραφία με τον όρο speaker diarization. Είναι ένα πρόβλημα κομβικό, καθώς πολλές εφαρμογές επεξεργασίας ανθρώπινης φωνής απαιτούν μία τέτοια βαθμίδα ως στάδιο προεπεξεργασίας. Θέλουν δηλαδή έναν μηχανισμό ο οποίος να είναι σε θέση αξιόπιστα και μέσα σε ένα εύλογο χρονικό διάστημα να εκτιμήσει α) πόσοι είναι οι συμμετέχοντες ομιλητές και β) σε ποιές χρονικές περιόδους μιλάει ο καθένας. Το πρόβλημα αυτό έχει ένα ιδιαίτερο χαρακτηριστικό που το καθιστά ταυτόχρονα δυσεπίλυτο και ελκυστικό, καθώς δεν υπάρχει καμία εκ των προτέρων πληροφορία όσον αφορά στον αριθμό και την ταυτότητα των ομιλητών. Επαφίεται έτσι στον αλγόριθμο να εκτιμήσει τα μοντέλα των ομιλητών και τον αριθμό τους, ομαδοποιώντας κατάλληλα τα διανύσματα χαρακτηριστικών που αποτελούν το αρχείο. Ο τομέας της μάθησης μηχανών με στατιστικές τεχνικές (statistical machine learning) έχει αναπτύξει πλήθος αλγόριθμων μη-επιβλεπόμενης ομαδοποίησης. Ωστόσο, οι περισσότεροι εξ αυτών απαιτούν a priori γνώση του αριθμού των ομάδων. Εδώ ακριβώς έγκειται και η ελκυστικότητα του προβλήματος. Ο αλγόριθμος πρέπει να λειτουργήσει τυφλά. Τρεις είναι κατά βάση οι προτάσεις και εξελίξεις που προκύπτουν από αυτή τη διατριβή. α) Η πρώτη σχετίζεται με την ανάπτυξη μίας πιθανοτικής απόστασης μεταξύ τμημάτων ομιλίας, η οποία συνδυάζει δυαδικούς ταξινομητές και ροές πληροφορίας. Ένα ιδιαίτερο χαρακτηριστικό της μεθόδου είναι η κατάτμηση του χώρου εισόδου και η εκπαίδευση ενός μοντέλου για κάθε κατηγορία, έτσι ώστε η απόφαση να προκύπτει ως πιθανοτικός συνδυασμός των αποκρίσεων καθε μοντέλου. β) Η δεύτερη συνεισφορά της διατριβής αφορά στην αναδιατύπωση ενός από τα πλέον θεμελιώδη και πολυχρησιμοποιούμενα κριτήρια ομαδοποίησης ομιλητών, το Μπεϋσιανό Κριτήριο Πληροφορίας (BIC). Εμβαθύνοντας στο μαθηματικό υπόβαθρο του κριτηρίου, αποδεικνύουμε ότι οι και δύο μορφές του (ολική και τοπική) που χρησιμοποιούνται είναι υποβέλτιστες για το πρόβλημα ομαδοποίησης ομιλητών. Χρησιμοποιώντας ως μέσο ανάλυσης τις εκ των προτέρων κατανομές των παραμέτρων τις οποίες το BIC υπονοεί, προτείνουμε μία νέα μορφή του, την τμηματική, η οποία προσφέρει σημαντικότατη αύξηση στην ακρίβεια ομαδοποίησης. γ) Η τελευταία συνεισφορά της διατριβής είναι η εξερεύνηση του δυνατοτήτων που παρέχει ο αλγορίθμος μετατόπισης του μέσου (mean-shift) στην ομαδοποίηση ομιλητών. Ο συγκεκριμένος αλγόριθμος έχει ήδη επιδείξει σημαντικά αποτελέσματα στον τομέα της επεξεργασίας εικόνας και έχει καθιερωθεί ως μια από τις δημοφιλέστερες μεθόδους μη-παραμετρικής επεξεργασίας. Δείχνουμε ότι ο συγκεκριμένος αλγόριθμος μπορεί να εφαρμοσθεί σε ευρύτερα προβλήματα ομαδοποίησης, όπου οι προς ομαδοποίηση οντότητες ανήκουν σε μη-Ευκλείδιους χώρους, όπως αυτοί των παραμέτρων στατιστικών μοντέλων και συγκεκριμένα Εκθετικών κατανομών. Κάνοντας εκτενή χρήση της Γεωμετρίας της Πληροφορίας (Information Geometry) προσαρμόζουμε κατάλληλα τον αλγόριθμο και αποδεικνύουμε ότι είναι σε θέση να υπερβεί σε ακρίβεια ομαδοποίησης την καθιερωμένη προσέγγιση της ιεραρχικής ομαδοποίησης.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis focuses on the problem of segmentation and clustering of audio files to speakers, of problem termed in literature as speaker diarization. It is considered as a central problem, since many applications that are related to speech technologies require it as a preprocessing step. They require an algorithm that is capable of estimating in a computationally efficient way (a) the number of speakers and (b) the time segments that each of the speakers is active. Compared to other clustering and classification tasks, speaker diarization exhibits a pair of special characteristics that makes it both attractive and hard-to-tackle; the lack of knowledge of both the number of speakers and their identity. Three are the main contributions of the thesis: (a) Our first contribution is the development of a probabilistic measure of discrepancy between two speech segments. This discrepancy aims to estimate the posterior probability of the segments to belong to different speakers. The proposed mo ...
This thesis focuses on the problem of segmentation and clustering of audio files to speakers, of problem termed in literature as speaker diarization. It is considered as a central problem, since many applications that are related to speech technologies require it as a preprocessing step. They require an algorithm that is capable of estimating in a computationally efficient way (a) the number of speakers and (b) the time segments that each of the speakers is active. Compared to other clustering and classification tasks, speaker diarization exhibits a pair of special characteristics that makes it both attractive and hard-to-tackle; the lack of knowledge of both the number of speakers and their identity. Three are the main contributions of the thesis: (a) Our first contribution is the development of a probabilistic measure of discrepancy between two speech segments. This discrepancy aims to estimate the posterior probability of the segments to belong to different speakers. The proposed model is capable of combining an unlimited number of binary weak classifiers, each of which should be considered as a combination of a feature space, a statistical model, a statistical divergence and a threshold. (b) The second contribution is a redefinition of one of the most frequently used approaches to speaker diarization, namely the Bayesian Information Criterion (BIC). By examining the Bayesian rationale for BIC, we show that both of its current versions (the global and the local) are suboptimal for speaker diarization. Using the implied priors of BIC, we we propose a new version, the segmental-BIC, that leads to a significant increase in diarization accuracy. (c) Our third and final contribution is the examination of the potentials that the mean shift algorithm offers to the problem of speaker diarization. This algorithm is highly used in the image processing and computer vision and has been established a milestone in nonparametric segmentation. We show that it can be used to tackle more general clustering tasks, where the entities lie on non-Euclidean spaces, like those of statistical parametric models of exponential families. Using elements of Information Geometry and a Bayesian framework, we adapt the original algorithm and show that is capable of increasing the diarization accuracy when compared to the standard hierarchical clustering approach.
περισσότερα