Νέες μπεϋσιανές τεχνικές ομαδοποίησης με εφαρμογές στην αυτόματη δεικτοδότηση ομιλητών σε αρχεία ήχου

Η παρούσα διατριβή αφορά στο πρόβλημα της κατάτμησης και ομαδοποίησης αρχείων ομιλίας σε ομιλητές, πρόβλημα το οποίο απαντάται στη διεθνή βιβλιογραφία με τον όρο speaker diarization. Είναι ένα πρόβλημα κομβικό, καθώς πολλές εφαρμογές επεξεργασίας ανθρώπινης φωνής απαιτούν μία τέτοια βαθμίδα ως στάδιο προεπεξεργασίας. Θέλουν δηλαδή έναν μηχανισμό ο οποίος να είναι σε θέση αξιόπιστα και μέσα σε ένα εύλογο χρονικό διάστημα να εκτιμήσει α) πόσοι είναι οι συμμετέχοντες ομιλητές και β) σε ποιές χρονικές περιόδους μιλάει ο καθένας. Το πρόβλημα αυτό έχει ένα ιδιαίτερο χαρακτηριστικό που το καθιστά ταυτόχρονα δυσεπίλυτο και ελκυστικό, καθώς δεν υπάρχει καμία εκ των προτέρων πληροφορία όσον αφορά στον αριθμό και την ταυτότητα των ομιλητών. Επαφίεται έτσι στον αλγόριθμο να εκτιμήσει τα μοντέλα των ομιλητών και τον αριθμό τους, ομαδοποιώντας κατάλληλα τα διανύσματα χαρακτηριστικών που αποτελούν το αρχείο. Ο τομέας της μάθησης μηχανών με στατιστικές τεχνικές (statistical machine learning) έχει αναπτύξει πλήθος αλγόριθμων μη-επιβλεπόμενης ομαδοποίησης. Ωστόσο, οι περισσότεροι εξ αυτών απαιτούν a priori γνώση του αριθμού των ομάδων. Εδώ ακριβώς έγκειται και η ελκυστικότητα του προβλήματος. Ο αλγόριθμος πρέπει να λειτουργήσει τυφλά. Τρεις είναι κατά βάση οι προτάσεις και εξελίξεις που προκύπτουν από αυτή τη διατριβή. α) Η πρώτη σχετίζεται με την ανάπτυξη μίας πιθανοτικής απόστασης μεταξύ τμημάτων ομιλίας, η οποία συνδυάζει δυαδικούς ταξινομητές και ροές πληροφορίας. Ένα ιδιαίτερο χαρακτηριστικό της μεθόδου είναι η κατάτμηση του χώρου εισόδου και η εκπαίδευση ενός μοντέλου για κάθε κατηγορία, έτσι ώστε η απόφαση να προκύπτει ως πιθανοτικός συνδυασμός των αποκρίσεων καθε μοντέλου. β) Η δεύτερη συνεισφορά της διατριβής αφορά στην αναδιατύπωση ενός από τα πλέον θεμελιώδη και πολυχρησιμοποιούμενα κριτήρια ομαδοποίησης ομιλητών, το Μπεϋσιανό Κριτήριο Πληροφορίας (BIC). Εμβαθύνοντας στο μαθηματικό υπόβαθρο του κριτηρίου, αποδεικνύουμε ότι οι και δύο μορφές του (ολική και τοπική) που χρησιμοποιούνται είναι υποβέλτιστες για το πρόβλημα ομαδοποίησης ομιλητών. Χρησιμοποιώντας ως μέσο ανάλυσης τις εκ των προτέρων κατανομές των παραμέτρων τις οποίες το BIC υπονοεί, προτείνουμε μία νέα μορφή του, την τμηματική, η οποία προσφέρει σημαντικότατη αύξηση στην ακρίβεια ομαδοποίησης. γ) Η τελευταία συνεισφορά της διατριβής είναι η εξερεύνηση του δυνατοτήτων που παρέχει ο αλγορίθμος μετατόπισης του μέσου (mean-shift) στην ομαδοποίηση ομιλητών. Ο συγκεκριμένος αλγόριθμος έχει ήδη επιδείξει σημαντικά αποτελέσματα στον τομέα της επεξεργασίας εικόνας και έχει καθιερωθεί ως μια από τις δημοφιλέστερες μεθόδους μη-παραμετρικής επεξεργασίας. Δείχνουμε ότι ο συγκεκριμένος αλγόριθμος μπορεί να εφαρμοσθεί σε ευρύτερα προβλήματα ομαδοποίησης, όπου οι προς ομαδοποίηση οντότητες ανήκουν σε μη-Ευκλείδιους χώρους, όπως αυτοί των παραμέτρων στατιστικών μοντέλων και συγκεκριμένα Εκθετικών κατανομών. Κάνοντας εκτενή χρήση της Γεωμετρίας της Πληροφορίας (Information Geometry) προσαρμόζουμε κατάλληλα τον αλγόριθμο και αποδεικνύουμε ότι είναι σε θέση να υπερβεί σε ακρίβεια ομαδοποίησης την καθιερωμένη προσέγγιση της ιεραρχικής ομαδοποίησης.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis focuses on the problem of segmentation and clustering of audio files to speakers, of problem termed in literature as speaker diarization. It is considered as a central problem, since many applications that are related to speech technologies require it as a preprocessing step. They require an algorithm that is capable of estimating in a computationally efficient way (a) the number of speakers and (b) the time segments that each of the speakers is active. Compared to other clustering and classification tasks, speaker diarization exhibits a pair of special characteristics that makes it both attractive and hard-to-tackle; the lack of knowledge of both the number of speakers and their identity. Three are the main contributions of the thesis: (a) Our first contribution is the development of a probabilistic measure of discrepancy between two speech segments. This discrepancy aims to estimate the posterior probability of the segments to belong to different speakers. The proposed model is capable of combining an unlimited number of binary weak classifiers, each of which should be considered as a combination of a feature space, a statistical model, a statistical divergence and a threshold. (b) The second contribution is a redefinition of one of the most frequently used approaches to speaker diarization, namely the Bayesian Information Criterion (BIC). By examining the Bayesian rationale for BIC, we show that both of its current versions (the global and the local) are suboptimal for speaker diarization. Using the implied priors of BIC, we we propose a new version, the segmental-BIC, that leads to a significant increase in diarization accuracy. (c) Our third and final contribution is the examination of the potentials that the mean shift algorithm offers to the problem of speaker diarization. This algorithm is highly used in the image processing and computer vision and has been established a milestone in nonparametric segmentation. We show that it can be used to tackle more general clustering tasks, where the entities lie on non-Euclidean spaces, like those of statistical parametric models of exponential families. Using elements of Information Geometry and a Bayesian framework, we adapt the original algorithm and show that is capable of increasing the diarization accuracy when compared to the standard hierarchical clustering approach.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (1.5 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/25570
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/25570
ND	25570
Εναλλακτικός τίτλος	Novel bayesian clustering techniques with applications to speaker diarization on audio files
Συγγραφέας	Σταφυλάκης, Θέμος (Πατρώνυμο: Σταύρος)
Ημερομηνία	2011
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή	Καραγιάννης Γεώργιος Μαραγκός Πέτρος Σταφυλοπάτης Ανδρέας Καμπουράκης Γεώργιος Σέλλης Τιμολέων Μέρτζιος Βασίλειος Κατσούρος Βασίλειος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Ομαδοποίηση ομιλητών; Μπεϋσιανή στατιστική; Γεωμετρία πληροφορίας; Μπεϋσιανό κριτήριο πληροφορίας; Αλγόριθμος μετατόπισης του μέσου
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	189 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Σύνθεση, χαρακτηρισμός και καταλυτική δραστικότητα τροποποιημένων περοβσκιτών τιτανίου

Μπεϋζιανές μέθοδοι για προβλήματα μηχανικής μάθησης και επεξεργασίας εικόνας

Essays in bayesian econometrics

Bayesian model determination and nonlinear threshold volatility models

Τηλεπισκόπηση, τεχνητή νοημοσύνη και συστήματα γεωγραφικών πληροφοριών στην εκτίμηση κινδύνου δασικών πυρκαγιών

Mεθοδολογία υποστήριξης αποφάσεων αντιμετώπισης ατυχημάτων μεγάλης έκτασης με χρήση πολυκριτηριακών εξελικτικών αλγορίθμων

Μπεϋζιανή ανόρθωση και ανακατασκευή εικόνων υψηλής ανάλυσης από άγνωστης υποβάθμισης δεδομένα χαμηλής ανάλυσης

Renewable energy autonomous polygeneration smartgrids optimized with soft computing techniques

Ανάπτυξη νέων μεθόδων προσδιορισμού ολικής αντιοξειδωτικής ενεργότητας και εφαρμογή στο ελαιόλαδο

Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

"Νέες μπεϋσιανές τεχνικές ομαδοποίησης με εφαρμογές στην αυτόματη δεικτοδότηση ομιλητών σε αρχεία ήχου"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .