Νέες μπεϋσιανές τεχνικές ομαδοποίησης με εφαρμογές στην αυτόματη δεικτοδότηση ομιλητών σε αρχεία ήχου

Περίληψη

Η παρούσα διατριβή αφορά στο πρόβλημα της κατάτμησης και ομαδοποίησης αρχείων ομιλίας σε ομιλητές, πρόβλημα το οποίο απαντάται στη διεθνή βιβλιογραφία με τον όρο speaker diarization. Είναι ένα πρόβλημα κομβικό, καθώς πολλές εφαρμογές επεξεργασίας ανθρώπινης φωνής απαιτούν μία τέτοια βαθμίδα ως στάδιο προεπεξεργασίας. Θέλουν δηλαδή έναν μηχανισμό ο οποίος να είναι σε θέση αξιόπιστα και μέσα σε ένα εύλογο χρονικό διάστημα να εκτιμήσει α) πόσοι είναι οι συμμετέχοντες ομιλητές και β) σε ποιές χρονικές περιόδους μιλάει ο καθένας. Το πρόβλημα αυτό έχει ένα ιδιαίτερο χαρακτηριστικό που το καθιστά ταυτόχρονα δυσεπίλυτο και ελκυστικό, καθώς δεν υπάρχει καμία εκ των προτέρων πληροφορία όσον αφορά στον αριθμό και την ταυτότητα των ομιλητών. Επαφίεται έτσι στον αλγόριθμο να εκτιμήσει τα μοντέλα των ομιλητών και τον αριθμό τους, ομαδοποιώντας κατάλληλα τα διανύσματα χαρακτηριστικών που αποτελούν το αρχείο. Ο τομέας της μάθησης μηχανών με στατιστικές τεχνικές (statistical machine learning) έχει ανα ...
περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis focuses on the problem of segmentation and clustering of audio files to speakers, of problem termed in literature as speaker diarization. It is considered as a central problem, since many applications that are related to speech technologies require it as a preprocessing step. They require an algorithm that is capable of estimating in a computationally efficient way (a) the number of speakers and (b) the time segments that each of the speakers is active. Compared to other clustering and classification tasks, speaker diarization exhibits a pair of special characteristics that makes it both attractive and hard-to-tackle; the lack of knowledge of both the number of speakers and their identity. Three are the main contributions of the thesis: (a) Our first contribution is the development of a probabilistic measure of discrepancy between two speech segments. This discrepancy aims to estimate the posterior probability of the segments to belong to different speakers. The proposed mo ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/25570
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/25570
ND
25570
Εναλλακτικός τίτλος
Novel bayesian clustering techniques with applications to speaker diarization on audio files
Συγγραφέας
Σταφυλάκης, Θέμος (Πατρώνυμο: Σταύρος)
Ημερομηνία
2011
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή
Καραγιάννης Γεώργιος
Μαραγκός Πέτρος
Σταφυλοπάτης Ανδρέας
Καμπουράκης Γεώργιος
Σέλλης Τιμολέων
Μέρτζιος Βασίλειος
Κατσούρος Βασίλειος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Ομαδοποίηση ομιλητών; Μπεϋσιανή στατιστική; Γεωμετρία πληροφορίας; Μπεϋσιανό κριτήριο πληροφορίας; Αλγόριθμος μετατόπισης του μέσου
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
189 σ., εικ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)