Ψηφιακή επεξεργασία ομιλίας με εφαρμογή στην αναγνώριση συναισθημάτων

Περίληψη

Στη διατριβή παρουσιάζονται 3 συστήματα ανίχνευσης διαλόγου. Για πρώτη φορά στη διεθνή βιβλιογραφία γίνεται ανίχνευση διαλόγου από το ηχητικό κανάλι. Χρησιμοποιούνται συναρτήσεις δείκτη. Υπολογίζεται η ετεροσυσχέτιση και η φασματική πυκνότητα ισχύος. Γίνεται εκτίμηση του μοντέλου της διάρκειας ομιλίας ενός ομιλητή και δημιουργείται βάση από σκηνές με διάλογο και χωρίς διάλογο από ταινίες. Στη συνέχεια πραγματοποιείται κατάτμηση ομιλητών με το κριτήριο πληροφορίας κατά Bayes. Προτάθηκε η εκμετάλλευση της κατανομής της διάρκειας ομιλίας καθώς και η επιλογή των πιο διακριτικών συντελεστών χάσματος σε κλίμακα Mel. Μετασχηματίστηκε το κριτήριο πληροφορίας κατά Bayes μέσω κεντραρίσματος και ταυτόχρονης διαγωνιοποίησης. Η ισοδύναμη μετασχηματισμένη μορφή είναι πιο αποδοτική σε ταχύτητα, μνήμη και υπολογιστική ισχύ από τη συμβατική. Επιπροσθέτως, η μορφή αυτή ελέγχθηκε για το πρόβλημα κατάτμησης σε φθόγγους. Για το πρόβλημα της αναγνώρισης φύλου από ομιλία συναισθηματικώς φορτισμένης πραγματοπ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

The subject of this PhD thesis is the efficient and robust processing and analysis of the audio recordings that are derived from a call center. The thesis is comprised of two parts. The first part is dedicated to dialogue/non-dialogue detection and to speaker segmentation. The systems that are developed are prerequisite for detecting (i) the audio segments that actually contain a dialogue between the system and the call center customer and (ii) the change points between the system and the customer. This way the volume of the audio recordings that need to be processed is significantly reduced, while the system is automated. To detect the presence of a dialogue several systems are developed. This is the first effort found in the international literature that the audio channel is exclusively exploited. Also, it is the first time that the speaker utterance duration is estimated. The most sophisticated system is fully automated. It is based on actor indicator functions. That is, functions w ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/20565
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/20565
ND
20565
Εναλλακτικός τίτλος
Discrete-time speech processing with application to emotion recognition
Συγγραφέας
Κώττη, Μαργαρίτα του Χρήστος
Ημερομηνία
2009
Ίδρυμα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή
Κοτρόπουλος Κωνσταντίνος
Πήτας Ιωάννης
Νικολαΐδης Νικόλαος
Καρανίκας Κωνσταντίνος
Πομπόρτσης Ανδρέας
Χαμζάς Χριστόδουλος
Κουρουπέτρογλου Γεώργιος
Επιστημονικό πεδίο
Φυσικές Επιστήμες
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά
Ψηφιακή επεξεργασία ομιλίας; Ανάλυση συμβάντων; Κατάτμηση ομιλητών; Ανίχνευση διαλόγου; Αναγνώριση φύλου; Επιλογή χαρακτηριστικών; Ταξινομητές
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
[xxviii], 232 σ., εικ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)