Σύνθεση φωνής με υπολογιστική αεροδυναμική ανάλυση του ανθρωπινού ηχητικού σωλήνα και σύγκριση με κλασσικές μεθόδους

Περίληψη

Η παρούσα διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Για την ανάλυση των μη-γραμμικών φαινομένων υιοθετήσαμε το μη γραμμικό μοντέλο φωνής AM-FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζουμε τον Δείκτη Διαμόρφωσης Πλάτους και τον Δείκτη Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλάτους και συχνότητας αντίστοιχα. Αναλύουμε ένα μεγάλο σώμα φωνής ...
περισσότερα

Περίληψη σε άλλη γλώσσα

The thesis studies the non-linear phenomena in the vocal tract and glottal source during speech production, so as to improve speech applications, such as speech synthesis and speech recognition. The thesis’ contribution is threefold. Firstly, we formally analyze non-linear phenomena as reflected in the speech signal, secondly, we propose novel acoustic features for speech recognition, and thirdly, we describe a complete state-of-the-art text-to-speech system .The analysis of non-linear phenomena is indirectly performed in the speech signal with the aid of the non-linear AM-FM speech model, which captures the non-linear phenomena as amplitude and frequency modulations. We define Amplitude Modulation Index and Frequency Modulation Index that measure the amplitude and frequency modulation percentages respectively. We estimate the modulation indexes on a large speech corpus, and analyze the correlations with various factors. Fundamental frequency is an important factor for the appearance o ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/24302
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/24302
ND
24302
Εναλλακτικός τίτλος
Speech analysis with a non-linear speech model and feature extraction for speech recognition
Συγγραφέας
Τσιάκουλης, Πύρρος (Πατρώνυμο: Γεώργιος)
Ημερομηνία
2010
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή
Καραγιάννης Γεώργιος
Ποταμιάνος Αλέξανδρος
Μαραγκός Πέτρος
Σέλλης Τιμολέων
Σταφυλοπάτης Ανδρέας
Μέρτζιος Βασίλειος
Ποταμιάνος Γεράσιμος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και Τεχνολογία
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Σύνθεση φωνής; Αναγνώριση φωνής; Ανάλυση φωνής; Μοντέλο φωνής AM-FM; Ακουστικά χαρακτηριστικά; Φασματικές ροπές
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
xv, 148 σ., εικ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)