Μοντελοποίηση και ψηφιακή επεξεργασία προσωδιακών φαινομένων της ελληνικής γλώσσας με εφαρμογή στην σύνθεση ομιλίας

Αντικείμενο της παρούσης εργασίας αποτελεί η μελέτη και μοντελοποίηση φαινομένων επιτονισμού της Ελληνικής γλωσσάς με εφαρμογές στη σύνθεση ομιλίας. Στα πλαίσια αυτής της κατεύθυνσης αναπτύχθηκαν γλωσσικοί πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη προσωδιακών παραγόντων οι οποίοι επηρεάζουν την πληροφορία που μεταφέρεται μέσω του προφορικού λογού. Αρχικά σχεδιάζονται, αναπτύσσονται και ηχογραφούνται πόροι ομιλίας για την Ελληνική γλώσσα (WCL-1). Οι πόροι αυτοί αποτελούνται από τρία μέρη: (α) τη βάση διφώνων, (β) τη βάση προσωδιακής ομιλίας και, (γ) τη βάση συναισθηματικής ομιλίας. Η βάση διφώνων η οποία αποτελεί βασικό συστατικό ενός συστήματος σύνθεσης ομιλίας με συνένωση μονάδων προέκυψε από την ηχογράφηση και σχολιασμό ασυνάρτητων λέξεων οι οποίες λειτουργούν ως φορείς διφώνων. Όσον φορά τη προσωδιακή και την συναισθηματική βάση ομιλίας χρησιμοποιήθηκε αρχικά το ίδιο σώμα κειμένων όμως κατά την πορεία εκπόνησης της διατριβής το πρώτο εμπλουτίσθηκε με περισσότερες ηχογραφήσεις. Η προσωδιακή βάση ομιλίας έπειτα από διάφορα στάδια επεξεργασίας των λεξιλογικών και προφορικών δεδομένων πραγματοποιήθηκε σχολιασμός τόσο στο σώμα κειμένων της βάσης όσο και στις αντίστοιχες ηχογραφήσεις. Συγκεκριμένα, στο σώμα κειμένων εφαρμόστηκε μορφοσυντακτική και φωνολογική ανάλυση και πραγματοποιήθηκε επισημείωση πληροφορίας όπως μέρος του λογού, λήμμα, γένος, αριθμός, πτώση, όρια συντακτικών φράσεων κ.α. καθώς και μια σειρά από χαρακτηριστικά τα οποία συνδυάζουν την παραπάνω πληροφορία με την μορφολογία της πρότασης. Ο σχολιασμός και η επεξεργασία του σώματος ηχογραφήσεων διακρίνεται από τα έξης στάδια: (α) τεμαχιοποίηση των ηχογραφήσεων σε επίπεδο φωνήματος συλλαβής λεξιλογικής λέξης, προσωδιακής λέξης, και (β) επισημείωση των φαινομένων επιτονισμού που εμφανίζονται κατά την προφορά του κειμένου σε ρυθμό ανάγνωσης με χρήση της μεθόδου GRToBI. Η πληροφορία αυτή έπειτα από επεξεργασία θα χρησιμοποιηθεί για την εξαγωγή πληροφορίας από την οποία θα προκύψουν σύνολα χαρακτηριστικών τα οποία θα εκπαιδεύσουν αλγορίθμους μηχανικής μάθησης με σκοπό την αυτόματη εξαγωγή προσωδιακής πληροφορίας από κείμενο. Τέλος η βάση συναισθηματικής ομιλίας περιέχει ηχογραφημένες πέντε συναισθηματικές καταστάσεις αυτές της ευτυχίας, λύπης, θυμού, φόβου, καθώς και μια ουδέτερη. Για την διαχείριση και επεξεργασία των παραπάνω πόρων υλοποιήθηκε πλατφόρμα μετατροπής κείμενου σε ομιλία. Το πλαίσιο αυτό αποτελείται ουσιαστικά από τρία μέρη: (α) το στάδιο επεξεργασίας φυσικής γλώσσας, (β) το στάδιο κατασκευής μοντέλων επιτονισμού για την εξαγωγή της προσωδιακής πληροφορίας, και (γ) την βαθμίδα σύνθεσης προφορικού λόγου με συνένωση δομικών μονάδων ομιλίας. Κάποια από τα χαρακτηριστικά του συστήματος είναι η ύπαρξη ενός υποσυστήματος για την κανονικοποίηση των μη-κοινών λέξεων για κλιτές γλώσσες και την υποστήριξη πολυγλωσσικών κείμενων. Για την μελέτη και τη δημιουργία μοντέλων μηχανικής μάθησης χρησιμοποιήθηκε η γλωσσολογική αναπαράσταση GRToBI για την αναπαράσταση των επιτονικών φαινομένων. Η αναπαράσταση αυτή αποσκοπεί στη κωδικοποίηση πληροφορίας σχετικά με την καμπύλη επιτονισμού και τις ενδοπεριοδικές προσωδιακές φράσεις μιας εκφώνησης. Προσεγγίσεις μηχανικής μάθησης οι οποίες υιοθετήθηκαν ήταν τα δένδρα απόφασης οι Μπαυεζιανοί ταξινομητές όπως ο Naïve Bayes και τα δίκτυα Bayes καθώς και αυτή των πλησιέστερων γειτόνων. Στα πλαίσια της μοντελοποίησης των φαινομένων αυτών χρησιμοποιήθηκαν μόνο χαρακτηριστικά τα οποία μπορούσαν να εξαχθούν από κείμενο τα οποία στη συνέχεια αξιολογήθηκαν για την συνεισφορά τους σχετικά με την ανίχνευση των προσωδιακών παύσεων και των τονικών υψών. Η έρευνα που πραγματοποιήθηκε είχε σαν καρπό την εκτενή αξιολόγηση και εφαρμογή μορφοσυντακτικών χαρακτηριστικών για την δημιουργία μοντέλων από δεδομένα γενικού κειμενικού πεδίου (όπως είναι η βάση που αναπτύχθηκε στα πλαίσια της διατριβής) καθώς και από δεδομένα περιορισμένου κειμενικού πεδίου για τα Ελληνικά.

περισσότερα

Περίληψη σε άλλη γλώσσα

In this thesis we cope with the task of studying and modeling prosodic phenomena encountered in Greek language with applications to the task of speech synthesis from text. For the achievement of this particular task, spoken corpora with various levels of morphosyntactical and linguistic representation as well as tools for their processing were constructed. With the success of concatenative speech synthesis as well as the shift from rule-based modeling of prosody to formal multivariate models that require the associated parameters to be statistically derived from a training corpus research in the area of synthetic speech production has come to rely on models produced from data driven methods. In particular concatenative speech synthesis heavily relies on the existence of an automatic selection procedure of candidate units from a recorded speech database. Furthermore construction of reliable data-driven prosodic event prediction models requires a well-designed annotated speech corpus and greatly depends on its quantity domain coverage as well as annotation consistency. As a result data collection and design requirements describing a prosodic corpus have a direct impact on the resulted synthetic speech of a Text to-Speech (TtS) system. However apart from the minimal requirement of having enough data for the training and testing phase of a statistical model estimation procedure there are no standard rules for corpus design and collection. Construction and annotation of the Greek prosodic speech data, the WCL-1 prosodic database took into account most of the phenomena that constitute the prosodic patterns of Greek language. Due to the fact that Greek is a minority language only restricted research has been conducted on the prosodical aspects of speech communication and therefore there is a scarcity of annotated speech data and tools for rapid database development. In the framework of this endeavor prosodic characteristics of spoken Greek were defined labeled and stored so that relations between intonational phenomena and textual as well as linguistic features could be first extracted and then modeled with the application of machine learning techniques. For the task of coding the emerged prosodic phenomena of our recorded utterances we have followed the work of Pierrehumbert for American English (Pierrehumbert 1981: 985-995). Furthermore our prosodic framework contains segmentation of the data on phonemic level. Several tools were developed in order to perform various tasks such as corpus creation recording and labeling. The data of the prosodic corpus were processed in the following order: (a) selection of a representative text corpus including the most common prosodic phenomena of the Greek language, (b) selection of the speaker and speaking style for the text corpus recording session, (c) phonetic segmentation and labeling, and (d) annotation of the tones and prosodic boundaries with the utilization of Tones and Break Indices (ToBI) annotation convention adopted for Greek. Corpus based synthesis has turned the attention of researchers in deriving accent placement and phrasing rules for text to-speech systems from large labeled corpora most recently attempts have been made to use self-organizing procedures to compute prosodic specification rules automatically from such data. The most commonly used learning techniques are Hidden Markov models, neural networks classification and regression trees transformational rule-based learning and Bayesian. A large amount of intonational variations were taken into account that proved to be useful for prosodic training. Specifically we focused in the task of predicting break indices and pitch accent labels from textual features.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (4.29 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/26654
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/26654
ND	26654
Εναλλακτικός τίτλος	Modeling and signal processing of greek language prosodic events with application to speech synthesis
Συγγραφέας	Ζέρβας, Παναγιώτης (Πατρώνυμο: Γρηγόριος)
Ημερομηνία	2007
Ίδρυμα	Πανεπιστήμιο Πατρών. Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Εργαστήριο Ενσύρματης Τηλεπικοινωνίας
Εξεταστική επιτροπή	Φακωτάκης Νικόλαος Αβούρης Νικόλαος Αναστασόπουλος Βασίλειος Χριστοδουλάκης Δημήτριος Μπερμπερίδης Κωνσταντίνος Μουρτζόπουλος Ιωάννης Δερματάς Ευάγγελος
Επιστημονικό πεδίο	Φυσικές Επιστήμες Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Προσωδία; Επιτονισμός; Επεξεργασία σήματος ομιλίας; Σύνθεση ομιλίας; Μηχανική μάθηση
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	179 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μελέτη των προσωδικών κανόνων της Ελληνικής γλώσσας στο πλαίσιο της ανάπτυξης συστήματος σύνθεσης φωνής από κείμενο

Η κατανομή αρμοδιοτήτων μεταξύ κεντρικής διοίκησης και τοπικής αυτοδιοίκησης, από οργανωτική, διοικητική και πολιτική σκοπιά

Ανάλυση εικόνας και όραση υπολογιστών: θεωρία και εφαρμογές στην αποκατάσταση αρχαίων τοιχογραφιών

Η έννοια της διαλεκτικής στον Πλάτωνα και τον Αριστοτέλη

Φιλοσοφική και ερμηνευτική προσέγγιση στην Ασκητική του Καζαντζάκη

Ενέργεια και πράσινη ανάπτυξη: το ενεργειακό πρόβλημα στην Ελλάδα και οι πολιτικές για τη μετάβαση στην πράσινη οικονομία

Emotion perception and recognition in face images with applications in affective human-computer interaction systems

Η διαφοροποίηση του Αγαθού στη φιλοσοφία του Πλωτίνου

Μηχανική μάθηση για το συγκερασμό πολλαπλών, κατανεμημένων ευφυών συστημάτων

Θεός, κόσμος, άνθρωπος: σπουδή στα κείμενα του Αλέξανδρου Παπαδιαμάντη και του Νίκου Καζαντζάκη

"Μοντελοποίηση και ψηφιακή επεξεργασία προσωδιακών φαινομένων της ελληνικής γλώσσας με εφαρμογή στην σύνθεση ομιλίας"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .