Περίληψη
Αντικείμενο της παρούσης εργασίας αποτελεί η μελέτη και μοντελοποίηση φαινομένων επιτονισμού της Ελληνικής γλωσσάς με εφαρμογές στη σύνθεση ομιλίας. Στα πλαίσια αυτής της κατεύθυνσης αναπτύχθηκαν γλωσσικοί πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη προσωδιακών παραγόντων οι οποίοι επηρεάζουν την πληροφορία που μεταφέρεται μέσω του προφορικού λογού. Αρχικά σχεδιάζονται, αναπτύσσονται και ηχογραφούνται πόροι ομιλίας για την Ελληνική γλώσσα (WCL-1). Οι πόροι αυτοί αποτελούνται από τρία μέρη: (α) τη βάση διφώνων, (β) τη βάση προσωδιακής ομιλίας και, (γ) τη βάση συναισθηματικής ομιλίας. Η βάση διφώνων η οποία αποτελεί βασικό συστατικό ενός συστήματος σύνθεσης ομιλίας με συνένωση μονάδων προέκυψε από την ηχογράφηση και σχολιασμό ασυνάρτητων λέξεων οι οποίες λειτουργούν ως φορείς διφώνων. Όσον φορά τη προσωδιακή και την συναισθηματική βάση ομιλίας χρησιμοποιήθηκε αρχικά το ίδιο σώμα κειμένων όμως κατά την πορεία εκπόνησης της διατριβής το πρώτο εμπλουτίσθηκε με περισσότερες ηχο ...
Αντικείμενο της παρούσης εργασίας αποτελεί η μελέτη και μοντελοποίηση φαινομένων επιτονισμού της Ελληνικής γλωσσάς με εφαρμογές στη σύνθεση ομιλίας. Στα πλαίσια αυτής της κατεύθυνσης αναπτύχθηκαν γλωσσικοί πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη προσωδιακών παραγόντων οι οποίοι επηρεάζουν την πληροφορία που μεταφέρεται μέσω του προφορικού λογού. Αρχικά σχεδιάζονται, αναπτύσσονται και ηχογραφούνται πόροι ομιλίας για την Ελληνική γλώσσα (WCL-1). Οι πόροι αυτοί αποτελούνται από τρία μέρη: (α) τη βάση διφώνων, (β) τη βάση προσωδιακής ομιλίας και, (γ) τη βάση συναισθηματικής ομιλίας. Η βάση διφώνων η οποία αποτελεί βασικό συστατικό ενός συστήματος σύνθεσης ομιλίας με συνένωση μονάδων προέκυψε από την ηχογράφηση και σχολιασμό ασυνάρτητων λέξεων οι οποίες λειτουργούν ως φορείς διφώνων. Όσον φορά τη προσωδιακή και την συναισθηματική βάση ομιλίας χρησιμοποιήθηκε αρχικά το ίδιο σώμα κειμένων όμως κατά την πορεία εκπόνησης της διατριβής το πρώτο εμπλουτίσθηκε με περισσότερες ηχογραφήσεις. Η προσωδιακή βάση ομιλίας έπειτα από διάφορα στάδια επεξεργασίας των λεξιλογικών και προφορικών δεδομένων πραγματοποιήθηκε σχολιασμός τόσο στο σώμα κειμένων της βάσης όσο και στις αντίστοιχες ηχογραφήσεις. Συγκεκριμένα, στο σώμα κειμένων εφαρμόστηκε μορφοσυντακτική και φωνολογική ανάλυση και πραγματοποιήθηκε επισημείωση πληροφορίας όπως μέρος του λογού, λήμμα, γένος, αριθμός, πτώση, όρια συντακτικών φράσεων κ.α. καθώς και μια σειρά από χαρακτηριστικά τα οποία συνδυάζουν την παραπάνω πληροφορία με την μορφολογία της πρότασης. Ο σχολιασμός και η επεξεργασία του σώματος ηχογραφήσεων διακρίνεται από τα έξης στάδια: (α) τεμαχιοποίηση των ηχογραφήσεων σε επίπεδο φωνήματος συλλαβής λεξιλογικής λέξης, προσωδιακής λέξης, και (β) επισημείωση των φαινομένων επιτονισμού που εμφανίζονται κατά την προφορά του κειμένου σε ρυθμό ανάγνωσης με χρήση της μεθόδου GRToBI. Η πληροφορία αυτή έπειτα από επεξεργασία θα χρησιμοποιηθεί για την εξαγωγή πληροφορίας από την οποία θα προκύψουν σύνολα χαρακτηριστικών τα οποία θα εκπαιδεύσουν αλγορίθμους μηχανικής μάθησης με σκοπό την αυτόματη εξαγωγή προσωδιακής πληροφορίας από κείμενο. Τέλος η βάση συναισθηματικής ομιλίας περιέχει ηχογραφημένες πέντε συναισθηματικές καταστάσεις αυτές της ευτυχίας, λύπης, θυμού, φόβου, καθώς και μια ουδέτερη. Για την διαχείριση και επεξεργασία των παραπάνω πόρων υλοποιήθηκε πλατφόρμα μετατροπής κείμενου σε ομιλία. Το πλαίσιο αυτό αποτελείται ουσιαστικά από τρία μέρη: (α) το στάδιο επεξεργασίας φυσικής γλώσσας, (β) το στάδιο κατασκευής μοντέλων επιτονισμού για την εξαγωγή της προσωδιακής πληροφορίας, και (γ) την βαθμίδα σύνθεσης προφορικού λόγου με συνένωση δομικών μονάδων ομιλίας. Κάποια από τα χαρακτηριστικά του συστήματος είναι η ύπαρξη ενός υποσυστήματος για την κανονικοποίηση των μη-κοινών λέξεων για κλιτές γλώσσες και την υποστήριξη πολυγλωσσικών κείμενων. Για την μελέτη και τη δημιουργία μοντέλων μηχανικής μάθησης χρησιμοποιήθηκε η γλωσσολογική αναπαράσταση GRToBI για την αναπαράσταση των επιτονικών φαινομένων. Η αναπαράσταση αυτή αποσκοπεί στη κωδικοποίηση πληροφορίας σχετικά με την καμπύλη επιτονισμού και τις ενδοπεριοδικές προσωδιακές φράσεις μιας εκφώνησης. Προσεγγίσεις μηχανικής μάθησης οι οποίες υιοθετήθηκαν ήταν τα δένδρα απόφασης οι Μπαυεζιανοί ταξινομητές όπως ο Naïve Bayes και τα δίκτυα Bayes καθώς και αυτή των πλησιέστερων γειτόνων. Στα πλαίσια της μοντελοποίησης των φαινομένων αυτών χρησιμοποιήθηκαν μόνο χαρακτηριστικά τα οποία μπορούσαν να εξαχθούν από κείμενο τα οποία στη συνέχεια αξιολογήθηκαν για την συνεισφορά τους σχετικά με την ανίχνευση των προσωδιακών παύσεων και των τονικών υψών. Η έρευνα που πραγματοποιήθηκε είχε σαν καρπό την εκτενή αξιολόγηση και εφαρμογή μορφοσυντακτικών χαρακτηριστικών για την δημιουργία μοντέλων από δεδομένα γενικού κειμενικού πεδίου (όπως είναι η βάση που αναπτύχθηκε στα πλαίσια της διατριβής) καθώς και από δεδομένα περιορισμένου κειμενικού πεδίου για τα Ελληνικά.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this thesis we cope with the task of studying and modeling prosodic phenomena encountered in Greek language with applications to the task of speech synthesis from text. For the achievement of this particular task, spoken corpora with various levels of morphosyntactical and linguistic representation as well as tools for their processing were constructed. With the success of concatenative speech synthesis as well as the shift from rule-based modeling of prosody to formal multivariate models that require the associated parameters to be statistically derived from a training corpus research in the area of synthetic speech production has come to rely on models produced from data driven methods. In particular concatenative speech synthesis heavily relies on the existence of an automatic selection procedure of candidate units from a recorded speech database. Furthermore construction of reliable data-driven prosodic event prediction models requires a well-designed annotated speech corpus and ...
In this thesis we cope with the task of studying and modeling prosodic phenomena encountered in Greek language with applications to the task of speech synthesis from text. For the achievement of this particular task, spoken corpora with various levels of morphosyntactical and linguistic representation as well as tools for their processing were constructed. With the success of concatenative speech synthesis as well as the shift from rule-based modeling of prosody to formal multivariate models that require the associated parameters to be statistically derived from a training corpus research in the area of synthetic speech production has come to rely on models produced from data driven methods. In particular concatenative speech synthesis heavily relies on the existence of an automatic selection procedure of candidate units from a recorded speech database. Furthermore construction of reliable data-driven prosodic event prediction models requires a well-designed annotated speech corpus and greatly depends on its quantity domain coverage as well as annotation consistency. As a result data collection and design requirements describing a prosodic corpus have a direct impact on the resulted synthetic speech of a Text to-Speech (TtS) system. However apart from the minimal requirement of having enough data for the training and testing phase of a statistical model estimation procedure there are no standard rules for corpus design and collection. Construction and annotation of the Greek prosodic speech data, the WCL-1 prosodic database took into account most of the phenomena that constitute the prosodic patterns of Greek language. Due to the fact that Greek is a minority language only restricted research has been conducted on the prosodical aspects of speech communication and therefore there is a scarcity of annotated speech data and tools for rapid database development. In the framework of this endeavor prosodic characteristics of spoken Greek were defined labeled and stored so that relations between intonational phenomena and textual as well as linguistic features could be first extracted and then modeled with the application of machine learning techniques. For the task of coding the emerged prosodic phenomena of our recorded utterances we have followed the work of Pierrehumbert for American English (Pierrehumbert 1981: 985-995). Furthermore our prosodic framework contains segmentation of the data on phonemic level. Several tools were developed in order to perform various tasks such as corpus creation recording and labeling. The data of the prosodic corpus were processed in the following order: (a) selection of a representative text corpus including the most common prosodic phenomena of the Greek language, (b) selection of the speaker and speaking style for the text corpus recording session, (c) phonetic segmentation and labeling, and (d) annotation of the tones and prosodic boundaries with the utilization of Tones and Break Indices (ToBI) annotation convention adopted for Greek. Corpus based synthesis has turned the attention of researchers in deriving accent placement and phrasing rules for text to-speech systems from large labeled corpora most recently attempts have been made to use self-organizing procedures to compute prosodic specification rules automatically from such data. The most commonly used learning techniques are Hidden Markov models, neural networks classification and regression trees transformational rule-based learning and Bayesian. A large amount of intonational variations were taken into account that proved to be useful for prosodic training. Specifically we focused in the task of predicting break indices and pitch accent labels from textual features.
περισσότερα