Σύγχρονες τεχνικές ανάλυσης και σύνθεσης φωνής και ομιλίας με τη χρήση οπτικών και ακουστικών πληροφοριών

Στόχος της παρούσας διατριβής αποτελεί η μελέτη τεχνικών μεθόδων που αφορούν την επεξεργασία πληροφορίας που σχετίζεται με την δια του προσώπου οπτικοακουστική επικοινωνία.Κατόπιν μελέτης των διαφορετικών προσεγγίσεων, οι οποίες αναφέρονται σε ανατομικούς, νευρολογικούς, σημειολογικούς, συναισθηματικούς και συστημικούς παράγοντες επιρροής, το ακριβές αντικείμενο προσδιορίστηκε στο επίπεδο του αμιγώς γλωσσικού περιεχομένου. Σε σχέση με το τελευταίο, προδιαγράφηκαν λεπτομερώς τα χαρακτηριστικά ενός δείγματος ελέγχου φυσικών ομιλητών κατάλληλου για ανάλυση της γραπτής απεικόνισης καθώς και των ακουστικού και οπτικού ερεθίσματος. Αρχικά, για τη γραπτή απεικόνιση προτείνεται μια καινοτομική αναπαράσταση φωνητικής μεταγραφής από έναν ακρυλικό κατευθυντικό γράφο αντί της κλασσικής σειριακής ακολουθίας φωνητικών συμβολών. Η προτεινόμενη μεθοδολογία εφαρμόστηκε για την περίπτωση της νέας ελληνικής γλώσσας για την οποία δημιουργήθηκε ένα σύστημα βασισμένο σε κανόνες μεταγραφής.Στη συνέχεια, για το ακουστικό ερέθισμα προτείνονται δύο μέθοδοι ασαφούς κατάτμησης του αντίστοιχου ηχητικού σήματος. Η σχεδίαση αυτών βασίζεται αφενός στην αποτύπωση των μηχανικών χαρακτηριστικών του φωνητικού σωλήνα στο πεδίο των ηχητικών χαρακτηριστικών και αφετέρου στο γεγονός της επανάληψης ομοίων ακουστικών προτύπων κατά μήκος της εκφώνησης ενός αυτοτελούς γλωσσικού μηνύματος. Ιδιαίτερο χαρακτηριστικό των μεθόδων αυτών αποτελεί η απουσία φάσης εκπαίδευσης καθώς και η δυνατότητα αξιοποίησης της πιθανώς υπάρχουσας πληροφορίας φωνητικής μεταγραφής με τη χρήση φωνολογικών διακριτικών χαρακτηριστικών.Επιπλέον, για το οπτικό ερέθισμα προτείνεται μια μεθοδολογία για την εξαγωγή κανονικοποιημένων απεικονίσεων της περιοχής των ορατών αρθρωτών κατά την ομιλία μέσω τεχνικών επεξεργασίας εικόνας. Η πρόταση περιλαμβάνει την παραγοντοποίηση του αφινικού μετασχηματισμού με τη χρήση τετραδονίων σε συνδυασμό με την τεχνική ενός βασικού πλαισίου. Στην υποδομή αυτή προτείνεται μια σειρά μεθόδων που στοχεύουν στην ανάσχεση του προσθετικού σφάλματος εντοπισμού και την εκτίμηση τρισδιάστατου βάθους ενός πλήθους χαρακτηριστικών σημείων, αποσκοπώντας στην εκτίμηση των παραμέτρων θέσης κεφαλιού για σε κάθε καρέ. Το σύνολο της μεθοδολογίας ολοκληρώνεται με την αξιοποίηση των τελευταίων από έναν αλγόριθμο απομόνωσης της απεικόνισης των ορατών αρθρωτών.Ακολούθως, παρουσιάζονται αποτελέσματα αξιολόγησης των προτάσεων με τη χρήση δείγματος οπτικοακουστικών καταγραφών φυσικών ομιλητών από DVB-T μεταδόσεις εκφωνήσεων νυχτερινών δελτίων ειδήσεων. Παρουσιάζεται επίσης μια πρωτότυπη διεπαφή υλοποίησης, η οποία αναπτύχθηκε με στόχο την ικανοποίηση των τρεχόντων αλλά και μελλοντικών αναγκών φιλοξενίας δείγματος, χαρακτηρισμού των αποσπασμάτων καθώς και της απαιτούμενης διαλειτουργικότητας των μεθόδων. Τέλος, γίνεται μνεία στη δυνατότητα σύνθεσης του συνόλου των προτάσεων ενώ περιγράφεται η πορεία προς τη δημιουργία ενός μοντέλου εκτίμησης κίνησης ορατών αρθρωτών κατά την εκφορά γλωσσικών μηνυμάτων.

περισσότερα

Περίληψη σε άλλη γλώσσα

The aim of the current thesis is to study technical methods of information processing associated with the face-based audiovisual communication.Following a study of different approaches, referring to anatomical, neurological, semantic, emotional and systemic influence factors, the exact object is defined in terms of purely linguistic content. In relation to the latter, a detailed characteristics specification of a native speakers control sample was determined, suitable for analysis of written form, auditory and visual stimuli.Regarding the written form a novel phonetic transcription representation is proposed, with the use of an acrylic directional graph instead of the classic serial sequence of phonetic symbols. The methodology was applied to the case of the Greek language, by means of a rule-based transcription system development.Furthermore, regarding the acoustic stimulus two novel fuzzy segmentation methods of the corresponding signal are proposed. Their design is based on both the mapping of the mechanical characteristics of the vocal tract in the audio signal features domain and the repetition of similar acoustic patterns during the pronunciation of a self-contained linguistic message. Two of the special features these methods present are the absence of a training phase and the capability of using additional phonetic transcription information.Moreover, regarding the visual stimulus, a methodology for extracting normalized images of the visible articulators region during speech via image processing techniques, is described. The proposal involves an affine transformation factorization using quaternions, combined with a single keyframe framework. Based on the fore mentioned infrastructure, the introduced methods feature counteracting the cumulative detection error and three-dimensional depth evaluation of a set of characteristic points, focusing on head pose parameters estimation in each frame. The methodology is completed by using the latter in a visible articulators isolation algorithm.Subsequently, a series of evaluation results are presented using an audiovisual recording sample consisted of DVB-T native speakers nightly news transmissions. An original interface implementation developed to meet the current and future needs of sample collection, excerpts annotation and required methods interoperability is also presented. Finally, reference is made to the proposed methods integration potential as well as to a roadmap for the creation of a visible articulators motion assessment model, during the pronunciation of language messages.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (7.12 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/29051
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/29051
ND	29051
Εναλλακτικός τίτλος	Synchronous voice and speech analysis and synthesis techniques using visual and auditory information
Συγγραφέας	Αβδελίδης, Κωνσταντίνος (Πατρώνυμο: Αθανάσιος)
Ημερομηνία	2012
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών. Τομέας Τηλεπικοινωνιών
Εξεταστική επιτροπή	Παπανικολάου Γεώργιος Πανάς Σταύρος Σεργιάδης Γεώργιος Μουρτζόπουλος Ιωάννης Χατζηλεοντιάδης Λεόντιος Καλλίρης Γεώργιος Ντελόπουλος Αναστάσιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμες Ηλεκτρονικών Υπολογιστών & Πληροφορικής Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Ανάλυση γλωσσικού περιεχομένου; Οριακή φωνητική μεταγραφή κειμένου; Ασαφής κατάτμηση σήματος φωνής; Ανάλυση βραχέως χρόνου χαρακτηριστικών σήματος ήχου; Διακριτικά χαρακτηριστικά; Παρακολούθηση/απομόνωση ορατών αρθρωτών; Επεξεργασία και τεκμηρίωση οπτικοακουστικού σήματος ομιλίας
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	265 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Η παιδική σχολική χορωδία στο σύστημα μουσικής εκπαίδευσης μέσα στο πλαίσιο της ελληνικής πραγματικότητας: σύγχρονες τάσεις και αποτελεσματικές εφαρμογές

Η ΡΥΘΜΙΚΗ ΩΣ ΜΕΣΟ ΕΚΠΑΙΔΕΥΣΗΣ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΗΛΙΚΙΑ "ΕΝΑ ΣΥΝΔΥΑΣΤΙΚΟ ΠΡΟΓΡΑΜΜΑΡΥΘΜΙΚΗΣ ΚΑΙ ΚΙΝΗΤΙΚΗΣ ΑΓΩΓΗΣ"

Η διδασκαλία της μουσικής των παιδιών ηλικίας 8 έως 10 χρόνων με τη χρήση των νέων τεχνολογιών και η επίδρασή της στις στάσεις τους σχετικά με την ελληνική μουσική παράδοση

Μέθοδοι και διατάξεις απευθείας ηλεκτροακουστικής μετατροπής για ψηφιακό ήχο

Ανίχνευση επιθέσεων σε δίκτυα υπολογιστών

Η ανάπτυξη της αντίληψης του ρυθμού μέσα από την πολυπολιτισμική μουσική αγωγή σε παιδιά ηλικίας 8-10 ετών της πρωτοβάθμιας εκπαίδευσης

Αυτόματη ανάκτηση μουσικής πληροφορίας με έμφαση στο ρυθμό

Ζητήματα πρόσληψης της νεοελληνικής ποίησης μέσα από την επαφή της με τη μουσική: το παράδειγμα του Γιάννη Ρίτσου: η μελοποίηση του Επιτάφιου και της Ρωμιοσύνης από τον Μίκη Θεοδωράκη

Μη λεκτική επικοινωνία: η σημασία της στη διδακτική και μαθησιακή διαδικασία

Στοχαστικές πολυδιάστατες τεχνικές βελτιστοποίησης για τη σχεδίαση δικτύων ασύρματων επικοινωνιών

"Σύγχρονες τεχνικές ανάλυσης και σύνθεσης φωνής και ομιλίας με τη χρήση οπτικών και ακουστικών πληροφοριών"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .