Περίληψη
Στόχος της παρούσας διατριβής αποτελεί η μελέτη τεχνικών μεθόδων που αφορούν την επεξεργασία πληροφορίας που σχετίζεται με την δια του προσώπου οπτικοακουστική επικοινωνία.Κατόπιν μελέτης των διαφορετικών προσεγγίσεων, οι οποίες αναφέρονται σε ανατομικούς, νευρολογικούς, σημειολογικούς, συναισθηματικούς και συστημικούς παράγοντες επιρροής, το ακριβές αντικείμενο προσδιορίστηκε στο επίπεδο του αμιγώς γλωσσικού περιεχομένου. Σε σχέση με το τελευταίο, προδιαγράφηκαν λεπτομερώς τα χαρακτηριστικά ενός δείγματος ελέγχου φυσικών ομιλητών κατάλληλου για ανάλυση της γραπτής απεικόνισης καθώς και των ακουστικού και οπτικού ερεθίσματος. Αρχικά, για τη γραπτή απεικόνιση προτείνεται μια καινοτομική αναπαράσταση φωνητικής μεταγραφής από έναν ακρυλικό κατευθυντικό γράφο αντί της κλασσικής σειριακής ακολουθίας φωνητικών συμβολών. Η προτεινόμενη μεθοδολογία εφαρμόστηκε για την περίπτωση της νέας ελληνικής γλώσσας για την οποία δημιουργήθηκε ένα σύστημα βασισμένο σε κανόνες μεταγραφής.Στη συνέχεια, για ...
Στόχος της παρούσας διατριβής αποτελεί η μελέτη τεχνικών μεθόδων που αφορούν την επεξεργασία πληροφορίας που σχετίζεται με την δια του προσώπου οπτικοακουστική επικοινωνία.Κατόπιν μελέτης των διαφορετικών προσεγγίσεων, οι οποίες αναφέρονται σε ανατομικούς, νευρολογικούς, σημειολογικούς, συναισθηματικούς και συστημικούς παράγοντες επιρροής, το ακριβές αντικείμενο προσδιορίστηκε στο επίπεδο του αμιγώς γλωσσικού περιεχομένου. Σε σχέση με το τελευταίο, προδιαγράφηκαν λεπτομερώς τα χαρακτηριστικά ενός δείγματος ελέγχου φυσικών ομιλητών κατάλληλου για ανάλυση της γραπτής απεικόνισης καθώς και των ακουστικού και οπτικού ερεθίσματος. Αρχικά, για τη γραπτή απεικόνιση προτείνεται μια καινοτομική αναπαράσταση φωνητικής μεταγραφής από έναν ακρυλικό κατευθυντικό γράφο αντί της κλασσικής σειριακής ακολουθίας φωνητικών συμβολών. Η προτεινόμενη μεθοδολογία εφαρμόστηκε για την περίπτωση της νέας ελληνικής γλώσσας για την οποία δημιουργήθηκε ένα σύστημα βασισμένο σε κανόνες μεταγραφής.Στη συνέχεια, για το ακουστικό ερέθισμα προτείνονται δύο μέθοδοι ασαφούς κατάτμησης του αντίστοιχου ηχητικού σήματος. Η σχεδίαση αυτών βασίζεται αφενός στην αποτύπωση των μηχανικών χαρακτηριστικών του φωνητικού σωλήνα στο πεδίο των ηχητικών χαρακτηριστικών και αφετέρου στο γεγονός της επανάληψης ομοίων ακουστικών προτύπων κατά μήκος της εκφώνησης ενός αυτοτελούς γλωσσικού μηνύματος. Ιδιαίτερο χαρακτηριστικό των μεθόδων αυτών αποτελεί η απουσία φάσης εκπαίδευσης καθώς και η δυνατότητα αξιοποίησης της πιθανώς υπάρχουσας πληροφορίας φωνητικής μεταγραφής με τη χρήση φωνολογικών διακριτικών χαρακτηριστικών.Επιπλέον, για το οπτικό ερέθισμα προτείνεται μια μεθοδολογία για την εξαγωγή κανονικοποιημένων απεικονίσεων της περιοχής των ορατών αρθρωτών κατά την ομιλία μέσω τεχνικών επεξεργασίας εικόνας. Η πρόταση περιλαμβάνει την παραγοντοποίηση του αφινικού μετασχηματισμού με τη χρήση τετραδονίων σε συνδυασμό με την τεχνική ενός βασικού πλαισίου. Στην υποδομή αυτή προτείνεται μια σειρά μεθόδων που στοχεύουν στην ανάσχεση του προσθετικού σφάλματος εντοπισμού και την εκτίμηση τρισδιάστατου βάθους ενός πλήθους χαρακτηριστικών σημείων, αποσκοπώντας στην εκτίμηση των παραμέτρων θέσης κεφαλιού για σε κάθε καρέ. Το σύνολο της μεθοδολογίας ολοκληρώνεται με την αξιοποίηση των τελευταίων από έναν αλγόριθμο απομόνωσης της απεικόνισης των ορατών αρθρωτών.Ακολούθως, παρουσιάζονται αποτελέσματα αξιολόγησης των προτάσεων με τη χρήση δείγματος οπτικοακουστικών καταγραφών φυσικών ομιλητών από DVB-T μεταδόσεις εκφωνήσεων νυχτερινών δελτίων ειδήσεων. Παρουσιάζεται επίσης μια πρωτότυπη διεπαφή υλοποίησης, η οποία αναπτύχθηκε με στόχο την ικανοποίηση των τρεχόντων αλλά και μελλοντικών αναγκών φιλοξενίας δείγματος, χαρακτηρισμού των αποσπασμάτων καθώς και της απαιτούμενης διαλειτουργικότητας των μεθόδων. Τέλος, γίνεται μνεία στη δυνατότητα σύνθεσης του συνόλου των προτάσεων ενώ περιγράφεται η πορεία προς τη δημιουργία ενός μοντέλου εκτίμησης κίνησης ορατών αρθρωτών κατά την εκφορά γλωσσικών μηνυμάτων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The aim of the current thesis is to study technical methods of information processing associated with the face-based audiovisual communication.Following a study of different approaches, referring to anatomical, neurological, semantic, emotional and systemic influence factors, the exact object is defined in terms of purely linguistic content. In relation to the latter, a detailed characteristics specification of a native speakers control sample was determined, suitable for analysis of written form, auditory and visual stimuli.Regarding the written form a novel phonetic transcription representation is proposed, with the use of an acrylic directional graph instead of the classic serial sequence of phonetic symbols. The methodology was applied to the case of the Greek language, by means of a rule-based transcription system development.Furthermore, regarding the acoustic stimulus two novel fuzzy segmentation methods of the corresponding signal are proposed. Their design is based on both the ...
The aim of the current thesis is to study technical methods of information processing associated with the face-based audiovisual communication.Following a study of different approaches, referring to anatomical, neurological, semantic, emotional and systemic influence factors, the exact object is defined in terms of purely linguistic content. In relation to the latter, a detailed characteristics specification of a native speakers control sample was determined, suitable for analysis of written form, auditory and visual stimuli.Regarding the written form a novel phonetic transcription representation is proposed, with the use of an acrylic directional graph instead of the classic serial sequence of phonetic symbols. The methodology was applied to the case of the Greek language, by means of a rule-based transcription system development.Furthermore, regarding the acoustic stimulus two novel fuzzy segmentation methods of the corresponding signal are proposed. Their design is based on both the mapping of the mechanical characteristics of the vocal tract in the audio signal features domain and the repetition of similar acoustic patterns during the pronunciation of a self-contained linguistic message. Two of the special features these methods present are the absence of a training phase and the capability of using additional phonetic transcription information.Moreover, regarding the visual stimulus, a methodology for extracting normalized images of the visible articulators region during speech via image processing techniques, is described. The proposal involves an affine transformation factorization using quaternions, combined with a single keyframe framework. Based on the fore mentioned infrastructure, the introduced methods feature counteracting the cumulative detection error and three-dimensional depth evaluation of a set of characteristic points, focusing on head pose parameters estimation in each frame. The methodology is completed by using the latter in a visible articulators isolation algorithm.Subsequently, a series of evaluation results are presented using an audiovisual recording sample consisted of DVB-T native speakers nightly news transmissions. An original interface implementation developed to meet the current and future needs of sample collection, excerpts annotation and required methods interoperability is also presented. Finally, reference is made to the proposed methods integration potential as well as to a roadmap for the creation of a visible articulators motion assessment model, during the pronunciation of language messages.
περισσότερα