Οπτικοακουστική μοντελοποίηση προσοχής και πολυ-αισθητηριακή κατανόηση ακουστικής σκηνής

Περίληψη

Στη διατριβή αυτή μελετάται η δυνατότητα ανάπτυξης ενός μοντέλου οπτικοακουστικής προσοχής/εμφάνειας βασισμένου σε ευρήματα από συμπεριφορικά πειράματα, το οποίο προβλέπει τα σημεία εστίασης του ανθρώπινου ματιού σε μια δισδιάστατη οπτικοακουστική σκηνή. Η μελέτη αυτή πραγματοποιείται με δύο τρόπους: με τεχνικές επεξεργασίας σήματος και με βαθιά νευρωνικά δίκτυα. Όσον αφορά τις τεχνικές επεξεργασίας σήματος, διερευνώνται διάφορες τεχνικές σύμμειξης οπτικής και ακουστικής εμφάνειας με ήδη υπάρχοντα μοντέλα. Τα δημιουργούμενα οπτικοακουστικά μοντέλα επαληθεύονται τόσο με ευρήματα από συμπεριφορικά πειράματα, όσο και με δεδομένα οφθαλμοκινητικής παρακολούθησης αλλά και δεδομένα fMRI. Τα αποτελέσματα τόσο από τα συμπεριφορικά πειράματα όσο και από τα πειράματα με οφθαλμοκινητικά δεδομένα υποδεικνύουν ότι η οπτικοακουστική μοντελοποίηση βελτιώνει την επίδοση του συστήματος πρόβλεψης σημείων εστίασης του ματιού. Όσον αφορά τα βαθιά νευρωνικά δίκτυα, παρουσιάζεται ένα χωρο-χρονικό οπτικοακουσ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

The scope of this work is the investigation and development of a 2D computational audiovisual saliency model based on behavioral findings that will be able to produce accurate human fixation predictions in a 2D audiovisual scene, i.e. in videos. The investigation is carried out with two different ways: with signal processing techniques and with deep learning techniques. Regarding the former, several fusion schemes between visual and auditory saliency models are being investigated, and the resulting models are behaviorally validated through comparisons with results from behavioral experiments and evaluated with audiovisual human eye-tracking data and fMRI data. Results from both behavioral and eye-tracking experiments indicate that audiovisual saliency modeling indeed improves saliency estimation performance. Regarding deep learning techniques, a new spatio-temporal audiovisual saliency network is developed, that includes a visual saliency network, an audio representation network, a sou ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/47133
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/47133
ND
47133
Εναλλακτικός τίτλος
Audiovisual saliency modeling and multisensory auditory scene understanding
Συγγραφέας
Τσιάμη, Αντιγόνη (Πατρώνυμο: Ελευθέριος)
Ημερομηνία
2019
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων
Εξεταστική επιτροπή
Μαραγκός Πέτρος
Τζαφέστας Κωνσταντίνος
Ποταμιάνος Γεράσιμος
Φωτεινέα Ευίτα - Σταυρούλα
Τσανάκας Παναγιώτης
Βατάκη Αργυρώ
Daniilidis Kostas
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και Τεχνολογία
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Οπτικοακουστική προσοχή; Αναγνώριση φωνής; Μηχανική μάθηση
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
157 σ., εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)