Περίληψη
Στο πλαίσιο της παρούσας διδακτορικής διατριβής εισάγονται και μελετώνται νέα συστήματα επεξεργασίας οπτικοακουστικών πόρων με σκοπό την ταξινόμηση και αναζήτηση πληροφοριών σε διαδικτυακά περιβάλλοντα διαχείρισης και μετάδοσης οπτικοακουστικού περιεχομένου. Οι προτεινόμενες μέθοδοι εστιάζουν στη μονοτροπική και πολυτροπική σημασιολογική ανάλυση περιεχομένου με έμφαση στην αξιοποίηση τεχνικών μηχανικής μάθησης. Ειδικότερα, εισάγεται ένα μοντέλο συστημάτων επεξεργασίας οπτικοακουστικών πόρων που υποστηρίζει τη δυνατότητα ενσωμάτωσης αλγορίθμων σημασιολογικής ανάλυσης στη βάση μιας νέας αρχιτεκτονικής ιεραρχικής οργάνωσης. Παράλληλα, προτείνεται μια μεθοδολογία συνεργατικής δημιουργίας επισημάνσεων μέσω της κοινωνικής αλληλεπίδρασης των χρηστών, με σκοπό τον εμπλουτισμό του περιεχομένου και την ανάπτυξη μεγάλης κλίμακας συνόλων δεδομένων αληθείας. Στο πλαίσιο του προτεινόμενου ιεραρχικού μοντέλου οργάνωσης αναπτύσσεται και αξιολογείται ένα σύνολο καινοτόμων, ηχητικά-οδηγούμενων τεχνικώ ...
Στο πλαίσιο της παρούσας διδακτορικής διατριβής εισάγονται και μελετώνται νέα συστήματα επεξεργασίας οπτικοακουστικών πόρων με σκοπό την ταξινόμηση και αναζήτηση πληροφοριών σε διαδικτυακά περιβάλλοντα διαχείρισης και μετάδοσης οπτικοακουστικού περιεχομένου. Οι προτεινόμενες μέθοδοι εστιάζουν στη μονοτροπική και πολυτροπική σημασιολογική ανάλυση περιεχομένου με έμφαση στην αξιοποίηση τεχνικών μηχανικής μάθησης. Ειδικότερα, εισάγεται ένα μοντέλο συστημάτων επεξεργασίας οπτικοακουστικών πόρων που υποστηρίζει τη δυνατότητα ενσωμάτωσης αλγορίθμων σημασιολογικής ανάλυσης στη βάση μιας νέας αρχιτεκτονικής ιεραρχικής οργάνωσης. Παράλληλα, προτείνεται μια μεθοδολογία συνεργατικής δημιουργίας επισημάνσεων μέσω της κοινωνικής αλληλεπίδρασης των χρηστών, με σκοπό τον εμπλουτισμό του περιεχομένου και την ανάπτυξη μεγάλης κλίμακας συνόλων δεδομένων αληθείας. Στο πλαίσιο του προτεινόμενου ιεραρχικού μοντέλου οργάνωσης αναπτύσσεται και αξιολογείται ένα σύνολο καινοτόμων, ηχητικά-οδηγούμενων τεχνικών σημασιολογικής ανάλυσης οπτικοακουστικού περιεχομένου. Προτείνεται μια μέθοδος επιβλεπόμενης μάθησης για την ανάλυση περιεχομένου με σκοπό τη διάκριση ομιλίας και μουσικής. Χρησιμοποιείται μια αρθρωτή αρχιτεκτονική δύο επιπέδων, όπου σε πρώτο επίπεδο εντοπίζονται πιθανά σημεία μετάβασης μεταξύ ομοιογενών τμημάτων περιεχομένου, ενώ σε δεύτερο στάδιο γίνεται ταξινόμηση του περιεχομένου των τμημάτων που ορίζεται από διαδοχικά σημεία μετάβασης. Για την εκτίμηση της απόδοσης, η μέθοδος αξιολογείται συγκριτικά με δύο υπάρχουσες υλοποιήσεις αλγορίθμων αιχμής απο τη βιβλιογραφία καθώς και με βάση τα αποτελέσματα του διαγωνισμού MIREX 2015 στον οποίο συμμετείχε και σημείωσε την τρίτη καλύτερη επίδοση. Εισάγεται μια τεχνική κατάτμησης μουσικού περιεχομένου βασισμένη στον εντοπισμό επαναλαμβανόμενων τμημάτων περιεχομένου μέσω πινάκων ιδιο-διαφορών. Η ανίχνευση των επαναλαμβανόμενων τμημάτων επιτυγχάνεται μέσω μίας καινοτόμου μεθοδολογίας διανυσματικής κβάντισης που χρησιμοποιείται ως μηχανισμός προσαρμοστικού φιλτραρίσματος. Η εκτίμηση της απόδοσης του συστήματος πραγματοποιείται με τη χρήση ενός συνόλου δεδομένων 124 μουσικών έργων ενώ επίσης αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία. Τελος, εισάγεται μια πολυτροπική μέθοδολογία δεικτοδότησης ομιλητών με χρήση τεχνικών βαθιάς μάθησης. Η ανάλυση της ηχητικής συνιστώσας πραγματοποιείται μέσω μιας πρωτότυπης σιαμαίας αρχιτεκτονικής ανατροφοδοτούμενων νευρωνικών δικτύων που εκπαιδεύεται βάσει της ομοιότητας μεταξύ ακολουθιών δειγμάτων ομιλητών. Η αξιοποίηση της οπτικής συνιστώσας επιτυγχάνεται με την ανάπτυξη ενός μηχανισμού πολυτροπικής σύντηξης που επιχειρεί τη συσχέτιση της φωνής και του προσώπου του εκάστοτε ομιλητή. Για την εκτίμηση της απόδοσης του αλγορίθμου χρησιμοποιούνται δύο σύνολα δεδομένων μεγάλης έκτασης και επιλέον ο αλγόριθμος αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία.
περισσότερα
Περίληψη σε άλλη γλώσσα
This work introduces and evaluates new methodologies for audiovisual content classification and retrieval, in media asset management systems. The proposed methodologies focus on the unimodal and multimodal semantic analysis of audiovisual content with emphasis on the employment of machine learning techniques. A new media asset management model, supporting the incorporation of semantic analysis algorithms on the basis of a hierarchical architecture, is introduced. Additionally, a collaborative annotation method based on the user social interaction is introduced, aiming at the development of large-scale, annotated ground truth datasets. In the context of the proposed hierarchical architecture, a number of novel audio-driven content analysis methodologies are presented and evaluated. A new method for audiovisual content segmentation based on speech / music discrimination is developed. The proposed algorithm relies on the hypothesis that short-time frame-level discrimination performance ca ...
This work introduces and evaluates new methodologies for audiovisual content classification and retrieval, in media asset management systems. The proposed methodologies focus on the unimodal and multimodal semantic analysis of audiovisual content with emphasis on the employment of machine learning techniques. A new media asset management model, supporting the incorporation of semantic analysis algorithms on the basis of a hierarchical architecture, is introduced. Additionally, a collaborative annotation method based on the user social interaction is introduced, aiming at the development of large-scale, annotated ground truth datasets. In the context of the proposed hierarchical architecture, a number of novel audio-driven content analysis methodologies are presented and evaluated. A new method for audiovisual content segmentation based on speech / music discrimination is developed. The proposed algorithm relies on the hypothesis that short-time frame-level discrimination performance can be enhanced by identifying transition points between longer, semantically homogeneous segments of audio. As part of it, a two-step segmentation approach is employed to identify transition points between the homogeneous regions and subsequently classify the derived segments using a supervised binary classifier. The algorithm is evaluated against three publicly available datasets and experimental results are presented in comparison with existing state-of-the-art implementations. Furthermore, results from the MIREX 2015 competition, where the proposed system won the third place, are presented and discussed. Afterwards, a music structure segmentation algorithm, relying on the detection of transition points between repeated sections of content, is introduced. Vector-quantization is employed as a novel adaptive filtering mechanism for the extraction of the repeated time-series data. The method is evaluated against 124 pop songs from the INRIA Eurovision dataset and in comparison with an existing state-of-the-art music structure analysis algorithm. Finally, a multimodal speaker diarization approach, based on deep neural network embeddings, is proposed. A novel Long Short-term Memory, Siamese neural network is employed for the analysis of the audio mode, whereas a pre-trained convolutional neural network is deployed for the analysis of the visual modality. A multimodal fusion stage is introduced to enhance audio-driven speaker diarization performance by exploiting information derived from the visual input. The proposed method is assessed against two publicly available datasets and results are presented in comparison with an existing state-of-the-art algorithm.
περισσότερα