Συστήματα επεξεργασίας οπτικοακουστικών πόρων

Στο πλαίσιο της παρούσας διδακτορικής διατριβής εισάγονται και μελετώνται νέα συστήματα επεξεργασίας οπτικοακουστικών πόρων με σκοπό την ταξινόμηση και αναζήτηση πληροφοριών σε διαδικτυακά περιβάλλοντα διαχείρισης και μετάδοσης οπτικοακουστικού περιεχομένου. Οι προτεινόμενες μέθοδοι εστιάζουν στη μονοτροπική και πολυτροπική σημασιολογική ανάλυση περιεχομένου με έμφαση στην αξιοποίηση τεχνικών μηχανικής μάθησης. Ειδικότερα, εισάγεται ένα μοντέλο συστημάτων επεξεργασίας οπτικοακουστικών πόρων που υποστηρίζει τη δυνατότητα ενσωμάτωσης αλγορίθμων σημασιολογικής ανάλυσης στη βάση μιας νέας αρχιτεκτονικής ιεραρχικής οργάνωσης. Παράλληλα, προτείνεται μια μεθοδολογία συνεργατικής δημιουργίας επισημάνσεων μέσω της κοινωνικής αλληλεπίδρασης των χρηστών, με σκοπό τον εμπλουτισμό του περιεχομένου και την ανάπτυξη μεγάλης κλίμακας συνόλων δεδομένων αληθείας. Στο πλαίσιο του προτεινόμενου ιεραρχικού μοντέλου οργάνωσης αναπτύσσεται και αξιολογείται ένα σύνολο καινοτόμων, ηχητικά-οδηγούμενων τεχνικών σημασιολογικής ανάλυσης οπτικοακουστικού περιεχομένου. Προτείνεται μια μέθοδος επιβλεπόμενης μάθησης για την ανάλυση περιεχομένου με σκοπό τη διάκριση ομιλίας και μουσικής. Χρησιμοποιείται μια αρθρωτή αρχιτεκτονική δύο επιπέδων, όπου σε πρώτο επίπεδο εντοπίζονται πιθανά σημεία μετάβασης μεταξύ ομοιογενών τμημάτων περιεχομένου, ενώ σε δεύτερο στάδιο γίνεται ταξινόμηση του περιεχομένου των τμημάτων που ορίζεται από διαδοχικά σημεία μετάβασης. Για την εκτίμηση της απόδοσης, η μέθοδος αξιολογείται συγκριτικά με δύο υπάρχουσες υλοποιήσεις αλγορίθμων αιχμής απο τη βιβλιογραφία καθώς και με βάση τα αποτελέσματα του διαγωνισμού MIREX 2015 στον οποίο συμμετείχε και σημείωσε την τρίτη καλύτερη επίδοση. Εισάγεται μια τεχνική κατάτμησης μουσικού περιεχομένου βασισμένη στον εντοπισμό επαναλαμβανόμενων τμημάτων περιεχομένου μέσω πινάκων ιδιο-διαφορών. Η ανίχνευση των επαναλαμβανόμενων τμημάτων επιτυγχάνεται μέσω μίας καινοτόμου μεθοδολογίας διανυσματικής κβάντισης που χρησιμοποιείται ως μηχανισμός προσαρμοστικού φιλτραρίσματος. Η εκτίμηση της απόδοσης του συστήματος πραγματοποιείται με τη χρήση ενός συνόλου δεδομένων 124 μουσικών έργων ενώ επίσης αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία. Τελος, εισάγεται μια πολυτροπική μέθοδολογία δεικτοδότησης ομιλητών με χρήση τεχνικών βαθιάς μάθησης. Η ανάλυση της ηχητικής συνιστώσας πραγματοποιείται μέσω μιας πρωτότυπης σιαμαίας αρχιτεκτονικής ανατροφοδοτούμενων νευρωνικών δικτύων που εκπαιδεύεται βάσει της ομοιότητας μεταξύ ακολουθιών δειγμάτων ομιλητών. Η αξιοποίηση της οπτικής συνιστώσας επιτυγχάνεται με την ανάπτυξη ενός μηχανισμού πολυτροπικής σύντηξης που επιχειρεί τη συσχέτιση της φωνής και του προσώπου του εκάστοτε ομιλητή. Για την εκτίμηση της απόδοσης του αλγορίθμου χρησιμοποιούνται δύο σύνολα δεδομένων μεγάλης έκτασης και επιλέον ο αλγόριθμος αξιολογείται συγκριτικά με αντίστοιχο αλγόριθμο αιχμής από τη βιβλιογραφία.

περισσότερα

Περίληψη σε άλλη γλώσσα

This work introduces and evaluates new methodologies for audiovisual content classification and retrieval, in media asset management systems. The proposed methodologies focus on the unimodal and multimodal semantic analysis of audiovisual content with emphasis on the employment of machine learning techniques. A new media asset management model, supporting the incorporation of semantic analysis algorithms on the basis of a hierarchical architecture, is introduced. Additionally, a collaborative annotation method based on the user social interaction is introduced, aiming at the development of large-scale, annotated ground truth datasets. In the context of the proposed hierarchical architecture, a number of novel audio-driven content analysis methodologies are presented and evaluated. A new method for audiovisual content segmentation based on speech / music discrimination is developed. The proposed algorithm relies on the hypothesis that short-time frame-level discrimination performance can be enhanced by identifying transition points between longer, semantically homogeneous segments of audio. As part of it, a two-step segmentation approach is employed to identify transition points between the homogeneous regions and subsequently classify the derived segments using a supervised binary classifier. The algorithm is evaluated against three publicly available datasets and experimental results are presented in comparison with existing state-of-the-art implementations. Furthermore, results from the MIREX 2015 competition, where the proposed system won the third place, are presented and discussed. Afterwards, a music structure segmentation algorithm, relying on the detection of transition points between repeated sections of content, is introduced. Vector-quantization is employed as a novel adaptive filtering mechanism for the extraction of the repeated time-series data. The method is evaluated against 124 pop songs from the INRIA Eurovision dataset and in comparison with an existing state-of-the-art music structure analysis algorithm. Finally, a multimodal speaker diarization approach, based on deep neural network embeddings, is proposed. A novel Long Short-term Memory, Siamese neural network is employed for the analysis of the audio mode, whereas a pre-trained convolutional neural network is deployed for the analysis of the visual modality. A multimodal fusion stage is introduced to enhance audio-driven speaker diarization performance by exploiting information derived from the visual input. The proposed method is assessed against two publicly available datasets and results are presented in comparison with an existing state-of-the-art algorithm.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (8.2 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/44825
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/44825
ND	44825
Εναλλακτικός τίτλος	Multimedia content analysis systems
Συγγραφέας	Τσίπας, Νικόλαος (Πατρώνυμο: Κωνσταντίνος)
Ημερομηνία	2018
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τηλεπικοινωνιών
Εξεταστική επιτροπή	Παπανικολάου Γεώργιος Καλλίρης Γεώργιος Χαμζάς Χριστόδουλος Μουρτζόπουλος Ιωάννης Ντελόπουλος Αναστάσιος Φλώρος Ανδρέας Δημούλας Χαράλαμπος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Σημασιολογική ανάλυση οπτικοακουστικού περιεχομένου; Βαθιά μάθηση; Συνεργατική επισημείωση περιεχομένου; Διάκριση ομιλίας / μουσικής; Κατάτμηση μουσικού περιεχομένου; Πολυτροπική δεικτοδότηση ομιλητών
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	148 σ., εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Έμφυλες ιεραρχήσεις και στερεότυπα στη μουσική εκπαίδευση: αφηγήσεις αγοριών σχετικά με τη συμμετοχή τους σε χορωδίες μουσικών σχολείων

Η ιδιότητα του πολίτη στο ελληνικό γενικό λύκειο: δυνατότητες και όρια ανάπτυξής της σε πλαίσιο εκπαιδευτικών παρεμβάσεων

Διαμορφώνοντας μια εναλλακτική οργανωσιακή κουλτούρα στο δημόσιο σύστημα υγείας: εθνογραφική μελέτη ενός προγράμματος απεξάρτησης

Ανίχνευση προσεγγίσεων του μαθήματος της μουσικής αγωγής στην πρωτοβάθμια εκπαίδευση: η περίπτωση των εκπαιδευτικών μουσικής αγωγής των νομών της Περιφέρειας Δυτικής Ελλάδας

Εκπαιδευτική ηγεσία και δημοκρατικές αξίες στο ελληνικό σχολείο: μια έρευνα σε σχολικές μονάδες της δευτεροβάθμιας εκπαίδευσης της περιφερειακής ενότητας Αιτωλοακαρνανίας

Η εκπαίδευση των δασκάλων στα ανθρώπινα δικαιώματα: η περίπτωση των Ρομά της Δυτικής Αττικής

Δημοκρατία, διεθνείς οργανισμοί και σχολική εκπαίδευση

"Έχουμε τρεις τηλεοράσεις, DVD και video (...)": μέσα επικοινωνίας και διαμόρφωση ταυτότητας Αλβανών μαθητών

Η ανάπτυξη της κριτικής σκέψης και το μάθημα της μουσικής στη δευτεροβάθμια εκπαίδευση: η κριτική διδασκαλία

Άτυπες μορφές μάθησης και ελεύθερος μουσικός αυτοσχεδιασμός: επαναπροσδιορίζοντας την έννοια της μουσικής δραστηριότητας στην Ελλάδα μέσα από περιπτώσεις αυτοσχεδιαστών χωρίς επίσημη μουσική εκπαίδευση

"Συστήματα επεξεργασίας οπτικοακουστικών πόρων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .