Περίληψη
Η παρούσα διδακτορική διατριβή αφορά στην πολυτροπική επεξεργασία και εξαγωγή σημασιολογίας από δεδομένα βίντεο και επικεντρώνεται στο πρόβλημα της αναγνώρισης επιβλαβούς για ευαίσθητες κοινωνικές ομάδες περιεχομένου. Αρχικά, εξετάζεται η υπάρχουσα βιβλιογραφία μονοτροπικών και πολυτροπικών μεθοδολογιών εντοπισμού βίας και πορνογραφίας. Το κύριο μέρος της διατριβής αρχίζει εντοπίζοντας την έλλειψη μεθοδολογιών εξαγωγής και φιλτραρίσματος περιεχομένου, που βασίζονται σε τεχνικές αναπαράστασης γνώσης και συλλογιστικής. Έτσι, προτείνεται ένα πλαίσιο ύστερης σημασιολογικής συγχώνευσης, που συνδυάζει ηχητικές και οπτικές έννοιες χαμηλού και ενδιάμεσου επιπέδου με οντολογική συλλογιστική και εφαρμογή κανόνων για εξαγωγή υψηλότερου επιπέδου σημασιολογίας. Το πρώτο συστατικό του σημασιολογικού πλαισίου αναλαμβάνει την κατάτμηση δεδομένων βίντεο σε κατάλληλες προς επεξεργασία δομικές μονάδες. Εξετάζεται, η χρήση κλασικών τεχνικών κατάτμησης πλάνων σε ψηφιακές ταινίες δράσης και επιλέγεται τελικ ...
Η παρούσα διδακτορική διατριβή αφορά στην πολυτροπική επεξεργασία και εξαγωγή σημασιολογίας από δεδομένα βίντεο και επικεντρώνεται στο πρόβλημα της αναγνώρισης επιβλαβούς για ευαίσθητες κοινωνικές ομάδες περιεχομένου. Αρχικά, εξετάζεται η υπάρχουσα βιβλιογραφία μονοτροπικών και πολυτροπικών μεθοδολογιών εντοπισμού βίας και πορνογραφίας. Το κύριο μέρος της διατριβής αρχίζει εντοπίζοντας την έλλειψη μεθοδολογιών εξαγωγής και φιλτραρίσματος περιεχομένου, που βασίζονται σε τεχνικές αναπαράστασης γνώσης και συλλογιστικής. Έτσι, προτείνεται ένα πλαίσιο ύστερης σημασιολογικής συγχώνευσης, που συνδυάζει ηχητικές και οπτικές έννοιες χαμηλού και ενδιάμεσου επιπέδου με οντολογική συλλογιστική και εφαρμογή κανόνων για εξαγωγή υψηλότερου επιπέδου σημασιολογίας. Το πρώτο συστατικό του σημασιολογικού πλαισίου αναλαμβάνει την κατάτμηση δεδομένων βίντεο σε κατάλληλες προς επεξεργασία δομικές μονάδες. Εξετάζεται, η χρήση κλασικών τεχνικών κατάτμησης πλάνων σε ψηφιακές ταινίες δράσης και επιλέγεται τελικά ένα συνδυαστικό πλειοψηφικό σχήμα \en (majority voting) \el των αποφάσεων των επιμέρους τεχνικών. Στη συνέχεια, ενσωματώνονται σύγχρονες μέθοδοι ταξινόμησης για την εξαγωγή επιβλαβών ενδείξεων τόσο από το ηχητικό όσο και από το οπτικό κανάλι. Σύμφωνα με τις προδιαγραφές του σημασιολογικού πλαισίου υλοποιούνται οντολογίες χαμηλού και μεσαίου επιπέδου γνώσης για την αναπαράσταση της δομής του βίντεο και των εξαγόμενων ηχητικών και οπτικών γεγονότων αντίστοιχα. Επίσης, παρουσιάζεται η πρώτη προσπάθεια καταγραφής του γνωστικού πεδίου του επιβλαβούς περιεχομένου σε κινηματογραφικές ταινίες με συμβολικό τρόπο σε μία οντολογία υψηλού επιπέδου. Για τη διασύνδεση των οντολογιών και την τροφοδότηση της διαδικασίας συμπερασματολογίας, ενσωματώνονται σύνολα κανόνων, που υλοποιήθηκαν σε συμβολική μορφή \en SWRL. \el Η πειραματική αποτίμηση εξετάζει το σημασιολογικό πλαίσιο συγκριτικά με ένα μεταταξινομητή ύστερης συγχώνευσης και τις μονοτροπικές μεθόδους. Τέλος, παρουσιάζονται επεκτάσεις και αντίστοιχα αποτελέσματα της αρχικά προτεινόμενης μεθοδολογίας. Οι επεκτάσεις αφορούν στην αναγνώριση σκηνών ως αλληλουχίες πλάνων με χρήση γραφοθεωρητικών τεχνικών ομαδοποίησης και στην επιπρόσθετη χρήση πληροφορίας μεταδεδομένων για την εξεταζόμενη ταινία.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis on multimodal fusion and semantics extraction, focuses on automated detection and annotation of harmful content in video data. The aim is not only to reason out the existence of violence or not (i.e., the binary problem), but also to determine the type of violence (e.g., fight, explosion, murder). An introductory comparative study of several harmful content detection approaches is first presented and the lack of knowledge representation and reasoning approaches for the problem at hand is acknowledged. Towards filling this gap, we propose a semantic fusion approach that combines low to mid level modality specific semantics through ontological and rule reasoning. A major part of the proposed framework is the movie segmentation into meaningful and easy to handle units. Towards this direction, we investigate and evaluate a set of shot boundary detection approaches and their combination through a majority voting scheme. In the sequel, state of the art classification methods ar ...
This thesis on multimodal fusion and semantics extraction, focuses on automated detection and annotation of harmful content in video data. The aim is not only to reason out the existence of violence or not (i.e., the binary problem), but also to determine the type of violence (e.g., fight, explosion, murder). An introductory comparative study of several harmful content detection approaches is first presented and the lack of knowledge representation and reasoning approaches for the problem at hand is acknowledged. Towards filling this gap, we propose a semantic fusion approach that combines low to mid level modality specific semantics through ontological and rule reasoning. A major part of the proposed framework is the movie segmentation into meaningful and easy to handle units. Towards this direction, we investigate and evaluate a set of shot boundary detection approaches and their combination through a majority voting scheme. In the sequel, state of the art classification methods are employed to extract mid level semantics. The segmentation module and the modality specific analysis algorithms instantiate the corresponding video structure and modality specific ontologies developed in the context of the knowledge engineering framework. A set of consecutive and interleaved ontological and SWRL rule reasoning steps map sets and sequences of extracted semantics into higher level concepts represented in the harmful content ontology. We present the involved ontologies, the corresponding SWRL rule sets and the reasoning mechanism in detail. A comparative study of the most common ontological reasoners for the realization procedure of the semantic framework and the classification of the harmful content ontology is presented in detail. In the final part of the thesis we evaluate the proposed approach in a preanotated movie dataset and compare its results with the single modality approaches and a kNN late fusion classifier. We comment on the higher level semantics extraction ability and evaluate a set of extensions employed in the basic structure of the framework. The extensions concern the development of a scene detection module that combines Markov clustering with SQWRL queries and the incorporation of existing rating and movie genre metadata in the reasoning process.
περισσότερα