Περίληψη
Στην εργασία αυτή ασχολούμαστε με το πρόβλημα της σημασιολογικής ανάλυσης πολυμεσικών δεδομένων. Δοθέντος ενός τμήματος πολυμεσικού εγγράφου και μία λίστα σαφώς ορισμένων εννοιών, στόχος μας είναι ο υπολογισμός πιθανοτήτων, μία για κάθε έννοια, που δίνουν ένα μέτρο της βεβαιότητας ότι η έννοια υπάρχει στα πολυμεσικά δεδομένα εισόδου. Ακολουθούμε την προσέγγιση της μηχανικής μάθησης, όπου εξάγονται πολλαπλά χαρακτηριστικά χαμηλού επιπέδου από το περιεχόμενο, τα οποία συνενώνονται, κανονικοποιούνται και επεξεργάζονται ώστε να προετοιμαστούν για το τελευταίο στάδιο υπολογισμού των πιθανοτήτων από έναν ταξινομητή. Οι πιθανότητες αυτές χρησιμοποιούνται για την δεικτοδότηση και μετέπειτα ανάκτηση πολυμέσων, ακόμα και όταν αυτά δεν έχουν σχολιαστεί χειρωνακτικά. Αρχικά επιδιώκουμε την αξιοποίηση ταξινομητών που έχουν εκπαιδευτεί σε ξένα πεδία εφαρμογής για την βελτίωση των αποτελεσμάτων ανάκτησης. Προτείνουμε ένα σχήμα συνένωσης όπου χρησιμοποιείται ένα επίπεδο ταξινομητών βάσης εκπαιδευμένων ...
Στην εργασία αυτή ασχολούμαστε με το πρόβλημα της σημασιολογικής ανάλυσης πολυμεσικών δεδομένων. Δοθέντος ενός τμήματος πολυμεσικού εγγράφου και μία λίστα σαφώς ορισμένων εννοιών, στόχος μας είναι ο υπολογισμός πιθανοτήτων, μία για κάθε έννοια, που δίνουν ένα μέτρο της βεβαιότητας ότι η έννοια υπάρχει στα πολυμεσικά δεδομένα εισόδου. Ακολουθούμε την προσέγγιση της μηχανικής μάθησης, όπου εξάγονται πολλαπλά χαρακτηριστικά χαμηλού επιπέδου από το περιεχόμενο, τα οποία συνενώνονται, κανονικοποιούνται και επεξεργάζονται ώστε να προετοιμαστούν για το τελευταίο στάδιο υπολογισμού των πιθανοτήτων από έναν ταξινομητή. Οι πιθανότητες αυτές χρησιμοποιούνται για την δεικτοδότηση και μετέπειτα ανάκτηση πολυμέσων, ακόμα και όταν αυτά δεν έχουν σχολιαστεί χειρωνακτικά. Αρχικά επιδιώκουμε την αξιοποίηση ταξινομητών που έχουν εκπαιδευτεί σε ξένα πεδία εφαρμογής για την βελτίωση των αποτελεσμάτων ανάκτησης. Προτείνουμε ένα σχήμα συνένωσης όπου χρησιμοποιείται ένα επίπεδο ταξινομητών βάσης εκπαιδευμένων σε ξένα πεδία εφαρμογής για τον κάθε τύπο χαρακτηριστικού χωριστά. Με βάση τις εξόδους των ταξινομητών εκπαιδεύεται ένας τελικός ταξινομητής που υπολογίζει τις πιθανότητες εξόδου. Εισάγονται τα κριτήρια Μέγιστης Πληροφορίας και Top-k για την επιλογή των ταξινομητών βάσης και η επίδοση του προτεινόμενου σχήματος συνένωσης αξιολογείται πειραματικά σε δύο διαφορετικά σύνολα δεδομένων μεγάλης κλίμακας (TRECVID-2005 και μία συλλογή εικόνων του ειδησεογραφικού πρακτορείου Belga), για μεγάλο αριθμό εννοιών. Με αφορμή τις παρατηρήσεις που προκύπτουν από αυτό το σχήμα συνένωσης εξετάζουμε τρόπους ώστε να αντικαταστήσουμε τους ταξινομητές βάσης με “ανιχνευτές ιδιοτήτων” οι οποίοι δεν είναι παρά κατανομές πιθανότητας στον χώρο των χαρακτηριστικών που επιλέγονται παραμετρικά με βάση τα δεδομένα. Η προσέγγιση που ακολουθούμε είναι η δημιουργία μίας διαμέρισης του χώρου των χαρακτηριστικών και η ανάθεση μίας κατανομής πιθανότητας στο κάθε υποσύνολο της διαμέρισης. Διεξάγονται πειράματα όπου η προτεινόμενη μέθοδος παρουσιάζει αύξηση της επίδοσης σε σχέση με την απλή συνένωση χαρακτηριστικών, τόσο για προβλήματα ταξινόμησης, όσο και για προβλήματα ανάκτησης πολυμέσων. Διερευνώνται επίσης και ζητήματα που σχετίζονται με την πρακτική εφαρμογή των συστημάτων αυτόματης ανίχνευσης για μεγάλο αριθμό εννοιών. Προτείνουμε ένα πρωτόκολλο για την επιλογή και αποσαφήνιση εννοιών και την χειρωνακτική κατασκευή συνόλων εκπαίδευσης, που εφαρμόστηκε για περισσότερες από 500 έννοιες. Επιπλέον, αξιολογούμε μία σειρά μεθόδων αυτόματης κατασκευής δεδομένων εκπαίδευσης από δεδομένα clickthrough. Προτείνουμε επίσης ένα νέο χαρακτηριστικό ήχου που βασίζεται στην μέθοδο Bag-of-Words και το οποίο επιτρέπει την αποδοτική εφαρμογή εννοιών που βασίζονται σε ηχητική πληροφορία. Τέλος, γίνεται και μία σύντομη αναφορά σε δύο συστήματα που αναπτύχθηκαν και αξιολογήθηκαν στο μεγάλης κλίμακας διεθνές συγκριτικό ανάκτησης video, TRECVID, όπου η επίδοση τους ήταν ανταγωνιστική.
περισσότερα
Περίληψη σε άλλη γλώσσα
This work studies the problem of semantic analysis of multimedia data. Given a segment of a multimedia document and a set of clearly defined concepts, our goal is to compute the probabilities that each concept exists in the input multimedia data. We follow the machine learning approach, where multiple low-level features are extracted from the content, which are subsequently fused, normalized and processed before the computation of probabilities by a classifier. These probabilities are used for the indexing and retrieval of multimedia data, even if the data have not been manually annotated. We first examine the use of classifiers that have been trained at foreign application domains for improving retrieval effectiveness. We propose a concept fusion scheme where a layer of base classifiers is used. These classifiers have been trained at a foreign application domain for each low-level feature separately. Using their outputs we train a final classifier that computes the output probabilitie ...
This work studies the problem of semantic analysis of multimedia data. Given a segment of a multimedia document and a set of clearly defined concepts, our goal is to compute the probabilities that each concept exists in the input multimedia data. We follow the machine learning approach, where multiple low-level features are extracted from the content, which are subsequently fused, normalized and processed before the computation of probabilities by a classifier. These probabilities are used for the indexing and retrieval of multimedia data, even if the data have not been manually annotated. We first examine the use of classifiers that have been trained at foreign application domains for improving retrieval effectiveness. We propose a concept fusion scheme where a layer of base classifiers is used. These classifiers have been trained at a foreign application domain for each low-level feature separately. Using their outputs we train a final classifier that computes the output probabilities. We introduce the Maximum Information and Top-k criteria for selecting the base classifiers. The effectiveness of the proposed fusion scheme is experimentally evaluated on two large scale multimedia datasets (TRECVID-2005 and a collection of images from the Belga news agency), for a large number of concepts. We subsequently seek ways to replace the base classifiers with “property detectors”, that are simply probability distributions in the feature space. Our approach is to partition the feature space and assign one distribution to each partition subset, where the distribution is defined parametrically from the data. A set of experiments is performed where the proposed method increases the effectiveness in both classification and multimedia retrieval problems. Furthermore, we examine a set of problems that are related to the practical application of the detection system for a large number of concepts. We propose a protocol for concept selection and disambiguation, as well as the generation of the classifier training sets. This protocol was applied efficiently for more than 500 concepts. Furthermore, we evaluate a set of methods for the automatic construction of training sets using clickthrough data. A novel audio low-level feature is also proposed, that allows the effective detection of concepts that are related to the audio channel. Finally, a short report is included about two systems that achieved competitive results at the TRECVID large scale international video retrieval benchmark.
περισσότερα