Περίληψη
Η παρούσα διατριβή προτείνει καινοτόμες τεχνικές για την ευφυή επεξεργασία πολυμεσικής πληροφορίας με έμφαση στην κατάτμηση εικόνων και εικονοσειρών καθώς και στην αναγνώριση προτύπων. Με την εισαγωγή εικόνων και εικονοσειρών υψηλής ανάλυσης, οι κλασικές τεχνικές καλούνται να εφαρμοστούν σε όλο και μεγαλύτερο χώρο εικονοστοιχείων. Ιδιαίτερα σε ό,τι έχει να κάνει με την κατάτμηση εικόνων και την αναγνώριση προτύπων, το υπολογιστικό κόστος για τις παραδοσιακές μεθόδους είναι ιδιαίτερα μεγάλο, καθιστώντας τες απρόσφορες για πολλές εφαρμογές. Για την αντιμετώπιση του ανωτέρω προβλήματος, στη διατριβή αυτή προτείνεται και αναλύεται ο αλγόριθμος της Επαγωγικής Σάρωσης. Ο αλγόριθμος αυτός χρησιμοποιεί τελεστές κυλιομένων παραθύρων εισάγοντας ένα σχήμα ταχύτητας προσθετικής αύξησης/πολλαπλασιαστικής μείωσης. Σύμφωνα με τον αλγόριθμο, η επεξεργασία επικεντρώνεται μόνο στις περιοχές που αποδίδουν τα χαρακτηριστικά του τελεστή, αγνοώντας ένα μεγάλο μέρος του χώρου των εικονοστοιχείων. Ως αποτέλεσ ...
Η παρούσα διατριβή προτείνει καινοτόμες τεχνικές για την ευφυή επεξεργασία πολυμεσικής πληροφορίας με έμφαση στην κατάτμηση εικόνων και εικονοσειρών καθώς και στην αναγνώριση προτύπων. Με την εισαγωγή εικόνων και εικονοσειρών υψηλής ανάλυσης, οι κλασικές τεχνικές καλούνται να εφαρμοστούν σε όλο και μεγαλύτερο χώρο εικονοστοιχείων. Ιδιαίτερα σε ό,τι έχει να κάνει με την κατάτμηση εικόνων και την αναγνώριση προτύπων, το υπολογιστικό κόστος για τις παραδοσιακές μεθόδους είναι ιδιαίτερα μεγάλο, καθιστώντας τες απρόσφορες για πολλές εφαρμογές. Για την αντιμετώπιση του ανωτέρω προβλήματος, στη διατριβή αυτή προτείνεται και αναλύεται ο αλγόριθμος της Επαγωγικής Σάρωσης. Ο αλγόριθμος αυτός χρησιμοποιεί τελεστές κυλιομένων παραθύρων εισάγοντας ένα σχήμα ταχύτητας προσθετικής αύξησης/πολλαπλασιαστικής μείωσης. Σύμφωνα με τον αλγόριθμο, η επεξεργασία επικεντρώνεται μόνο στις περιοχές που αποδίδουν τα χαρακτηριστικά του τελεστή, αγνοώντας ένα μεγάλο μέρος του χώρου των εικονοστοιχείων. Ως αποτέλεσμα, το υπολογιστικό κόστος ελαττώνεται δραστικά, αφού κλιμακώνεται αποδοτικά όσο η ανάλυση των εικόνων και των εικονοσειρών μεγαλώνει. Επίσης, προτείνεται ένα νέο χαρακτηριστικό ως μέσο γρήγορης κατηγοριοποίησης των εικόνων: τα συμφραζόμενα της εικόνας βάσει ενός τελεστή. Το χαρακτηριστικό αυτό προκύπτει από τη χρήση του αλγορίθμου Επαγωγικής Σάρωσης και σχετίζεται με το ποσοστό της εικόνας που περιέχει τα χαρακτηριστικά που αναζητά ο τελεστής κυλιομένων παραθύρων. Στη συνέχεια, παρουσιάζονται δύο συστήματα στα οποία έχει υλοποιηθεί και δοκιμαστεί ο αλγόριθμος της Επαγωγικής Σάρωσης: το σύστημα αυτόματης αναγνώρισης πινακίδων οχημάτων και το σύστημα ταύτισης εικονοσειρών διαφημίσεων τηλεοπτικού προγράμματος. Σύμφωνα με το πρώτο, ο προτεινόμενος αλγόριθμος σαρώνει μία εικόνα ώστε να κατατμηθεί η περιοχή της πινακίδας ενός οχήματος. Σε αντίθεση με την τεχνική της εξαντλητικής σάρωσης όλου του χώρου των εικονοστοιχείων, ο αλγόριθμος επεξεργάζεται ένα πολύ μικρό ποσοστό της εικόνας για να βρεθεί η σωστή περιοχή ενδιαφέροντος. Το δεύτερο σύστημα μεταφέρει τις αρχές του αλγορίθμου της Επαγωγικής Σάρωσης σε εφαρμογή επεξεργασίας εικονοσειρών. Σε αυτή την περίπτωση, ο προτεινόμενος αλγόριθμος αντικαθιστά την επεξεργασία κατά μπλοκ και καταφέρνει να υπολογιστούν γρήγορα, στα καρέ μιας εικονοσειράς, οι περιοχές που περιλαμβάνουν σε ικανή πυκνότητα τα χαρακτηριστικά του τελεστή. Στη συνέχεια, οι περιοχές ενδιαφέροντος χρησιμοποιούνται για να υπολογιστεί το επίπεδο ομοιότητας των εικονοσειρών τηλεοπτικού προγράμματος και διαφημίσεων. Στο τελευταίο μέρος αυτής της διατριβής παρουσιάζονται εφαρμογές τεχνικών μηχανικής μάθησης και συστοιχιών τους για την αναγνώριση προτύπων σε διάφορα επιστημονικά πεδία. Αρχικά, προτείνονται μεθοδολογίες βασισμένες σε τεχνικές μηχανικής μάθησης στο πεδίο της τηλεκπαίδευσης και συγκεκριμένα για την πρόβλεψη της επίδοσης των φοιτητών. Έπειτα, παρουσιάζεται μια μέθοδος συστοιχίας νευρωνικών δικτύων για την οπτική αναγνώριση χαρακτήρων. Τέλος, παρουσιάζεται μια στοχαστική συστοιχία νευρωνικών δικτύων για την εκτίμηση δείγματος που περιέχει ασθενείς με τη νόσο Alzheimer.
περισσότερα
Περίληψη σε άλλη γλώσσα
The present thesis proposes novel techniques for intelligent signal processing giving emphasis on image and image sequence segmentation and pattern recognition. By introducing high resolution images and video frames, the traditional processing has to deal with an all the more larger pixel space. Especially in the case of image segmentation and pattern recognition, the computational cost is very high, rendering the techniques unsuitable for many applications. This thesis proposes the Operator Context Scanning algorithm to deal with the aforementioned problem. This algorithm uses sliding window operators introducing an Additive Increase/Multiplicative Decrease velocity scheme. The algorithm focuses only on regions of interest, that is, the regions that expose the operator characteristics, overlooking a large part of the pixel space of an input image or frame. As a result, the computational cost lowers significantly and scales well as the input image resolution increases. Furthermore, a n ...
The present thesis proposes novel techniques for intelligent signal processing giving emphasis on image and image sequence segmentation and pattern recognition. By introducing high resolution images and video frames, the traditional processing has to deal with an all the more larger pixel space. Especially in the case of image segmentation and pattern recognition, the computational cost is very high, rendering the techniques unsuitable for many applications. This thesis proposes the Operator Context Scanning algorithm to deal with the aforementioned problem. This algorithm uses sliding window operators introducing an Additive Increase/Multiplicative Decrease velocity scheme. The algorithm focuses only on regions of interest, that is, the regions that expose the operator characteristics, overlooking a large part of the pixel space of an input image or frame. As a result, the computational cost lowers significantly and scales well as the input image resolution increases. Furthermore, a novel image characteristic is proposed, namely the image context based on an operator, which derives from the operator context scanning algorithm, in order to be used as a fast means of categorizing images. Next, two systems are presented that implement the proposed scanning algorithm, namely, the license plate recognition system and the video matching system of television broadcast advertisements. According to the first, the proposed algorithm is used to segment the license plate region from the input vehicle image. Compared to the traditional exhaustive pixel space scanning, the algorithm processes only a very small portion of the input image to effectively segment the license plate region. The second system follows the principles of the Operator Context Scanning algorithm to process and match video sequences. In this case, the algorithm is used as an alternative to the traditional block based processing to quickly calculate Regions of Interest that include high density operator characteristics. Then, these regions are compared to measure the similarity of TV stream video sequences and advertisements. In the final part of this thesis, the application of machine learning techniques and their ensembles are presented as a means of pattern recognition in different scientific fields. Initially, machine learning based methods are implemented on the field of electronic learning in order to predict student achievement. Then, a machine learning ensemble is proposed for character recognition. Finally, the ensemble is used to process a data sample that includes patients with Alzheimer’s disease.
περισσότερα