Περίληψη
Η ανάλυση και οπτική αναγνώριση του κειμένου των ψηφιακών εγγράφων αποτελείται από μια πληθώρα σταδίων. Πρωταρχικό στάδιο της συνολικής αυτής διαδικασίας είναι η δυαδική μετατροπή ή κατωφλίωση, σύμφωνα με την οποία τα εικονοστοιχεία της εικόνας διαχωρίζονται σε κείμενο και υπόβαθρο. Αποτελεί σημαντικό στάδιο που δύναται να επηρεάσει τόσο τα μετέπειτα στάδια επεξεργασίας όσο και το τελικό στάδιο της αναγνώρισης των χαρακτήρων. Η παρούσα διδακτορική διατριβή πραγματεύεται τόσο τεχνικές δυαδικής μετατροπής όσο και μεθοδολογίες αξιολόγησης των τεχνικών αυτών. Κύρια βαρύτητα δόθηκε σε εικόνες που προέρχονται από ιστορικά κείμενα λόγω της αυξημένης ποσότητας θορύβου που περιέχουν. Συγκεκριμένα, αναπτύχθηκε μια μέθοδος αξιολόγησης των τεχνικών δυαδικής μετατροπής που βασίζεται στη χρήση του σκελετού των χαρακτήρων. Ο σκελετός χρησιμοποιείται για την ημιαυτόματη δημιουργία των πρότυπων εικόνων σύγκρισης και συμμετέχει στην τελική αξιολόγηση του δυαδικού αποτελέσματος. Στη συνέχεια, βελτιώθηκε ...
Η ανάλυση και οπτική αναγνώριση του κειμένου των ψηφιακών εγγράφων αποτελείται από μια πληθώρα σταδίων. Πρωταρχικό στάδιο της συνολικής αυτής διαδικασίας είναι η δυαδική μετατροπή ή κατωφλίωση, σύμφωνα με την οποία τα εικονοστοιχεία της εικόνας διαχωρίζονται σε κείμενο και υπόβαθρο. Αποτελεί σημαντικό στάδιο που δύναται να επηρεάσει τόσο τα μετέπειτα στάδια επεξεργασίας όσο και το τελικό στάδιο της αναγνώρισης των χαρακτήρων. Η παρούσα διδακτορική διατριβή πραγματεύεται τόσο τεχνικές δυαδικής μετατροπής όσο και μεθοδολογίες αξιολόγησης των τεχνικών αυτών. Κύρια βαρύτητα δόθηκε σε εικόνες που προέρχονται από ιστορικά κείμενα λόγω της αυξημένης ποσότητας θορύβου που περιέχουν. Συγκεκριμένα, αναπτύχθηκε μια μέθοδος αξιολόγησης των τεχνικών δυαδικής μετατροπής που βασίζεται στη χρήση του σκελετού των χαρακτήρων. Ο σκελετός χρησιμοποιείται για την ημιαυτόματη δημιουργία των πρότυπων εικόνων σύγκρισης και συμμετέχει στην τελική αξιολόγηση του δυαδικού αποτελέσματος. Στη συνέχεια, βελτιώθηκε η προαναφερθείσα μέθοδος επιτρέποντας τη δημιουργία πιο αξιόπιστων πρότυπων εικόνων σύγκρισης χάρη στο μειωμένο βαθμό υποκειμενικότητάς τους και στο πλαίσιο ανάπτυξης νέων μετρικών μελετήθηκαν διάφορες μετρικές αξιολόγησης. Οι νέες προτεινόμενες μετρικές χρησιμοποιούν (α) βάρη που ξεκινούν από το περίγραμμα των χαρακτήρων και (β) το τοπικό πλάτος των χαρακτήρων για την κανονικοποίηση και τον περιορισμό των βαρών γύρω από τους χαρακτήρες. Τα αποτελέσματα αναδεικνύουν τις νέες μετρικές ως πλέον κατάλληλες για την αποτίμηση της δυαδικής μετατροπής εικόνων κειμένου, σε σύγκριση με άλλες μετρικές που αφορούν την επεξεργασία εικόνας και σήματος γενικότερα. Όσον αφορά στις τεχνικές δυαδικής μετατροπής, αρχικά έγιναν βελτιώσεις σε μια υπάρχουσα τεχνική, ώστε να έχει καλύτερα αποτελέσματα σε εικόνες με αχνούς χαρακτήρες και χαρακτήρες ποικίλου μεγέθους. Κατόπιν, αναπτύχθηκε μια νέα τεχνική δυαδικοποίησης με σκοπό την αντιμετώπιση μεγαλύτερης ποικιλίας θορύβου. Τα κυριότερα στάδια αυτής της τεχνικής είναι η εκτίμηση του υποβάθρου και ο συνδυασμός επιλεγμένων τεχνικών καθολικής και τοπικής κατωφλίωσης. Η εν λόγω τεχνική αναπτύχθηκε για χειρόγραφα κείμενα και ανταπεξέρχεται με μεγάλη επιτυχία σε διάφορα είδη θορύβου, όπως είναι οι χαρακτήρες της πίσω σελίδας, το ανομοιόμορφο υπόβαθρο και οι αχνοί χαρακτήρες· μάλιστα, έπειτα από κατάλληλη τροποποίηση αποδίδει εξίσου καλά και σε εικόνες τυπωμένου κειμένου. Τέλος, αναπτύχθηκε μια τεχνική δυαδικής μετατροπής για περιοχές κειμένου όπως αυτές εντοπίζονται έπειτα από κατάλληλη επεξεργασία εικόνων από βίντεο. Η τεχνική αυτή βασίζεται στη βαθμιαία οριοθέτηση της περιοχής του κειμένου. Στο αρχικό στάδιο η οριοθέτηση βασίζεται στις γραμμές αναφοράς που αντιστοιχούν στις γραμμές του κειμένου ενώ στο τελικό στάδιο βασίζεται στα κυρτά κελύφη γειτονικών χαρακτήρων. Σε κάθε στάδιο χρησιμοποιείται η ίδια τεχνική δυαδικοποίησης με διαφορετική παραμετροποίηση για τις εντός και εκτός περιοχές κειμένου. Επίσης, μέσω της εκ μέρους μας διοργάνωσης διεθνών διαγωνισμών δυαδικοποίησης, δημιουργήσαμε μια βάση αναφοράς όπου ερευνητικές ομάδες μπορούν ελεύθερα να χρησιμοποιούν και να εξελίσσουν τις μεθόδους τους
περισσότερα
Περίληψη σε άλλη γλώσσα
Document image processing concerns the analysis and recognition of the text and it consists of several stages. Principal stage of the whole procedure is the binarization or thresholding stage, according to which the pixels are classified into text and background. It is a crucial stage that can affect further stages including the final character recognition stage. This thesis is focused on document image binarization, including both binarization techniques and evaluation methodologies. Particular focus was given to historical documents because of their difficulty that originates from the various degradations. Specifically, a performance evaluation methodology was developed that makes use of the skeleton of the characters at both the semi-automatic ground truth construction stage and the evaluation stage. Afterwards, the aforementioned methodology was improved and the ground truth images were more reliable containing lower subjectivity degree, while several different evaluation measures ...
Document image processing concerns the analysis and recognition of the text and it consists of several stages. Principal stage of the whole procedure is the binarization or thresholding stage, according to which the pixels are classified into text and background. It is a crucial stage that can affect further stages including the final character recognition stage. This thesis is focused on document image binarization, including both binarization techniques and evaluation methodologies. Particular focus was given to historical documents because of their difficulty that originates from the various degradations. Specifically, a performance evaluation methodology was developed that makes use of the skeleton of the characters at both the semi-automatic ground truth construction stage and the evaluation stage. Afterwards, the aforementioned methodology was improved and the ground truth images were more reliable containing lower subjectivity degree, while several different evaluation measures were studied during the development of the new measures. The new measures are based on (a) weights that start from the ground truth contour and (b) the local stroke width to limit the weights close to the character areas and to properly normalize those weights. Experimental results prove the validity and effectiveness of the new measures for document images, while other measures concern the image or signal processing area in general. As far as the binarization techniques are concerned, a new technique was developed as an improvement of an existing technique. The improvements offer better results for documents with fonts of various sizes and better faint character detection. To further enhance the quality of binarization and be more robust against different types of degradations, a new binarization technique was developed that was based on background estimation and on the combination of selected global and local binarization techniques. This technique was focused on handwritten documents and the experimental results show high performance for documents with various degradations such as faint characters, bleed-through and non-uniform background. Moreover, the aforementioned technique can be modified to be used on machine-printed documents with very promising results. Additionally, a binarization technique was developed for the binarization of the text areas captured from video content. This technique is based on an existing well-known binarization technique and sets low and high values in its global parameter for the inside and outside area of the text. Initially, the definition of the text areas is based on the baselines of the text and at the final stage the text areas are better defined by the convex hulls of neighboring textual components. Furthermore, through the document image binarization contests that we organized, a publicly available benchmark was created that aids in the development of document image binarization techniques and evaluation methodologies.
περισσότερα