Αναγνώριση χαρακτήρων (OCR) ιστορικών εγγράφων: χειρόγραφα, καλλιγραφικά και τυπωμένα έγγραφα

Περίληψη

Ο όρος «αναγνώριση χαρακτήρων» αφορά στην ‘ανάγνωση’ κειμένου από τον υπολογιστή ξεκινώντας από μία εικόνα κειμένου και στην μετατροπή της σε ηλεκτρονικό κείμενο. Στα πλαίσια της διδακτορικής διατριβής μελετήθηκε το στάδιο της κατάτμησης των χειρογράφων και αναπτύχθηκαν νέες μέθοδοι για την κατάτμηση τους στα βασικά στοιχεία που τα αποτελούν, δηλαδή στις γραμμές κειμένου και στις λέξεις. Αναφορικά με το πρόβλημα της κατάτμησης ενός εγγράφου σε γραμμές κειμένου, αναπτύχθηκε μία νέα μεθοδολογία η οποία στηρίζεται στον μετασχηματισμό Hough. Η καινοτομία της προτεινόμενης μεθοδολογίας συνίσταται στα εξής: (ι) εφαρμογή ενός τροποποιημένου μετασχηματισμού Hough στον οποίο η ψηφοφορία στον πίνακα συσσώρευσης γίνεται χρησιμοποιώντας σημεία από blocks ίσου πλάτους τα οποία προκύπτουν από διάσπαση των συνδεδεμένων τμημάτων (connected components), (ii) η διαμέριση του χώρου των συνδεδεμένων τμημάτων σε 3 υποχώρους τα συνδεδεμένα τμήματα των οποίων υπόκεινται σε διαφορετική επεξεργασία και (iii) α ...
περισσότερα

Περίληψη σε άλλη γλώσσα

“Character recognition” refers to the procedure of ‘reading’ text using a computer, taking as input a document image as well as to the conversion of the document image to electronic text. This dissertation focuses on the segmentation of handwritten document images to the basic semantic units that comprise them, namely text lines and words. Concerning the problem of text line segmentation, we developed a new methodology whose novelties are: (i) an efficient block-based Hough transform in which voting occurs on the basis of equally spaced blocks after splitting of the connected components’ bounding box; (ii) a partitioning of the connected component domain into three spatial sub-domains, for which a different processing strategy of the corresponding connected components can be employed; and (iii) the efficient separation of vertically connected parts of text lines. The proposed text line segmentation methodology has been evaluated against other state-of-the-art text line segmentation met ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/23752
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/23752
ND
23752
Εναλλακτικός τίτλος
Character recognition in historical documents: Handwritten, cursive and printed documents
Συγγραφέας
Λουλούδης, Γεώργιος (Πατρώνυμο: Εμμανουήλ)
Ημερομηνία
2009
Ίδρυμα
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Εξεταστική επιτροπή
Χαλάτσης Κωνσταντίνος
Καλουπτσίδης Νικόλαος
Σαγκριώτης Εμμανουήλ
Θεοδωρίδης Σέργιος
Καραμπογιάς Σεραφείμ
Βασιλάκης Κωνσταντίνος
Γάτος Βασίλειος
Επιστημονικό πεδίο
Φυσικές ΕπιστήμεςΕπιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά
Κατάτμηση εικόνων χειρογράφων; Κατάτμηση γραμμών κειμένου; Κατάτμηση λέξεων; Μετασχηματισμός Hough; Αποτίμηση της κατάτμησης λέξεων
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
147 σ., εικ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)