Περίληψη
Η παρούσα διατριβή πραγματεύεται την αυτοματοποιημένη κατηγοριοποίηση δυναμικών δεδομένων, και ειδικότερα την αυτοματοποιημένη κατηγοριοποίηση σελίδων διαδικτύου μέσα από μία συνδυαστική προσέγγιση. Πρόκειται για ένα πεδίο που απασχολεί τη διεθνή ερευνητική κοινότητα από τότε που εμφανίστηκε το διαδίκτυο, καθώς βασικές πλευρές της επιστήμης των υπολογιστών, όπως είναι η διαχείριση και ανάκτηση πληροφοριών, η διαλειτουργικότητα των πηγών πληροφόρησης, αλλά και τα μοντέλα εξαγωγής πληροφοριών, μοντέλα φιλτραρίσματος περιεχομένου και αφαίρεσης διαφημίσεων, στηρίζονται στην κατηγοριοποίηση των σελίδων διαδικτύου. Τα τελευταία χρόνια, η συγκλονιστική αύξηση της απόδοσης και του χώρου μνήμης των υπολογιστών, σε συνδυασμό με την εξειδίκευση μοντέλων μηχανικής μάθησης για την ταξινόμηση κειμένων και εικόνων, αποτελούν επιπλέον λόγους για τους οποίους το ζήτημα της κατηγοριοποίησης σελίδων διαδικτύου παραμένει στο επίκεντρο του ερευνητικού ενδιαφέροντος. Ενώ, η πολυπλοκότητα που χαρακτηρίζει τη ...
Η παρούσα διατριβή πραγματεύεται την αυτοματοποιημένη κατηγοριοποίηση δυναμικών δεδομένων, και ειδικότερα την αυτοματοποιημένη κατηγοριοποίηση σελίδων διαδικτύου μέσα από μία συνδυαστική προσέγγιση. Πρόκειται για ένα πεδίο που απασχολεί τη διεθνή ερευνητική κοινότητα από τότε που εμφανίστηκε το διαδίκτυο, καθώς βασικές πλευρές της επιστήμης των υπολογιστών, όπως είναι η διαχείριση και ανάκτηση πληροφοριών, η διαλειτουργικότητα των πηγών πληροφόρησης, αλλά και τα μοντέλα εξαγωγής πληροφοριών, μοντέλα φιλτραρίσματος περιεχομένου και αφαίρεσης διαφημίσεων, στηρίζονται στην κατηγοριοποίηση των σελίδων διαδικτύου. Τα τελευταία χρόνια, η συγκλονιστική αύξηση της απόδοσης και του χώρου μνήμης των υπολογιστών, σε συνδυασμό με την εξειδίκευση μοντέλων μηχανικής μάθησης για την ταξινόμηση κειμένων και εικόνων, αποτελούν επιπλέον λόγους για τους οποίους το ζήτημα της κατηγοριοποίησης σελίδων διαδικτύου παραμένει στο επίκεντρο του ερευνητικού ενδιαφέροντος. Ενώ, η πολυπλοκότητα που χαρακτηρίζει την αυτοματοποιημένη κατηγοριοποίηση σελίδων διαδικτύου ως διαδικασία, η ποικιλομορφία του περιεχομένου των σελίδων διαδικτύου (εικόνες διαφορετικών μεγεθών, κείμενο, υπερσύνδεσμοι κ.λπ.) και το υπολογιστικό κόστος, συνιστούν επιπρόσθετες προκλήσεις. Κατόπιν μελέτης των προσεγγίσεων που παρουσιάζονται στη διεθνή βιβλιογραφία για τη διαχείριση του περιεχομένου του Παγκόσμιου Ιστού, διαπιστώνουμε πως οι περισσότερες από αυτές στηρίζονται κυρίως σε τεχνικές κατηγοριοποίησης κειμένων, και ορισμένες άλλες αξιοποιούν τη δομή των σελίδων. Ζητούμενο μέσα από την παρούσα διατριβή είναι να σχεδιάσουμε μια υβριδική προσέγγιση του προβλήματος της κατηγοριοποίησης σελίδων διαδικτύου, στηριζόμενοι τόσο σε κειμενικής φύσης στοιχεία όσο και σε δομικά χαρακτηριστικά. Με άλλα λόγια, η προτεινόμενη προσέγγιση στηρίζεται σε υπάρχουσες σχετικές μεθόδους, συνδυάζοντας τις τεχνικές που αξιοποιούνται στο πλαίσιό τους έτσι, ώστε οι σελίδες να κατηγοριοποιούνται ως προς το θέμα τους, αλλά και ως προς τον τύπο τους. Αυτό σημαίνει ότι η προτεινόμενη προσέγγιση αποτελεί μια συνδυαστική ενιαία μεθοδολογία κατηγοριοποίησης σελίδων διαδικτύου, η οποία στηρίζεται σε κειμενικής και δομικής φύσης στοιχεία, γνωρίσματα και χαρακτηριστικά των υπό εξέταση σελίδων διαδικτύου. Στόχος, μέσα από την προτεινόμενη μεθοδολογία, είναι να αντιστοιχηθεί κάθε σελίδα που εξετάζεται στην κατάλληλη κατηγορία αφότου ελεγχθούν διάφορες παράμετροι που σχετίζονται με το περιεχόμενο και τη δομή της σελίδας. Από αυτή τη σκοπιά, στο πλαίσιο της παρούσας διατριβής, σχεδιάζουμε έναν πολυδιάστατο αλγόριθμο κατηγοριοποίησης, ο οποίος αποφασίζει για τον τύπο και το θέμα κάθε σελίδας που εξετάζει. Συμπληρωματικά, παρατηρώντας ευρύτερα τις σελίδες διαδικτύου και τη δυναμική τους φύση, διευρύνουμε την «ισχύ» της προτεινόμενης μεθοδολογίας συμπεριλαμβάνοντας δύο επιπλέον αλγορίθμους, προκειμένου να παρακολουθούμε, να εντοπίζουμε και να ελέγχουμε την ανάγκη επανα-κατηγοριοποίησης των σελίδων διαδικτύου, όπου αυτό κρίνεται απαραίτητο, με βάση τις αλλαγές σε περιεχόμενο ή/και δομή που μπορεί να έχουν προκύψει. Με αυτόν τον τρόπο, καθιερώνεται ένας τακτικός έλεγχος των κατηγοριοποιημένων σελίδων, με σκοπό το αποτέλεσμα της κατηγοριοποίησης να είναι πάντα επικαιροποιημένο. Όσον αφορά την αποτελεσματικότητα και την απόδοση της μεθοδολογίας μας, πραγματοποιούμε δοκιμαστική πειραματική αξιολόγησή της, η οποία δείχνει ότι οι σελίδες διαδικτύου κατηγοριοποιούνται ορθώς με διττό τρόπο, δηλαδή σύμφωνα με το θέμα του περιεχομένου τους και τον δομικό τους τύπο, όπως αυτός προκύπτει από τη δομή τους. Για την πληρέστερη αξιολόγηση της προτεινόμενης μεθοδολογίας, συμπληρωματικά πραγματοποιούμε συγκριτική μελέτη μεταξύ των αποτελεσμάτων του προτεινόμενου αλγορίθμου κατηγοριοποίησης και αυτών που προκύπτουν από την εφαρμογή ενός k-NN αλγορίθμου. Από αυτή τη συγκριτική μελέτη προκύπτει ότι η απόδοση του προτεινόμενου αλγορίθμου μπορεί να συγκριθεί και είναι αντίστοιχη αυτής ενός κλασικού αλγόριθμου κατηγοριοποίησης κειμένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation deals with the automated dynamic data classification, and in particular with the web pages’ automated classification through a combined approach. Since the internet has appeared, this field is widely studied given that key aspects of computer science rely on web pages’ classification, such as information management and retrieval, information interoperability, and also information extraction models, content filtering models and so on. Recently, the significant development of the computer performance and memory space, combined with the machine learning specialization models for text and image classification, are further reasons why the web pages’ classification remains at the center of research interest. At the same time, additional challenges are the complexity of automated web pages’ classification as a process, the diversity of web page content (images of different sizes, text, hyperlinks, etc.) and the cost of computing. Looking up the World Wide Web content manage ...
This dissertation deals with the automated dynamic data classification, and in particular with the web pages’ automated classification through a combined approach. Since the internet has appeared, this field is widely studied given that key aspects of computer science rely on web pages’ classification, such as information management and retrieval, information interoperability, and also information extraction models, content filtering models and so on. Recently, the significant development of the computer performance and memory space, combined with the machine learning specialization models for text and image classification, are further reasons why the web pages’ classification remains at the center of research interest. At the same time, additional challenges are the complexity of automated web pages’ classification as a process, the diversity of web page content (images of different sizes, text, hyperlinks, etc.) and the cost of computing. Looking up the World Wide Web content management approaches presented in the international literature, we find that most of them rely mainly on text categorization techniques and some others utilize the pages’ structure. This dissertation aims to design a hybrid approach for the problem of automated web pages’ classification, based on both textual elements and structural features. In other words, the proposed approach is built on existing works, combining techniques used in their context so that the pages are categorized in terms of their topic, but also in terms of their type. This means that the proposed approach is a combined unified web page classification methodology, which exploits web pages’ textual and structural elements, features and characteristics.To this end, the proposed methodology assigns every page examined with the appropriate category, after having checked various parameters related to the pages’ content and structure. From this point of view, we design a multidimensional categorization algorithm, which decides on the type and topic of every examined page. Additionally, looking closer the web pages and their dynamic nature, we extend the potential of the proposed methodology, including two additional algorithms, which monitor, detect and control the need to re-classify the web pages, where necessary, based on changes that may have occurred in content and/or structure. In this way, it is introduced a regular check of the classified pages, so that the classification result is always updated.Concerning the effectiveness and the efficiency of our methodology, we carry out a pilot experimental evaluation. Through this process it is shown that web pages are correctly classified in two ways; according to the theme of their content and according to their structural type. To boost the evaluation of the proposed methodology, we additionally carry out a comparative study between the results of the proposed classification algorithm and the results obtained by the application of a k-NN algorithm. This comparative study shows that the performance of the proposed algorithm can be compared and is equivalent to the performance of a traditional text classification algorithm.
περισσότερα