Περίληψη
Ένα μεγάλο ποσοστό του περιεχομένου στον Παγκόσμιο Ιστό είναι μη διαθέσιμο στους χρήστες των παραδοσιακών μηχανών αναζήτησης εξαιτίας της αδυναμίας προσπέλασής του από τα προγράμματα προσκομιδής περιεχομένου τους. Το φαινόμενο αυτό οφείλεται στο γεγονός ότι το περιεχόμενο αυτό παράγεται δυναμικά και μόνο σαν αποτέλεσμα της υποβολής ερωτημάτων σε φόρμες αναζήτησης. Η αναγνώριση των διεπαφών αυτών αποτελεί το πρώτο βήμα για την αυτοματοποιημένη προσπέλαση περιεχομένου σε αυτό το κομμάτι του Παγκόσμιου Ιστού που είναι γνωστό ως Κρυμμένος Παγκόσμιος Ιστός. Σε αυτή τη διατριβή, αρχικά παρουσιάζεται το εν λόγω ερευνητικό πεδίο. Στη συνέχεια γίνεται ανάλυση ενός συνόλου ιστοσελίδων μεγάλης κλίμακας, με στόχο την εξαγωγή χρήσιμων συμπερασμάτων για τις διεπαφές που περιέχονται στο σύνολο αυτό. Ταυτόχρονα, με βάση αυτό το σύνολο ιστοσελίδων κατασκευάστηκε ένα σύνολο εκπαίδευσης για την επαγωγή κανόνων κατηγοριοποίησης για την αυτοματοποιημένη αναγνώριση διεπαφών αναζήτησης.Η επαγωγή κανόνων κατη ...
Ένα μεγάλο ποσοστό του περιεχομένου στον Παγκόσμιο Ιστό είναι μη διαθέσιμο στους χρήστες των παραδοσιακών μηχανών αναζήτησης εξαιτίας της αδυναμίας προσπέλασής του από τα προγράμματα προσκομιδής περιεχομένου τους. Το φαινόμενο αυτό οφείλεται στο γεγονός ότι το περιεχόμενο αυτό παράγεται δυναμικά και μόνο σαν αποτέλεσμα της υποβολής ερωτημάτων σε φόρμες αναζήτησης. Η αναγνώριση των διεπαφών αυτών αποτελεί το πρώτο βήμα για την αυτοματοποιημένη προσπέλαση περιεχομένου σε αυτό το κομμάτι του Παγκόσμιου Ιστού που είναι γνωστό ως Κρυμμένος Παγκόσμιος Ιστός. Σε αυτή τη διατριβή, αρχικά παρουσιάζεται το εν λόγω ερευνητικό πεδίο. Στη συνέχεια γίνεται ανάλυση ενός συνόλου ιστοσελίδων μεγάλης κλίμακας, με στόχο την εξαγωγή χρήσιμων συμπερασμάτων για τις διεπαφές που περιέχονται στο σύνολο αυτό. Ταυτόχρονα, με βάση αυτό το σύνολο ιστοσελίδων κατασκευάστηκε ένα σύνολο εκπαίδευσης για την επαγωγή κανόνων κατηγοριοποίησης για την αυτοματοποιημένη αναγνώριση διεπαφών αναζήτησης.Η επαγωγή κανόνων κατηγοριοποίησης είναι μια από τις παλιότερες τεχνικές μηχανικής μάθησης και έχει εφαρμοστεί επιτυχώς σε πολλαπλά προβλήματα. Το κύριο πλεονέκτημά της είναι η απλότητα του παραγόμενου μοντέλου κατηγοριοποίησης και η ευκολία ανάγνωσης και ερμηνείας του από τον ανθρώπινο παράγοντα. Μια από τις συνεισφορές της διατριβής αυτής είναι μια πρωτότυπη κατανεμημένη τεχνική επαγωγής κανόνων κατηγοριοποίησης βασισμένη στο μοντέλο Απεικόνισης/Μείωσης. Σαν πρώτο βήμα η προσέγγιση μετατρέπει τα δεδομένα εκπαίδευσης από συνεχή σε διακριτά και στη συνέχεια αναζητά εξαντλητικά το χώρο των πιθανών κανόνων για την εύρεση του καλύτερου, βασισμένη σε ένα προκαθορισμένο κριτήριο αξιολόγησης. Οι κανόνες που παράγονται από το παραπάνω σύνολο, χρησιμοποιούνται για την κατηγοριοποίηση διεπαφών αναζήτησης στον Παγκόσμιο Ιστό ως προς τη λειτουργία τους.Τέλος παρουσιάζεται ένας πρωτότυπος αλγόριθμος εμπνευσμένος από φυσικές διεργασίες για την αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό. Ο αλγόριθμος αυτός έχει τη δυνατότητα να εντοπίζει συναφείς πληροφοριακές μονάδες δρομολογώντας την αναζήτηση πληροφορίας μέσα στο δυναμικό περιβάλλον του Παγκόσμιου Ιστού. Η δρομολόγηση της αναζήτησης, πραγματοποιείται στοχαστικά συνδυάζοντας τεχνικές ανάκτησης που βασίζονται στην ομοιότητα εγγράφων και τεχνικών προσομοίωσης του τρόπου επικοινωνίας των μυρμηγκιών. Ο προτεινόμενος αλγόριθμος σε συνδυασμό με τους κανόνες κατηγοριοποίησης που παράγονται από την προηγούμενη προσέγγιση, μπορεί να εντοπίσει θεματικά συναφείς διεπαφές αναζήτησης στον Παγκόσμιο Ιστό για τη διευκόλυνση της αναζήτησης πληροφορίας στον Κρυμμένο Ιστό.
περισσότερα
Περίληψη σε άλλη γλώσσα
A large portion of the content residing on the Web, though publicly available, is inaccessible by the traditional general purpose search engines, since it is only generated dynamically as a response to a query submission to a search interface. The identification of such interfaces is the first step towards the automated access to the content of the part of the Web known as Hidden Web. In this dissertation, after an introduction to this research field, a large scale analysis is conducted on a publicly available dataset containing web pages with complex interfaces. The aim of the analysis is to draw useful conclusions on the properties of the interfaces, and the construction of a training dataset for the induction of classification rules that will be used for the automated identification of search interfaces.Classification rule induction is one of the oldest machine learning techniques and it has been successfully applied in a plethora of problems. Its main advantage is the simplicity of ...
A large portion of the content residing on the Web, though publicly available, is inaccessible by the traditional general purpose search engines, since it is only generated dynamically as a response to a query submission to a search interface. The identification of such interfaces is the first step towards the automated access to the content of the part of the Web known as Hidden Web. In this dissertation, after an introduction to this research field, a large scale analysis is conducted on a publicly available dataset containing web pages with complex interfaces. The aim of the analysis is to draw useful conclusions on the properties of the interfaces, and the construction of a training dataset for the induction of classification rules that will be used for the automated identification of search interfaces.Classification rule induction is one of the oldest machine learning techniques and it has been successfully applied in a plethora of problems. Its main advantage is the simplicity of the resulting classification model and the ability for a human to interpret it. One of the contributions of this dissertation, is the introduction of a novel distributed classification rule induction approach based on MapReduce. As a first step, the approach transforms any numeric attributes to discrete and then it exhaustively searches the space of possible rules to find the best one according to an evaluation criterion. The resulting rules are used for the functional classification of interfaces.Finally a novel nature inspired algorithm for searching for information on the Web is also presented. The proposed algorithm has the ability to locate relative information units by routing the search in the dynamic environment of the Web. The search is conducted stochastically, by combining techniques based on document similarity and techniques that emulate the communication of real world ants in their foraging process. The proposed algorithm when used in conjunction with the classification rules induced previously can locate, similar search interfaces on the Web in order to facilitate the access to Hidden Web content.
περισσότερα