Διαχείριση πληροφορίας και κατηγοριοποίηση διεπαφών αναζήτησης στον παγκόσμιο ιστό με αλγόριθμους εμπνευσμένους από τη φύση και τεχνικές μηχανικής μάθησης για μεγάλα δεδομένα

Περίληψη

Ένα μεγάλο ποσοστό του περιεχομένου στον Παγκόσμιο Ιστό είναι μη διαθέσιμο στους χρήστες των παραδοσιακών μηχανών αναζήτησης εξαιτίας της αδυναμίας προσπέλασής του από τα προγράμματα προσκομιδής περιεχομένου τους. Το φαινόμενο αυτό οφείλεται στο γεγονός ότι το περιεχόμενο αυτό παράγεται δυναμικά και μόνο σαν αποτέλεσμα της υποβολής ερωτημάτων σε φόρμες αναζήτησης. Η αναγνώριση των διεπαφών αυτών αποτελεί το πρώτο βήμα για την αυτοματοποιημένη προσπέλαση περιεχομένου σε αυτό το κομμάτι του Παγκόσμιου Ιστού που είναι γνωστό ως Κρυμμένος Παγκόσμιος Ιστός. Σε αυτή τη διατριβή, αρχικά παρουσιάζεται το εν λόγω ερευνητικό πεδίο. Στη συνέχεια γίνεται ανάλυση ενός συνόλου ιστοσελίδων μεγάλης κλίμακας, με στόχο την εξαγωγή χρήσιμων συμπερασμάτων για τις διεπαφές που περιέχονται στο σύνολο αυτό. Ταυτόχρονα, με βάση αυτό το σύνολο ιστοσελίδων κατασκευάστηκε ένα σύνολο εκπαίδευσης για την επαγωγή κανόνων κατηγοριοποίησης για την αυτοματοποιημένη αναγνώριση διεπαφών αναζήτησης.Η επαγωγή κανόνων κατη ...
περισσότερα

Περίληψη σε άλλη γλώσσα

A large portion of the content residing on the Web, though publicly available, is inaccessible by the traditional general purpose search engines, since it is only generated dynamically as a response to a query submission to a search interface. The identification of such interfaces is the first step towards the automated access to the content of the part of the Web known as Hidden Web. In this dissertation, after an introduction to this research field, a large scale analysis is conducted on a publicly available dataset containing web pages with complex interfaces. The aim of the analysis is to draw useful conclusions on the properties of the interfaces, and the construction of a training dataset for the induction of classification rules that will be used for the automated identification of search interfaces.Classification rule induction is one of the oldest machine learning techniques and it has been successfully applied in a plethora of problems. Its main advantage is the simplicity of ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/37347
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/37347
ND
37347
Εναλλακτικός τίτλος
Information management and classification of search interfaces on the web with nature inspired algorithms and machine learning techniques for big data
Συγγραφέας
Κόλιας, Βασίλειος του Γεώργιος
Ημερομηνία
2015
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής. Εργαστήριο Τεχνολογίας Πολυμέσων
Εξεταστική επιτροπή
Καγιάφας Ελευθέριος
Λούμος Βασίλειος
Αναγνωστόπουλος Ιωάννης
Βαρβαρίγου Θεοδώρα
Σταφυλοπάτης Ανδρέας-Γεώργιος
Θεολόγου Μιχαήλ
Βέργαδος Δημήτριος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Κρυμμένος παγκόσμιος ιστός; Επαγωγή κανόνων; Απεικόνιση - Μείωση; Αναζήτηση στον παγκόσμιο ιστό; Αποικία μυρμηγκιών
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
156 σ., εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)