Διαχείριση πληροφορίας και κατηγοριοποίηση διεπαφών αναζήτησης στον παγκόσμιο ιστό με αλγόριθμους εμπνευσμένους από τη φύση και τεχνικές μηχανικής μάθησης για μεγάλα δεδομένα

Ένα μεγάλο ποσοστό του περιεχομένου στον Παγκόσμιο Ιστό είναι μη διαθέσιμο στους χρήστες των παραδοσιακών μηχανών αναζήτησης εξαιτίας της αδυναμίας προσπέλασής του από τα προγράμματα προσκομιδής περιεχομένου τους. Το φαινόμενο αυτό οφείλεται στο γεγονός ότι το περιεχόμενο αυτό παράγεται δυναμικά και μόνο σαν αποτέλεσμα της υποβολής ερωτημάτων σε φόρμες αναζήτησης. Η αναγνώριση των διεπαφών αυτών αποτελεί το πρώτο βήμα για την αυτοματοποιημένη προσπέλαση περιεχομένου σε αυτό το κομμάτι του Παγκόσμιου Ιστού που είναι γνωστό ως Κρυμμένος Παγκόσμιος Ιστός. Σε αυτή τη διατριβή, αρχικά παρουσιάζεται το εν λόγω ερευνητικό πεδίο. Στη συνέχεια γίνεται ανάλυση ενός συνόλου ιστοσελίδων μεγάλης κλίμακας, με στόχο την εξαγωγή χρήσιμων συμπερασμάτων για τις διεπαφές που περιέχονται στο σύνολο αυτό. Ταυτόχρονα, με βάση αυτό το σύνολο ιστοσελίδων κατασκευάστηκε ένα σύνολο εκπαίδευσης για την επαγωγή κανόνων κατηγοριοποίησης για την αυτοματοποιημένη αναγνώριση διεπαφών αναζήτησης.Η επαγωγή κανόνων κατηγοριοποίησης είναι μια από τις παλιότερες τεχνικές μηχανικής μάθησης και έχει εφαρμοστεί επιτυχώς σε πολλαπλά προβλήματα. Το κύριο πλεονέκτημά της είναι η απλότητα του παραγόμενου μοντέλου κατηγοριοποίησης και η ευκολία ανάγνωσης και ερμηνείας του από τον ανθρώπινο παράγοντα. Μια από τις συνεισφορές της διατριβής αυτής είναι μια πρωτότυπη κατανεμημένη τεχνική επαγωγής κανόνων κατηγοριοποίησης βασισμένη στο μοντέλο Απεικόνισης/Μείωσης. Σαν πρώτο βήμα η προσέγγιση μετατρέπει τα δεδομένα εκπαίδευσης από συνεχή σε διακριτά και στη συνέχεια αναζητά εξαντλητικά το χώρο των πιθανών κανόνων για την εύρεση του καλύτερου, βασισμένη σε ένα προκαθορισμένο κριτήριο αξιολόγησης. Οι κανόνες που παράγονται από το παραπάνω σύνολο, χρησιμοποιούνται για την κατηγοριοποίηση διεπαφών αναζήτησης στον Παγκόσμιο Ιστό ως προς τη λειτουργία τους.Τέλος παρουσιάζεται ένας πρωτότυπος αλγόριθμος εμπνευσμένος από φυσικές διεργασίες για την αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό. Ο αλγόριθμος αυτός έχει τη δυνατότητα να εντοπίζει συναφείς πληροφοριακές μονάδες δρομολογώντας την αναζήτηση πληροφορίας μέσα στο δυναμικό περιβάλλον του Παγκόσμιου Ιστού. Η δρομολόγηση της αναζήτησης, πραγματοποιείται στοχαστικά συνδυάζοντας τεχνικές ανάκτησης που βασίζονται στην ομοιότητα εγγράφων και τεχνικών προσομοίωσης του τρόπου επικοινωνίας των μυρμηγκιών. Ο προτεινόμενος αλγόριθμος σε συνδυασμό με τους κανόνες κατηγοριοποίησης που παράγονται από την προηγούμενη προσέγγιση, μπορεί να εντοπίσει θεματικά συναφείς διεπαφές αναζήτησης στον Παγκόσμιο Ιστό για τη διευκόλυνση της αναζήτησης πληροφορίας στον Κρυμμένο Ιστό.

περισσότερα

Περίληψη σε άλλη γλώσσα

A large portion of the content residing on the Web, though publicly available, is inaccessible by the traditional general purpose search engines, since it is only generated dynamically as a response to a query submission to a search interface. The identification of such interfaces is the first step towards the automated access to the content of the part of the Web known as Hidden Web. In this dissertation, after an introduction to this research field, a large scale analysis is conducted on a publicly available dataset containing web pages with complex interfaces. The aim of the analysis is to draw useful conclusions on the properties of the interfaces, and the construction of a training dataset for the induction of classification rules that will be used for the automated identification of search interfaces.Classification rule induction is one of the oldest machine learning techniques and it has been successfully applied in a plethora of problems. Its main advantage is the simplicity of the resulting classification model and the ability for a human to interpret it. One of the contributions of this dissertation, is the introduction of a novel distributed classification rule induction approach based on MapReduce. As a first step, the approach transforms any numeric attributes to discrete and then it exhaustively searches the space of possible rules to find the best one according to an evaluation criterion. The resulting rules are used for the functional classification of interfaces.Finally a novel nature inspired algorithm for searching for information on the Web is also presented. The proposed algorithm has the ability to locate relative information units by routing the search in the dynamic environment of the Web. The search is conducted stochastically, by combining techniques based on document similarity and techniques that emulate the communication of real world ants in their foraging process. The proposed algorithm when used in conjunction with the classification rules induced previously can locate, similar search interfaces on the Web in order to facilitate the access to Hidden Web content.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.5 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/37347
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/37347
ND	37347
Εναλλακτικός τίτλος	Information management and classification of search interfaces on the web with nature inspired algorithms and machine learning techniques for big data
Συγγραφέας	Κόλιας, Βασίλειος (Πατρώνυμο: Γεώργιος)
Ημερομηνία	2015
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής. Εργαστήριο Τεχνολογίας Πολυμέσων
Εξεταστική επιτροπή	Καγιάφας Ελευθέριος Λούμος Βασίλειος Αναγνωστόπουλος Ιωάννης Βαρβαρίγου Θεοδώρα Σταφυλοπάτης Ανδρέας-Γεώργιος Θεολόγου Μιχαήλ Βέργαδος Δημήτριος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Κρυμμένος παγκόσμιος ιστός; Επαγωγή κανόνων; Απεικόνιση - Μείωση; Αναζήτηση στον παγκόσμιο ιστό; Αποικία μυρμηγκιών
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	156 σ., εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Ο ρόλος της επικοινωνίας στη διοίκηση του σχολείου: το αίτημα για αποτελεσματικό σχολείο στη δευτεροβάθμια εκπαίδευση

Εκπαιδευτική ηγεσία και δημοκρατικές αξίες στο ελληνικό σχολείο: μια έρευνα σε σχολικές μονάδες της δευτεροβάθμιας εκπαίδευσης της περιφερειακής ενότητας Αιτωλοακαρνανίας

Μετασχηματιστική ηγεσία, επαγγελματική ικανοποίηση και οργανωσιακή αφοσίωση: η περίπτωση του διευθυντή σχολικής μονάδας πρωτοβάθμιας εκπαίδευσης

Διοίκηση εκπαιδευτικών μονάδων: ψυχολογικές και κοινωνικές παράμετροι διοικητικής αποτελεσματικότητας

Ηγεσία και ευρωπαϊκή ολοκλήρωση: αναζήτηση εναλλακτικών μορφών δημιουργικής ηγεσίας

Ανάπτυξη οικοδομικών υλικών (κεραμικών, σύνθετων υλικών κεραμικής μήτρας και τσιμεντοπροϊόντων) με στόχο την προστασία από την ηλεκτρομαγνητική ακτινοβολία

ΕΜΠΕΙΡΑ ΣΥΣΤΗΜΑΤΑ: ΣΥΜΒΟΛΗ ΣΤΗ ΔΟΜΗ ΦΛΟΙΩΝ ΑΝΑΠΤΥΞΗΣ - ΕΦΑΡΜΟΓΕΣ ΣΤΗ ΓΕΩΡΓΙΑ

Η διοίκηση του σχολείου και η συμμετοχή των εκπαιδευτικών στη διαδικασία λήψης αποφάσεων

Χρήση τεχνικών εξόρυξης γνώσης στον σχεδιασμό παιχνιδοποιημένων εφαρμογών

Διαχείριση της καινοτομίας και ηγεσία στην εκπαίδευση: η περίπτωση της φιλαναγνωσίας στην πρωτοβάθμια εκπαίδευση

"Διαχείριση πληροφορίας και κατηγοριοποίηση διεπαφών αναζήτησης στον παγκόσμιο ιστό με αλγόριθμους εμπνευσμένους από τη φύση και τεχνικές μηχανικής μάθησης για μεγάλα δεδομένα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .