Ανάκτηση, ανάλυση και αρχειοθέτηση του παγκόσμιου ιστού

Περίληψη

Αρχειοθέτηση του παγκόσμιου ιστού ονομάζεται η διαδικασία συλλογής και αποθήκευσης ιστοσελίδων με σκοπό τη διαφύλαξή τους σε ένα ψηφιακό αρχείο, προσβάσιμο για τοκοινό και τους ερευνητές. Η αρχειοθέτηση του παγκόσμιου ιστού είναι ένα ζήτημα ύψιστης προτεραιότητας, καθώς αφενός αποτελεί κύριο μέσο της σύγχρονης επικοινωνίαςκαι αφετέρου η μέση διάρκεια ζωής των ιστοσελίδων είναι λιγότερη από 100 ημέρες.Έτσι, καθημερινά εξαφανίζονται από τον παγκόσμιο ιστό εκατομμύρια ιστοσελίδες πουπαύουν να λειτουργούν για διάφορους λόγους, με αποτέλεσμα να χάνονται πολύτιμεςπληροφορίες. Το πρόβλημα της αρχειοθέτησης του παγκόσμιου ιστού συνίσταται απόδιάφορες επιμέρους διαδικασίες όπως η αυτόματη πλοήγηση στον παγκόσμιο ιστό, ηεξαγωγή περιεχομένου, η ανάλυση και η αποθήκευσή του σε κατάλληλη μορφή ώστε ναείναι δυνατή η ανάκτηση και η επαναχρησιμοποίησή του για οποιουσδήποτε σκοπούς. Τοπρόβλημα της αυτοματοποιημένης πλοήγηση στον παγκόσμιο ιστό με σκοπό την ανάκτησηκαι την επεξεργασία πληροφορίας αποτελ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

The Web is increasingly important for all aspects of our society, culture and economy. Webarchiving is the process of gathering digital materials from the Web, ingesting it, ensuringthat these materials are preserved in an archive, and making the collected materials availablefor future use and research. Web archiving is a difficult problem due to organizational andtechnical reasons. We focus on the technical aspects of Web archiving.In this dissertation, we focus on improving the data acquisition aspect of the Web archiving process. We establish the notion of Website Archivability (WA) and we introduce theCredible Live Evaluation of Archive Readiness Plus (CLEAR+) method to measure WA forany website. We propose new algorithms to optimise Web crawling using near-duplicatedetection and webgraph cycle detection, resolving also the problem of web spider traps.Following, we suggest that different types of websites demand different Web archiving approaches. We focus on social media and more ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/36536
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/36536
ND
36536
Εναλλακτικός τίτλος
Web crawling, analysis and archiving
Συγγραφέας
Μπάνος, Ευάγγελος (Πατρώνυμο: Κωνσταντίνος)
Ημερομηνία
2015
Ίδρυμα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Εργαστήριο Τεχνολογίας και Επεξεργασίας Δεδομένων
Εξεταστική επιτροπή
Μανωλόπουλος Ιωάννης
Κατσαρός Δημήτριος
Παπαδόπουλος Απόστολος
Βακάλη Αθηνά
Γούναρης Αναστάσιος
Ευαγγελίδης Γεώργιος
Καπιδάκης Σαράντος
Επιστημονικό πεδίο
Φυσικές ΕπιστήμεςΕπιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά
αρχειοθέτηση του παγκόσμιου ιστού; Ψηφιακές βιβλιοθήκες; αυτόματη πλοήγηση στον παγκόσμιο ιστό
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
xxii, 164 σ., πιν., σχημ., γραφ., ευρ.
Ειδικοί όροι χρήσης/διάθεσης
Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation:
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)