Περίληψη
Η αλματώδης αύξηση των δεδομένων που παράγονται και χρησιμοποιούνται από
μία πληθώρα εφαρμογών είναι η νέα τάση που παρατηρείται με συνεχώς
αυξανόμενο ρυθμό στη ψηφιακή εποχή μας. Η δυνατότητα της διαχείρισης και
ανάλυσης δεδομένων μεγάλου όγκου είναι μια βασική απαίτηση που τίθεται τόσο
από τους επιστημονικούς και επιχειρησιακούς κλάδους, όσο και από την
διαδικτυακή κοινότητα. Η τάση αυτή οδηγεί στην υιοθέτηση κατανεμημένων
λύσεων για τη διαχείριση δεδομένων που στοχεύουν στη δημιουργία επεκτάσιμων
και ανεκτικών σε σφάλματα υποδομών. Οι υποδομές αυτές συνδυάζουν την ισχύ
πολλαπλών αυτόνομων πόρων και εξασφαλίζουν την αποδοτικότερη χρήση τους. Τα
δίκτυα ομότιμων κόμβων συνεισφέρουν στο σχεδιασμό μη κεντρικοποιημένων
συστημάτων που έχουν την ικανότητα να προσαρμόζονται δυναμικά σε αλλαγές της
τοπολογίας τους. Μία σημαντική κατηγορία των δικτύων ομότιμων κόμβων είναι οι
δομημένες επικαλύψεις που υλοποιούν Κατανεμημένους Πίνακες
Κατακερματισμού. Η αποδοτική αναζήτηση που επιτ ...
Η αλματώδης αύξηση των δεδομένων που παράγονται και χρησιμοποιούνται από
μία πληθώρα εφαρμογών είναι η νέα τάση που παρατηρείται με συνεχώς
αυξανόμενο ρυθμό στη ψηφιακή εποχή μας. Η δυνατότητα της διαχείρισης και
ανάλυσης δεδομένων μεγάλου όγκου είναι μια βασική απαίτηση που τίθεται τόσο
από τους επιστημονικούς και επιχειρησιακούς κλάδους, όσο και από την
διαδικτυακή κοινότητα. Η τάση αυτή οδηγεί στην υιοθέτηση κατανεμημένων
λύσεων για τη διαχείριση δεδομένων που στοχεύουν στη δημιουργία επεκτάσιμων
και ανεκτικών σε σφάλματα υποδομών. Οι υποδομές αυτές συνδυάζουν την ισχύ
πολλαπλών αυτόνομων πόρων και εξασφαλίζουν την αποδοτικότερη χρήση τους. Τα
δίκτυα ομότιμων κόμβων συνεισφέρουν στο σχεδιασμό μη κεντρικοποιημένων
συστημάτων που έχουν την ικανότητα να προσαρμόζονται δυναμικά σε αλλαγές της
τοπολογίας τους. Μία σημαντική κατηγορία των δικτύων ομότιμων κόμβων είναι οι
δομημένες επικαλύψεις που υλοποιούν Κατανεμημένους Πίνακες
Κατακερματισμού. Η αποδοτική αναζήτηση που επιτυγχάνεται σε αυτές τις
επικαλύψεις καθιστά τους Κατανεμημένους Πίνακες Κατακερματισμού δημοφιλείς
για εφαρμογές διαμοιρασμού περιεχομένου ευρείας κλίμακας.
Ο βασικός στόχος της συγκεκριμένης διατριβής είναι η ανάπτυξη τεχνικών
διαχείρισης δεδομένων μεγάλου όγκου σε κατανεμημένες υποδομές. Στο πλαίσιο
αυτό προτείνονται καινοτόμες τεχνικές για την αποδοτική οργάνωση, δεικτοδότηση,
αναζήτηση και ενημέρωση των δεδομένων. ΈΈνα κοινό χαρακτηριστικό των
δεδομένων που μελετώνται είναι η χρήση εννοιολογικών ιεραρχιών για την δόμηση
των τιμών τους σε διαφορετικά επίπεδα αφαίρεσης. Η αξιοποίηση των
εννοιολογικών ιεραρχιών βοηθά σημαντικά στην οργάνωση και την
επαναχρησιμοποίηση της πληροφορίας και μπορεί να συνεισφέρει στην
αποτελεσματικότερη επεξεργασία ερωτημάτων σύνοψης. Οι προτεινόμενες τεχνικές
επιτυγχάνουν την οργάνωση της πληροφορίας κατά τέτοιο τρόπο ώστε να
διατηρείται η σημασιολογική πληροφορία που εμπεριέχεται στις ιεραρχίες, ενώ αυτά
κατανέμονται στους διαθέσιμους κόμβους ενός Κατανεμημένου Πίνακα
Κατακερματισμού. Η επεξεργασία των ερωτημάτων γίνεται με τη χρήση μίας
πλήρους κατανεμημένης δομής δεικτοδότησης που επιτρέπει στους κόμβους να
αντιλαμβάνονται δυναμικά τις επικρατούσες τάσεις στα ερωτήματα των χρηστών
και να προσαρμόζουν αντίστοιχα τη δεικτοδότηση. Επίσης, οι προτεινόμενοι
μηχανισμοί επαναδεικτοδότησης είτε προς πιο γενικότερες τιμές ή τιμές μεγαλύτερης
λεπτομέρειας μπορούν να εκτελεστούν μεμονωμένα απο κάθε κόμβο για κάθε
αποθηκευμένη ιεραρχία, ώστε να βελτιωθεί η απόδοση της επεξεργασίας των
ερωτημάτων και να επισπευσθεί η ανάκτηση των αποτελεσμάτων. ΈΈνα άλλο
σημαντικό θέμα που εξετάζεται είναι η online ενημέρωση των αποθηκευμένων
δεδομένων και η προσθήκη νέων χωρίς να αναστέλεται η λειτουργία του
συστήματος. Οι τεχνικές που περιγράφηκαν αξιολογήθηκαν με συνθετικά φορτία
ερωτημάτων που ακολουθούν ομοιόμορφες και πολωμένες κατανομές.
Επιπρόσθετα, η προσέγγιση αυτή μελετήθηκε για το σενάριο χρήσης ενός
Πληροφοριακού Συστήματος μίας Υποδομής Πλέγματος. Για το λόγο αυτό
αναπτύχθηκε ένα πλήρως κατανεμημένο σύστημα για τη δημιουργία, επερώτηση και
ενημέρωση μεγάλου όγκου ιεραρχικής πληροφορίας προερχόμενης από αυτήν την
εφαρμογή και το οποίο μπορεί να θεωρηθεί σαν μία βιώσιμη λύση σε σύγκριση με τα υπάρχοντα συστήματα που αποτελούνται από κεντρικοποιημένες και ιεραρχικές
δομές.
Οι τεχνικές, που προέκυψαν, επεκτάθηκαν και εμπλουτίστηκαν, ώστε να γίνει εφικτή
η διαχείριση δεδομένων που περιγράφονται από εννοιολογικές ιεραρχίες σε
πολλαπλές διαστάσεις. Το αποτέλεσμα ήταν η ανάπτυξη των απαραίτητων
μηχανισμών και ενός πλήρως λειτουργικού συστήματος που προορίζεται για
δεδομένα με την περιγραφόμενη δομή. ΈΈνα σημαντικό στοιχείο που το
διαφοροποιεί τη προσέγγιση αυτή από υπάρχουσες λύσεις είναι η άρση του
περιορισμού για την υιοθέτηση ενός αυστηρά ορισμένου σχήματος, που πρέπει να
ακολουθείται από τα δεδομένα που εισάγονται στο σύστημα. Το προτεινόμενο
σύστημα διαχειρίζεται μερικώς δομημένη πληροφορία και οι στρατηγικές
αναζήτησης που περιγράφονται επικεντρώνονται κυρίως στην επίλυση ερωτημάτων
σύνοψης σε πολλαπλές διαστάσεις. Εκτός από την υιοθέτηση των ιδιαίτερα
προσαρμοστικών μηχανισμών αναζήτησης για την εκτέλεση διαδικασιών
επαναδεικτοδότησης, μία τεχνική για τον υπολογισμό συνδυασμών από
αποθηκευμένες τιμές αναλύεται για τη μερική δημιουργία όψεων σύμφωνα με τις
εισερχόμενες ερωτήσεις. Οι τεχνικές αυτές για τη διαχείριση μερικώς δομημένων και
πολυδιάστατων δεδομένων εφαρμόστηκαν για το σχεδιασμό ενός συστήματος για
σημασιολογική αναζήτηση και ανάκτηση δεδομένων. Το παράδειγμα των
Διασυνδεδεμένων Δεδομένων χρησιμοποιείται ευρέως για τη δημοσιοποίηση
μεγάλων συλλογών δεδομένων στο Διαδίκτυο και είναι αυτό που μελετάται. Το
συγκεκριμένο σύστημα μπορεί να αποτελέσει μία κατανεμημένη πλατφόρμα για την
εξυπηρέτηση των αναγκών της ενοποίησης, δεικτοδότησης και επερώτησης
δεδομένων που δημοσιεύονται με τη μορφή Διασυνδεδεμένων Δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The tremendous increase of managed data by a variety of applications is a new trend
observed more and more in our digital era. The ability to handle and analyse large amounts
of data efficiently is a requirement posed strongly by scientific and business disciplines and
the Web community. This trend leads to the adoption of distributed solutions for data
management aiming at building scalable and fault-tolerant systems combining the power of
multiple autonomous resources. Peer-to-Peer networks greatly contribute to the design of
decentralized systems capable of dynamically adjusting to changes of their topology. A
major class of existing Peer-to-Peer networks is the one referring to structured overlays that
implement a Distributed Hash Table (DHTs). The efficient lookup functionality provided by
the Distributed Hash Tables has made them popular among Internet-scale applications for
content publishing and sharing.
The main goal in this dissertation is the development of data m ...
The tremendous increase of managed data by a variety of applications is a new trend
observed more and more in our digital era. The ability to handle and analyse large amounts
of data efficiently is a requirement posed strongly by scientific and business disciplines and
the Web community. This trend leads to the adoption of distributed solutions for data
management aiming at building scalable and fault-tolerant systems combining the power of
multiple autonomous resources. Peer-to-Peer networks greatly contribute to the design of
decentralized systems capable of dynamically adjusting to changes of their topology. A
major class of existing Peer-to-Peer networks is the one referring to structured overlays that
implement a Distributed Hash Table (DHTs). The efficient lookup functionality provided by
the Distributed Hash Tables has made them popular among Internet-scale applications for
content publishing and sharing.
The main goal in this dissertation is the development of data management techniques for
large-scale data hosted by scattered resources. In this context, novel methodologies for
efficient organization, indexing, searching and updating of data are introduced. A common
property of the explored data is the use of concept hierarchies, which offer the capability for
organizing it at different levels of abstraction. The exploitation of concept hierarchies greatly
helps in the organization and reuse of information and contributes to more effective
processing of aggregate queries. The proposed techniques enable the organization of such
data in a manner that preserves the semantics of the hierarchies, while they assign it among
the nodes of a DHT substrate. The applied method for query processing utilizes a distributed
indexing scheme allowing peers to dynamically detect the prevailing trends in incoming queries and adapt the indexing granularity. Re-indexing operations towards more general or
more detailed levels can be performed individually on a per node basis for each stored
hierarchy to improve the performance of the processing and expedite the retrieval of results
on variable aggregation levels. Another important aspect addressed in this approach is the
support for online updates of stored items and insertions of new ones without impeding the
operation of the system. Apart from the evaluation of the proposed techniques with synthetic
query workloads following uniform and skewed distributions, this approach is also
motivated by the use case of a Grid Information System. A fully decentralized scheme is
developed that creates, queries and updates large volumes of hierarchical data on-line and
can be considered as a viable solution compared to the traditional information systems
comprising of centralized and hierarchical structures.
The derived methods are further extended and enhanced to enable the management of data
annotated by concept hierarchies in multiple dimensions. The outcome is the implementation
of all required mechanisms for a fully functional system handling data following the specific
structure. A significant asset of the system differentiating it from existing approaches is the
restriction for a global, rigid schema followed by all data is eliminated. The proposed
scheme manages partially structured information and search strategies are described, which
mainly focus on the resolution of aggregate operations over multiple dimensions. Apart from
the adoption of the highly adaptive mechanisms performing re-indexing operations, a
technique for the pre-computation of combinations of stored values is analysed for partial
materialization of views according to the incoming queries. The introduced techniques for
the management of semi-structured, multi-attribute data are also applied in the design of a
system for semantic search and retrieval. The paradigm of Linked Data, which is widely
used for publishing large datasets from different resources on the Web is studied. The
resultant system is a distributed platform that serves the needs for integrating, indexing and
querying data published in the form of Linked Data.
περισσότερα