Techniques and systems for online and distributed database processing

Η επεξεργασία πληροφοριών στις μέρες μας απαιτεί συχνά την καθημερινή επεξεργασία μεγάλων όγκων δεδομένων, όπως αυτά προκύπτουν από τη συνεχώς αυξανόμενη παρακολούθηση περιβαλλοντικών παραμέτρων, επιχειρηματικών συναλλαγών, δραστηριοτήτων στο διαδίκτυο, καθώς και άλλων σημαντικών πληροφοριών που προέρχονται από διάφορες πηγές. Το κρίσιμο ζήτημα της διαθεσιμότητας των δεδομένων αυτών οδηγεί σε νέες εφαρμογές που χαρακτηρίζονται από ιδιαίτερα υψηλές απαιτήσεις στην απόδοση. Οι σύγχρονες βάσεις δεδομένων καλούνται να πραγματοποιούν την ανάλυση των δεδομένων αυτών, ενώ την ίδια στιγμή πρέπει να είναι σε θέση να εξυπηρετούν μεγάλο όγκο επερωτήσεων χωρίς καθυστερήσεις. Για να ικανοποιηθούν οι ανάγκες των χρηστών, πολλά επιμέρους στοιχεία των βάσεων δεδομένων πρέπει να μελετηθούν εκ νέου και υπό το νέο πρίσμα των σύγχρονων αναγκών. Πιο συγκεκριμένα, απαιτούνται νέες προσεγγίσεις στις επιμέρους περιοχές της επεξεργασίας επερωτήσεων, της επεξεργασίας συναλλαγών και της διαχείρισης ευρετηρίων. Στην περιοχή της επεξεργασίας επερωτήσεων, οι παραδοσιακές βάσεις δεδομένων έχουν σχεδιαστεί θεωρώντας ότι τα δεδομένα είναι πάντα διαθέσιμα. Τα σύγχρονα συστήματα βάσεων δεδομένων, όμως, πρέπει να είναι σε θέση να επεξεργαστούν διάφορους τύπους εισερχομένων δεδομένων, ροών δεδομένων, που συχνά εισέρχονται στο σύστημα με απρόβλεπτο ρυθμό ή/και εμφανίζοντας μεγάλες καθυστερήσεις στην άφιξή τους. Για το λόγο αυτό καθίσταται αναγκαία η ανάπτυξη νέων αλγορίθμων σύζευξης για την ανάκτηση σημαντικής πληροφορίας από τέτοιου είδους δεδομένα και μάλιστα από την πρώτη στιγμή που ξεκινά η εισαγωγή τους στο σύστημα. Στην παρούσα διατριβή αντιμετωπίζονται αρχικά δύο βασικές λειτουργίες, η σύζευξη δύο ή περισσοτέρων ροών δεδομένων προερχόμενες από αυτόνομες πηγές, καθώς και η σύζευξη μίας ροής δεδομένων με μία συσχέτιση που βρίσκεται στο δίσκο του συστήματος. Παράλληλα, η δημιουργία αντιγράφων δεδομένων εισάγει νέες προκλήσεις στη διαχείριση των συναλλαγών. Η ύπαρξη των αντιγράφων των δεδομένων οδηγεί σε μεγαλύτερη διαθεσιμότητα και σε καλύτερες αποδόσεις στα σύγχρονα συστήματα συγκρινόμενα με τις παραδοσιακές βάσεις δεδομένων μέσω του διαμοιρασμού του φόρτου της βάσης σε διαφορετικές μηχανές. Ένα σημαντικό ζήτημα που τίθεται όμως στις περιπτώσεις αυτές είναι η διατήρηση της συνέπειας ανάμεσα στα αντίγραφα αυτά, καθώς τα δεδομένα ανανεώνονται συνεχώς. Κρίνεται λοιπόν απαραίτητη η δημιουργία νέων μεθόδων ελέγχου του συγχρονισμού των αντιγράφων αυτών. Υιοθετώντας την προσέγγιση των βάσεων δεδομένων που χρησιμοποιούν αντίγραφα, αναπτύξαμε στην παρούσα διατριβή αποδοτικούς μηχανισμούς για τη διατήρηση των απαραίτητων ιδιοτήτων των αντιγράφων: ατομικότητα, συνέπεια, απομόνωση, ανθεκτικότητα. Τέλος, η επιλογή των κατάλληλων ευρετηρίων αποτελεί σημαντικό ζήτημα στη διαχείριση των βάσεων δεδομένων, λόγω της μεγάλης εξάρτησης που παρουσιάζει η απόδοση της επεξεργασίας επερωτήσεων από τη χρήση ευρετηρίων. Η επιλογή των ευρετηρίων αποτελεί ένα ιδιαίτερα ενδιαφέρον πρόβλημα βελτιστοποίησης, καθώς αυτά μπορούν να εξυπηρετούν ένα μέρος του φόρτου επερωτήσεων απαιτώντας όμως ταυτόχρονα επιπλέον διαχειριστικό κόστος κάθε φορά που τα δεδομένα ανανεώνονται. Στις σύγχρονες βάσεις δεδομένων που εμφανίζουν μεγάλη πολυπλοκότητα, η επιτυχής διαχείριση των ευρετηρίων αποτελεί σημαντική πρόκληση για τους διαχειριστές των συστημάτων αυτών. Στην παρούσα διατριβή παρουσιάζουμε μια συνεχή τεχνική που αντιλαμβάνεται τις αλλαγές στα δεδομένα που σχετίζονται με το φόρτο του συστήματος και διαχειρίζεται αποδοτικά τα ευρετήρια, ενώ παράλληλα επιτρέπει την αδιάλειπτη επεξεργασία των επερωτήσεων.

περισσότερα

Περίληψη σε άλλη γλώσσα

Modern information processing is moving into a realm where we often need to process large amounts of data on daily basis, as a result of increasing monitoring of environmental parameters, market transactions, web activity, and other sources of valuable information. The availability of this data establishes new business and application scenarios with increasing performance requirements. Current database engines are expected to analyze the data while providing a high query throughput. In order to accommodate user needs, it is necessary to reconsider the role of several database components in a new light. In particular, advances of the state of the art need to be introduced in the query processing, transaction processing and index management areas. Advances in the query processing module of the database engine are triggered by the need to accommodate new scenarios. While traditional query processing is designed with the assumption that data is always available, modern database systems should be ready to process various types of incoming, streamed data, often arriving at uncontrollable rates or experiencing variable delays. New query processing algorithms, and in particular join algorithms, need to be designed in order to retrieve valuable information from this type of input as soon as incoming data is available. This thesis addresses two common operations: the join of two (or more) data inputs streamed in by autonomous sources and the join of a data stream with a disk-resident relation. The transaction processing system is nowadays faced with new challenges as a result of data replication. Data replication introduces the potential for higher availability and better performance compared to the traditional centralized management, by sharing the database load between several engines. However, maintaining consistency amongst the replicas in the presence of updates is far from trivial. Transaction processing needs to be governed by novel concurrency control mechanisms suitable for data replication. This thesis shows how to provide transactional properties, atomicity, consistency, isolation and durability, in a replicated database in an efficient and scalable manner. Selecting indices that are appropriate for the workload is an important task for the database, since indices directly impact the performance of query processing. It is also an interesting optimization problem, as indices may help some parts of the workload, while requiring maintenance overhead when the data is updated. As database applications become increasingly complex, index tuning becomes more and more challenging for database administrators. This thesis introduces an online technique that captures the relevant changes in the workload and manages the indexes in parallel with query processing.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (651.36 kB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/22720
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/22720
ND	22720
Εναλλακτικός τίτλος	Techniques and systems for online and distributed database processing
Συγγραφέας	Bornea, Mihaela-Ancuta (Father's name: Ion)
Ημερομηνία	2010
Ίδρυμα	Οικονομικό Πανεπιστήμιο Αθηνών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Βασσάλος Βασίλης Δεληγιαννάκης Αντώνιος Δελλής Αλέξιος Καλογεράκη Βάνα Κωνσταντόπουλος Παναγιώτης Κωτίδης Ιωάννης Πολύζος Γεώργιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Επεξεργασία επερωτήσεων; Επεξεργασία συναλλαγών; Διαχείριση ευρετηρίων; Ροές δεδομένων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	xiii, 153 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Energy management and consumer modeling in smart grid systems

Scalable indexing and exploration of big time series data

Ανάλυση εικόνας και όραση υπολογιστών: θεωρία και εφαρμογές στην αποκατάσταση αρχαίων τοιχογραφιών

Efficient query processing in distributed database systems

Μελέτη του πορώδους νανοκρυσταλλικών υλικών και της ενυδάτωσης φωτοκαταλυτικών κονιαμάτων που περιέχουν τιτανία με φασματοσκοπία πυρηνικού μαγνητικού συντονισμού και μικροσκοπία ατομικών δυνάμεων

Σύνθεση, χαρακτηρισμός και καταλυτική δραστικότητα τροποποιημένων περοβσκιτών τιτανίου

Ψηφιακή επεξεργασία τηλεπισκοπικών εικόνων για βελτίωση της αναγνωρισιμότητας και αναπαραγωγής τους βάσει χαρακτηριστικών του μηχανισμ...

Παραγωγή σύνθετων τσιμέντων Πόρτλαντ: μελέτη φυσικοχημικών ιδιοτήτων και ανθεκτικότητας των παραγόμενων κονιαμάτων και σκυροδεμάτων

Τεχνικές παραμορφώσιμων μοντέλων σε προβλήματα τεχνητής όρασης, επεξεργασίας εικόνας και βίντεο

Μηχανικά χαρακτηριστικά και ανθεκτικότητα αυτοσυμπυκνούμενων σκυροδεμάτων (ΑΣΣ) παρασκευασμένα με ελληνικά υλικά

"Τεχνικές και συστήματα συνεχούς και κατανεμημένης επεξεργασίας σε βάσεις δεδομένων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .