Περίληψη
Στην εποχή της πληροφορικής και ειδικότερα των μεγάλων δεδομένων, η ενοποίηση των πληροφοριών είναι πιο σημαντική από ποτέ. Μεγάλοι οργανισμοί, όπως εταιρείες, φορείς παροχής υπηρεσιών υγείας, φορείς του δημόσιου τομέα, ή ερευνητικά ιδρύματα, επιδιώκουν την ενοποίηση των δεδομένων τους, προκειμένου να προβούν στην ανάλυση επί των ενοποιημένων δεδομένων. Αυτή η ενοποίηση και ανάλυση επιτρέπει στους οργανισμούς αυτούς να λαμβάνουν αποφάσεις και να επιτυγχάνουν καλύτερα επιχειρηματικά αποτελέσματα. Η σύνδεση εγγραφών είναι η διαδικασία επίλυσης που αποφαίνεται εάν δύο εγγραφές που ανήκουν σε διαφορετικά σύνολα δεδομένων, αναφέρονται στην ίδια οντότητα του πραγματικού κόσμου. Η έλλειψη κοινών στοιχείων και η ύπαρξη τυπογραφικών λαθών και ασυνεπειών μεταξύ των δεδομένων καθιστούν τη διαδικασία της σύνδεσης επιχειρησιακά επίπονη και δύσκολη. Όταν τα δεδομένα θεωρούνται ως ιδιωτικά, χρησιμοποιούνται εξειδικευμένες τεχνικές που εκτελούν τη σύνδεση των εγγραφών με ασφαλή τρόπο και με σεβασμό τη ...
Στην εποχή της πληροφορικής και ειδικότερα των μεγάλων δεδομένων, η ενοποίηση των πληροφοριών είναι πιο σημαντική από ποτέ. Μεγάλοι οργανισμοί, όπως εταιρείες, φορείς παροχής υπηρεσιών υγείας, φορείς του δημόσιου τομέα, ή ερευνητικά ιδρύματα, επιδιώκουν την ενοποίηση των δεδομένων τους, προκειμένου να προβούν στην ανάλυση επί των ενοποιημένων δεδομένων. Αυτή η ενοποίηση και ανάλυση επιτρέπει στους οργανισμούς αυτούς να λαμβάνουν αποφάσεις και να επιτυγχάνουν καλύτερα επιχειρηματικά αποτελέσματα. Η σύνδεση εγγραφών είναι η διαδικασία επίλυσης που αποφαίνεται εάν δύο εγγραφές που ανήκουν σε διαφορετικά σύνολα δεδομένων, αναφέρονται στην ίδια οντότητα του πραγματικού κόσμου. Η έλλειψη κοινών στοιχείων και η ύπαρξη τυπογραφικών λαθών και ασυνεπειών μεταξύ των δεδομένων καθιστούν τη διαδικασία της σύνδεσης επιχειρησιακά επίπονη και δύσκολη. Όταν τα δεδομένα θεωρούνται ως ιδιωτικά, χρησιμοποιούνται εξειδικευμένες τεχνικές που εκτελούν τη σύνδεση των εγγραφών με ασφαλή τρόπο και με σεβασμό της ιδιωτικής ζωής των ατόμων που εκπροσωπούνται από αυτές τις εγγραφές. Για παράδειγμα, στο δημόσιο τομέα υπάρχουν διάσπαρτα πληροφοριακά συστήματα τα οποία εμπεριέχουν εγγραφές που αναφέρονται στον ίδιο πολίτη με παρωχημένα δεδομένα. Παρόλο που υφίσταται η αδήριτη ανάγκη συσχετισμού και ενοποίησης αυτών των εγγραφών, η έλλειψη μονοσήμαντου πεδίου (πχ. Α.Φ.Μ.) δυσχεραίνει σημαντικά τη διαδικασία της σύνδεσης.Επίσης, λόγω του μεγάλου όγκων των εγγραφών που περιέχονται στα σύνολα δεδομένων, βασική συνιστώσα της ασφαλούς συνδέσεως των εγγραφών είναι η φάση της ομαδοποίησης, όπου οι εγγραφές εισάγονται σε πιθανώς επικαλυπτόμενες ομάδες, σχηματίζουν ζεύγη και στη συνέχεια συγκρίνονται μεταξύ τους. Ο σκοπός αυτής της φάσης, δηλαδή η επίτευξη μίας επιτυχημένης τεχνικής ομαδοποίησης, είναι η διαμόρφωση όσο το δυνατόν περισσότερων ομοιαζόντων ζευγών εγγραφών και ταυτοχρόνως η διαμόρφωση όσο το δυνατόν λιγότερων μη ομοιαζόντων ζευγών εγγραφών. Οι μέθοδοι ομαδοποίησης που προτείνονται μέχρι στιγμής στη βιβλιογραφία εφαρμόζουν κυρίως εμπειρικές τεχνικέ, οι οποίες, λαμβάνοντας υπόψη των ιδιαιτεροτήτων και των τεχνικών χαρακτηριστικών των συνόλων δεδομένων, παράγουν αυθαίρετα αποτελέσματα. Αυτή είναι η πρώτη διατριβή στη βιβλιογραφία όπου στις προτεινόμενες μεθόδους παρέχονται θεωρητικές εγγυήσεις πληρότητας στο σύνολο των αποτελεσμάτων της διαδικασίας ασφαλούς συνδέσεως εγγραφών. Ειδικότερα, παρουσιάζεται ένα τυχαιοποιημένο πλαίσιο που επιτρέπει την εύκολη ρύθμιση της διαμόρφωσης του. Η ευελιξία του έγκειται στο γεγονός ότι μπορεί κάποιος να καθορίσει το επίπεδο της απόδοσής του σε σχέση με την πληρότητα των αποτελεσμάτων, λαμβάνοντας υπόψη πολλούς παράγοντες όπως: το επείγον του προβλήματος που επιλύεται, τον επιθυμητό χρόνο απόκρισης ή την κρισιμότητα της πληρότητας των αποτελεσμάτων. Επιπλέον, ενισχύεται η κύρια λειτουργία του πλαισίου με ορισμένες επεκτάσεις, που επιτρέπουν την εφαρμογή του τόσο σε offline περιβάλλοντα με πολύ μεγάλο όγκο εγγραφών, όσο και σε online περιβάλλοντα που απαιτούν ταχύτατους χρόνους απόκρισης. Το πλαίσιο έχει υλοποιηθεί εν είδει ενός πρωτοτύπου, που είναι ελεύθερα διαθέσιμο, έτσι ώστε να μπορεί να χρησιμοποιηθεί από επαγγελματίες και ερευνητές στην εκτέλεση των καθηκόντων τους.Η διατριβή χωρίζεται σε διάφορα κεφάλαια. Στην αρχή, παρουσιάζουμε τον πυρήνα του πλαισίου μας και τις δυνατότητές του, και στη συνέχεια, παρουσιάζουμε διάφορες επεκτάσεις του, όπως πχ. η ενοποίηση με το map/reduce σύστημα για την αποτελεσματική κλιμάκωση σε μεγάλους όγκους εγγραφών ή το πρόσθετο συστατικό για την εκτέλεση ασφαλούς συνδέσεως χρησιμοποιώντας αριθμητικές τιμές. Σε κάθε ένα από αυτά τα κεφάλαια, παραθέτουμε εκτεταμένη αξιολόγηση της εφαρμογής του πλαισίου μας αλλά και των συνιστωσών μεθόδων, χρησιμοποιώντας σύνολα πραγματικών δεδομένων, η οποία καταδεικνύει την υπεροχή του προτεινόμενου πλαισίου συγκριτικά με τις υπάρχουσες τεχνικές.
περισσότερα
Περίληψη σε άλλη γλώσσα
At the dawn of a new era of computing and the growth of big data, information integration is more important than ever before. Large organizations, such as corporations, health providers, public sector agencies, or research institutes, integrate their data in order to generate insightful data analytics. This data integration and analysis enables these organizations to make certain decisions toward deriving better business outcomes. Record linkage, also known as entity resolution or data matching, is the process of resolving whether two records that belong to disparate data sets, refer to the same real-world entity. The lack of common identifiers and the presence of typos and inconsistencies in the data, render the process of record linkage very challenging and mandatory for organizations which need to integrate their records. When data is deemed as private, then specialized techniques are employed that perform Privacy-Preserving Record Linkage (PPRL) in a secure manner, by respecting th ...
At the dawn of a new era of computing and the growth of big data, information integration is more important than ever before. Large organizations, such as corporations, health providers, public sector agencies, or research institutes, integrate their data in order to generate insightful data analytics. This data integration and analysis enables these organizations to make certain decisions toward deriving better business outcomes. Record linkage, also known as entity resolution or data matching, is the process of resolving whether two records that belong to disparate data sets, refer to the same real-world entity. The lack of common identifiers and the presence of typos and inconsistencies in the data, render the process of record linkage very challenging and mandatory for organizations which need to integrate their records. When data is deemed as private, then specialized techniques are employed that perform Privacy-Preserving Record Linkage (PPRL) in a secure manner, by respecting the privacy of the individuals who are represented by those records. For instance, in the public sector, there are databases which contain records that refer to the same citizen holding outdated information. Although, there is an urgent need for integration, the lack of common identifiers poses significant impediments in the linkage process.Due to the large volumes of records contained in the data sets, core component of PPRL is the blocking phase, in which records are inserted into overlapping blocks and, then, are compared with one another. The purpose of the blocking phase is to formulate as many as possible matching record pairs. The blocking methods proposed thus far in the literature apply empirical techniques, which, given the particularities and technical characteristics of the data sets at hand, produce arbitrary results. This dissertation is the first to provide theoretical guarantees of completeness in the generated result set of the PPRL process, by introducing a randomized framework that allows for easy tuning of its configuration. Its flexibility lies in the fact that one can specify the level of its performance, with respect to the completeness of the results, taking into account multiple factors, such as: the urgency of the problem being solved, the desired response time, or the criticalness of the results completeness. Additionally, we enhance its main functionality, by providing certain extensions, and illustrate its applicability to both offline and online settings. The framework has been materialized by a prototype that is freely available so that it can be used by practitioners and researchers in their tasks.This dissertation is divided into several chapters; we first introduce the core of our framework and its capabilities, and, then, we present its several extensions, such as the integration with the map/reduce paradigm for scaling up large volumes of records, or the add-on for performing PPRL using numeric values. In each of these chapters, we report on an extensive evaluation of the application of the constituent methods with real data sets, which illustrates that they outperform existing approaches.
περισσότερα