Περίληψη
Η παρακάτω διατριβή παρουσιάζει την ερευνητική μελέτη πάνω σε ζητήματα διαχείρισης και εξερεύνησης μεγάλων συνόλων διασυνδεδεμένων δεδομένων. Στα πλαίσια της διδακτορικής διατριβής έχει ερευνηθεί σε βάθος τόσο η υπάρχουσα βιβλιογραφία όσο και η σχετική ερευνητική εργασία σε παγκόσμιο επίπεδο. Έχουν διερευνηθεί ενδελεχώς τα ζητήματα αυτά τόσο από την πλευρά των μηχανικών που καλούνται να σχεδιάσουν συστήματα που να διαχειρίζονται τα χαρακτηριστικά αυτών των δεδομένων, όσο και από την πλευρά των χρηστών που επιθυμούν ομαλή και ανεμπόδιστη πρόσβαση στα δεδομένα με εύκολους, ως προς την χρήση και την κατανόηση, τρόπους. Επιπλέον, έχουν προταθεί πλήρεις λύσεις για την αντιμετώπιση αυτών των ζητημάτων με βάση τα σενάρια χρήσης. Συγκεκριμένα, έχει προταθεί ένα ολοκληρωμένο σύστημα οπτικοποίησης της πληροφορίας βασισμένη σε χαρακτηριστικά του SPARQL ερωτήματος. Η προτεινόμενη λύση περιλαμβάνει ένα σύστημα υποστήριξης λήψεων αποφάσεων που συμβάλει στην επιλογή της κατάλληλης οπτικοποίησης για κ ...
Η παρακάτω διατριβή παρουσιάζει την ερευνητική μελέτη πάνω σε ζητήματα διαχείρισης και εξερεύνησης μεγάλων συνόλων διασυνδεδεμένων δεδομένων. Στα πλαίσια της διδακτορικής διατριβής έχει ερευνηθεί σε βάθος τόσο η υπάρχουσα βιβλιογραφία όσο και η σχετική ερευνητική εργασία σε παγκόσμιο επίπεδο. Έχουν διερευνηθεί ενδελεχώς τα ζητήματα αυτά τόσο από την πλευρά των μηχανικών που καλούνται να σχεδιάσουν συστήματα που να διαχειρίζονται τα χαρακτηριστικά αυτών των δεδομένων, όσο και από την πλευρά των χρηστών που επιθυμούν ομαλή και ανεμπόδιστη πρόσβαση στα δεδομένα με εύκολους, ως προς την χρήση και την κατανόηση, τρόπους. Επιπλέον, έχουν προταθεί πλήρεις λύσεις για την αντιμετώπιση αυτών των ζητημάτων με βάση τα σενάρια χρήσης. Συγκεκριμένα, έχει προταθεί ένα ολοκληρωμένο σύστημα οπτικοποίησης της πληροφορίας βασισμένη σε χαρακτηριστικά του SPARQL ερωτήματος. Η προτεινόμενη λύση περιλαμβάνει ένα σύστημα υποστήριξης λήψεων αποφάσεων που συμβάλει στην επιλογή της κατάλληλης οπτικοποίησης για κάθε ερώτημα SPARQL που μπορεί να δημιουργήσει ο χρήστης, βασισμένο σε μια βάση γνώσεων που περιλαμβάνει τα αποτελέσματα μια εκτεταμένης πειραματικής μελέτης κατά την οποία αναλύθηκαν συγκεκριμένα χαρακτηριστικά πολλών SPARQL συνόλων δεδομένων. Προτείνεται ακόμα μια λύση η οποία στοχεύει στο να βοηθήσει χρήστες που δεν είναι εξοικειωμένοι με τα μεγάλα σύνολα δεδομένων και τον Σημασιολογικό Ιστό στο να εξερευνήσουν σύνολα δεδομένων τα οποία δεν ενημερώνονται συχνά αλλά περιέχουν σημαντικές πληροφορίες που πρέπει να εξερευνηθούν σε βάθος.Για την αξιοποίηση των συνόλων δεδομένων ζευγών ερώτηση-απάντηση που είναι διαθέσιμα με τέτοιο τρόπο που να εξαλείφονται τα μη-αξιοποιήσιμα και υποκειμενικά δεδομένα σε συστήματα αυτόματων διαλόγων, αναπτύχθηκαν τεχνικές σημασιολογικής ανάλυσης των δεδομένων. Προτάθηκε μια τεχνική που ορίζει μια αυστηρή ροή δεδομένων και εξασφαλίζει ότι τα σύνολα δεδομένων που δίνονται ως είσοδο επεξεργάζονται με τον καλύτερο δυνατό τρόπο τόσο με βάση τον σημασιολογικό προσανατολισμό του συστήματος όσο και με βάση την περίπτωση χρήσης. Όπως είναι αναμενόμενο σε κάθε μεγάλο σύνολο δεδομένων έτσι και για δεδομένα που συλλέγονται από τους πολίτες η ποιότητα και η αξιοπιστία των μετρήσεων που συλλέγονταί είναι αμφισβητούμενη. Για τον λόγο αυτόν αναπτύχθηκε ένας μηχανισμός ελέγχου της ποιότητας των δεδομένων που βασίστηκε σε μια σειρά από κανόνες και πρακτικούς περιορισμούς.
περισσότερα
Περίληψη σε άλλη γλώσσα
This document presents the research contribution regarding the exploration and visualization of very large linked datasets. First, the technologies and innovations that led to the increase of the available big data are discussed. Then the challenges that people interested in the exploration and analysis of the available information are discussed. Emphasis is given in differentiating the challenges related to the nature and characteristics of the available dataset from the ones coming from specific use cases and target audience. Specific, real-world examples are presented to show the needs of the users and the specification for the solutions. Next, a solution that supports users with querying SPARQL endpoints, visualizing the results, in the optimal way based on a knowledge base and a decision support system, and facilitating the exploration of the information through an innovative functionality toolkit is presented. The solution is proposing a client-server architectural model, that al ...
This document presents the research contribution regarding the exploration and visualization of very large linked datasets. First, the technologies and innovations that led to the increase of the available big data are discussed. Then the challenges that people interested in the exploration and analysis of the available information are discussed. Emphasis is given in differentiating the challenges related to the nature and characteristics of the available dataset from the ones coming from specific use cases and target audience. Specific, real-world examples are presented to show the needs of the users and the specification for the solutions. Next, a solution that supports users with querying SPARQL endpoints, visualizing the results, in the optimal way based on a knowledge base and a decision support system, and facilitating the exploration of the information through an innovative functionality toolkit is presented. The solution is proposing a client-server architectural model, that allows the users to perform SPARQL queries over any available endpoint, receive the results visualized based on the specific characteristics of the query and explore the visualized information through multiple abstraction and filtering criteria. In addition, a fully-fledged innovative system that supports the representation of any RDF dataset as one continuous graph at the two-dimensional space. The system has been carefully designed to manage any dataset independently of its specific characteristics. The system stores the information in a distributed key-value storage system and indexes the information with a XZ-index ensuring the smooth and timely provision of the information to multiple users regardless the spatial criteria used or the area requested. A dedicated user interface, allows the user to access the information, explore the complete graph, visualize the dataset thought multiple abstraction and filtering criteria, navigate paths of interest or isolate parts of the dataset that wants to further explore.Understanding that the value of the available dataset is closely related to their quality, a technique to improve the quality of the available conversational datasets is proposed. The technique builds on top of semantic relationships, such as synonyms and hyponomy, to calculate the semantic similarity and the semantic relatedness between the topic that the dataset is to be used for and the available information. Taking into consideration the use case that the output dataset is going to be used for, its thematic relation with the source of the input dataset and the language formality needed for the task, the two scores are merged using a weight-based score function into a matching percentage. The dataset is then ranked based on this percentage and only the information above the required threshold is present in the output file. Extended experimental analysis showed that machine learning solutions perform better when trained with smaller but properly created dataset than when trained over complete initial dataset.Finally, the data quality control needed when collecting big datasets is discussed. The specific example of the data collected within the context of the SCENT EU founded project is presented. There volunteers were tasked to use mobile applications and smart sensor to collect images, video and sensor measurement at area of hydrological interest. The collected data were processed in order to collect information about the land cover of the area, the water level and the water velocity of the water body as well as air temperature and soil moisture values. The data were collected from volunteers with no training regarding the proper way to collect scientific measurements, in conditions that were challenging regarding the weather phenomena and the accessibility and in areas that had many technological challenges such as the lack of accurate GPS signal. The collected data are to be used in order to update hydrological models, meaning that there is a need for high accuracy in the measurements used. Innovative techniques that filter out invalid measurements were developed in order to provide the proper data for the models. The techniques were proven to work properly and they were able to support the creation of improved, more accurate flood models.
περισσότερα