Περίληψη
Οι ραγδαία αναπτυσσόμενες τεχνολογίες δημιουργούν ολοένα και μεγαλύτερες ανάγκες για την ανάλυση και την αξιοποίηση των υφιστάμενων δεδομένων. Πολλοί οργανισμοί βασίζουν την βιωσιμότητα τους στην ανάλυση των δεδομένων της αγοράς αλλά και των δεδομένων που παράγουν οι ίδιοι είτε μέσω της εξαγωγής χρήσιμων στατιστικών και δεικτών απόδοσης είτε αξιοποιώντας τα κατά τη διαδικασία λήψης αποφάσεων όπου μια από τις σημαντικότερες παραμέτρους στην ανάλυση τους είναι η παράμετρος του χρόνου. Για να μπορέσει να αποθηκευτεί και να αναλυθεί ο πολλές φορές τεράστιος όγκος δεδομένων δημιουργήθηκαν νέοι μέθοδοι διαχείρισης και ανάλυσης δεδομένων. Αυτό έγινε ιδιαίτερα αισθητό με την έλευση των Big Data. Οι τεχνολογίες που αναπτύχθηκαν έδωσαν την ευκαιρία της επέκτασης των μεθόδων που υπήρχαν για τα συμβατικά δεδομένα αλλά και την δημιουργία νέων μεθόδων, τεχνικών και συστημάτων ώστε να μπορούν να παρέχουν την ίδια ή ακόμα και καλύτερη ανάλυση. Καθώς όμως η τεχνολογία προχωράει με την έλευση του IOT ο ...
Οι ραγδαία αναπτυσσόμενες τεχνολογίες δημιουργούν ολοένα και μεγαλύτερες ανάγκες για την ανάλυση και την αξιοποίηση των υφιστάμενων δεδομένων. Πολλοί οργανισμοί βασίζουν την βιωσιμότητα τους στην ανάλυση των δεδομένων της αγοράς αλλά και των δεδομένων που παράγουν οι ίδιοι είτε μέσω της εξαγωγής χρήσιμων στατιστικών και δεικτών απόδοσης είτε αξιοποιώντας τα κατά τη διαδικασία λήψης αποφάσεων όπου μια από τις σημαντικότερες παραμέτρους στην ανάλυση τους είναι η παράμετρος του χρόνου. Για να μπορέσει να αποθηκευτεί και να αναλυθεί ο πολλές φορές τεράστιος όγκος δεδομένων δημιουργήθηκαν νέοι μέθοδοι διαχείρισης και ανάλυσης δεδομένων. Αυτό έγινε ιδιαίτερα αισθητό με την έλευση των Big Data. Οι τεχνολογίες που αναπτύχθηκαν έδωσαν την ευκαιρία της επέκτασης των μεθόδων που υπήρχαν για τα συμβατικά δεδομένα αλλά και την δημιουργία νέων μεθόδων, τεχνικών και συστημάτων ώστε να μπορούν να παρέχουν την ίδια ή ακόμα και καλύτερη ανάλυση. Καθώς όμως η τεχνολογία προχωράει με την έλευση του IOT ο όγκος των δεδομένων αλλά και οι ροές δεδομένων αυξάνονται ραγδαία. Οι ροές αυτές θα πρέπει να αποθηκευτούν να αναλυθούν και να συνδυαστούν με άλλα δεδομένα ώστε να εξαχθούν χρήσιμες πληροφορίες. Με την έλευση του ΜL/AI ολοένα και περισσότερα διαδικασίες μπορούν να αυτοματοποιηθούν παράγοντας αυτόματα καινούργια γνώση. Ένα από το κυριότερα προβλήματα που υπάρχουν όμως είναι η έλλειψη επισημασμένων δεδομένων. Ένα από τα πιο διαδεδομένα ερωτήματα που υπάρχουν για την εξαγωγή συμπερασμάτων από τα δεδομένα είναι τα ερωτήματα κορυφογραμμής. Τα ερωτήματα κορυφογραμμής ανήκουν στην κατηγορία των multi-objective optimization προβλημάτων και έχουν ως στόχο την ανάκτηση ενός συνόλου απαντήσεων που ικανοποιεί κάποια συνήθως αντικρουόμενα κριτήρια. Η χρήση τέτοιου τύπου ερωτημάτων είναι πάντα χρήσιμη καθώς έχει πολλά πεδία εφαρμογής και μπορεί να βοηθήσει ιδιαίτερα στην διαδικασία λήψης αποφάσεων όπου υπάρχουν πολλαπλά κριτήρια για την επίτευξή ενός στόχου και η βέλτιστη λύση μπορεί να μην είναι μοναδική. Μέχρι στιγμής η βιβλιογραφία στο συγκεκριμένο ερευνητικό πεδίο εμφανίζει ένα σημαντικό πλήθος εργασιών οι οποίες κατά κύριο λόγο ασχολούνται με συμβατικά δεδομένα και υπάρχει χώρος για έρευνα στο πεδίο των Big Data. Λαμβάνοντας υπόψη όλα τα παραπάνω η διατριβή αυτή έχει ως στόχο την πραγματοποίηση μιας εκτενούς ανασκόπησης στον χώρο των ερωτημάτων κορυφογραμμής, την ανίχνευση των προδιαγραφών και των αναγκών σε δεδομένα ενός πληροφοριακού συστήματος για θαλάσσιο περιβάλλον, την ανάλυση της παραμέτρου του χρόνου στα ερωτήματα κορυφογραμμής, την ανάπτυξη ερωτημάτων κορυφογραμμής σε δενδρικές δομές ειδικά σχεδιασμένες για Big Data και την δημιουργία ενός ταξινομητή (classifier) για μεγάλα δεδομένα. Πιο αναλυτικά η πρώτη συνεισφορά είναι μια εκτενής ανασκόπηση του χώρου των ερωτημάτων κορυφογραμμής όπου θα παρουσιαστεί η οικογένεια των ερωτημάτων κορυφογραμμής με όλες τις παραλλαγές τους, την διαφοροποίηση ανάμεσα στις μεθόδους που βασίζονται η όχι σε ευρετήριο καθώς και τις εφαρμογές που έχουν τα ερωτήματα κορυφογραμμής για την επίλυση πληθώρας προβλημάτων. Μέσα από αυτή της ανασκόπηση παρουσιάζεται πως τα ερωτήματα κορυφογραμμής εξελίχθηκαν και ανοίγει ο δρόμος για την εύρεση τομέων οι οποίοι μπορούν να διερευνηθούν περαιτέρω. Στην δεύτερη συνεισφορά θα δούμε τις διάφορες πτυχές των δεδομένων στο πλαίσιο ενός θαλάσσιου πληροφοριακού συστήματος. Η ανάλυση που έγινε αφορούσε την ανασκόπηση του χώρου και των δεδομένων που χρειάζονται για την υλοποίηση ενός θαλάσσιου πληροφοριακού συστήματος καθώς και τους περιορισμούς που υπάρχουν στην επεξεργασία και την διακίνηση των δεδομένων αυτών. Μέσω της συγκεκριμένης έρευνας έγινε φανερή η έννοια των Big Data, ανιχνευθήκαν μεγάλα σύνολα δεδομένων τα οποία είναι διαθέσιμα για ανάλυση και είδαμε ότι η παράμετρος του χρόνου είναι πολύ σημαντική για την πραγματοποίηση αναλύσεων στα δεδομένα. Επίσης είδαμε του βασικότερους περιορισμούς στην διακίνηση και επεξεργασία των δεδομένων. Στην τρίτη συνεισφορά μελετάτε ο τρόπος με τον οποίο μπορεί να ενσωματωθεί η διάσταση του χρόνου στα ερωτήματα κορυφογραμμής. Η διάσταση του χρόνου είναι μια σημαντική παράμετρος στην ανάλυση των δεδομένων και στην πραγματοποίηση επερωτήσεων η οποία πολλές φορές δεν λαμβάνεται υπόψη. Με αυτήν της έρευνα θα δούμε ότι η παράμετρος του χρόνου μπορεί να επηρεάσει τα αποτελέσματα ενός ερωτήματος κορυφογραμμής κάτι που καταδεικνύει πως χρειάζεται να γίνει ιδιαίτερη ανάλυση ως προς την διάσταση του χρόνου και να παραμετροποιηθούν κατάλληλα το ερώτημα κορυφογραμμής ώστε να ενσωματωθεί η διάσταση του χρόνου σε αυτά. Η τέταρτη συνεισφορά εξετάζει την εφαρμογή των ερωτημάτων κορυφογραμμής στον χώρο των Big Data και συγκεκριμένα του SpatialHadoop. To SpatialHadoop είναι μια επέκταση του συμβατικού Hadoop το οποίο προσπαθεί να ενσωματώσει τις δενδρικές δομές που υπάρχουν για τα συμβατικά δεδομένα στο Hadoop. Μέσω αυτής της ανάλυσης μπορούμε να δούμε την συμπεριφορά των αλγορίθμων κορυφογραμμής που δεν χρησιμοποιούν κάποια ευρετηρίαση αλλά και αυτών που χρησιμοποιούν σε περιβάλλοντα Big Data και πως αποδίδουν οι υβριδικοί συνδυασμοί που χρησιμοποιούν αλγόριθμους επερωτήσεων κορυφογραμμής που δεν βασίζονται σε ευρετήρια στο ευρετηριασμένο σύνολο δεδομένων που δημιουργεί το SpatialHadoop. Τέλος ένα από τα μεγαλύτερα προβλήματα που υπάρχουν κατά την διάρκεια ανάπτυξης ενός μοντέλου μηχανικής μάθησης είναι η ελλείψει επισημασμένων δεδομένων. Η έλλειψη αυτή γίνεται ακόμα πιο αισθητή σε περιβάλλοντα Big Data καθώς εκεί λόγω όγκου είναι πιο δύσκολη η επισήμανση τους. Στην βιβλιογραφία υπάρχουν πολλοί μηχανισμοί επισήμανσης δεδομένων ανάλογα με την εφαρμογή τους αλλά δεν υπάρχουν όμως μηχανισμοί για την αποδοτική επισήμανση μεγάλου όγκου δεδομένων. Στην πέμπτη συνεισφορά δημιουργήθηκε ένας μηχανισμός επισήμανσης δεδομένων που βασίζεται στο ερωτήματα κορυφογραμμής. Η χρήση ερωτημάτων κορυφογραμμής επιτρέπει την δημιουργία των ορίων αποφάσεως αποτελούμενων από μικρό αριθμό σημείων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Rapidly evolving technologies are constantly expanding the need for analysis and utilization of existing data. Many organizations base their business viability on the analysis of market data as well as the data they produce either by exporting inherent useful statistics and performance indicators or by using them in the decision-making processes, where one of the most important parameters in their analysis is the parameter of time. To store and analyze the huge volume of data, new methods of data management and analysis are created. This was especially noticeable with the advent of Big Data. The technologies that were developed gave the opportunity to expand the methods that existed for conventional data but also to create new methods, techniques and systems so that they can provide the same or even better analytics. However, as technology advances with the advent of IoT, the volume of data and the number of data flows are increasing rapidly. These flows should be stored, analyzed and ...
Rapidly evolving technologies are constantly expanding the need for analysis and utilization of existing data. Many organizations base their business viability on the analysis of market data as well as the data they produce either by exporting inherent useful statistics and performance indicators or by using them in the decision-making processes, where one of the most important parameters in their analysis is the parameter of time. To store and analyze the huge volume of data, new methods of data management and analysis are created. This was especially noticeable with the advent of Big Data. The technologies that were developed gave the opportunity to expand the methods that existed for conventional data but also to create new methods, techniques and systems so that they can provide the same or even better analytics. However, as technology advances with the advent of IoT, the volume of data and the number of data flows are increasing rapidly. These flows should be stored, analyzed and combined with other data to extract useful information. With the advent of ML / AI, more and more processes can be automated to generate new knowledge. One of the main problems, however, is the lack of marked data. One of the most common queries performed to retrieve information from data are the skyline queries. The skyline queries belong to the category of multi-objective optimization problems and aim to retrieve a set of answers that meets some usually conflicting criteria. Using such queries is always helpful as it has many areas of application and can be very helpful in the decision-making process, where there are multiple criteria for achieving a goal and an optimal solution may not be unique. So far, the literature in this field of research shows a significant number of works is mainly concerned with conventional data and there is room for research in the field of Big Data. Taking into account all the above, this Thesis aims to carry out an extensive review in the field of skyline queries, the detection of specifications and needs in data of an information system for maritime environments, the analysis of the time parameter in skyline queries, the development of skyline queries on tree structures specifically designed for Big Data and the implementation of a classifier specifically designed for Big Data environments. More specifically, the first contribution is an extensive review of the existing work on skyline queries in which the skyline family is presented with a wide number of variations over the initial skyline query algorithm, the difference between index based and non-index-based methods and the applications that skyline queries have for problem solving. This review shows that skyline queries have evolved and allows readers to find areas that can be further explored. The second contribution explores the various aspects of data in the context of a maritime information system. This analysis reviews the existing research area and the data needed to implement a maritime information system as well as the limitations that exist in processing and distributing the data. Through this research, the concept of Big Data became apparent, large data sets that are available for analysis were detected and was made clear that time parameterization is very important for performing data analytics. The third contribution studied how can the dimension of time be integrated in skyline queries. The time dimension is an important parameter in data analysis and queries processing that is in many cases is overlooked. This research reveals that the time parameter can affect the skyline, which shows that a special analysis needs to be made regarding the time dimension and to properly modification of the skyline queries in order to integrate the time dimension in them. The fourth contribution examines the application of skyline queries in the field of Big Data and specifically SpatialHadoop. SpatialHadoop is an extension of the conventional Hadoop, which tries to integrate known tree structures that exist for conventional data in Hadoop. Through this analysis we can see the behavior of both types of skyline algorithms, that are indexed-based (or not) in Big Data environments and how the hybrid combinations work using skyline algorithms that are not based on an index over the indexed dataset created by the SpatialHadoop. Finally, one of the biggest problems in deploying a machine learning model is the lack of labeled data. This lack is even more noticeable in Big Data environments as it is more difficult to point them out due their large volume. In the literature there are many mechanisms for labeling data depending on their application but there are no mechanisms for the efficient labeling of large volumes of data. Thus, in the fifth contribution, a classifier was created based on skyline questions. The use of skyline allows the creation of decision boundaries consisting of a small number of points.
περισσότερα