Περίληψη
Ένα σημαντικό πρόβλημα που ανακύπτει κατά την ανάλυση μεγάλων συνόλων δεδομένων χρονοσειρών, τόσο από άποψη διαστατικότητας, όσο και από άποψη μεγέθους, σχετίζεται με την επιλογή ενός αντιπροσωπευτικού υποσυνόλου των αρχικών δεδομένων. Εκ των προτέρων επεξεργασία της χρονοσειράς για την απόκτηση ενός αντιπροσωπευτικού δευτερογενούς υποσυνόλου όχι μόνο μειώνει δραστικά το συνολικό χρόνο επεξεργασίας, αλλά επίσης λειτουργεί ως μια διεργασία ομαλοποίησης της αρχικής πληροφορίας για την απομάκρυνση ανεπιθύμητων μη συστηματικών συνιστωσών που δυσκολεύουν την αναλυτική διαδικασία. Οι περισσότερες παραδοσιακές μέθοδοι προ-επεξεργασίας χρονοσειρών, όπως είναι για παράδειγμα η τμηματοποίηση κατά μήκος του άξονα των χρόνων για ταχεία απόκριση, η μη-γραμμική κανονικοποίηση για να δοθεί έμφαση σε σημαντικά τμήματα της πληροφορίας, η εξαγωγή μέσων όρων για αντιμετώπιση των επιπτώσεων του θορύβου, η μείωση του αριθμού των δειγμάτων για την υλοποίηση αποτελεσματικότερων δικτύων, περιλαμβάνουν στατιστ ...
Ένα σημαντικό πρόβλημα που ανακύπτει κατά την ανάλυση μεγάλων συνόλων δεδομένων χρονοσειρών, τόσο από άποψη διαστατικότητας, όσο και από άποψη μεγέθους, σχετίζεται με την επιλογή ενός αντιπροσωπευτικού υποσυνόλου των αρχικών δεδομένων. Εκ των προτέρων επεξεργασία της χρονοσειράς για την απόκτηση ενός αντιπροσωπευτικού δευτερογενούς υποσυνόλου όχι μόνο μειώνει δραστικά το συνολικό χρόνο επεξεργασίας, αλλά επίσης λειτουργεί ως μια διεργασία ομαλοποίησης της αρχικής πληροφορίας για την απομάκρυνση ανεπιθύμητων μη συστηματικών συνιστωσών που δυσκολεύουν την αναλυτική διαδικασία. Οι περισσότερες παραδοσιακές μέθοδοι προ-επεξεργασίας χρονοσειρών, όπως είναι για παράδειγμα η τμηματοποίηση κατά μήκος του άξονα των χρόνων για ταχεία απόκριση, η μη-γραμμική κανονικοποίηση για να δοθεί έμφαση σε σημαντικά τμήματα της πληροφορίας, η εξαγωγή μέσων όρων για αντιμετώπιση των επιπτώσεων του θορύβου, η μείωση του αριθμού των δειγμάτων για την υλοποίηση αποτελεσματικότερων δικτύων, περιλαμβάνουν στατιστικές μεθόδους, όπως δειγματοληπτικές τεχνικές ή διαδικασίες κινούμενου μέσου, οι οποίες χειρίζονται την αρχική πληροφορία με παράθυρα σταθερού μήκους.Στην παρούσα εργασία περιγράφεται ο σχεδιασμός, η ανάπτυξη και η εφαρμογή μιας καινοτόμου μεθόδου ελέγχου του βαθμού διάστασης χρονοσειρών, με τη χρήση εργαλείων υπολογιστικής νοημοσύνης. Ο αλγόριθμος που προτείνεται επιτρέπει την παραγωγή περισσότερο προσαρμοσμένων δευτερογενών δεδομένων, αφού προηγουμένως έχει προ-επεξεργασθεί την αρχική χρονοσειρά με εξελικτικό τρόπο με στόχο τη μείωση της διάστασής της και την παράλληλη διατήρηση της δομής των αρχικών δεδομένων παρά τη μεγάλου εύρους εξομάλυνσή τους. Η όλη διαδικασία υλοποιείται με την ανάπτυξη ενός προσαρμοστικού αναλυτικού εργαλείου εξελικτικής φύσης με τη χρήση των Γενετικών Αλγορίθμων, των Τεχνητών Νευρωνικών Δικτύων και των Μηχανών Διανυσμάτων Υποστήριξης.Το προτεινόμενο εργαλείο δοκιμάστηκε στη λύση δύο προβλημάτων. Η πρώτη μελέτη περιλαμβάνει την περίπτωση ταυτοποίησης φυτικών ιών. Είναι γενικά παραδεκτό ότι η ανάλυση χρονοσειρών είναι ιδιαίτερα σημαντική για τη φυτοπαθολογία και την ιολογία, ειδικά όσον αφορά την ταυτοποίηση ιών, η οποία στις περισσότερες περιπτώσεις υλοποιείται μέσω αξιολόγησης τέτοιου είδους δεδομένων. Στην πρώτη αυτή περίπτωση, η οποία είναι ουσιαστικά ένα πρόβλημα ταξινόμησης, δεδομένα παραγόμενα με τη μέθοδο της Βιοηλεκτρικής Αναγνώρισης (Bioelectric Recognition Assay BERA) χρησιμοποιήθηκαν για την ανίχνευση και την τελική ταξινόμηση φυτικών ιών και συγκεκριμένα των ιών του κροταλίσματος του καπνού και της πράσινης ποικιλοχλώρωσης με μωσαϊκό της αγγουριάς. Η μέθοδος εισάγει τη χρήση κατάλληλα προεπεξεργασμένων οργανικών αντιδραστηρίων ως αισθητηρίων στοιχείων. Μετά την αντίδραση με τους εν λόγω βιο-αισθητήρες, καθένας από τους ιούς εκθέτει μοναδιαία πρότυπα αισθητηριακής απόκρισης επί ενός ευρέως φάσματος συγκεντρώσεων, καθιστώντας τις αποκρίσεις αυτές ως συγκεκριμένο χαρακτηριστικό ιδίωμα κάθε ιού. Κάθε τέτοιου είδους υπογραφή είναι ουσιαστικά μια γραφική παράσταση βιο-ηλεκτρικών αποκρίσεων στη μονάδα του χρόνου, η οποία χρησιμοποιείται στην ανίχνευση και ταυτοποίηση εκάστου ιού.Το δεύτερο πρόβλημα στο οποίο εφαρμόσθηκε η μέθοδος σχετίζεται με τη διαχείριση ορεινών υδατικών αποθεμάτων. Τα δεδομένα εισόδου προέρχονται από το νησί της Κύπρου και περιλαμβάνουν δομικά και δυναμικά στοιχεία στα οποία βασική επίδραση ασκούν τα μηνιαία υδατώδη κατακρημνίσματα. Στην περίπτωση αυτή τα αρχικά δεδομένα, που καλύπτουν ένα μεγάλο χρονικό εύρος, ελήφθησαν από μετεωρολογικές βάσεις δεδομένων βροχόπτωσης που ενημερώνονταν από σταθμούς τοποθετημένους σε λεκάνες απορροής διάσπαρτες σε όλο το υδρογραφικό σύστημα του νησιού. Απώτερος σκοπός της έρευνας αποτελεί η ανάπτυξη ενός συστήματος για τον προσδιορισμό της Μέσης Ετήσιας Παροχής Ύδατος σε ετήσια βάση για κάθε ορεινή λεκάνη απορροής.
περισσότερα
Περίληψη σε άλλη γλώσσα
An important problem arising while analyzing large time series data sets, both in dimension and size, relates to the proper selection of a subset of the original features. Preprocessing the time series to obtain a representative meta-data set not only significantly reduces computational time, but also functions as a smoothing technique to weed out possible non systematic portions of the initial information, which may, in an extent, inhibit the analytical process. Conventional methods of time series data preprocessing, such as segmentation along the time axis for fast response, nonlinear normalization to emphasize significant information, averaging samples of the plant virus waves to suppress noise effects, reduction in the number of samples to realize a more compact network, include descriptive statistical methods such as re-sampling techniques or moving average procedures, both of which manipulate the initial information in a fixed width fashion. On the other hand, time series analysi ...
An important problem arising while analyzing large time series data sets, both in dimension and size, relates to the proper selection of a subset of the original features. Preprocessing the time series to obtain a representative meta-data set not only significantly reduces computational time, but also functions as a smoothing technique to weed out possible non systematic portions of the initial information, which may, in an extent, inhibit the analytical process. Conventional methods of time series data preprocessing, such as segmentation along the time axis for fast response, nonlinear normalization to emphasize significant information, averaging samples of the plant virus waves to suppress noise effects, reduction in the number of samples to realize a more compact network, include descriptive statistical methods such as re-sampling techniques or moving average procedures, both of which manipulate the initial information in a fixed width fashion. On the other hand, time series analysis plays an important role for phytopathology and virology, especially as regards to virus identification, which is made possible due to time series assessment.The design, development and implementation of an innovative method is described in this manuscript, aiming to overcome the limitations posed by the fixed width of the analytical tools. The algorithm allows for the production of effective secondary data, after having preprocessed the original time series information in an evolutionary fashion. Thus, it drastically reduces the size of the raw data table to more compact sets of cases and, at the same time, retaining all the crucial information of the initial time-series. This is achieved by the development of analytical tools of evolutionary adaptive width, propelled by Genetic Algorithms, Artificial Neural Networks and Support Vector Machines.The proposed methodology was applied for the solution of two problems. In the first case, essentially a classification problem, the Bioelectric Recognition Assay method was engaged so as to provide information used in the detection and identification of certain plant viruses, namely the Tobacco Rattle Virus and the Cucumber Green Mottle Mosaic Virus, using appropriately preprocessed reagents as the sensing elements. While reacting to the biosensors, each of the viruses in question exhibit unique patterns of biosensor responses over specific ranges of concentrations, rendering these responses as a special characteristic for each virus, a real identification signature. Each signature is in essence a graphical curve of bioelectrical responses in the time unit, a time series data set, which should be identified as a characteristic for each virus and effectively classified.The second problem on which the method was applied relates to the management of water reservoirs. The island of Cyprus was elected as the study area, while the inputs of the problem include structural and dynamic data, in which monthly precipitation particles play a distinct role. In this case, the time series information originated from the historical monthly rainfall data measured at certain watershed stations for a wide temporal period. The issue here was to develop a methodology for the production of evolutionary training/testing data, in order to achieve an effective estimation of the Average Annual Water Supply index on an annual basis, for each mountainous watershed of Cyprus.
περισσότερα