Περίληψη
Τα συστήματα βάσεων δεδομένων αναπτύχθηκαν για τη συλλογή, αποθήκευση, οργάνωση και διαχείριση δεδομένων. Από τις βάσεις δεδομένων γίνεται ανάκληση δεδομένων και πληροφοριών μέσω γνωστών και σαφώς διατυπωμένων ερωτημάτων και επιπλέον ανακάλυψη πληροφοριών με την εφαρμογή τεχνικών Εξόρυξης Πληροφορίας. Το ερώτημα για την ανακάλυψη πληροφοριών προς το σύστημα διαχείρισης της βάσης δεδομένων δεν είναι αρχικά γνωστό, όπως στην περίπτωση της ανάκλησης, αλλά είναι το αποτέλεσμα της διερεύνησης που προκαλείται με τη διατύπωση μιας υπόθεσης ή μιας δήλωσης. Στην παρούσα διατριβή σχεδιάζεται αρχικά μια μετεωρολογική βάση δεδομένων από την οποία εξάγονται δεδομένα προορισμού τόσο για εφαρμογές Εξόρυξης Πληροφορίας όσο για τη διεξαγωγή ερευνητικού έργου με χρήση τροποποιημένης διαδικασίας Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων. Οι εφαρμογές Εξόρυξης Πληροφορίας που αφορούν τα επιχειρησιακά δεδομένα του Εθνικού Προγράμματος Χαλαζικής Προστασίας του Οργανισμού Ελληνικών Γεωργικών Ασφαλίσεων είναι η Ε ...
Τα συστήματα βάσεων δεδομένων αναπτύχθηκαν για τη συλλογή, αποθήκευση, οργάνωση και διαχείριση δεδομένων. Από τις βάσεις δεδομένων γίνεται ανάκληση δεδομένων και πληροφοριών μέσω γνωστών και σαφώς διατυπωμένων ερωτημάτων και επιπλέον ανακάλυψη πληροφοριών με την εφαρμογή τεχνικών Εξόρυξης Πληροφορίας. Το ερώτημα για την ανακάλυψη πληροφοριών προς το σύστημα διαχείρισης της βάσης δεδομένων δεν είναι αρχικά γνωστό, όπως στην περίπτωση της ανάκλησης, αλλά είναι το αποτέλεσμα της διερεύνησης που προκαλείται με τη διατύπωση μιας υπόθεσης ή μιας δήλωσης. Στην παρούσα διατριβή σχεδιάζεται αρχικά μια μετεωρολογική βάση δεδομένων από την οποία εξάγονται δεδομένα προορισμού τόσο για εφαρμογές Εξόρυξης Πληροφορίας όσο για τη διεξαγωγή ερευνητικού έργου με χρήση τροποποιημένης διαδικασίας Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων. Οι εφαρμογές Εξόρυξης Πληροφορίας που αφορούν τα επιχειρησιακά δεδομένα του Εθνικού Προγράμματος Χαλαζικής Προστασίας του Οργανισμού Ελληνικών Γεωργικών Ασφαλίσεων είναι η Εκτίμηση της κλάσης χαλαζιού, η Πρόβλεψη μεγίστου μεγέθους χαλαζιού, η Πρόβλεψη των τιμών των παραμέτρων σποράς του Εθνικού Προγράμματος Χαλαζικής Προστασίας και ο Προσδιορισμός του Παρατηρούμενου Δείκτη Κατηγορίας Σωρειτόμορφης Ημέρας (Convective Day Category). Η διαδικασία της Ανακάλυψης Γνώσης ή Εξόρυξης Πληροφορίας από τη μετεωρολογική βάση δεδομένων χρησιμοποιείται για τη διεξαγωγή ερευνητικού έργου τροποποιώντας κατάλληλα το μοντέλο CRISP-DM. Το αντικείμενο της εφαρμογής αυτής είναι η δημιουργία ενός ή περισσότερων μοντέλων Εξόρυξης Πληροφορίας για τον προσδιορισμό της καταγραφής ή μη υετού σε ένα σημείο επί του εδάφους, χρησιμοποιώντας δεδομένα ενός Μετεωρολογικού Σταθμού της Εθνικής Μετεωρολογικής Υπηρεσίας και του συνόλου ERA-40 του Ευρωπαϊκού Κέντρου Μεσοπρόθεσμων Προγνώσεων Καιρού (ECMWF). Στα πλαίσια του ερευνητικού έργου διατυπώνονται διαφορετικά σενάρια και στρατηγικές επιλογής ή μετασχηματισμού των δεδομένων εισόδου σε τεχνικές Εξόρυξης Πληροφορίας, τα οποία βασίζονται κυρίως στην εμπειρική γνώση του πεδίου των δεδομένων και έχουν κατεύθυνση την εξέταση θεμάτων που δύνανται να επηρεάσουν την απόδοση πέντε αλγορίθμων κατηγοριοποίησης. Ειδικότερα, μελετάται η επίδραση του μεγέθους του συνόλου δεδομένων εκπαίδευσης στην απόδοση των αλγορίθμων και προσδιορίζεται η τιμή του ελαχίστου μεγέθους με την οποία εξασφαλίζεται η μέγιστη απόδοση κάθε αλγορίθμου. Ακόμη, εξετάζοντας δύο διαφορετικά σενάρια σχηματισμού των δεδομένων εκπαίδευσης αποδεικνύεται ότι η απόδοση των αλγορίθμων είναι ανεξάρτητη από την επιλογή είτε τυχαίων στιγμιότυπων είτε όλων των στιγμιότυπων τυχαία επιλεγόμενων ετών. Επίσης, εξετάζοντας τρία διαφορετικά σενάρια που σχετίζονται με το μετασχηματισμό των ανεξάρτητων μεταβλητών ή χαρακτηριστικών εισόδου, βασιζόμενοι στην κοινή πρακτική των επιχειρησιακών μετεωρολόγων, οι οποίοι συνηθίζουν να εξετάζουν τις μεταβολές των μετεωρολογικών παραμέτρων κατά τη διαδικασία πρόγνωσης του καιρού σε μια περιοχή, τα αποτελέσματα στην απόδοση IV των αλγορίθμων κατηγοριοποίησης είναι καλύτερα στην περίπτωση που χρησιμοποιούνται οι κανονικές τιμές των παραμέτρων παρά οι μεταβολές. Σημειώνεται ότι τα τρία αυτά σενάρια εξετάζονται τόσο για τη φυσική κατανομή των δεδομένων ως προς την εξαρτημένη μεταβλητή όσο για την ισόρροπη κατανομή με χρήση της μεθόδου της τυχαίας υπο-δειγματοληψίας. Η κλάση υετού του χρησιμοποιούμενου συνόλου δεδομένων εμπίπτει στην περίπτωση του ζητήματος της Ασύμμετρης Κλάσης, η αντιμετώπιση του οποίου επιχειρείται με την εφαρμογή τεχνικών διαφόρων μεθόδων. Ειδικότερα, εφαρμόζονται εννέα τεχνικές της μεθόδου της Αναθεωρημένης Δειγματοληψίας (Resampling), πέραν της δειγματοληψίας με τη φυσική κατανομή, τόσο από τη βιβλιογραφία όσο νέων προτεινόμενων που βασίζονται στην εμπειρία στο πεδίο των μετεωρολογικών δεδομένων. Επίσης, εφαρμόζεται η μέθοδος boosting AdaBoost M1 για τη βελτίωση της απόδοσης των αλγορίθμων κατηγοριοποίησης. Τα αποτελέσματα έδειξαν ότι μόνο η απόδοση ενός αλγόριθμου δεν επηρεάστηκε από την εφαρμογή αυτών των τεχνικών σε σχέση με τη φυσική κατανομή. Αντίθετα, η απόδοση των υπολοίπων τεσσάρων βελτιώθηκε σημαντικά, ιδιαίτερα με τη χρήση μιας νέας προτεινόμενης τεχνικής που βασίζεται στην εμπειρία στο πεδίο των μετεωρολογικών δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Database management systems (DBMS) were developed to collect, store, organize and manage data. Data and information are retrieved from databases through known and clearly formulated questions (queries) and, additionally, through information discovery with the application of data mining techniques. Data mining algorithms operate on data and discover previously unknown information. In this thesis, a meteorological database is first designed and then target data is used in data mining applications and for conducting research work using a modified Knowledge Discovery from Databases (KDD) procedure. Data Mining applications concerning the operational data of the National Hail Suppression Program of the Hellenic Agricultural Insurance Organization are the Hail class estimation, Maximum hail size prediction, Prediction of hail suppression program seeding parameters, and Extraction of the observed convective day category index. The process of Knowledge Discovery from the meteorological databas ...
Database management systems (DBMS) were developed to collect, store, organize and manage data. Data and information are retrieved from databases through known and clearly formulated questions (queries) and, additionally, through information discovery with the application of data mining techniques. Data mining algorithms operate on data and discover previously unknown information. In this thesis, a meteorological database is first designed and then target data is used in data mining applications and for conducting research work using a modified Knowledge Discovery from Databases (KDD) procedure. Data Mining applications concerning the operational data of the National Hail Suppression Program of the Hellenic Agricultural Insurance Organization are the Hail class estimation, Maximum hail size prediction, Prediction of hail suppression program seeding parameters, and Extraction of the observed convective day category index. The process of Knowledge Discovery from the meteorological database is used to conduct research work by appropriately modifying the CRISP-DM model. The goal is to build one or more data mining models in order to identify the occurrence of precipitation at a point on the ground, using data from a meteorological station of the National Meteorological Service and the whole ERA-40 dataset of the European Centre for Medium-range Weather Forecast (ECMWF). Different scenarios and strategies are formulated for the selection or transformation of the input to data mining techniques, which rely mainly on empirical knowledge of the field data and are used to consider issues that may affect the performance of five classification algorithms. More specifically, the effect the training dataset size has on the performance of the algorithms is studied and the optimal size that ensures the best performance of each algorithm is determined. Furthermore, the study of two different approaches for the formation of training datasets demonstrates that the performance of the algorithms is independent of the choice of the instances, i.e., when random instances or all the instances of randomly selected years are used. During the process of weather forecasting in a region, operational meteorologists usually examine the temporal changes of the meteorological parameters. Considering three different scenarios related to the transformation of the independent variables or input characteristics, the performance of the classification algorithms is better when normal parameter values rather than temporal changes are used. Note that these three scenarios are examined both for the natural distribution of data on the dependent variable and the balanced distribution using the random under resampling method. The distribution of the dependent precipitation class variable raises the class imbalance issue, the handling of which is attempted with the implementation of various methods. More specifically, nine techniques of the resampling method beyond the natural distribution are applied. They are drawn from the literature or are newly proposed based on meteorological expertise. Additionally, the boosting method AdaBoost M1 is applied to improve the performance of classification algorithms. The results show that the performance of only one algorithm is not affected by the application of these techniques when compared to the natural distribution. The performance of the remaining four algorithms improves significantly, particularly when the new proposed technique that is based on meteorological expertise is used.
περισσότερα