Μετεωρολογικές βάσεις δεδομένων: εφαρμογές εξόρυξης πληροφορίας και επίδραση της διαμόρφωσης της εισόδου στην απόδοσή τους

Τα συστήματα βάσεων δεδομένων αναπτύχθηκαν για τη συλλογή, αποθήκευση, οργάνωση και διαχείριση δεδομένων. Από τις βάσεις δεδομένων γίνεται ανάκληση δεδομένων και πληροφοριών μέσω γνωστών και σαφώς διατυπωμένων ερωτημάτων και επιπλέον ανακάλυψη πληροφοριών με την εφαρμογή τεχνικών Εξόρυξης Πληροφορίας. Το ερώτημα για την ανακάλυψη πληροφοριών προς το σύστημα διαχείρισης της βάσης δεδομένων δεν είναι αρχικά γνωστό, όπως στην περίπτωση της ανάκλησης, αλλά είναι το αποτέλεσμα της διερεύνησης που προκαλείται με τη διατύπωση μιας υπόθεσης ή μιας δήλωσης. Στην παρούσα διατριβή σχεδιάζεται αρχικά μια μετεωρολογική βάση δεδομένων από την οποία εξάγονται δεδομένα προορισμού τόσο για εφαρμογές Εξόρυξης Πληροφορίας όσο για τη διεξαγωγή ερευνητικού έργου με χρήση τροποποιημένης διαδικασίας Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων. Οι εφαρμογές Εξόρυξης Πληροφορίας που αφορούν τα επιχειρησιακά δεδομένα του Εθνικού Προγράμματος Χαλαζικής Προστασίας του Οργανισμού Ελληνικών Γεωργικών Ασφαλίσεων είναι η Εκτίμηση της κλάσης χαλαζιού, η Πρόβλεψη μεγίστου μεγέθους χαλαζιού, η Πρόβλεψη των τιμών των παραμέτρων σποράς του Εθνικού Προγράμματος Χαλαζικής Προστασίας και ο Προσδιορισμός του Παρατηρούμενου Δείκτη Κατηγορίας Σωρειτόμορφης Ημέρας (Convective Day Category). Η διαδικασία της Ανακάλυψης Γνώσης ή Εξόρυξης Πληροφορίας από τη μετεωρολογική βάση δεδομένων χρησιμοποιείται για τη διεξαγωγή ερευνητικού έργου τροποποιώντας κατάλληλα το μοντέλο CRISP-DM. Το αντικείμενο της εφαρμογής αυτής είναι η δημιουργία ενός ή περισσότερων μοντέλων Εξόρυξης Πληροφορίας για τον προσδιορισμό της καταγραφής ή μη υετού σε ένα σημείο επί του εδάφους, χρησιμοποιώντας δεδομένα ενός Μετεωρολογικού Σταθμού της Εθνικής Μετεωρολογικής Υπηρεσίας και του συνόλου ERA-40 του Ευρωπαϊκού Κέντρου Μεσοπρόθεσμων Προγνώσεων Καιρού (ECMWF). Στα πλαίσια του ερευνητικού έργου διατυπώνονται διαφορετικά σενάρια και στρατηγικές επιλογής ή μετασχηματισμού των δεδομένων εισόδου σε τεχνικές Εξόρυξης Πληροφορίας, τα οποία βασίζονται κυρίως στην εμπειρική γνώση του πεδίου των δεδομένων και έχουν κατεύθυνση την εξέταση θεμάτων που δύνανται να επηρεάσουν την απόδοση πέντε αλγορίθμων κατηγοριοποίησης. Ειδικότερα, μελετάται η επίδραση του μεγέθους του συνόλου δεδομένων εκπαίδευσης στην απόδοση των αλγορίθμων και προσδιορίζεται η τιμή του ελαχίστου μεγέθους με την οποία εξασφαλίζεται η μέγιστη απόδοση κάθε αλγορίθμου. Ακόμη, εξετάζοντας δύο διαφορετικά σενάρια σχηματισμού των δεδομένων εκπαίδευσης αποδεικνύεται ότι η απόδοση των αλγορίθμων είναι ανεξάρτητη από την επιλογή είτε τυχαίων στιγμιότυπων είτε όλων των στιγμιότυπων τυχαία επιλεγόμενων ετών. Επίσης, εξετάζοντας τρία διαφορετικά σενάρια που σχετίζονται με το μετασχηματισμό των ανεξάρτητων μεταβλητών ή χαρακτηριστικών εισόδου, βασιζόμενοι στην κοινή πρακτική των επιχειρησιακών μετεωρολόγων, οι οποίοι συνηθίζουν να εξετάζουν τις μεταβολές των μετεωρολογικών παραμέτρων κατά τη διαδικασία πρόγνωσης του καιρού σε μια περιοχή, τα αποτελέσματα στην απόδοση IV των αλγορίθμων κατηγοριοποίησης είναι καλύτερα στην περίπτωση που χρησιμοποιούνται οι κανονικές τιμές των παραμέτρων παρά οι μεταβολές. Σημειώνεται ότι τα τρία αυτά σενάρια εξετάζονται τόσο για τη φυσική κατανομή των δεδομένων ως προς την εξαρτημένη μεταβλητή όσο για την ισόρροπη κατανομή με χρήση της μεθόδου της τυχαίας υπο-δειγματοληψίας. Η κλάση υετού του χρησιμοποιούμενου συνόλου δεδομένων εμπίπτει στην περίπτωση του ζητήματος της Ασύμμετρης Κλάσης, η αντιμετώπιση του οποίου επιχειρείται με την εφαρμογή τεχνικών διαφόρων μεθόδων. Ειδικότερα, εφαρμόζονται εννέα τεχνικές της μεθόδου της Αναθεωρημένης Δειγματοληψίας (Resampling), πέραν της δειγματοληψίας με τη φυσική κατανομή, τόσο από τη βιβλιογραφία όσο νέων προτεινόμενων που βασίζονται στην εμπειρία στο πεδίο των μετεωρολογικών δεδομένων. Επίσης, εφαρμόζεται η μέθοδος boosting AdaBoost M1 για τη βελτίωση της απόδοσης των αλγορίθμων κατηγοριοποίησης. Τα αποτελέσματα έδειξαν ότι μόνο η απόδοση ενός αλγόριθμου δεν επηρεάστηκε από την εφαρμογή αυτών των τεχνικών σε σχέση με τη φυσική κατανομή. Αντίθετα, η απόδοση των υπολοίπων τεσσάρων βελτιώθηκε σημαντικά, ιδιαίτερα με τη χρήση μιας νέας προτεινόμενης τεχνικής που βασίζεται στην εμπειρία στο πεδίο των μετεωρολογικών δεδομένων.

περισσότερα

Περίληψη σε άλλη γλώσσα

Database management systems (DBMS) were developed to collect, store, organize and manage data. Data and information are retrieved from databases through known and clearly formulated questions (queries) and, additionally, through information discovery with the application of data mining techniques. Data mining algorithms operate on data and discover previously unknown information. In this thesis, a meteorological database is first designed and then target data is used in data mining applications and for conducting research work using a modified Knowledge Discovery from Databases (KDD) procedure. Data Mining applications concerning the operational data of the National Hail Suppression Program of the Hellenic Agricultural Insurance Organization are the Hail class estimation, Maximum hail size prediction, Prediction of hail suppression program seeding parameters, and Extraction of the observed convective day category index. The process of Knowledge Discovery from the meteorological database is used to conduct research work by appropriately modifying the CRISP-DM model. The goal is to build one or more data mining models in order to identify the occurrence of precipitation at a point on the ground, using data from a meteorological station of the National Meteorological Service and the whole ERA-40 dataset of the European Centre for Medium-range Weather Forecast (ECMWF). Different scenarios and strategies are formulated for the selection or transformation of the input to data mining techniques, which rely mainly on empirical knowledge of the field data and are used to consider issues that may affect the performance of five classification algorithms. More specifically, the effect the training dataset size has on the performance of the algorithms is studied and the optimal size that ensures the best performance of each algorithm is determined. Furthermore, the study of two different approaches for the formation of training datasets demonstrates that the performance of the algorithms is independent of the choice of the instances, i.e., when random instances or all the instances of randomly selected years are used. During the process of weather forecasting in a region, operational meteorologists usually examine the temporal changes of the meteorological parameters. Considering three different scenarios related to the transformation of the independent variables or input characteristics, the performance of the classification algorithms is better when normal parameter values rather than temporal changes are used. Note that these three scenarios are examined both for the natural distribution of data on the dependent variable and the balanced distribution using the random under resampling method. The distribution of the dependent precipitation class variable raises the class imbalance issue, the handling of which is attempted with the implementation of various methods. More specifically, nine techniques of the resampling method beyond the natural distribution are applied. They are drawn from the literature or are newly proposed based on meteorological expertise. Additionally, the boosting method AdaBoost M1 is applied to improve the performance of classification algorithms. The results show that the performance of only one algorithm is not affected by the application of these techniques when compared to the natural distribution. The performance of the remaining four algorithms improves significantly, particularly when the new proposed technique that is based on meteorological expertise is used.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.04 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/26096
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/26096
ND	26096
Εναλλακτικός τίτλος	Meteorological databases: data mining applications and the effect of configuration of input in their performance
Συγγραφέας	Τσαγκαλίδης, Ευάγγελος (Πατρώνυμο: Γεώργιος)
Ημερομηνία	2011
Ίδρυμα	Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής
Εξεταστική επιτροπή	Ευαγγελίδης Γεώργιος Σατρατζέμη Μαρία Δερβός Δημήτριος Παπαναστασίου Δημήτριος Μαργαρίτης Κωνσταντίνος Μελάς Δημήτριος Σαμαράς Νικόλαος
Επιστημονικό πεδίο	Φυσικές Επιστήμες Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Μετεωρολογικές βάσεις δεδομένων; Εξόρυξη πληροφορίας; Ανακάλυψη γνώσης σε βάσεις δεδομένων; Σύνολο δεδομένων εκπαίδευσης; Ασύμμετρη κλάση; Πρόβλεψη υετού; Πρόβλεψη μεγέθους χαλαζιού; Παράμετροι σποράς προγράμματος καταστολής χαλαζιού
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	xii, 130 σ., πιν., σχημ., γραφ., ευρ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Ανάπτυξη παλιρροϊκού μοντέλου για τη Μεσόγειο Θάλασσα με αφομοίωση αλτιμετρικών δεδομένων και δεδομένων από παλιρροϊκούς σταθμούς σε υδροδυναμικά μοντέλα

Πρόβλεψη των χωροχρονικών μεταβολών της στάθμης υπογείων υδάτων με χρήση τεχνητών νευρωνικών δικτύων και γεωστατιστικών μεθόδων

Εκτίμηση και προληπτικός σχεδιασμός αντιμετώπισης της ξηρασίας

Σχεδιασμός και ανάπτυξη ενός συστήματος αναγνώρισης γεωτεμαχίων με βάση κτηματολογικές και γεωργικές καταγραφές

Στρατός και πολιτική εξουσία στη μετεμφυλιακή Ελλάδα (1949-1967)

Η εξέλιξη της βρετανικής αποτρεπτικής δύναμης στον ψυχρό πόλεμο: η ικανότητα δεύτερου πλήγματος εναντίον της Μόσχας και η μεταβίβαση του αποτρεπτικού μέσου από την Αεροπορία (Royal Air Force) στο Ναυτικό (Royal Navy): ανάλυση έξι αποφάσεων προμηθειών από το Μάρτιο του 1955 έως τον Ιανουάριο του 1968

Μερικές διαφορικές εξισώσεις και προβλήματα της επιστήμης των υλικών

Εφαρμογές της επιστήμης του χάους και της πολυπλοκότητας στη μελέτη γεωφυσικών και διαστημικών φαινομένων

Μελέτη της στοχαστικότητας τροχιών μη γραμμικών δυναμικών συστημάτων: συστήματα με επαναλαμβανόμενες σκεδάσεις

Εξυγίανση ρυπασμένου υπόγειου υδροφορέα από οργανικούς και ανόργανους ρύπους με εφαρμογή της τεχνολογίας των διαπερατών αντιδρώντων φραγμάτων

"Μετεωρολογικές βάσεις δεδομένων: εφαρμογές εξόρυξης πληροφορίας και επίδραση της διαμόρφωσης της εισόδου στην απόδοσή τους"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .