Περίληψη
Η παρούσα διδακτορική διατριβή εμπίμπτει στους επιστημονικούς κλάδους της στοχαστικής υδρολογίας, της υδρολογικής μοντελοποίησης και της υδροπληροφορικής. Συνεισφέρει με νέες πρακτικές λύσεις, νέες μεθοδολογίες και αποτελέσματα μεγάλης κλίμακας στην μοντελοποιήση υδρολογικών διεργασιών, συγκεκριμένα στην επίλυση δύο στενά συνυφασμένων τεχνικών προβλημάτων με έμφαση στο δεύτερο. Τα προβλήματα αυτά είναι: (A) η πρόβλεψη της μελλοντικής συμπεριφοράς υδρολογικών διεργασιών χρησιμοποιώντας αποκλειστικά ενδογενείς μεταβλητές πρόβλεψης (στο εξής αναφερόμενη ως «πρόβλεψη υδρολογικών χρονοσειρών»), και (B) η στοχαστική μοντελοποίηση υδρολογικών συστημάτων μέσω πιθανοτικής μετεπεξεργασίας αποτελεσμάτων διεργασιακής υδρολογικής μοντελοποιήσης (στο εξής αναφερόμενη ως «πιθανοτική μετεπεξεργασία αποτελεσμάτων υδρολογικής μοντελοποίησης»). Για τη διερεύνηση των εν λόγω τεχνικών προβλημάτων, αναπτύσσεται και αξιοποιείται εργαλειοθήκη πρότυπης μοντελοποίησης και συγκριτικής αξιολόγησης αποτελούμενη απ ...
Η παρούσα διδακτορική διατριβή εμπίμπτει στους επιστημονικούς κλάδους της στοχαστικής υδρολογίας, της υδρολογικής μοντελοποίησης και της υδροπληροφορικής. Συνεισφέρει με νέες πρακτικές λύσεις, νέες μεθοδολογίες και αποτελέσματα μεγάλης κλίμακας στην μοντελοποιήση υδρολογικών διεργασιών, συγκεκριμένα στην επίλυση δύο στενά συνυφασμένων τεχνικών προβλημάτων με έμφαση στο δεύτερο. Τα προβλήματα αυτά είναι: (A) η πρόβλεψη της μελλοντικής συμπεριφοράς υδρολογικών διεργασιών χρησιμοποιώντας αποκλειστικά ενδογενείς μεταβλητές πρόβλεψης (στο εξής αναφερόμενη ως «πρόβλεψη υδρολογικών χρονοσειρών»), και (B) η στοχαστική μοντελοποίηση υδρολογικών συστημάτων μέσω πιθανοτικής μετεπεξεργασίας αποτελεσμάτων διεργασιακής υδρολογικής μοντελοποιήσης (στο εξής αναφερόμενη ως «πιθανοτική μετεπεξεργασία αποτελεσμάτων υδρολογικής μοντελοποίησης»). Για τη διερεύνηση των εν λόγω τεχνικών προβλημάτων, αναπτύσσεται και αξιοποιείται εργαλειοθήκη πρότυπης μοντελοποίησης και συγκριτικής αξιολόγησης αποτελούμενη από: (i) περίπου 6,000 υδρολογικές χρονοσειρές προερχόμενες από μεγαλύτερες ελεύθερα διατιθέμενες βάσεις δεδομένων, (ii) περισσότερα από 45 αυτοματοποιημένα μοντέλα και αλγορίθμους (διαθέσιμα σε ανοιχτό λογισμικό), τα οποία κατά κύριο λόγο προέρχονται από τις τέσσερις μεγάλες οικογένειες των στοχαστικών μοντέλων, των μοντέλων παλινδρόμησης (συμπεριλαμβανομένων μοντέλων μηχανικής μάθησης), των μοντέλων παλινδρόμησης ποσοστημορίου (συμπεριλαμβανομένων μοντέλων μηχανικής μάθησης) και των διεργασιακών υδρολογικών μοντέλων, (iii) επτά ευέλικτες μεθοδολογίες, οι οποίες μαζί με τα διαθέσιμα σε ανοιχτό λογισμικό αυτοματοποιημένα μοντέλα και αλγορίθμους (βλ. σημείο (ii) παραπάνω) συνιστούν τη βάση των διενεργούμενων μοντελοποιήσεων, και (iv) περίπου 30 μέτρα για την αξιολόγηση της ποιότητας των διενεργούμενων μοντελοποιήσεων. Νέοι συνδυασμοί μοντέλων και αλγορίθμων, συνοδευόμενοι από διαφορετικές αλγοριθμικές επιλογές παραμέτρων, οδηγούν σε πολυάριθμες παραλλαγές μοντέλων, πολλές από τις οποίες μπορούν να θεωρηθούν ως νέες μέθοδοι. Όλα τα χρησιμοποιούμενα μοντέλα (τόσο τα ήδη διαθέσιμα σε ανοιχτό λογισμικό όσο και τα αυτοματοποιημένα στο πλαίσιο της διατριβής) είναι ευέλικτα, υπολογιστικά εύχρηστα και γρήγορα στην εφαρμογή. Κατά συνέπεια, είναι κατάλληλα για διερευνήσεις μεγάλης κλίμακας, ακόμη και για διερευνήσεις παγκόσμιας κλίμακας. Τέτοιες διερευνήσεις επιβάλλονται από τον (κυρίως) αλγοριθμικό χαρακτήρα των μεθοδολογιών της διατριβής. Παρά τον συγκεκριμένο χαρακτήρα, η διατριβή παρέχει επίσης καινοτόμα θεωρητικά συμπληρώματα στην πρακτική και μεθοδολογική της συμβολή. Η διερεύνηση του τεχνικού προβλήματος (Α) γίνεται σε τέσσερα στάδια. Κατά το πρώτο στάδιο εισάγεται ένα νέο μεθοδολογικό πλαίσιο για την αξιολόγηση τεχνικών πρόγνωσης στην υδρολογία. Όντας σύμφωνο με τις αρχές που θα πρέπει να διέπουν την πρόβλεψη χρονοσειρών και σε αντίθεση με την υπάρχουσα βιβλιογραφία της πρόβλεψης υδρολογικών (και γενικότερα γεωφυσικών) χρονοσειρών (στην οποία η αξιολόγηση μεθόδων συνήθως βασίζεται στη διενέργεια μελετών περίπτωσης), το προτεινόμενο πλαίσιο ενσωματώνει συγκριτική αξιολόγηση μεθοδολογιών μεγάλης κλίμακας. Η τελευταία βασίζεται σε μεγάλα σύνολα υδρολογικών δεδομένων, στην πρακτική της στοχαστικής προσομοίωσης χρονοσειρών μεγάλης κλίμακας χρησιμοποιώντας στάσιμα κλασσικά στοχαστικά μοντέλα, σε έναν μεγάλο αριθμό πλήρως αυτοματοποιημένων μοντέλων και αλγόριθμων πρόβλεψης (συμπεριλαμβανομένων μοντέλων αναφοράς) και σε έναν ικανό αριθμό μέτρων για την ποσοτικοποίηση της ποιότητας των προβλέψεων. Το νέο μεθοδολογικό πλαίσιο αξιοποιείται (χρησιμοποιώντας τμήμα της εργαλειοθήκης της διατριβής) για την παροχή αποτελεσμάτων μεγάλης κλίμακας, καθώς και χρήσιμης κατανόησης σχετικά με τη σύγκριση των στοχαστικών μεθόδων και των μεθόδων μηχανικής μάθησης στην πρόβλεψη υδρολογικών διεργασιών σε μεγάλες χρονικές κλίμακες (π.χ., την ετήσια και την μηνιαία), με έμφαση στις ετήσιες διεργασίες απορροής ποταμών. Οι σχετικές διερευνήσεις γίνονται για προβλέψεις πολλαπλών βημάτων. Κατά το δεύτερο στάδιο της διερεύνησης του τεχνικού προβλήματος (Α) επεκτείνεται το μεθοδολογικό πλαίσιο του πρώτου σταδίου για διερευνήσεις σχετικές με την πρόβλεψη ενός βήματος μπροστά των ετήσιων γεωφυσικών χρονοσειρών. Έμφαση δίνεται στην μελέτη δύο συνόλων δεδομένων πραγματικού κόσμου, ενός συνόλου δεδομένων ετήσιας κατακρήμνισης και ενός συνόλου δεδομένων ετήσιας θερμοκρασίας. Τα συγκεκριμένα σύνολα δεδομένων εξετάζονται τόσο στην αρχική όσο και στην τυποποιημένη μορφή τους με κύριο στόχο την ανάδειξη των ακριβέστερων μεθόδων για πρακτικές εφαρμογές πρόβλεψης ενός βήματος μπροστά, και δευτερεύοντα στόχο την παροχή αρχικών σημείων αναφοράς για την προβλεψιμότητα της ετήσιας κατακρήμνισης και της ετήσιας θερμοκρασίας. Το τρίτο στάδιο της διερεύνησης του τεχνικού προβλήματος (Α) περιλαμβάνει τόσο την μελέτη-ποσοτικοποίηση της προβλεψιμότητας της μηνιαίας θερμοκρασίας και της μηνιαίας κατακρήμνισης σε παγκόσμια κλίμακα, όσο και τη σύγκριση ενός μεγάλου αριθμού πλήρως αυτοματοποιημένων (κυρίως στοχαστικών) μεθόδων πρόβλεψης κατάλληλων για εποχιακές γεωφυσικές διεργασίες. Οι διερευνήσεις πραγματοποιούνται για προβλέψεις πολλαπλών βημάτων χρησιμοποιώντας το μεγαλύτερο συνόλο δεδομένων πραγματικού κόσμου που έχει χρησιμοποιηθεί μέχρι σήμερα στον χώρο της πρόβλεψης υδρολογικών χρονοσειρών. Με το τέταρτο (και τελευταίο) στάδιο της διερεύνησης του τεχνικού προβλήματος (Α) εισάγεται η διεξαγωγή εκτεταμένων μελετών πολλαπλών περιπτώσεων ως μία καινοτόμος στρατηγική στον χώρο της πρόβλεψης γεωφυσικών χρονοσειρών. Με κύριο στόχο τη διερεύνηση τριών επιμέρους προβλημάτων που αφορούν την πρόβλεψη των συγκεκριμένων χρονοσειρών χρήσει αλγορίθμων μηχανικής μάθησης, πραγματοποιείται μια μελέτη πολλαπλών περιπτώσεων, αποτελούμενη από έναν ικανό αριθµό µελετών περιπτώσεων. Οι τελευταίες αφορούν μηνιαίες χρονοσειρές θερμοκρασίας και κατακρήμνισης παρατηρημένες στην Ελλάδα. Τα υπό μελέτη επιμέρους προβλήματα είναι η επιλογή μεταβλητών πρόβλεψης, η επιλογή των υπερπαραμέτρων, και η σύγκριση μεθόδων μηχανικής μάθησης και στοχαστικών μεθόδων. Η διερεύνηση του τεχνικού προβλήματος (Β) γίνεται σε τρία στάδια. Κατά το πρώτο στάδιο αναπτύσσεται μια νέα μεθοδολογία πιθανοτικής μετεπεξεργασίας αποτελεσμάτων υδρολογικής μοντελοποίησης, χρησιμοποιώντας ως σημείο εκκίνησης ένα θεωρητικά συνεπές γενικό σχήμα πιθανοτικής υδρολογικής μοντελοποίησης δύο σταδίων. Επίσης, διεξάγονται διερευνήσεις πρότυπης μοντελοποίησης, οι οποίες καταδεικνύουν τη χρησιμότητα της προτεινόμενης μεθοδολογίας και δείχνουν πώς η κατανόηση μας για το μοντελοποιούμενο σύστημα μπορεί να μας οδηγήσει στην επίτευξη βελτιωμένης προγνωστικής μοντελοποίησης. Κατά το δεύτερο στάδιο της διερεύνησης του τεχνικού προβλήματος (Β), μελετάται σε ένα μεγάλο σύνολο πραγματικών προβλημάτων και σε μηνιαία χρονική κλίμακα η μεθοδολογία πιθανοτικής μετεπεξεργασίας αποτελεσμάτων υδρολογικής μοντελοποίησης που αναπτύσσεται στο προηγούμενο στάδιο. Με τις πραγματοποιούμενες διερευνήσεις αποδεικνύεται εμπειρικά η μεγαλύτερη ευρωστία της εν λόγω μεθοδολογίας σε σχέση με τις επιμέρους προβλέψεις που συνδυάζονται από αυτήν και, κατ 'επέκταση, σε σχέση με βασικές μεθοδολογίες πιθανοτικής μετεπεξεργασίας αποτελεσμάτων υδρολογικής μοντελοποίησης δύο σταδίων. Επίσης, αποδεικνύεται η ικανότητα της μεθοδολογίας να αξιοποιεί τη σοφία του πλήθους. Τέλος, κατά το τρίτο στάδιο της διερεύνησης του τεχνικού προβλήματος (Β) εισάγεται ο μεγαλύτερος αριθμός πιθανοτικών μεθόδων υδρολογικής μοντελοποίησης που έχουν μέχρι στιγμής εισαχθεί σε μια εργασία, και επιπρόσθετα διεξάγεται σε ημερήσια χρονική κλίμακα το μεγαλύτερο πείραμα συγκριτικής αξιολόγησης που έχει διεξαχθεί μέχρι στιγμής στον χώρο της πιθανοτικής μετεπεξεργασίας αποτελεσμάτων υδρολογικής μοντελοποίησης. Επιπρόσθετα, αξιολογούνται θεωρητικές και ποιοτικές πτυχές του επιλυόμενου προβλήματος και της χρήσης των επιλεγμένων αλγορίθμων υπό το πρίσμα της ακόλουθης ερευνητικής ερώτησης: Γιατί και πώς να συνδυάσει κανείς διεργασιακά μοντέλα και αλγορίθμους μηχανικής μάθησης για πιθανοτική υδρολογική μοντελοποίηση;
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis falls into the scientific areas of stochastic hydrology, hydrological modelling and hydroinformatics. It contributes with new practical solutions, new methodologies and large-scale results to predictive modelling of hydrological processes, specifically to solving two interrelated technical problems with emphasis on the latter. These problems are: (A) hydrological time series forecasting by exclusively using endogenous predictor variables (hereafter, referred to simply as “hydrological time series forecasting”); and (B) stochastic process-based modelling of hydrological systems via probabilistic post-processing (hereafter, referred to simply as “probabilistic hydrological post-processing”). For the investigation of these technical problems, the thesis forms and exploits a novel predictive modelling and benchmarking toolbox. This toolbox is consisted of: (i) approximately 6,000 hydrological time series (sourced from larger freely available datasets), (ii) over 45 ready-made a ...
This thesis falls into the scientific areas of stochastic hydrology, hydrological modelling and hydroinformatics. It contributes with new practical solutions, new methodologies and large-scale results to predictive modelling of hydrological processes, specifically to solving two interrelated technical problems with emphasis on the latter. These problems are: (A) hydrological time series forecasting by exclusively using endogenous predictor variables (hereafter, referred to simply as “hydrological time series forecasting”); and (B) stochastic process-based modelling of hydrological systems via probabilistic post-processing (hereafter, referred to simply as “probabilistic hydrological post-processing”). For the investigation of these technical problems, the thesis forms and exploits a novel predictive modelling and benchmarking toolbox. This toolbox is consisted of: (i) approximately 6,000 hydrological time series (sourced from larger freely available datasets), (ii) over 45 ready-made automatic models and algorithms mostly originating from the four major families of stochastic, (machine learning) regression, (machine learning) quantile regression, and conceptual process-based models, (iii) seven flexible methodologies (which together with the ready-made automatic models and algorithms consist the basis of our modelling solutions), and (iv) approximately 30 predictive performance evaluation metrics. Novel model combinations coupled with different algorithmic argument choices result in numerous model variants, many of which could be perceived as new methods. All the utilized models (i.e., the ones already available in open software, as well as those automated and proposed in the context of the thesis) are flexible, computationally convenient and fast; thus, they are appropriate for large-sample (even global-scale) hydrological investigations. Such investigations are implied by the (mainly) algorithmic nature of the methodologies of the thesis. In spite of this nature, the thesis also provides innovative theoretical supplements to its practical and methodological contribution. Technical problem (A) is examined in four stages. During the first stage, a detailed framework for assessing forecasting techniques in hydrology is introduced. Complying with the principles of forecasting and contrary to the existing hydrological (and, more generally, geophysical) time series forecasting literature (in which forecasting performance is usually assessed within case studies), the introduced framework incorporates large-scale benchmarking. The latter relies on big hydrological datasets, large-scale time series simulation by using classical stationary stochastic models, many automatic forecasting models and algorithms (including benchmarks), and many forecast quality metrics. The new framework is exploited (by utilizing part of the predictive modelling and benchmarking toolbox of the thesis) to provide large-scale results and useful insights on the comparison of stochastic and machine learning forecasting methods for the case of hydrological time series forecasting at large temporal scales (e.g., the annual and monthly ones), with emphasis on annual river discharge processes. The related investigations focus on multi-step ahead forecasting. During the second stage of the investigation of technical problem (A), the work conducted during the previous stage is expanded by exploring the one-step ahead forecasting properties of its methods, when the latter are applied to non-seasonal geophysical time series. Emphasis is put on the examination of two real-world datasets, an annual temperature dataset and an annual precipitation dataset. These datasets are examined in both their original and standardized forms to reveal the most and least accurate methods for long-run one-step ahead forecasting applications, and to provide rough benchmarks for the one-year ahead predictability of temperature and precipitation. The third stage of the investigation of technical problem (A) includes both the examination-quantification of predictability of monthly temperature and monthly precipitation at global scale, and the comparison of a large number of (mostly stochastic) automatic time series forecasting methods for monthly geophysical time series. The related investigations focus on multi-step ahead forecasting by using the largest real-world data sample ever used so far in hydrology for assessing the performance of time series forecasting methods. With the fourth (and last) stage of the investigation of technical problem (A), the multiple-case study research strategy is introduced −in its large-scale version− as an innovative alternative to conducting single- or few-case studies in the field of geophysical time series forecasting. To explore three sub-problems associated with hydrological time series forecasting using machine learning algorithms, an extensive multiple-case study is conducted. This multiple-case study is composed by a sufficient number of single-case studies, which exploit monthly temperature and monthly precipitation time series observed in Greece. The explored sub-problems are lagged variable selection, hyperparameter handling, and comparison of machine learning and stochastic algorithms. Technical problem (B) is examined in three stages. During the first stage, a novel two-stage probabilistic hydrological post-processing methodology is developed by using a theoretically consistent probabilistic hydrological modelling blueprint as a starting point. The usefulness of this methodology is demonstrated by conducting toy model investigations. The same investigations also demonstrate how our understanding of the system to be modelled can guide us to achieve better predictive modelling when using the proposed methodology. During the second stage of the investigation of technical problem (B), the probabilistic hydrological modelling methodology proposed during the previous stage is validated. The validation is made by conducting a large-scale real-world experiment at monthly timescale. In this experiment, the increased robustness of the investigated methodology with respect to the combined (by this methodology) individual predictors and, by extension, to basic two-stage post-processing methodologies is demonstrated. The ability to “harness the wisdom of the crowd” is also empirically proven. Finally, during the third stage of the investigation of technical problem (B), the thesis introduces the largest range of probabilistic hydrological post-processing methods ever introduced in a single work, and additionally conducts at daily timescale the largest benchmark experiment ever conducted in the field. Additionally, it assesses several theoretical and qualitative aspects of the examined problem and the application of the proposed algorithms to answer the following research question: Why and how to combine process-based models and machine learning quantile regression algorithms for probabilistic hydrological modelling?
περισσότερα