Περίληψη
Ο συνεχώς αυξανόμενος όγκος περιβαλλοντικών πληροφοριών σε συνδυασμό με την πολυπλοκότητά τους έχει αυξήσει την ανάγκη για εφαρμογή πιο εξελιγμένων μεθόδων και διαδικασιών με σκοπό την αποτελεσματικότερη προσέγγισή τους. Ο πρόσφατα αναδυόμενοςτομέας της Περιβαλλοντικής Επιστήμης Δεδομένων, που είναι ένας συνδυασμός περιβαλλοντικής επιστήμης, μηχανικής μάθησης, εξόρυξης δεδομένων και πληροφορικής, χρειάζεται τώρα,περισσότερο από ποτέ, την προσοχή μας, καθώς ο πλανήτης μας αντιμετωπίζει σοβαρές προκλήσεις.Αυτή η Διατριβή δίνει μια επισκόπηση του τρόπου με τον οποίο οι πρόσφατες εξελίξεις στην επιστήμη των δεδομένων και τη μηχανική μάθηση μπορούν να εφαρμοστούν με επιτυχία για την επίλυση περιβαλλοντικών προβλημάτων. Αρχικά γίνεται προσπάθεια να αντιμετωπίστούν τα μειονεκτήματα της τρέχουσας βιβλιογραφίας στον τομέα, όπου δεν υπάρχουν τυποποιημένες και αποτελεσματικές μεθοδολογίες, τα δεδομένα είναι περιορισμένα, η αναπαραγωγιμότητα είναι χαμηλή και χρησιμοποιούνται περιορισμένοι αλγόριθμ ...
Ο συνεχώς αυξανόμενος όγκος περιβαλλοντικών πληροφοριών σε συνδυασμό με την πολυπλοκότητά τους έχει αυξήσει την ανάγκη για εφαρμογή πιο εξελιγμένων μεθόδων και διαδικασιών με σκοπό την αποτελεσματικότερη προσέγγισή τους. Ο πρόσφατα αναδυόμενοςτομέας της Περιβαλλοντικής Επιστήμης Δεδομένων, που είναι ένας συνδυασμός περιβαλλοντικής επιστήμης, μηχανικής μάθησης, εξόρυξης δεδομένων και πληροφορικής, χρειάζεται τώρα,περισσότερο από ποτέ, την προσοχή μας, καθώς ο πλανήτης μας αντιμετωπίζει σοβαρές προκλήσεις.Αυτή η Διατριβή δίνει μια επισκόπηση του τρόπου με τον οποίο οι πρόσφατες εξελίξεις στην επιστήμη των δεδομένων και τη μηχανική μάθηση μπορούν να εφαρμοστούν με επιτυχία για την επίλυση περιβαλλοντικών προβλημάτων. Αρχικά γίνεται προσπάθεια να αντιμετωπίστούν τα μειονεκτήματα της τρέχουσας βιβλιογραφίας στον τομέα, όπου δεν υπάρχουν τυποποιημένες και αποτελεσματικές μεθοδολογίες, τα δεδομένα είναι περιορισμένα, η αναπαραγωγιμότητα είναι χαμηλή και χρησιμοποιούνται περιορισμένοι αλγόριθμοι μηχανικής μάθησης. Κατασκευάζονται αποτελεσματικές ροές για τη συλλογή, τη συγχώνευση, ακόμη και τη δημιουργία συνόλων δεδομένων, την προεπεξεργασία και την ανάλυσή τους. Εποπτευόμενοι και μη εποπτευόμενοι αλγόριθμοι χρησιμοποιούνται για τη μοντελοποίηση, την επικύρωση, την οπτικοποίηση και την ερμηνεία ενός πλήθους περιβαλλοντικών εφαρμογών. Δόθηκε σημαντική εστίαση στην κατανόηση και την επεξήγηση του μαύρου κουτιού της μηχανικής μάθησης μέσω της επιλογής χαρακτηριστικών και της διερευνητικής ανάλυσης δεδομένων. Αυτή η επεξήγηση των κρυφών ιδιοτήτων των δεδομένων είναι καίρια στον περιβαλλοντικό τομέα, καθώς ασχολείται με φαινόμενα του πραγματικού κόσμου που επηρεάζουν την ποιότητα της ανθρώπινης ζωής. Οι μέθοδοι επιλογής χαρακτηριστικών που αποδίδουν πολύ υψηλότερα από τη βάση σύγκρισης, φαίνεται ότι δουλεύουν σε περιβαλλοντικά δεδομένα, συμπεριλαμβανομένων τόσο μεμονωμένων όσο και συνδυαστικών μεθόδων. Χρησιμοποιώντας αυτές τις μεθόδους, αποκαλύπτονται κρίσιμες γνώσεις, που σχετίζονται τόσο με την επιστήμη των δεδομένων όσο και με το περιβάλλον, σχετικά με την ανίχνευση ειδών φυκιών και τη μοντελοποίηση κατανομής ειδών αλιείας στη Μεσόγειο Θάλασσα.Η κλιματική αλλαγή διερευνάται από τη σκοπιά δεδομένων μικροϊστολογίου, όπου οι αν θρώπινες απόψεις για το θέμα μελετώνται από πολλαπλές διαστάσεις. ́Ενα νέο σύνολο δεδομένων για την κλιματική αλλαγή δημιουργείται χρησιμοποιώντας μοντέλα τελευταίας τεχνολογίας και βαθιάς μάθησης και διατίθεται δημόσια. Χρησιμοποιώντας αυτό το ολοκληρωμένο σύνολο δεδομένων σε χώρο, χρόνο και όγκο, ήταν δυνατή η εξαγωγή πολύτιμων πληροφοριών χρησιμοποιώντας γεωεντοπισμό, ανθρώπινο φύλο, στάση, συναίσθημα, ιστορικές θερμοκρασίες, καταστροφές και θέματα συζήτησης.
περισσότερα
Περίληψη σε άλλη γλώσσα
The ever-increasing amount of environmental information combined with their complexity has grown the need to recruit more sophisticated methods and processes to effectively approach them. The newly emerging field of Environmental Data Science, which is a combination of environmental science, machine learning, data mining, and informatics, needs now, more than ever, our attention, as our planet is facing serious challenges.This Dissertation gives an overview of how the recent advances in data science and machine learning can be successfully applied to solve environmental problems. It tries to combat the drawbacks of the current literature in the domain, where there are no standard and efficient pipelines, data are limited, reproducibility is low, and convenient machine learning algorithms are used. Efficient pipelines are constructed in order to collect, merge and even create datasets, pre-process, and analyze them. Supervised and unsupervised algorithms are employed in order to model, ...
The ever-increasing amount of environmental information combined with their complexity has grown the need to recruit more sophisticated methods and processes to effectively approach them. The newly emerging field of Environmental Data Science, which is a combination of environmental science, machine learning, data mining, and informatics, needs now, more than ever, our attention, as our planet is facing serious challenges.This Dissertation gives an overview of how the recent advances in data science and machine learning can be successfully applied to solve environmental problems. It tries to combat the drawbacks of the current literature in the domain, where there are no standard and efficient pipelines, data are limited, reproducibility is low, and convenient machine learning algorithms are used. Efficient pipelines are constructed in order to collect, merge and even create datasets, pre-process, and analyze them. Supervised and unsupervised algorithms are employed in order to model, validate, visualize and interpret a plethora of environmental use cases.A significant focus was given to understanding and explaining the machine learning black-box through feature selection and exploratory data analysis. This explainability of the hidden properties of the data is essential in this domain, since it is dealing with real-world phenomena that affect the quality of human lives. Feature selection methods that perform much higher than the baseline are found to be working on environmental data including both individual and ensemble methods. Using these methods, critical insights, related to both data science and environment, are presented regarding seagrass species detection and distribution modeling of fish species in the Mediterranean Sea.Climate change is investigated from the perspective of textual micro-blogging data, where the human opinions on the topic are studied from multiple dimensions. A novel climate change dataset is created using state-of-the-art machine and deep learning models, and is made publicly available. Using this comprehensive dataset in space, time and volume, it was possible to extract valuable information using geolocation, human gender, stance, sentiment, historic temperatures, disasters, and topics.
περισσότερα