Περίληψη
Τα τελευταία χρόνια, η τεράστια διαθεσιμότητα ετερογενών δορυφορικών δεδομένων έχει επιτρέψει στην κοινότητα της τηλεπισκόπισης να διερευνήσει πολυάριθμα ερευνητικά πεδία με σκοπό τη συστηματική παρατήρηση της γης. ΄Ενας τρόπος για την παρακολούθηση του πλανήτη είναι η σύγκριση χρονοσειρών εικόνων που αποκτήθηκαν σε διαφορετικές χρονικές στιγμές και στις οποίες έχει εφαρμοστεί κατάλληλη αντιστοίχιση. Επιπλέον, οι σημασιολογικοί χάρτες μεμονωμένων εικόνων μπορούν να συμβάλλουν στην αυτόματη αναγνώριση της διάταξης μιας συγκεκριμένης περιοχής. Στην παρούσα διατριβή ερευνώνται τα θέματα της αντιστοίχισης εικόνων, της σημασιολογικής κατάτμησης και της ανίχνευσης μεταβολών, προτείνοντας νέες μεθόδους που περιλαμβάνουν τη συλλογή δεδομένων και εστιάζουν κυρίως σε τεχνικές βαθιάς μηχανικής μάθησης (deep learning). Παρόλο που πολλές σύγχρονες τεχνικές παρέχουν αξιόπιστα αποτελέσματα σε αυτά τα θέματα, η δημιουργία ισχυρών αλγορίθμων ικανών να επεξεργάζονται διαφορετικά είδη δεδομένων παραμένει ...
Τα τελευταία χρόνια, η τεράστια διαθεσιμότητα ετερογενών δορυφορικών δεδομένων έχει επιτρέψει στην κοινότητα της τηλεπισκόπισης να διερευνήσει πολυάριθμα ερευνητικά πεδία με σκοπό τη συστηματική παρατήρηση της γης. ΄Ενας τρόπος για την παρακολούθηση του πλανήτη είναι η σύγκριση χρονοσειρών εικόνων που αποκτήθηκαν σε διαφορετικές χρονικές στιγμές και στις οποίες έχει εφαρμοστεί κατάλληλη αντιστοίχιση. Επιπλέον, οι σημασιολογικοί χάρτες μεμονωμένων εικόνων μπορούν να συμβάλλουν στην αυτόματη αναγνώριση της διάταξης μιας συγκεκριμένης περιοχής. Στην παρούσα διατριβή ερευνώνται τα θέματα της αντιστοίχισης εικόνων, της σημασιολογικής κατάτμησης και της ανίχνευσης μεταβολών, προτείνοντας νέες μεθόδους που περιλαμβάνουν τη συλλογή δεδομένων και εστιάζουν κυρίως σε τεχνικές βαθιάς μηχανικής μάθησης (deep learning). Παρόλο που πολλές σύγχρονες τεχνικές παρέχουν αξιόπιστα αποτελέσματα σε αυτά τα θέματα, η δημιουργία ισχυρών αλγορίθμων ικανών να επεξεργάζονται διαφορετικά είδη δεδομένων παραμένει μια πρόκληση λόγω της ποικιλόμορφης φύσης των δορυφορικών εικόνων. Οι συνεισφορές της διατριβής αυτής είναι οι εξής: (i) ένας καινοτόμος αλγόριθμος βαθιάς μηχανικής μάθησης για σημασιολογική κατάτμηση στον οποίο ενσωματώνονται χωρικές πληροφορίες των αντικειμένων της εικόνας με σκοπό την παραγωγή περισσότερο ομαλών σχημάτων, (ii) ένα δίκτυο πολλαπλών εργασιών για την ανίχνευση μεταβολών το οποίο αξιοποιεί όχι μόνο τα σημασιολογικά χαρακτηριστικά των εικόνων αλλά και τη χρονική συσχέτιση μεταξύ τους χρησιμοποιώντας πλήρως συνελικτικά δίκτυα μακροπρόθεσμης-βραχυπρόθεσμης μνήμης τα οποία προτείνονται για πρώτη φορά σε αυτό το πρόβλημα, και (iii) έναν αυτόματο αλγόριθμο αντιστοίχισης εικόνων στηριγμένο στη βαθιά μηχανική μάθηση ο οποίος εξάγει απευθείας τις παραμέτρους μετασχηματισμού, λαμβάνοντας ταυτόχρονα υπόψη τις περιοχές στις οποίες έχουν επέλθει αλλαγές. ΄Ολες οι προτεινόμενες μέθοδοι αξιολογήθηκαν σε μια ποικιλία δημόσιων και ιδιωτικών οπτικών δεδομένων υψηλής και πολύ υψηλής ανάλυσης, επιδεικνύοντας πολύ καλές επιδόσεις ανώτερες απότις τρέχουσες σύγχρονες μεθόδους.Η πρώτη συνεισφορά επικεντρώνεται στη σημασιολογική κατάτμηση αστικών περιοχών, επιλύοντας τα προβλήματα των διάσπαρτων λανθασμένων προβλέψεων εικονοστοιχείων καθώς και των ακανόνιστων σχημάτων αντικειμένων που προκύπτουν από τις περισσότερες μεθόδους στη βιβλιογραφία. Συγκεκριμένα, παρουσιάζεται ένας αλγόριθμος κατά τον οποίο οι δορυφορικές εικόνες τμηματοποιούνται αρχικά σε ομάδες εικονοστοιχείων με βάση τις φασματικές και χωρικές τους σχέσεις. Η πληροφορία αυτή ενσωματώνεται στη διαδικασία εκπαίδευσης του αλγορίθμου μέσω μιας επιπρόσθετης συνάρτησης κόστους η οποία αναθέτει την κυρίαρχη κλάση κάθε ομάδας εικονοστοιχείων σε όλα τα εικονοστοιχεία που ανήκουν στο εν λόγω τμηματοποιημένο μέρος της εικόνας. Η μέθοδος αυτή αξιολογήθηκε διεξοδικά σε δορυφορικά δεδομένα πολύ υψηλής ανάλυσης, ενώ συγκρίθηκε επίσης και με άλλα συνελικτικά και πλήρως συνελικτικά δίκτυα αποδεικνύοντας την αποτελεσματικότητά της τόσο ποσοτικά όσο και ποιοτικά.Η δεύτερη συνεισφορά σχετίζεται με την ανίχνευση αστικών μεταβολών και αντιμετωπίζει το πρόβλημα της πληθώρας ψευδώς θετικών προβλέψεων που προκύπτουν από τη διακύμανση των φασματικών τιμών και τα περιορισμένα δείγματα δεδομένων αλλαγών που περιλαμβάνονται στα διάφορα είδη δεδομένων. Συγκεκριμένα, χρονοσειρές εικόνων επεξεργάζονται από ένα πλήρως συνελικτικό δίκτυο πολλαπλών εργασιών της μορφής κωδικοποιητής-αποκωδικοποιητής (encoder-decoder), όπου οι εργασίες ανίχνευσης μεταβολών και σημασιολογικής κατάτμησης υλοποιούνται ταυτόχρονα με τη χρήση δύο ξεχωριστών αποκωδικοποιητών. Η συνεργία αυτών των δύο εργασιών ωφελεί και τις δύο, κάνοντας πιο σταθερή την εκπαίδευση του αλγορίθμου και οδηγώντας σε καλύτερες επιδόσεις. Επιπλέον, η χρονική συσχέτιση μεταξύ των εικόνων εξάγεται σε διαφορετικές χωρικές αναλύσεις με την τοποθέτηση πλήρως συνελικτικών δικτύων μακροπρόθεσμης-βραχυπρόθεσμης μνήμης σε κάθε επίπεδο του κωδικοποιητή. Ειδικότερα, εισάγεται για πρώτη φορά η χρήση πλήρως συνελικτικών δικτύωνμακροπρόθεσμης-βραχυπρόθεσμης μνήμης (Long Short-Term Memory Networks) για την αντιμετώπιση της ανίχνευσης μεταβολών, μειώνοντας κατά πολύ τις παραμέτρους που απαιτούνται από τα αντίστοιχα δίκτυα που έχουν εφαρμοστεί στη βιβλιογραφία. Η ευρωστία της μεθόδου αξιολογήθηκε σε δεδομένα υψηλής και πολύ υψηλής ανάλυσης, ενώ συγκρίθηκε και με άλλα πλήρως συνελικτικά δίκτυα, δίκτυα πολλαπλών εργασιών και δίκτυα επεξεργασίας χρονοσειρών εικόνων.Στην τελευταία μέθοδο που αναπτύχθηκε, στόχος ήταν η γεωμετρική επίλυση των παραμορφώσεων στα ζεύγη εικόνων που δημιουργούονται από διαφορετικές γωνίες λήψης εκτός ναδίρ ή αισθητήρες με ανόμοια χαρακτηριστικά. Το πρόβλημα αυτό καθορίζει επίσης την ποιότητα και αποδοτικότητα των τεχνικών ανίχνευσης μεταβολών. Στη μελέτη αυτή προτείνεται για πρώτη φορά ένα δίκτυο αντιστοίχισης (registration) εικόνων το οποίο παράγει απευθείας ένα πυκνό πλέγμα ελαστικών παραμορφώσεων για ζεύγη οπτικών δεδομένων πολύ υψηλής ανάλυσης. Συγκεκριμένα, σχεδιάζεται μια ημι-επιβλεπόμενη μέθοδος πολλαπλών βημάτων βασισμένη στη συλλογή δεδομένων, όπου οι παράμετροι μετασχηματισμού προκύπτουν άμεσα από ένα πλήρως συνελικτικό δίκτυο αντιστοιχίζοντας αυτόματα τα ζεύγη εικόνων μέσα από ένα δισδιάστατο επίπεδο μετασχηματισμού (2D transformer layer). Οι ακμές των εικόνων αντιστοχίζονταιεπίσης κατά τη διάρκεια της εκπαίδευσης προκειμένου να διατηρηθούν καλύτερα τα σχήματα των εικόνων. Τέλος, χρησιμοποιείται μια δυαδική μάσκα μεταβολών με σκοπό τη χαλάρωση των περιορισμών αντιστοίχισης στις περιοχές όπου έχουν επέλθει αλλαγές, αποφεύγοντας τον αποπροσανατολισμό του μοντέλου από ακραίες φασματικές και γεωμετρικές διαφορές. Πολλαπλά πειράματα πραγματοποιήθηκαν χρησιμοποιώντας δεδομένα υψηλής και πολύ υψηλής ανάλυσης, συγκρίνοντας τα αποτελέσματα με άλλες τεχνικές αντιστοίχισης που έχουν εφαρμοστεί στη βιβλιογραφία.Στη διατριβή αυτή παρέχονται λύσεις και για τα τρία προαναφερθέντα θέματα, τα οποία συνδέονται άρρηκτα μεταξύ τους. Συγκεκριμένα, η σημασιολογική κατάτμηση μπορεί να υιοθετηθεί ως επιπρόσθετη εργασία παρέχοντας χρήσιμες περαιτέρω πληροφορίες κατά την εκπαίδευση των αλγορίθμων ανίχνευσης μεταβολών. Επιπλέον, η ανίχνευση μεταβολών είναι ουσιαστικά ένα πρόβλημα σημασιολογικής κατάτμησης δεδομένου ότι το αποτέλεσμα είναι ένας σημασιολογικός χάρτης με περιοχές αλλαγών και μή αλλαγών, επομένως οι επιτυχημένες μέθοδοι που αναδύονται στον τομέα της σημασιολογικής κατάτμησης μπορούν να προσφέρουν ιδέες και έμπνευση για την εξέλιξη των τεχνικών ανίχνευσης μεταβολών. Τέλος, η ανίχνευση μεταβολών απαιτεί πρώτα την ορθή αντιστοίχιση των ζευγών εικόνων, ώστε να αποφεύγονται οι ψευδώς θετικές ανιχνεύσεις που προκαλούνται από γεωμετρικές μεταβολές. Για τους παραπάνωλόγους στοχεύσαμε στη δημιουργία σχημάτων που συνδυάζουν πληροφορίες από αυτά τα τρία προβλήματα για την παροχή αποδοτικότερων και ταχύτερων αλγορίθμων προς την κατεύθυνση της αυτόματης παρακολούθησης της γήινης επιφάνειας. ΄Ολοι οι αλγόριθμοι που προτάθηκαν και αναπτύχθηκαν σε αυτή τη διατριβή έχουν δημοσιευτεί και είναι διαθέσιμοι στην επιστημονική κοινότητα.
περισσότερα
Περίληψη σε άλλη γλώσσα
During the last years, the immense availability of heterogeneous satellite data has enabled the remote sensing community to investigate numerous research fields in order to observe the earth’s surface in a systematic way. One way to monitor the globe is by comparing properly registered image sequences acquired at different time points. Additionally, semantic maps of single images can contribute to the automatic recognition of a specific region’s layout. In the current thesis, we address the topics of registration, semantic segmentation and change detection, proposing novel data-driven methods mainly focusing on deep learning techniques. Even though many state of the art techniques have obtained promising results on thesesubjects, the formulation of generic and effective algorithms remains a challenge, due to the diverse nature of satellite images in terms of size and modalities especially on high and very high resolution images. The contributions we have made are the following (i) a no ...
During the last years, the immense availability of heterogeneous satellite data has enabled the remote sensing community to investigate numerous research fields in order to observe the earth’s surface in a systematic way. One way to monitor the globe is by comparing properly registered image sequences acquired at different time points. Additionally, semantic maps of single images can contribute to the automatic recognition of a specific region’s layout. In the current thesis, we address the topics of registration, semantic segmentation and change detection, proposing novel data-driven methods mainly focusing on deep learning techniques. Even though many state of the art techniques have obtained promising results on thesesubjects, the formulation of generic and effective algorithms remains a challenge, due to the diverse nature of satellite images in terms of size and modalities especially on high and very high resolution images. The contributions we have made are the following (i) a novel deep learning semantic segmentation framework where object-priors are integrated in order to produce smoother object shapes, (ii) a multi-task encoder-decoder change detection network that exploits not only semantic but also temporal features through fully convolutional LSTMs proposed for the first time on this problem, and (iii) an automatic end-to-end trained registration algorithm based on deep learning that outputs directly the deformable transformation parameters,taking into account the regions of changes. All our proposed methods have been evaluated on a variety of public and private high and very high resolution optical datasets demonstrating very good performances superior to the current state of the art methods.The first contribution focuses on the task of urban semantic segmentation, solving the problems of scattered erroneous pixel predictions as well as irregular shape outputs that conventional deep learning frameworks report in the literature. Specifically, we present an object-based fully convolutional framework where the satellite images are firstly segmented into superpixels based on the spectral values of individual pixels as well as the spatial relationships between them. The object information is incorporated into the training process through an additional loss function that assigns the dominant class of each superpixel to all the pixels belonging in that segmented object. This method was thoroughly evaluated on a variety of very high resolution satellite datasets. It was also compared with other patch-based and fully-convolutional networks, proving its efficiency both quantitatively and qualitatively.The second contribution is related to urban change detection and tackles the problem of many false positive detections which results from the variety of spectral intensities, the rooftop alterations as well as the limited change data samples. Image time-series are processed by a multi-task fully convolutional network, where both the tasks of change detection and semantic segmentation are implemented using two separate decoders. Te synergy of these two tasks during training benefits both of them, leading to more stable training and better performances. Additionally, the temporal information among the images is captured in different resolutions by positioning fully convolutional LSTM units in each encoding level of the network. In particular, we were the first to introduce the use of fully convolutional LSTM units for this problem, reducing a lot the parameters needed by the traditional LSTMs that were mainly used from the community. The robustness of the method was assessed on high and very high resolution datasets, while other fully convolutional, multi-task and multi-temporal state of the art schemes were employed in order to conduct a detailed comparison.In the last contribution, we aim to resolve the geometric distortions of image pairs caused by different off-nadir angles or sensors with dissimilar characteristics, a problem which also affects the change detection algorithms. In this study we were the first to propose an end-to-end trained framework for the regression of dense deformations between pairs of very high resolution optical data. In particular, we proposed a novel and data-driven semi-supervised multi-step approach, where the deformable transformation parameters are the direct output of a fully convolutional network, registering automatically the image-pairs through a 2D transformer layer. The images’ edges are also registered during training, in an attempt to better preserve the object shapes. Lastly, the map of changed areas between the pair of images is exploited during training, to loosen the registration restrictions in the areas of change, avoiding the disorientation of the model from extreme spectral and geometric differences. Experiments were performed using high and very high resolution datasets, comparing the results with other learning and non-learning based techniques from the literature.Solutions are provided for all the three aforementioned topics, as they are indissolubly related. That is, semantic segmentation can be adopted as an extra task for enhancing the extracted feature information during the training of change detection algorithms. In addition, change detection is essentially a semantic segmentation problem since the outcome is a semantic map with changed and non-changed areas, hence successful methods emerging in semantic segmentation can provide ideas and inspiration for further evolving the change detection techniques. Finally, change detection requires that the image pairs are firstly properly registered in order to avoid false positive detections caused by geometric alterations. In this thesis weaimed to provide solutions that are modular and combine information from these three problems to provide more efficient, fast and robust algorithms towards the automatic monitoring of the earth’s surface. All the algorithms that were proposed and developed in this thesis have been published and become publicly available to the community.
περισσότερα