Περίληψη
Η πλήρης αυτονομία (Επίπεδο 5) για τα αυτόνομα αυτοκίνητα απαιτεί ένα ισχυρό σύστημα αντίληψης που να μπορεί να ερμηνεύει τις εισερχόμενες εικόνες υπό οποιεσδήποτε οπτικές συνθήκες. Ωστόσο, το μεγαλύτερο μέρος της υπάρχουσας έρευνας για τη σημασιολογική κατανόηση σκηνών οδήγησης εστιάζει σε κανονικές συνθήκες, δηλαδή κατά τη διάρκεια της ημέρας και με καθαρό καιρό. Μάλιστα, τα μοντέλα που έχουν εκπαιδευτεί με μεθόδους και σύνολα δεδομένων που αφορούν κανονικές συνθήκες γενικεύουν ατελώς σε αντίξοες οπτικές συνθήκες. Η παρούσα διατριβή αντιμετωπίζει αυτή την έλλειψη, εισάγοντας μεθόδους και σύνολα δεδομένων για τη βελτίωση της απόδοσης των αλγορίθμων σημασιολογικής κατανόησης σκηνών υπό αντίξοες συνθήκες. Σε επίπεδο μεθόδου, κατευθυνόμαστε προς αυτόν τον στόχο προσαρμόζοντας αλγορίθμους από κανονικές σε αντίξοες συνθήκες με ελάχιστη επίβλεψη στο δεύτερο πεδία. Σε επίπεδο συνόλων δεδομένων, κατασκευάζουμε πολλαπλά σύνολα δεδομένων σκηνών οδήγησης υπό αντίξοες συνθήκες για να υποστηρίξουμ ...
Η πλήρης αυτονομία (Επίπεδο 5) για τα αυτόνομα αυτοκίνητα απαιτεί ένα ισχυρό σύστημα αντίληψης που να μπορεί να ερμηνεύει τις εισερχόμενες εικόνες υπό οποιεσδήποτε οπτικές συνθήκες. Ωστόσο, το μεγαλύτερο μέρος της υπάρχουσας έρευνας για τη σημασιολογική κατανόηση σκηνών οδήγησης εστιάζει σε κανονικές συνθήκες, δηλαδή κατά τη διάρκεια της ημέρας και με καθαρό καιρό. Μάλιστα, τα μοντέλα που έχουν εκπαιδευτεί με μεθόδους και σύνολα δεδομένων που αφορούν κανονικές συνθήκες γενικεύουν ατελώς σε αντίξοες οπτικές συνθήκες. Η παρούσα διατριβή αντιμετωπίζει αυτή την έλλειψη, εισάγοντας μεθόδους και σύνολα δεδομένων για τη βελτίωση της απόδοσης των αλγορίθμων σημασιολογικής κατανόησης σκηνών υπό αντίξοες συνθήκες. Σε επίπεδο μεθόδου, κατευθυνόμαστε προς αυτόν τον στόχο προσαρμόζοντας αλγορίθμους από κανονικές σε αντίξοες συνθήκες με ελάχιστη επίβλεψη στο δεύτερο πεδία. Σε επίπεδο συνόλων δεδομένων, κατασκευάζουμε πολλαπλά σύνολα δεδομένων σκηνών οδήγησης υπό αντίξοες συνθήκες για να υποστηρίξουμε την εκπαίδευση και αξιολόγηση αλγορίθμων σε αυτά τα πεδία και επιπρόσθετα ορίζουμε ένα νέο πρόβλημα που λαμβάνει υπόψη την αβεβαιότητα του σημασιολογικού περιεχομένου εικόνων υπό αντίξοες συνθήκες. Οι συνεισφορές της διατριβής στην προσαρμογή σε αντίξοες συνθήκες αφορούν τόσο στη δημιουργία συνθετικών δεδομένων όσο και σε στρατηγικές προσαρμογής πεδίου. Πρώτον, εισάγουμε μια διαδικασία προσομοίωσης ομίχλης βασισμένη στην Φυσική σε πραγματικές υπαίθριες σκηνές, η οποία παράγει μερικώς συνθετικές ομιχλώδεις εικόνες. Αυτές οι ομιχλώδεις εικόνες κληρονομούν τις επισημειώσεις των αυθεντικών καθαρών ομολόγων τους και συνεπώς χρησιμοποιούνται για την εκπαίδευση μοντέλων επί ομίχλης σε επιβλεπόμενη ρύθμιση. Δεύτερον, παρουσιάζουμε ένα πλαίσιο εργασίας για προσαρμογή μέσω εκπαιδευτικής πορείας (curriculum adaptation framework) με συνδυασμό συνθετικών και πραγματικών δεδομένων μέσω μιας ακολουθίας οπτικών πεδίων με αυξανόμενο επίπεδο δυσμένειας. Αυτό το πλαίσιο εργασίας, με την ονομασία Curriculum Model Adaptation (CMAda), είναι ημι-επιβλεπόμενο: τα συνθετικά δεδομένα που χρησιμοποιεί περιλαμβάνουν επισημειώσεις (labels), ενώ τα πραγματικά όχι. Η βασική αρχή της CMAda είναι να συναγάγει σταδιακά τις ελλείπουσες επισημειώσεις των πραγματικών δεδομένων, ξεκινώντας από το εύκολο πεδίο των κανονικών συνθηκών και προχωρώντας σε προοδευτικά δυσκολότερα πεδία, π.χ. πυκνότερη ομίχλη ή σκοτεινότερη ώρα της ημέρας. Σε αυτή τη διαδικασία, τα επισημασμένα συνθετικά δεδομένα παρέχουν την απαραίτητη επίβλεψη για τον περιορισμό της εκπαίδευσης. Οι συναγόμενες επισημειώσεις των πραγματικών δεδομένων σε ένα πεδίο χρησιμοποιούνται στη συνέχεια ως ψευδο-επισημειώσεις (pseudo-labels) για την προσαρμογή στο επόμενο πεδίο της ακολουθίας. Τρίτον, επαυξάνουμε την CMAda εισάγοντας δύο καθοδηγούμενες εκδοχές της: την Guided Curriculum Model Adaptation (GCMA) και την Map-Guided Curriculum Domain Adaptation (MGCDA). Τόσο η GCMA όσο και η MGCDA χρησιμοποιούν ασθενή επίβλεψη για τη ροή των πραγματικών δεδομένων, με τη μορφή αντίστοιχων εικόνων των ίδιων σκηνών ειλημμένων υπό κανονικές συνθήκες, οι οποίες χρησιμοποιούνται για τη εκλέπτυνση των συναχθέντων ψευδο-επισημειώσεων στα δυσμενή πεδία. Ενώ στην GCMA αυτή η εκλέπτυνση πραγματοποιείται με ένα απλό ετερο-αμφίπλευρο (cross-bilateral) φίλτρο, στην MGCDA εκτιμούμε ρητά τη γεωμετρία δύο όψεων του ζεύγους της κανονικής και της δυσμενούς εικόνας ώστε να παραμορφώσουμε τις επισημειώσεις από την όψη της κανονικής εικόνας στην όψη της δυσμενούς εικόνας. Η παρούσα διατριβή συνεισφέρει επίσης πολλαπλά σύνολα δεδομένων για τη σημασιολογική κατανόηση σκηνών οδήγησης υπό αντίξοες συνθήκες. Πρώτον, εφαρμόζουμε τη μέθοδο προσομοίωσης ομίχλης μας στο σύνολο δεδομένων Cityscapes και δημιουργούμε τα Foggy Cityscapes και Foggy Cityscapes-DBF. Το Foggy Cityscapes παράγεται με την αρχική εκδοχή της προσομοίωσης ομίχλης μας και περιλαμβάνει 25.000 ομιχλώδεις εικόνες, ενώ το Foggy Cityscapes-DBF δημιουργείται με τη βελτιωμένη εκδοχή, η οποία χρησιμοποιεί επιπλέον σημασιολογικές επισημειώσεις για την εκλέπτυνση του βάθους, και περιλαμβάνει 3.475 ομιχλώδεις εικόνες. Δεύτερον, κατασκευάζουμε δύο πραγματικά σύνολα δεδομένων με ομίχλη, τα Foggy Driving και Foggy Zurich. Και τα δύο σύνολα περιλαμβάνουν σημασιολογικές επισημειώσεις σε επίπεδο εικονοστοιχείου καθώς και επισημειώσεις πλαισίων φραγής (bounding boxes). Τρίτον, εισάγουμε το Dark Zurich, ένα πραγματικό σύνολο δεδομένων που καλύπτει πολλαπλές ώρες της ημέρας, περιλαμβάνοντας την ημέρα, την ώρα του λυκόφωτος και τη νύχτα. Το Dark Zurich διαθέτει αντιστοιχίες διαφορετικών ωρών της ημέρας σε επίπεδο εικόνων και επιτρέπει την εκπαίδευση των προτεινόμενων μεθόδων μας οι οποίες βασίζονται σε τέτοιες αντιστοιχίες, δηλαδή των GCMA και MGCDA. Περιλαμβάνει επίσης 201 σημασιολογικές επισημειώσεις σε επίπεδο εικονοστοιχείου σε συνθήκες νύχτας για σκοπούς αξιολόγησης. Το τελικό σύνολο δεδομένων που παρουσιάζουμε σε αυτή τη διατριβή είναι το ACDC ή Adverse Conditions Dataset with Correspondences (Σύνολο Δεδομένων Αντιξόων Συνθηκών με Αντιστοιχίες) και αποτελείται από ένα μεγάλο σύνολο 4.006 επισημειωμένων εικόνων, κατανεμημένων ισομερώς μεταξύ ομίχλης, νύχτας, βροχής και χιονιού. Το εξειδικευμένο πρωτόκολλο επισημειώσεων του ACDC, το οποίο περιλαμβάνει προνομιακές πληροφορίες, εξασφαλίζει αξιόπιστα δεδομένα αναφοράς και επιτρέπει τη χρήση του ACDC για επιβλεπόμενη εκπαίδευση μεγάλων μοντέλων σε πραγματικά δεδομένα που αντιστοιχούν σε αντίξοες συνθήκες. Το ACDC χρησιμοποιείται επίσης για την καθιέρωση ενός νέου οροσήμου (benchmark) με πραγματικά δεδομένα από κανονικές σε αντίξοες συνθήκες για μη επιβλεπόμενη και ασθενώς επιβλεπόμενη προσαρμογή πεδίου. Επιπλέον, ορίζουμε το νέο πρόβλημα της σημασιολογικής κατάτμησης με επίγνωση αβεβαιότητας (uncertainty-aware semantic segmentation) στο ACDC, στο οποίο η αξιολόγηση πραγματοποιείται με τη μετρική uncertainty-aware intersection-over-union (UIoU). Το νέο αυτό πρόβλημα απαιτεί ως επιπρόσθετη έξοδο έναν χάρτη εμπιστοσύνης και η μετρική μας, UioU, επιβραβεύει προβλέψεις με προφίλ εμπιστοσύνης τα οποία είναι συνεπή με την ανθρώπινη εμπιστοσύνη.
περισσότερα
Περίληψη σε άλλη γλώσσα
Level 5 autonomy for self-driving cars requires a robust perception system that can parse input images under any visual condition. However, most of the existing work for semantic understanding of driving scenes focuses on normal conditions, i.e., daytime and clear weather. What is more, the models trained with methods and datasets pertaining to normal conditions generalize poorly to adverse visual conditions. This thesis addresses this shortcoming by introducing methods and datasets for improving the performance of semantic scene understanding algorithms under adverse conditions. At the method level, we pursue this goal by adapting algorithms from normal to adverse conditions with minimal supervision in the latter domain. At the dataset level, we construct several driving scene datasets in adverse conditions to support the training and evaluation of algorithms in these domains, and additionally define a novel task which addresses the uncertainty of semantic image content under adverse ...
Level 5 autonomy for self-driving cars requires a robust perception system that can parse input images under any visual condition. However, most of the existing work for semantic understanding of driving scenes focuses on normal conditions, i.e., daytime and clear weather. What is more, the models trained with methods and datasets pertaining to normal conditions generalize poorly to adverse visual conditions. This thesis addresses this shortcoming by introducing methods and datasets for improving the performance of semantic scene understanding algorithms under adverse conditions. At the method level, we pursue this goal by adapting algorithms from normal to adverse conditions with minimal supervision in the latter domain. At the dataset level, we construct several driving scene datasets in adverse conditions to support the training and evaluation of algorithms in these domains, and additionally define a novel task which addresses the uncertainty of semantic image content under adverse conditions. The contributions of the thesis in adaptation to adverse conditions pertain both to synthetic data generation and domain adaptation strategies. First, we introduce a physically-based fog simulation pipeline on real outdoor scenes that generates partially synthetic foggy images. These foggy images inherit the annotations of their original clear-weather counterparts and are thus used for training models on fog in a supervised setting. Second, we present a curriculum adaptation framework with synthetic and real data through a sequence of visual domains with increasing level of adversity. This framework, named Curriculum Model Adaptation (CMAda), is semi-supervised: the synthetic data it uses include annotations, while the real data do not. The main principle of CMAda is to gradually infer the missing labels of real data, starting from the easy domain of normal conditions and proceeding to increasingly harder domains, e.g. denser fog or darker time of day. In this process, the labeled synthetic data provide the supervision that is required to constrain the training. The inferred labels of real data in one domain are then used as pseudo-labels for adaptation to the next domain in the sequence. Third, we enhance CMAda by introducing two guided versions of it, Guided Curriculum Model Adaptation (GCMA) and Map-Guided Curriculum Domain Adaptation (MGCDA). Both GCMA and MGCDA use weak supervision for the real data stream in the form of corresponding images of the same scenes taken under normal conditions, which are used to refine the inferred pseudo-labels in the adverse domains. While in GCMA this refinement is performed with a simple cross-bilateral filter, in MGCDA we explicitly estimate the two-view geometry of the normal-adverse image pair to warp the labels from the normal-condition to the adverse-condition view. This thesis also contributes several datasets for semantic driving scene understanding in adverse conditions. First, we apply our fog simulation to the Cityscapes dataset and generate Foggy Cityscapes and Foggy Cityscapes-DBF. Foggy Cityscapes is obtained with the initial version of our fog simulation and includes 25000 foggy images, while Foggy Cityscapes-DBF is generated with the improved version, which additionally uses semantic annotations for depth refinement, and comprises 3475 foggy images. Second, we construct two real-world foggy datasets, Foggy Driving and Foggy Zurich. Both sets include pixel-level semantic annotations as well as bounding box annotations. Third, we introduce Dark Zurich, a real-world dataset covering multiple times of day, including daytime, twilight time and nighttime. Dark Zurich features image-level cross-time-of-day correspondences and enables training of our proposed methods that rely on such correspondences, i.e. GCMA and MGCDA. It also includes 201 pixel-level semantic annotations at nighttime for evaluation. The final dataset we introduce in this thesis is ACDC, the Adverse Conditions Dataset with Correspondences, and consists of a large set of 4006 annotated images, evenly distributed between fog, nighttime, rain, and snow. The specialized annotation protocol for ACDC with privileged information affords reliable ground truth and enables the usage of ACDC for supervised training of large models on real-world data pertaining to adverse conditions. ACDC is also used to establish a new, real-world normal-to-adverse benchmark for unsupervised and weakly supervised domain adaptation. Moreover, we define the novel task of uncertainty-aware semantic segmentation on ACDC, in which evaluation is performed with the uncertainty-aware intersection-over-union (UIoU) metric. The new task additionally requires a confidence map as output and our UIoU metric rewards predictions with confidence profiles that are consistent with human confidence.
περισσότερα