Περίληψη
Τα τελευταία χρόνια το πεδίο της όρασης υπολογιστών γνωρίζει μία ραγδαία αύξηση της διάθεσης τρισδιάστατων αναπαραστάσεων. Πιο συγκεκριμένα, λόγω της ανάπτυξης των συσκευών χαμηλού κόστους που τεκμηριώνουν τριασδιάστατα σκηνές, π.χ., Microsoft Hololens, Meta’s Project Aria, Apple’s i-phone, υπολογίζεται ότι στο άμεσο μέλλον οι 3Δ αναπαραστάσεις σκηνών (σε μορφή νεφών σημείων ή επιφανειών) θα είναι τόσο συνήθεις όσο οι εικόνες. Προς αυτή την κατεύθυνση έχει συμβάλει και η ανάπτυξη αλγορίθμων υπολογισμού νεφών σημείων από επικαλυπτόμενες εικόνες, δηλαδή οι αλγόριθμοι SfM, MVS.Η ευρεία διαθεσιμότητα των τρισδιάστατων δεδομένων ακολούθως δημιούργησε την ανάγκη για την ανάπτυξη νέων και αξιόπιστων αλγορίθμων για την επεξεργασία τους. Αναπόσπαστο κομμάτι των αλγορίθμων αυτών αποτελεί η διαδικασία της κατανόησης τρισδιάστατης σκηνής (3D scene understanding). Ο τομέας αυτός βρίσκει πληθώρα εφαρμογών σε σύγχρονες τεχνολογίες αιχμής, συμπεριλαμβανόμενων των εφαρμογών της αυτόματης πλοήγησης οχημ ...
Τα τελευταία χρόνια το πεδίο της όρασης υπολογιστών γνωρίζει μία ραγδαία αύξηση της διάθεσης τρισδιάστατων αναπαραστάσεων. Πιο συγκεκριμένα, λόγω της ανάπτυξης των συσκευών χαμηλού κόστους που τεκμηριώνουν τριασδιάστατα σκηνές, π.χ., Microsoft Hololens, Meta’s Project Aria, Apple’s i-phone, υπολογίζεται ότι στο άμεσο μέλλον οι 3Δ αναπαραστάσεις σκηνών (σε μορφή νεφών σημείων ή επιφανειών) θα είναι τόσο συνήθεις όσο οι εικόνες. Προς αυτή την κατεύθυνση έχει συμβάλει και η ανάπτυξη αλγορίθμων υπολογισμού νεφών σημείων από επικαλυπτόμενες εικόνες, δηλαδή οι αλγόριθμοι SfM, MVS.Η ευρεία διαθεσιμότητα των τρισδιάστατων δεδομένων ακολούθως δημιούργησε την ανάγκη για την ανάπτυξη νέων και αξιόπιστων αλγορίθμων για την επεξεργασία τους. Αναπόσπαστο κομμάτι των αλγορίθμων αυτών αποτελεί η διαδικασία της κατανόησης τρισδιάστατης σκηνής (3D scene understanding). Ο τομέας αυτός βρίσκει πληθώρα εφαρμογών σε σύγχρονες τεχνολογίες αιχμής, συμπεριλαμβανόμενων των εφαρμογών της αυτόματης πλοήγησης οχημάτων, της πλοήγησης και αλληλεπίδρασης ρομποτικών συσκευών και εφαρμογών επαυξημένης και εικονικής πραγματικότητας. Εξέχουσα σημασία μέσα στην ευρύτερη έννοια της κατανόησης τρισδιάστατης σκηνής, αποτελεί ο εντοπισμός αντικειμένων εντός της σκηνής. Η κατανόηση των αντικειμένων εντός της σκηνής βρίσκει έμπρακτες εφαρμογές στη ρομποτική προκειμένου οι συσκευές να μπορούν να φέρουν εις πέρας συγκεκριμένες εργασίες (π.χ.,καθαρισμός εσωτερικού χώρου, μετακίνηση αντικειμένων κ.α.) αλλά και στην αυτόματη πλοήγηση. Η αναγνώριση των τρισδιάστατων αντικειμένων στη σκηνή έχει επίσης ύψιστη σημασία και για τις εφαρμογές επαυξημένης και εικονικής πραγματικότητας, καθώς μπορεί να εξασφαλίσει στον χρήστη μία ολοκληρωμένη εμπειρία,όπου ο εικονικός κόσμος συνδυάζεται με τον πραγματικό. Η ανίχνευση των τρισδιάστατων αντικειμένων που αποτελεί μία επιτακτική ανάγκη, όπως φαίνεται και από τα παραπάνω, μπορεί να επιτευχθεί μέσω διάφορων αλγορίθμων. Οι πιο στενά συνδεδεμένοι αλγόριθμοι, είναι εκείνοι που πραγματοποιούν τρισδιάστατη ανεύρεση αντικειμένων (3D object detection). Παρόλα αυτά υπάρχει άμεση συσχέτιση και με τους αλγορίθμους σημασιολογικής κατάτμησης τρισδιάστατης σκηνής (3D semantic segmentation), αλγορίθμους ανίχνευσης τρισδιάστατων μεταβολών σε επίπεδο αντικειμένου (3D object-level change detection), και αλγόριθμους κατάτμησης τρισδιάστατων στιγμιοτύπων (3D instance segmentation). Πιο συγκεκριμένα, δηλώνοντας κανείς ως αντικείμενο στον χώρο ένα στιγμιότυπο, ή οτιδήποτε έχει κινηθεί μεταξύ διαδοχικών καταγραφών της ίδιας σκηνής, οι παραπάνω εργασίες κατάτμησης τρισδιάστατων στιγμιοτύπων και ανίχνευσης τρισδιάστατων μεταβολών μπορούν να μας πληροφορήσουν σχετικά με τα αντικείμενα που υπάρχουν στη σκηνή. Παράλληλα, η σημασιολογική κατάτμηση της 3Δ σκηνής παρέχει ενδιαφέρουσα πληροφορία σχετικά με τα είδη των αντικειμένων που υπάρχουν στη σκηνή. Λόγω της εξέχουσας σημασίας των τριών αυτών αλγορίθμων στον τομέατης τρισδιάστατης όρασης υπολογιστών, η παρούσα διδακτορική διατριβή εστιάζει στη μελέτη και κατανοήσή τους, και στην πρόταση νέων μεθόδων προκειμένου να συνεισφέρει στην ανάπτυξή τους. Οι συγκεκριμένες τρεις περιοχές έρευνας, σημασιολογική κατάτμηση τρισδιάστατης σκηνής (3D semantic segmentation), ανίχνευση τρισδιάστατων μεταβολών σε επίπεδο αντικειμένου (object-level 3D change detection), και κατάτμηση τρισδιάστατων στιγμιοτύπων (3D instance segmentation) αποτελούν ιδιαίτερα δημοφιλή πεδία έρευνας τα τελευταία χρόνια. Οι μέθοδοι που έχουν μέχρι στιγμής αναπτυχθεί περιλαμβάνουν τόσο μη εκπαιδευμένες (non supervised) και εκπαιδευμένες (supervised) λύσεις, με τις πρώτες να δίνουν περισσότερο βάρος στην εγγενή δομή και γεωμετρία της σκηνής. Σχετικά με τις επιβλεπόμενες μεθόδους, οι πρώτες προσεγγίσεις περιορίζονταν σε συνδυασμό κλασσικών μεθόδων μηχανικής μάθησης (π.χ.,μηχανές διανυσματικής στήριξης - support vector machines), και χαρακτηριστικών που έχουν εξαχθεί από άνθρωπο (hand-crafted features). Παρόλα αυτά, τα τελευταία χρόνια οι αλγόριθμοι εστιάζουν στη χρήση καινοτόμων τεχνολογιών βαθιάς μηχανικής μάθησης (deep learning) και των foundation models, με αξιοσημείωτα,σε πολλές περιπτώσεις, αποτελέσματα. Παρά τις έντονες προσπάθειες στις συγκεκριμένες ερευνητικές περιοχές, πολλά ερωτήματα παραμένουν αναπάντητα. Αυτό πολλές φορές οφείλεται στην ελλιπή πληροφορία για την επίλυση αυτών των προβλημάτων. Ταυτόχρονα, τα τελευταία χρόνια, η ερευνητική κοινότητα της όρασης υπολογιστών βρίσκει ιδιαίτερο όφελος στη χρήση δεσμεύσεων, ως επιπλέον πηγή πληροφοριών για καλύτερη απόδοση σχετικών αλγορίθμων. ΄Ενα τυπικό παράδειγμα, αποτελεί η χρήση δεσμεύσεων σκηνής (scenepriors) για την τρασδιάστη ανακατασκεύη. Εμπνευσμένοι από αυτό, στη συγκεκριμένη διδακτορική διατριβή μελετάμε κατά πόσο η χρήση των δεσμεύσεων σκηνής στη σημασιολογική κατάτμηση τρισδιάστατης σκηνής, την ανίχνευση τρισδιάστατων μεταβολών, και την κατάτμηση τρισδιάστατων στιγμιοτύπων μπορεί να οδηγήσει σε καλύτερα αποτελέσματα. Πιο συγκεκριμένα, με τον όρο δεσμεύσεις σκηνής, περιγράφεται οποιαδήποτε επιπλέον πληροφορία, η οποία μπορεί να υπάρχει εγγενώς, π.χ., κάποια γεωμετρική δέσμευση (geometric constraint), ή κάποια δέσμευση που προέρχεται από τις εικόνες που συνδέονται με την τρισδιάστατη ανακατασκευή (2Dimage constraint). Αναφορικά με τις δισδιάστατες δεσμεύσεις από εικόνες, αυτές είναι εύκολο να εφαρμοστούν και αποτελούν μια άμεσα αξιοποιήσιμη επιπλέον πηγή πληροφοριών όταν τα δεδομένα μας προκύπτουν από πολλές επικαλυπτόμενες εικόνες (αλγόριθμοι SfM, MVS) ή από δεδομένα μορφής RGB-D , όπου συνδυάζουν εικόνες βάθους και εικόνες RGB. Σχετικά με τις συνεισφορές της συγκεκριμένης διατριβής, το πρώτο κομμάτι ασχολείται με τη διαμόρφωση δύο καινούργιων μεθόδων για την τρισδιάστατη ανίχνευση αλλαγών σε επίπεδο αντικειμένου. Στο πρώτο κεφάλαιο του πρώτου μέρους (κεφάλαιο 3), περιγράφεται το πώς οι αρχικές περιοχές μεταβολών που έχουν αποκτηθεί από σύγκριση των δύο σκηνών, βελτιώνονται με τη χρήση των γεωμετρικών δεσμεύσεων. Πιο συγκεκριμένα, ο αρχικός εντοπισμός από την απλή σύγκριση του βάθους είναι αρκετά ελλιπής. Παρόλα αυτά, στη συγκεκριμένη περίπτωση, μπορούμε να εκμεταλλευτούμε μια εγγενή πληροφορία της σκηνής, η οποία είναι οι γεωμετρικοί μετασχηματισμοι που εισάγονται από την κίνηση των αντικειμένων. Χρησιμοποιώντας κανείς την πληροφορία αυτή ως δέσμευση, μπορεί με τη χρήση ενός γράφου,να υπολογίσει πληρέστερα όλη την περιοχή της αλλαγής, μεταφέροντας την αλλαγή σε όλη τη γειτονιά που υπακούει στον ίδιο γεωμετρικό μετασχηματισμό (καθώς τα στερεά αντικείμενα όταν μετακινούνται χαρακτηρίζονται από τον ίδιο συνολικό γεωμετρικό μετασχηματισμό). Στο δεύτερο κομμάτι του πρώτου μέρους (κεφάλαιο 4),η δέσμευση αφορά στις μάσκες κατάτμησης σε δισδιάστατες εικόνες. Πιο συγκεκριμένα, χρησιμοποιούμε μία τεχνολογία αιχμής (foundation model) για δισδιάστατη κατάτμηση στιγμιοτύπου. Τα στιγμιότυπα που μοιράζονται την ίδια μάσκα στην εικόνα κατά πάσα πιθανότητα ανήκουν στο ίδιο αντικείμενο. Συνεπώς, μεταφέρουμε αυτή την πληροφορία στον τρισδιάστατο χώρο και συμπληρώνουμε τις ελλιπείς αρχικές ανιχνεύσεις (από τη διαφορά βάθους) με αυτή την επιπλέον πληροφορία. Με τον τρόπο αυτό, μεταφέρεται η ανίχνευση της αλλαγής σε όλη την περιοχή που μοιράζεται την ίδια μάσκα κατάτμησης στιγμιοτύπου και συνεπώς σε όλο το αντικείμενο. Οι δύο καινούργιοι προτεινόμενοι αλγόριθμοι έχουν εφαρμοστεί σε σχετικά σύνολα δεδομένων με αξιόπιστες και κατάλληλες μετρικές και πετυχαίνουν τη βέλτιστη απόδοση στη σχετική βιβλιογραφία. Το δεύτερο μέρος επικεντρώνεται στη κατάτμηση στιγμιότυπου και τη σημασιολογική κατάτμηση τρισδιάστατης σκηνής στην περίπτωση των κτιρίων. Στις δεδομένες περιπτώσεις, τα τρισδιάστατα νέφη σημείων (point clouds) προκύπτουν από επικαλυπτόμενες εικόνες. Το πρώτο κεφάλαιο του δεύτερου μέρος (κεφάλαιο 5) εστιάζειστην κατάτμηση στιγμιοτυπου με την ταυτόχρονη χρήση δισδιάστατων δεσμεύσεων από τις εικόνες. Πιο συγκεκριμένα, σκοπός είναι η κατάτμηση των προσόψεων κτιρίων. Αυτό μπορεί εύκολα να πραγματοποιηθεί γεωμετρικά, με κάποιον αλγόριθμο εντοπισμού των επιπέδων των προσόψεων, π.χ,. χρήση RANSAC για ανίχνευση επιπέδων. Με τη δεδομένη όμως προσέγγιση δημιουργείται πρόβλημα όταν διαφορετικά στιγμιότυπα ανήκουν στο ίδιο επίπεδο, όπως συμβαίνει για παράδειγμα με τις πόρτες και τα παράθυρα ενός κτιρίου. Για να αντιμετωπίσουμε το πρόβλημα αυτό, προτείνουμε μία παραλλαγή του γνωστού αλγρίθμου RANSAC, με ταυτόχρονη εισαγωγή δεσμεύσεων που προέρχονται από τις εικόνες. Αναλυτικότερα, καθώς τα στιγμιότυπα, σε αυτές τις περιπτώσεις των δομικών συστατικών, χαρακτηρίζονται συνηθως από ομοιόμορφη υφή, αρχικά πραγματοποιούμε μία κατάτμηση στιγμιοτύπων στην εικόνα με βάση την υφή, με χρήση του μη-επιβλεπομένου αλγορίθμου k-means. Στη συνέχεια, τροποποιούμε τον αλγόριθμο RANSAC, προκείμενου να εντοπίζει γεωμετρικά επίπεδα τα οποία όμως μοιράζονται την ίδια μάσκα στην εικόνα και να διαχωρίζει τα επίπεδα που δε μοιράζονται την ίδια μάσκα. Ο αλγόριθμος που αναπτύχθηκε, και ονομάστηκε Η-RANSAC εφαρμόστηκε σε ανάλογα σύνολα δεδομένων. Η χρήση κατάλληλων μετρικών για την αξιολόγησή του απέδειξε πως η εισαγωγή των δεσμεύσεων σκηνής στα πλαίσια του Η-RANSAC βελτιώνει τα αποτελέσματα σε σχέση με τον παραδοσιακό αλγόριθμο RANSAC. Το δεύτερο κομμάτι του δεύτερου μέρους εστιάζει στα υβριδικά χαρακτηριστικά (hybrid features) για την πιο επιτυχημένη σημασιολογική κατάτμηση της 3Δ σκηνής. Πιο συγκεκριμένα, όταν τα τρισδιάστατα νέφη σημείων (point clouds) προκύπτουν από επικαλυπτόμενες εικόνες, συνήθως οι εικόνες δε χρησιμοποιούνται περεταιτέρω για εργασίες όπως η σημασιολογική κατάτμηση σκηνής. Πράγματι, σε αντίστοιχες περιπτώσεις, οι περισσότεροι αλγόριθμοι της διεθνούς βιβλιογραφίας χρησιμοποιούντα γεωμετρικά χαρακτηριστικά (geometric features) και τα χαρακτηριστικά υφής (visual features) όπως αυτά προέρχονται απευθείας από το νέφος σημείων. Παρόλα αυτά, στη συντριπτική πλειοψηφία των περιπτώσεων, τα δεδομένα υφής χαρακτηρίζονται από σαφώς υψηλότερη ποιότητα όταν αυτά προέρχονται από τις εικόνες. Για τον λόγο αυτό, το κεφάλαιο 6 προτείνει μία νέα μέθοδο, που συνδυάζει χαρακτηριστικά υφής που έχουν εξαχθεί από τις εικόνες και χαρακτηριστικά γεωμετρίας από το νέφος σημείων, προκειμένου να επιτύχει καλύτερα αποτελέσματα στη τρισδιάστατη σημασιολογική κατάτμηση. Επίσης, καθώς ένα σημείο κατά κανόνα εμφανίζεται σε περισσότερες από μία επικαλυπτόμενες εικόνες, το κεφάλαιο 6 προτείνει μία μέθοδο για την επιλογή της βέλτισης εικόνας. Η βέλτιση εικόνα εξασφαλίζει τη βέλτιση δυνατή υφή, ούτως ώστε να υπολογιστούν τα χαρακτηριστικά υφής με τον πιο πιο αποτελεσματικό τρόπο. Ο αλγόριθμος που συντάχθηκε εφαρμόστηκε σε κατάλληλα σύνολα δεδομένων και οι αντίστοιχες μετρικές αποδεικνύουν την αποτελεσματικότητα των παραπάνω. Τα γενικά συμπεράσματα και οι μελλοντικές προεκτάσεις παρουσιάζονται στο κεφάλαιο 7, μαζί με το γενικότερο πλαίσιο της έρευνας και τις σχετικές δημοσιεύσεις της συγγραφέως.
περισσότερα
Περίληψη σε άλλη γλώσσα
3D scene understanding, i.e., the task of perceiving three-dimensional scenes, is essential to the vast majority of computer vision applications. Indeed, due to the recent advancements in software and hardware that have made 3D representations widely available, efficient and reliable algorithms for 3D perception are imperative. Interesting applications of 3D scene understanding concern but are not limited to autonomous driving, indoor agents, and multiple AR and VR scenarios. This thesis particularly acknowledges the importance of 3D object extraction in the scene. Identifying physical 3D objects is a crucial task for robots in order to be able to interact with them, but also for AR/VR applications, towards a unified user experience where the physical and digital worlds merge seamlessly. The past few years, tremendous efforts of the research community concerned 3Dobject extraction, which can be achieved through different tasks. Among them, we find 3D object-level detection and 3D insta ...
3D scene understanding, i.e., the task of perceiving three-dimensional scenes, is essential to the vast majority of computer vision applications. Indeed, due to the recent advancements in software and hardware that have made 3D representations widely available, efficient and reliable algorithms for 3D perception are imperative. Interesting applications of 3D scene understanding concern but are not limited to autonomous driving, indoor agents, and multiple AR and VR scenarios. This thesis particularly acknowledges the importance of 3D object extraction in the scene. Identifying physical 3D objects is a crucial task for robots in order to be able to interact with them, but also for AR/VR applications, towards a unified user experience where the physical and digital worlds merge seamlessly. The past few years, tremendous efforts of the research community concerned 3Dobject extraction, which can be achieved through different tasks. Among them, we find 3D object-level detection and 3D instance segmentation. Indeed, through the comparison of multiple observations of the same scene at different time intervals, object-level scene comparison can provide information about what objects exist in the scene and how people interact with them. To this end, when denoting as an object anything that has changed between different captures or when denoting as an object every instance, the aforementioned tasks are also related to 3D object identification. On top of these tasks, 3D semantic segmentation provides crucial information concerning the type of objects existing in the scene. From the above, it is thus clear that these sub-tasks provide information that is not only directly correlated to their task description but also correlated to object identification. Motivated by the importance of object identification and by the fact that object discovery can be achieved through different scene understanding sub-tasks, this thesis focuses on object-level 3D change detection, instance, and semantic segmentation. All the above problems have been long-standing issues in the computer vision community. Over the years, multiple solutions have been deployed, incorporating trained and non-trained approaches. Non-trained solutions mainly focus on the scene structure and geometry. On the other hand, supervised solutions, integrating hand-crafted features and traditional machine learning techniques to the latest trends in deep learning and foundation models, have achieved impressive results. However, a lot of questions remain unanswered. Given the unconstrained nature of these problems and inspired by the remarkable performance of integrating scene priors into other 3D vision tasks, we decide to study the impact of leveraging scene priors towards successful 3D understanding. More specifically, the data used in this thesis are sourced from multiple overlapping images, either RGB-D sequences or SfM/MVS data. Thus, high-quality texture information is available in the form of 2D images. These images can impose a set of priors on these unconstrained tasks. Such priors typically include consistency between 2D and 3D segmentations. Moreover, implicit 3D scene information, such as geometric transformations induced by moving objects between changing scenes, shall also be exploited as a scene prior. In the context of this thesis, the main contributions refer to proving the efficiency of integrating scene priors into solving the aforementioned 3D scene understanding sub-tasks. To this end, novel methods for 3D instance and 3D semantic information, and 3D change detection are formulated. All the proposed methods integrate constraints induced by the scene priors. More specifically, two novel approaches for object-level 3D change detection are proposed. The first method leverages the geometric constraints induced by the moving objects. As such, it optimizes the initially detected regions (through render-and-compare) to the whole object undergoing the same rigid transform in the context that everything that moves together should belong together. The second approach exploits generic 2D segmentation masks to propagate change from the initial regions to the whole changing object. Subsequently, for 3D instance segmentation, the well-established RANSAC algorithm used for 3D plane fitting is extended to H-RANSAC. H-RANSAC ensures that the extracted 3D planes fulfill an extra 2D consistency check (i.e., the 3D planes should also belong to the same 2D mask in the image). Finally, towards 3D semantic segmentation, 2Dimage information is also used. In the SfM/MVS data scenario, 2D images that typically ensure higher-quality visual characteristics are often discarded. Towards a more successful 3D semantic segmentation, we propose a method that not only leverages image texture but also proposes a novel heuristic for optimal view extraction. Thus, the method identifies the most appropriate view to provide the visual features. All the methods are extensively studied and rigorously evaluated using tailored evaluation metrics on appropriate benchmarks.
περισσότερα