Περίληψη
Η αναγνώριση οπτικών ελαττωμάτων όπως εφαρμόζεται στον κατασκευαστικό τομέα είναι ένα θέμα που απασχολεί την τρέχουσα έρευνα στο πεδίο της τεχνητής νοημοσύνης, καθώς αυτός αποτελεί αναπόσπαστο μέρος της διαδικασίας παραγωγής που αυτοματοποιείται ολοένα και περισσότερο με την εμφάνιση της Βιομηχανίας 4.0 και της Βιομηχανίας 5.0. Αν και είναι μια πολύ ευεργετική λύση, οι αλγόριθμοι όρασης υπολογιστών που βασίζονται στη Μηχανική Μάθηση και τα Βαθιά Νευρωνικά Δίκτυα αντιμετωπίζουν πολλά προβλήματα που μπορεί να εμποδίσουν την υιοθέτησή τους σε πρακτικές εφαρμογές, όπως σε μια γραμμή παραγωγής. Τα σύνολα δεδομένων που περιέχουν ελαττώματα δεν έχουν συνήθως ισορροπημένες κλάσεις και πάσχουν κατά τον διαχωρισμό μεταξύ κλάσεων υψηλής οπτικής ομοιότητας. Ένα άλλο ζήτημα που προκύπτει κατά τη συνεχή λειτουργία ενός ταξινομητή μηχανικής μάθησης είναι η έλλειψη ανθεκτικότητας σε νέα ελαττώματα που εμφανίζονται για πρώτη φορά. Ο στόχος αυτής της εργασίας είναι να αντιμετωπίσει τέτοιες προκλήσεις πα ...
Η αναγνώριση οπτικών ελαττωμάτων όπως εφαρμόζεται στον κατασκευαστικό τομέα είναι ένα θέμα που απασχολεί την τρέχουσα έρευνα στο πεδίο της τεχνητής νοημοσύνης, καθώς αυτός αποτελεί αναπόσπαστο μέρος της διαδικασίας παραγωγής που αυτοματοποιείται ολοένα και περισσότερο με την εμφάνιση της Βιομηχανίας 4.0 και της Βιομηχανίας 5.0. Αν και είναι μια πολύ ευεργετική λύση, οι αλγόριθμοι όρασης υπολογιστών που βασίζονται στη Μηχανική Μάθηση και τα Βαθιά Νευρωνικά Δίκτυα αντιμετωπίζουν πολλά προβλήματα που μπορεί να εμποδίσουν την υιοθέτησή τους σε πρακτικές εφαρμογές, όπως σε μια γραμμή παραγωγής. Τα σύνολα δεδομένων που περιέχουν ελαττώματα δεν έχουν συνήθως ισορροπημένες κλάσεις και πάσχουν κατά τον διαχωρισμό μεταξύ κλάσεων υψηλής οπτικής ομοιότητας. Ένα άλλο ζήτημα που προκύπτει κατά τη συνεχή λειτουργία ενός ταξινομητή μηχανικής μάθησης είναι η έλλειψη ανθεκτικότητας σε νέα ελαττώματα που εμφανίζονται για πρώτη φορά. Ο στόχος αυτής της εργασίας είναι να αντιμετωπίσει τέτοιες προκλήσεις παρέχοντας επαυξήσεις στις λύσεις τεχνητής νοημοσύνης, είτε σε επίπεδο δεδομένων είτε σε επίπεδο μοντέλου, ώστε να μπορούν να ανταποκριθούν σε πραγματικές συνθήκες στον κατασκευαστικό τομέα. Η αρχική εστίαση είναι στη Μη Ισορροπημένη Μάθηση. Παρόλο που έχουν προταθεί διάφορες μέθοδοι επαύξησης δεδομένων για τον μετριασμό των ανισορροπιών κλάσεων, συχνά αποτυγχάνουν σε ιδιαίτερα ολιγοπληθείς κατηγορίες ενώ, ταυτόχρονα, χρειάζονται σημαντικούς υπολογιστικούς πόρους για εκπαίδευση. Επίσης, η επαύξηση που βασίζεται σε υπερδειγματοληψία βάσει διανυσμάτων δυσκολεύεται να παράγει εισόδους υψηλής ευκρίνειας και είναι δύσκολο να εφαρμοστεί σε προσαρμοσμένες αρχιτεκτονικές ΄Συνελικτικών Νευρωνικών Δικτύων (ΣΝΔ), οι οποίες συχνά αποδίδουν καλύτερα για αυτόν τον τύπο προβλήματος. Η εργασία μας παρουσιάζει μια μέθοδο υπερδειγματοληψίας στο επίπεδο της εικόνας που μπορεί να εφαρμοστεί σε οποιοδήποτε ΣΝΔ απευθείας κατά τη διάρκεια της εκπαιδευτικής διαδικασίας χωρίς μεγάλη επιβάρυνση του απαιτούμενου χρόνου εκπαίδευσης. Ξεκινά με τον εντοπισμό ενός μικρού αριθμού αβέβαιων δειγμάτων κοντά στα εκτιμώμενα όρια μεταξύ δύο κλάσεων και βασίζει τη σύνθεση νέων δεδομένων σε αυτά. Οι εικόνες που προκύπτουν είναι υψηλής οπτικής ποιότητας διατηρώντας μικρές διαφορές μεταξύ των κατηγορίων και χρησιμεύουν στο να βελτιώσουν τα όρια του ταξινομητή, οδηγώντας σε υψηλότερη ανάκληση σε σχέση με άλλες προσεγγίσεις. Εκτός από την ανισορροπία κλάσεων, η αδυναμία συλλογής πολλών δεδομένων, καθώς και οι αυστηροί περιορισμοί ασφαλείας για τα κυβερνο-φυσικά συστήματα, υπαγορεύουν τον αποτελεσματικό χειρισμό καινοφανών εισόδων. Τέτοιες απρόσμενες είσοδοι μπορεί να αποτελέσουν σημαντικό κίνδυνο, καθώς μια λανθασμένη απόκριση σε αυτές θα μπορούσε να βλάψει την ακεραιότητα της διαδικασίας παραγωγής. Ενώ οι πρόσφατες μέθοδοι Μηχανικής Μάθησης μπορούν θεωρητικά να αντιμετωπίσουν αυτό το πρόβλημα από διαφορετικές οπτικές γωνίες (π.χ. αναγνώριση ανοιχτού συνόλου, ημι-εποπτευόμενη μάθηση, έξυπνη επαύξηση δεδομένων), εφαρμόζοντάς τες σε ένα πραγματικό περιβάλλον με ένα μικρό, μη ισορροπημένο σύνολο δεδομένων και υψηλή ομοιότητα μεταξύ των κλάσεων αποτελεί πρόκληση. Η παρούσα εργασία αντιμετωπίζει μια τέτοια περίπτωση που αφορά στην αυτοματοποίηση της οπτικής ποιοτικής επιθεώρησης εκτυπώσεων λογοτύπων σε κελύφη ξυριστικών μηχανών από τη βιομηχανία ηλεκτρονικών και χαρακτηρίζεται από σπανιότητα δεδομένων και ύπαρξη μικρών τοπικών ελαττωμάτων. Για το σκοπό αυτό, εισάγεται μια νέα προσέγγιση επαύξησης δεδομένων που βασίζεται στον χειρισμό του λανθάνοντος χώρου του StyleGAN, με αποτέλεσμα τα δεδομένα ελαττωμάτων να συντίθενται σκόπιμα για την προσομοίωση νέων εισόδων με στόχο τον σχηματισμό ενός ορίου γύρω από την γνωστή κατανομή εκπαίδευσης του μοντέλου. Η προσέγγισή μας δείχνει υποσχόμενα αποτελέσματα σε σύγκριση με τις καθιερωμένες μεθόδους αναγνώρισης ανοιχτού συνόλου και τις ημι-εποπτευόμενες μεθόδους που εφαρμόζονται στο ίδιο πρόβλημα, ενώ η σταθερή απόδοσή της σε διαφορετικούς χώρους χαρακτηριστικών υποδεικνύει χαμηλότερη σύζευξη με τη διαδικασία εξαγωγής τους. Η παραπάνω μέθοδος εξακολουθεί να απαιτεί αρκετά δεδομένα για την εκπαίδευση του StyleGAN, κάτι που μπορεί να μην είναι πάντα δυνατό ή οικονομικά αποδοτικό. Η συλλογή ολοένα και περισσότερων δεδομένων ελαττωμάτων επίσης συχνά δεν είναι λύση, καθώς τα ελαττώματα εμφανίζονται σπάνια στην παραγωγή και ο χρόνος εγκατάστασης του ευφυούς επιθεωρητή ποιότητας γίνεται σημαντικά πιο αργός. Για να αντιμετωπίσουμε μικρότερα σύνολα δεδομένων εφαρμόζουμε μια καινοτόμο προσέγγιση που βασίζεται στη Νευροσυμβολική Τεχνητή Νοημοσύνη. Συγκεκριμένα, χρησιμοποιούμε ένα Δίκτυο Λογικού Τανυστή που εκφράζει τις εξόδους ενός μη-επιβλεπόμενου ανιχνευτή ανωμαλιών ως συμβολικούς κανόνες με στόχο στη συνέχεια να καθοδηγήσει την εκπαίδευση ενός νευρωνικού δικτύου. Ο αλγόριθμος που προκύπτει δείχνει βελτιωμένα αποτελέσματα σε σύγκριση με άλλες σχετικές μεθόδους, ειδικά όσον αφορά στην ανάκληση ελαττωμάτων, πράγμα που σημαίνει ότι λίγα ελαττώματα παραμένουν μη ανιχνεύσιμα ακόμη και αν είναι εντελώς καινοφανή. Πιο συγκεκριμένα, επιτυγχάνει παρόμοια ή καλύτερα αποτελέσματα ανάκλησης από τις ημι-εποπτευόμενες και μη εποπτευόμενες μεθόδους κατά τον χειρισμό νέων ελαττωμάτων, αλλά παράλληλα υπερέχει σημαντικά σε ελαττώματα που παρατηρήθηκαν κατά τη διάρκεια της εκπαίδευσης. Ομοίως, σε σύγκριση με τις εποπτευόμενες μεθόδους, διατηρεί υψηλή απόδοση σε γνωστά ελαττώματα, ενώ ταυτόχρονα δείχνει μεγάλη βελτίωση στα καινοφανή. Τα αποτελέσματα αυτά γίνονται ορατά μέσω των υψηλότερων βαθμολογιών F1 στην πλειονότητα των συνόλων δεδομένων αξιολόγησης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Visual defect recognition and its manufacturing applications have been an upcoming topic in recent AI research as an integral part of the manufacturing process that is becoming increasingly automated with the advent of Industry 4.0 and Industry 5.0. While being a very beneficial solution to this problem, AI-driven Computer Vision Algorithms and Deep Neural Networks face several issues that may impede their adoption in practical real-life settings such as a manufacturing shop floor. For instance, defect datasets are often severely imbalanced and can be additionally burdened with separating classes of high visual similarity. Another issue arising during an AI classifier's continuous operation is the frequent lack of robustness to novel defects appearing for the first time. The aim of this thesis is to deal with such challenges by providing augmentations to AI solutions, either on the data or the model level, addressing real-life and benchmark scenarios from the domain of manufacturing. T ...
Visual defect recognition and its manufacturing applications have been an upcoming topic in recent AI research as an integral part of the manufacturing process that is becoming increasingly automated with the advent of Industry 4.0 and Industry 5.0. While being a very beneficial solution to this problem, AI-driven Computer Vision Algorithms and Deep Neural Networks face several issues that may impede their adoption in practical real-life settings such as a manufacturing shop floor. For instance, defect datasets are often severely imbalanced and can be additionally burdened with separating classes of high visual similarity. Another issue arising during an AI classifier's continuous operation is the frequent lack of robustness to novel defects appearing for the first time. The aim of this thesis is to deal with such challenges by providing augmentations to AI solutions, either on the data or the model level, addressing real-life and benchmark scenarios from the domain of manufacturing. The initial focus is Imbalanced Learning. Although various methods of data augmentation have been proposed to mitigate class imbalances, they often fail to cope with tinier minority classes or have fidelity issues with smaller defects while, at the same time, needing significant computational resources to train. Also, augmentation based on vector-based oversampling struggles to produce high-fidelity inputs and is hard to apply on custom CNN architectures, which often perform better for this type of problem. Our work presents an image-level oversampling method based on an instance-based image generator that can be applied to any CNN directly during the training process without increasing the order of training time required. It is based on identifying a small number of the most uncertain base samples close to the estimated class boundaries and using them as seeds for augmentation. The resulting images are of high visual quality preserving small class differences, and they also improve the classifier boundary leading to higher recall scores than other state-of-the-art approaches. Aside from class imbalance, lack of real-world data as well as the strict safety constrains that need to be imposed to manufacturing AI deployments dictate the need for handling novel inputs. Such unanticipated inputs can pose a significant risk to cyber-physical applications as a resulting out-of-context decision could compromise the integrity of the production process. While recent Machine Learning methods can theoretically tackle this problem from different angles (e.g., open-set recognition, semi-supervised learning, intelligent data augmentation), applying them to a real-life setting with a small, imbalanced dataset and high inter-class similarity can be challenging. This work confronts such a use case aiming at the automation of the visual quality inspection of shaver shell brand prints from the electronics industry, which is characterized by data scarcity and the existence of small local defects. To that end, we introduce a novel data augmentation approach based on the latent space manipulation of StyleGAN, where defect data is intentionally synthesized to simulate novel inputs that can help form a boundary of the model's knowledge. Our approach shows promising results compared to well-established open-set recognition and semi-supervised methods applied to the same problem, while its consistent performance across classifier embeddings indicates lower coupling to the final classifier. The above mentioned method still requires enough data to train a GAN, which might not always be possible or cost-effective. Collecting more and more defect data is also often not a solution as defects occur rarely in production and the ramp-up time of the AI-driven quality inspector becomes significantly slower. To cope with smaller datasets we apply an innovative approach based on Neurosymbolic AI. Specifically, we use a Logic Tensor Network that expresses the outputs of an unsupervised out-of-distribution detector as symbolic rules and uses them to drive the training of a neural network classifier. The resulting algorithm shows improved results in comparison to other related methods, especially in terms of defect recall, meaning that few defects remain undetected even if completely novel. More specifically, it achieves similar or better recall scores than semi-supervised and unsupervised methods when handling novel defects, but significantly outperforms them in defects that were seen during training. Similarly, when compared to supervised methods, it maintains high performance on known defects but significantly improves on novel ones. These best-of-both-worlds results are illustrated through higher F1-scores in the majority of the test datasets of manufacturing products.
περισσότερα