Περίληψη
Η επεξεργασία στο άκρο (edge processing) έχει αναδειχθεί ως ένας κρίσιμος τομέας στην υπολογιστική όραση, οδηγούμενη από τις αυξανόμενες ποσότητες δεδομένων από συσκευές Διακδικτύου των Πραγμάτων (Internet of Things, IoT), έξυπνες κάμερες και αυτόνομα συστήματα. Οι παραδοσιακές αρχιτεκτονικές υπολογισμού παρουσιάζουν σημαντικά μειονεκτήματα στην αντιμετώπιση των ζητημάτων καθυστέρησης, εύρους ζώνης και ασφάλειας, ιδίως όταν απαιτείται επεξεργασία σε πραγματικό χρόνο. Η επεξεργασία στο άκρο αντιμετωπίζει αυτά τα ζητήματα, επιτρέποντας την τοπική επεξεργασία κοντά στην πηγή δεδομένων, μειώνοντας έτσι την απόκριση, το εύρος ζώνης και ενισχύοντας την ιδιωτικότητα. Αυτή η αλλαγή αναβαθμίζει τις εφαρμογές υπολογιστικής όρασης, όπως η ανάλυση βίντεο σε πραγματικό χρόνο, η αναγνώριση προσώπου και η επαυξημένη πραγματικότητα, οδηγώντας την καινοτομία και ανοίγοντας νέες δυνατότητες. Η υπολογιστική όραση στοχεύει να γεφυρώσει το χάσμα μεταξύ της ανθρώπινης αντίληψης και της μηχανικής κατανόησης, ...
Η επεξεργασία στο άκρο (edge processing) έχει αναδειχθεί ως ένας κρίσιμος τομέας στην υπολογιστική όραση, οδηγούμενη από τις αυξανόμενες ποσότητες δεδομένων από συσκευές Διακδικτύου των Πραγμάτων (Internet of Things, IoT), έξυπνες κάμερες και αυτόνομα συστήματα. Οι παραδοσιακές αρχιτεκτονικές υπολογισμού παρουσιάζουν σημαντικά μειονεκτήματα στην αντιμετώπιση των ζητημάτων καθυστέρησης, εύρους ζώνης και ασφάλειας, ιδίως όταν απαιτείται επεξεργασία σε πραγματικό χρόνο. Η επεξεργασία στο άκρο αντιμετωπίζει αυτά τα ζητήματα, επιτρέποντας την τοπική επεξεργασία κοντά στην πηγή δεδομένων, μειώνοντας έτσι την απόκριση, το εύρος ζώνης και ενισχύοντας την ιδιωτικότητα. Αυτή η αλλαγή αναβαθμίζει τις εφαρμογές υπολογιστικής όρασης, όπως η ανάλυση βίντεο σε πραγματικό χρόνο, η αναγνώριση προσώπου και η επαυξημένη πραγματικότητα, οδηγώντας την καινοτομία και ανοίγοντας νέες δυνατότητες. Η υπολογιστική όραση στοχεύει να γεφυρώσει το χάσμα μεταξύ της ανθρώπινης αντίληψης και της μηχανικής κατανόησης, ωστόσο αντιμετωπίζει σημαντικές προκλήσεις, ιδίως στην επεξεργασία μεγάλων όγκων οπτικών δεδομένων. Οι προσεγγίσεις της Βαθιάς Μάθησης (Deep Learning, DL), ιδιαίτερα τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks, CNNs), έχουν ιδιαίτερα σημαντικό ρόλο στη μοντελοποίηση των σχέσεων των εικονοστοιχείων και στην αναγνώριση σύνθετων προτύπων. Παράλληλα, η ενσωμάτωση πολυτροπικών δεδομένων, που συνδυάζουν οπτικές πληροφορίες με άλλους τύπους δεδομένων, είναι απαραίτητη για τη βελτίωση της ακρίβειας και της αποτελεσματικότητας, προσθέτοντας, ωστόσο, νέες σημαντικές προκλήσεις, όπως την κανονικοποίηση των διαφορετικών τύπων δεδομένων, την χρονική συσχέτισή τους αλλά και την επεξεργασία τους υπό την περιορισμένη υπολογιστική ισχύ των συσκευών στο άκρο. H παρούσα διατριβή στοχεύει στην αντιμετώπιση αυτών των προκλήσεων προτείνοντας μια νέα μεθοδολογία για την επεξεργασία στο άκρο, η οποία μας οδήγησε σε ένα επιταχυνόμενο πολυτροπικό πλαίσιο προσαρμοσμένο για αυτά τα περιβάλλοντα. Αυτό το πλαίσιο επιτρέπει την εκτέλεση σύνθετης επεξεργασίας δεδομένων κοντά στην πηγή, αξιοποιώντας νέα μοντέλα τεχνητής νοημοσύνης (Artificial Intelligence, AI) και βελτιστοποιήσεις για διάφορες εφαρμογές, όπως η συμπεριφορική ανάλυση, ο εντοπισμός συμβάντων, η αναγνώριση αντικειμένων, η εκτίμηση εγγύτητας και η αναγνώριση προσώπου. Αυτές οι προσεγγίσεις δείχνουν σημαντικές βελτιώσεις στις ικανότητες λήψης αποφάσεων, στους χρόνους απόκρισης και στη συνολική απόδοση του συστήματος, ακόμη και υπό τους περιορισμένους πόρους των ενσωματωμένων συστημάτων. Για να μειώσουμε την υπολογιστική επιβάρυνση της προεπεξεργασίας δεδομένων, έχουμε εφαρμόσει διάφορους σχεδιασμούς επεξεργασίας σε υλικό, εκμεταλλευόμενοι την παράλληλη επεξεργασία των πλακετών Συστοιχιών Επιτόπια Προγραμματιζόμενων Πυλών (Field-Programmable Gate Arrays, FPGAs). Προτείνουμε έναν φορητό σχεδιασμό με τη γλώσσα περιγραφής υλικού VHSIC (VHSIC Hardware Description Language, VHDL) για την μετατροπή χρώματος και την ανίχνευση ακμών Sobel. Στη συνέχεια, παρουσιάζουμε μια βελτιωμένη παραλλαγή χρησιμοποιώντας Σύνθεση Υψηλού Επιπέδου (High-Level Synthesis, HLS) για αυξημένη αποδοτικότητα. Εξερευνούμε επίσης μια επιταχυμένη τεχνική μείωσης θορύβου βασισμένη στην στοίβαξη εικόνων, αναδεικνύοντας τις δυνατότητες επιτάχυνσης του υλικού για την επεξεργασία στο άκρο. Επιπλέον, η έρευνά μας εξετάζει τον συγκερασμό (fusion) πολυτροπικών δεδομένων από διάφορους αισθητήρες, συνδυάζοντας πληροφορίες από πολλαπλές πηγές, όπως βίντεο, ήχο και άλλους αισθητήρες. Αυτή η προσέγγιση παρέχει μια πιο ολοκληρωμένη κατανόηση του περιβάλλοντος, αυξάνοντας την ακρίβεια του συστήματος σε σύνθετα, πραγματικά περιβάλλοντα. Η αποτελεσματικότητα αυτής της μεθοδολογίας αποδεικνύεται μέσω μιας εκτενούς αξιολόγησης σε πραγματικά σύνολα δεδομένων και σενάρια ανάπτυξης στην δημόσια συγκοινωνία, με έμφαση στην ασφάλεια των επιβατών και τη λήψη αποφάσεων σε πραγματικό χρόνο. Τα αποτελέσματα πιστοποιούν την ευελιξία και την αποτελεσματικότητα της προτεινόμενης μεθοδολογίας και αναδεικνύουν την συνεισφορά της στον τομέα της επιταχυνόμενης επεξεργασίας στο άκρο χρησιμοποιώντας πολυτροπικά δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Edge processing has emerged as a critical domain in computer vision, driven by the increasing amounts of data sources, over the traditional cloud computing architectures. Cloud computing has significant disadvantages in addressing latency, bandwidth, and security concerns, especially on real-time applications. Edge computing addresses these issues by enabling local data processing, therefore reducing latency, bandwidth usage, and preserving privacy. This paradigm shift empowers advanced computer vision applications such as real-time video analytics, facial recognition, and augmented reality (AR), driving innovation and opening new possibilities. Computer vision aims to bridge the gap between human perception and machine understanding, yet it faces significant challenges, particularly in handling large volumes of visual data. Deep learning (DL) approaches such as the Convolutional Neural Networks (CNNs), have been crucial in modeling pixel relations and recognizing complex patterns. How ...
Edge processing has emerged as a critical domain in computer vision, driven by the increasing amounts of data sources, over the traditional cloud computing architectures. Cloud computing has significant disadvantages in addressing latency, bandwidth, and security concerns, especially on real-time applications. Edge computing addresses these issues by enabling local data processing, therefore reducing latency, bandwidth usage, and preserving privacy. This paradigm shift empowers advanced computer vision applications such as real-time video analytics, facial recognition, and augmented reality (AR), driving innovation and opening new possibilities. Computer vision aims to bridge the gap between human perception and machine understanding, yet it faces significant challenges, particularly in handling large volumes of visual data. Deep learning (DL) approaches such as the Convolutional Neural Networks (CNNs), have been crucial in modeling pixel relations and recognizing complex patterns. However, the integration of multiple modalities by fusing data from multiple sources is essential for improving accuracy and robustness. This integration poses significant challenges and requires a sophisticated handling and alignment of the diverse data types, especially under the resource constraints of edge devices. This dissertation aims to address these challenges by proposing a novel design methodology for edge processing, leading to an accelerated multimodal framework tailored for these environments. This framework enables the execution of complex and in-depth data processing directly at the source, leveraging novel artificial intelligence (AI) models and optimizations for various applications, such as abnormal event detection, object recognition, proximity assessment, and facial recognition. These approaches demonstrate significant improvements in decision-making capabilities, response times, and overall system performance, even with the limited resources of embedded systems. To mitigate the computational overhead of data preprocessing, we have implemented various computational processing designs in hardware, taking advantage of the parallelism of Field-Programmable Gate Arrays (FPGAs). We introduce a portable VHSIC Hardware Description Language (VHDL) design for color transformation and Sobel edge detection, further improved using High-Level Synthesis (HLS) for increased efficiency. We also present an accelerated noise reduction technique based on image stacking, highlighting the potential of hardware acceleration for edge processing. Additionally, our research investigates the fusion of multimodal sensor data, combining information from various sources such as video, audio, and other sensors. This approach provides a more comprehensive understanding of the environment, enabling even more informed decision-making and improved system performance in complex, real-world scenarios. The effectiveness of this methodology is demonstrated through an extensive evaluation on real-world datasets and deployment scenarios in public transportation, emphasizing passenger safety and real-time decision-making. The results highlight the framework’s versatility and robustness, showcasing its potential to transform diverse applications through the power of edge computing and multimodal data processing.
περισσότερα