Software vulnerability detection using machine learning

Τα σύγχρονα συστήματα λογισμικού είναι πολύπλοκα, διασυνδεδεμένα και εκτεθειμένα σε απειλές ασφαλείας. Αποτελεί αναγκαιότητα για τις εταιρείες λογισμικού να εντοπίζουν τις ευπάθειες λογισμικού, οι οποίες είναι σφάλματα στον κώδικα που απειλούν την ποιότητα και την αξιοπιστία του λογισμικού, εκθέτοντας τους οργανισμούς σε κυβερνοεπιθέσεις και οδηγώντας ενδεχομένως σε οικονομικές ζημίες. Παρόλο που η ασφάλεια λογισμικού αντιμετωπίζεται παραδοσιακά ως μεταγενέστερη σκέψη που προστίθεται κατά τη φάση ανάπτυξης του Κύκλου Ζωής Ανάπτυξης Λογισμικού (ΚΖΑΛ), η Ανίχνευση Ευπαθειών (AE) πρέπει να πραγματοποιείται από τα αρχικά στάδια του ΚΖΑΛ για να διευκολύνεται ο έγκαιρος μετριασμός των ευπαθειών. Έχουν προταθεί διάφορες τεχνικές ΑΕ, όπως η στατική ανάλυση κώδικα, η οποία βασίζεται σε χειροκίνητα ορισμένους κανόνες. Ωστόσο, η αυξανόμενη συχνότητα των αναφερόμενων περιστατικών ασφάλειας υποδηλώνει ότι απαιτούνται πιο προηγμένες τεχνικές. Καθώς η Μηχανική Μάθηση (ΜΜ) έχει εξελιχθεί, έχουν εμφανιστεί τεχνικές που βασίζονται στη μάθηση για τον εντοπισμό ευπαθειών, ξεπερνώντας τους περιορισμούς της παραδοσιακής στατικής ανάλυσης. Ένας μηχανισμός βασισμένος στην ΜΜ που μπορεί να διευκολύνει τον εντοπισμό ευπαθειών είναι η Πρόβλεψη Ευπαθειών (ΠΕ), η οποία προβλέπει τα συστατικά (π.χ. αρχεία, συναρτήσεις κ.λπ.) ενός προϊόντος λογισμικού που είναι πιο πιθανό να είναι ευπαθή. Συνήθως, η ΠΕ πραγματοποιείται με την εκπαίδευση μοντέλων ΜΜ σε επισημασμένα σύνολα δεδομένων για τη διάκριση των ευπαθών από τα μη ευπαθή συστατικά. Αναφερόμαστε στον όρο ΠΕ όταν προβλέπουμε την ύπαρξη ευπαθειών σε συστατικά λογισμικού υψηλής λεπτομέρειας (π.χ. πακέτο, κλάση, συνάρτηση κ.λπ.), ενώ αναφερόμαστε στον όρο ΑΕ όταν ανιχνεύουμε ευπάθειες σε χαμηλό επίπεδο λεπτομέρειας (π.χ. επίπεδο γραμμής). Ωστόσο, οι υπάρχουσες μέθοδοι που βασίζονται στην ΜΜ αντιμετωπίζουν σημαντικούς περιορισμούς και καμία τεχνική δεν έχει αναδειχθεί ως ο «χρυσός κανόνας». Υπάρχουν προκλήσεις όσον αφορά τις χρησιμοποιούμενες μορφές αναπαράστασης κώδικα και τα μοντέλα ΜΜ, και ιδίως όσον αφορά την ακριβή ανίχνευση ευπαθειών σε χαμηλά επίπεδα λεπτομέρειας και την κατηγοριοποίησή τους. Αυτό υπογραμμίζει την ανάγκη για πρόσθετη έρευνα για τη σκιαγράφηση του πεδίου, τη σύγκριση των υφιστάμενων μεθόδων και την εξέλιξη του επιπέδου της τρέχουσας τεχνογνωσίας. Για το σκοπό αυτό, ο στόχος της παρούσας διατριβής είναι να μελετήσει την τρέχουσα βιβλιογραφία και να συγκρίνει εμπειρικά διαφορετικές αναπαραστάσεις κώδικα, μοντέλα και χαρακτηριστικά. Στόχος της είναι επίσης να προτείνει μια καινοτόμο και ολοκληρωμένη μεθοδολογία ΑΕ αξιοποιώντας τις πλέον προηγμένες τεχνικές από τους τομείς της Τεχνητής Νοημοσύνης (ΤΝ) και της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ). Συγκεκριμένα, αρχικά, η παρούσα διατριβή παρουσιάζει μια βιβλιογραφική ανασκόπηση σχετικά με την ΠΕ που βασίζεται στην ΜΜ. Πραγματοποιείται μια μελέτη χαρτογράφησης για την παροχή μιας ολοκληρωμένης περιγραφής του τομέα της ΠΕ, εξετάζοντας τους στόχους των υπαρχόντων μελετών, τα σύνολα δεδομένων, τα χαρακτηριστικά και τα μοντέλα. Τα ευρήματα υπογράμμισαν ότι η έρευνα που σχετίζεται με την ΠΕ επικεντρώνεται κυρίως στην πρόβλεψη ευπαθών συστατικών λογισμικού. Τα σύνολα δεδομένων που χρησιμοποιούνται πιο συχνά αποτελούνται από πραγματικό λογισμικό και αντλούν πληροφορίες από αναφορές σε βάσεις δεδομένων ευπαθειών, ενώ οι αλγόριθμοι Βαθιάς Μάθησης (ΒΜ) μαζί με μεθόδους αναπαράστασης του πηγαίου κώδικα σε μορφές κειμένου (συμπεριλαμβανομένων γραφημάτων πλούσιων σε κείμενο) παρουσιάζουν αυξανόμενο ενδιαφέρον. Στη συνέχεια, η παρούσα διατριβή κατασκευάζει μοντέλα ΜΜ που ενσωματώνουν έννοιες από την ΕΦΓ, τη ΒΜ και τη Συγκεντρωτική Μάθηση. Ειδικότερα, εξετάζει διάφορες τεχνικές ενσωμάτωσης λέξεων για την κωδικοποίηση κειμενικών αναπαραστάσεων κώδικα σε αριθμητική μορφή. Στη συνέχεια, συγκρίνει και συνδυάζει μετρικές λογισμικού και κειμενικές αναπαραστάσεις για την κατασκευή μοντέλων βασισμένων στη ΜΜ. Τα αποτελέσματα αποκάλυψαν την υπεροχή των μοντέλων που βασίζονται στην εξόρυξη κειμένου έναντι των μοντέλων που βασίζονται σε μετρικές λογισμικού. Τα αποτελέσματά μας έδειξαν επίσης ότι η ενίσχυση των μοντέλων εξόρυξης κειμένου με μετρικές λογισμικού δεν παρέχει πρόσθετη αξία στην προβλεπτική τους απόδοση. Επιπλέον, η παρούσα διατριβή διερευνά τεχνικές μεταφοράς μάθησης για την ΠΕ με τη χρήση Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ) βασισμένων σε Transformer. Όχι μόνο συγκρίνει διάφορα ΜΓΜ στην ΠΕ, αλλά εξετάζει επίσης την επίδραση διαφορετικών επιλογών υλοποίησης για τη μεταφορά μάθησης. Τα αποτελέσματα έδειξαν ότι η εξαγωγή συμφραζόμενων ενσωματώσεων λέξεων από ΜΓΜ για την εκπαίδευση ενός ξεχωριστού μοντέλου ΒΜ είναι μια ανώτερη προσέγγιση από την εξαγωγή ενσωμάτωσης προτάσεων και τις προσεγγίσεις λεπτομερούς ρύθμισης, λαμβάνοντας υπόψη τόσο την ακρίβεια όσο και το υπολογιστικό κόστος. Επιπλέον, παρουσιάζουμε μια μεθοδολογία για τον εντοπισμό ευπαθειών σε επίπεδο γραμμής, προτείνοντας μια προσέγγιση Ακολουθίας-προς-Ακολουθία για την εκπαίδευση ενός ΜΓΜ στην εξαγωγή ευπαθών γραμμών από ευπαθείς συναρτήσεις. Τα αποτελέσματα έδειξαν μεγάλο όφελος τόσο στην ακρίβεια όσο και στην αποδοτικότητα κόστους σε σύγκριση με τις υπάρχουσες λύσεις που βασίζονται στην επεξηγήσιμη ΤΝ. Τέλος, τα μοντέλα που βασίζονται σε Transformer αποδείχθηκαν ικανά να ταξινομούν ευπαθή κομμάτια κώδικα σε κατηγορίες ευπάθειας όταν ρυθμίζονται λεπτομερώς σε ένα πλαίσιο πολύ-κατηγορικής ταξινόμησης.

περισσότερα

Περίληψη σε άλλη γλώσσα

Modern software systems are complex, interconnected, and exposed to security threats. It is a necessity for software houses to identify vulnerabilities, which are coding flaws that threaten the software quality and reliability, exposing organizations to cyberattacks, and potentially leading to financial damages. Although software security is traditionally treated as an afterthought added during the deployment phase of the Software Development Life-Cycle (SDLC), Vulnerability Detection (VD) needs to be performed from the early stages of the SDLC to facilitate the early mitigation of vulnerabilities. Several VD techniques have been proposed such as static code analysis, which relies on manually defined rules. However, the rising frequency of reported security incidents suggests that more advanced techniques are required. As Machine Learning (ML) has advanced, learning-based techniques have emerged to detect vulnerabilities, overcoming the limitations of traditional static analysis. An ML-based mechanism that can facilitate the identification of vulnerabilities is Vulnerability Prediction (VP), which predicts the components (e.g., files, functions, etc.) of a software product that are more likely to be vulnerable. Commonly, VP is performed by training ML models in labeled datasets in discriminating vulnerable from non-vulnerable components. We refer to the term VP when predicting the existence of vulnerabilities in software components of high granularity (e.g., package, class, function, etc.), whereas we refer to the term VD when detecting vulnerabilities in a low level of granularity (e.g., line-level). However, existing ML-based methods face important limitations, and no single technique has emerged as a gold standard. There are challenges regarding the used code representation formats and ML models, and especially about the accurate detection of vulnerabilities at low levels of granularity and their categorization. This stresses the need for additional research to outline the field, compare existing methods, and advance the current state-of-the-art. To this end, the purpose of the present dissertation is to study the current literature, and empirically compare different code representations, models, and features. It also aims to propose an innovative and complete VD methodology leveraging cutting-edge techniques from the fields of Artificial Intelligence (AI) and Natural Language Processing (NLP). Specifically, first, this dissertation presents a literature review about ML-based VP. A mapping study is conducted to provide a comprehensive description of the VP domain by examining the goals of the state-of-the-art studies, their datasets, features, and models. The findings highlighted that VP-related research focuses mainly on predicting vulnerable software components. The most utilized datasets consist of real-world software and retrieve information from reports in vulnerability databases, while Deep Learning (DL) algorithms along with methods of representing source code in textual (including text-rich graphs) formats are of growing interest. Subsequently, the present thesis builds ML models that encapsulate concepts from NLP, DL, and Ensemble Learning. Particularly, it examines different word embedding techniques for encoding textual code representations in a numerical format. It then compares and combines software metrics and textual representations for constructing ML-based models. The results revealed the superiority of the text mining-based models over the software metrics-based ones. Our results also indicated that enriching the text mining-based models with software metrics was not found to provide any added value to their predictive performance. Furthermore, the present thesis investigates transfer learning techniques for VP by employing Transformer-based Large Language Models (LLMs). It not only compares various LLMs in VP, but also examines the effect of different implementation choices for transfer learning. The results showed that extracting contextual word embeddings from LLMs to train a separate DL model is a superior approach than sentence embedding extraction and fine-tuning approaches, considering both accuracy and computational cost. Moreover, we present a methodology for line-level vulnerability localization by proposing a Sequence-to-Sequence approach to train an LLM in extracting vulnerable lines out of vulnerable functions. The results showed a great benefit in both accuracy and cost-effectiveness compared to the explainable AI-based state-of-the-art solutions. Finally, Transformer-based models proved to be capable of classifying vulnerable code snippets to vulnerability categories when fine-tuned in a multi-class classification setting.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (4.24 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/58920
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/58920
ND	58920
Εναλλακτικός τίτλος	Software vulnerability detection using machine learning
Συγγραφέας	Καλουπτσόγλου, Ηλίας (Πατρώνυμο: Στέφανος)
Ημερομηνία	2025
Ίδρυμα	Πανεπιστήμιο Μακεδονίας. Σχολή Επιστημών Πληροφορίας. Τμήμα Εφαρμοσμένης Πληροφορικής
Εξεταστική επιτροπή	Αμπατζόγλου Απόστολος Χατζηγεωργίου Αλέξανδρος Κεχαγιάς Διονύσιος Σταμέλος Ιωάννης Κασκάλης Θεόδωρος Ξυνόγαλος Στυλιανός Μήττας Νικόλαος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Λέξεις-κλειδιά	Ασφάλεια λογισμικού; Πρόβλεψη ευπαθειών; Ανίχνευση ευπαθειών; Μηχανική μάθηση; Βαθιά μάθηση; Μεταφορά μάθησης; Εξόρυξη κειμένου
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Identification of fraudulent financial statements using data mining techniques

Political economy of fiscal reforms: the case of E.M.U.

Διασυνοριακή ροή οικονομικών δεδομένων: νομική προσέγγιση

Deep learning techniques for financial data

Λήψη βέλτιστων αποφάσεων για τη διασφάλιση της ποιότητας των οικονομικών καταστάσεων: εφαρμογές σε λογιστικούς και φορολογικούς ελέγχους

Information content of asset growth for future firm performance

Η εφαρμογή της τεχνητής νοημοσύνης στoν τραπεζικό κλάδο: πολυσταδιακή βαθιά μάθηση για τον εντοπισμό απάτης και την ερμηνευτικότητα μοντέλων

Forensic accounting: fraud examination and prevention through the identification of fraudster's profile and organizational culture

Финансијски аспекти кризног менаџмента у савременим условима привређивања

Energy and trade patterns in the neoclassical trade theory

"Ανίχνευση ευπαθειών λογισμικού με χρήση μηχανική μάθησης"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .