Περίληψη
Οι επιτιθέμενοι χρησιμοποιούν τεχνικές πλευρικής μετακίνησης (ή κίνησης) για να προχωρήσουν βαθύτερα στο δίκτυο από ένα αρχικό σημείο εισόδου, να αυξήσουν τα δικαιώματα πρόσβασης τους, και τελικά να υποκλέψουν ευαίσθητα δεδομένα. Αυτή η διαδικασία, ιδιαίτερα απαιτητική όσον αναφορά την ανιχνευσή της μέσω συστημάτων ανίχνευσης εισβολών, περιλαμβάνει συνήθως την ανακατεύθυνση μέσω δικτυακών συστημάτων και την κλιμάκωση προνομίων (privilege escalation). Η παρούσα διδακτορική διατριβή προσφέρει μια ολιστική μεθοδολογία για την ανίχνευση της πλευρικής μετακίνησης, αξιοποιώντας έναν πλούσιο συνδυασμό εκτενούς βιβλιογραφικής ανασκόπησης και πειραματικών αποτελεσμάτων. Συγκεκριμένα, στο πλαίσιο της παρούσας διατριβής, η ανίχνευση της πλευρικής μετακίνησης επιτυγχάνεται με χρήση τεχνικών εποπτευόμενης και μη εποπτευόμενης μηχανικής μάθησης που εφαρμόζονται αποτελεσματικά τόσο σε μη ισορροπημένα όσο και σε ισορροπημένα σύνολα δεδομένων (datasets). Η παρούσα διατριβή συνεισφέρει καθοριστικά στον ...
Οι επιτιθέμενοι χρησιμοποιούν τεχνικές πλευρικής μετακίνησης (ή κίνησης) για να προχωρήσουν βαθύτερα στο δίκτυο από ένα αρχικό σημείο εισόδου, να αυξήσουν τα δικαιώματα πρόσβασης τους, και τελικά να υποκλέψουν ευαίσθητα δεδομένα. Αυτή η διαδικασία, ιδιαίτερα απαιτητική όσον αναφορά την ανιχνευσή της μέσω συστημάτων ανίχνευσης εισβολών, περιλαμβάνει συνήθως την ανακατεύθυνση μέσω δικτυακών συστημάτων και την κλιμάκωση προνομίων (privilege escalation). Η παρούσα διδακτορική διατριβή προσφέρει μια ολιστική μεθοδολογία για την ανίχνευση της πλευρικής μετακίνησης, αξιοποιώντας έναν πλούσιο συνδυασμό εκτενούς βιβλιογραφικής ανασκόπησης και πειραματικών αποτελεσμάτων. Συγκεκριμένα, στο πλαίσιο της παρούσας διατριβής, η ανίχνευση της πλευρικής μετακίνησης επιτυγχάνεται με χρήση τεχνικών εποπτευόμενης και μη εποπτευόμενης μηχανικής μάθησης που εφαρμόζονται αποτελεσματικά τόσο σε μη ισορροπημένα όσο και σε ισορροπημένα σύνολα δεδομένων (datasets). Η παρούσα διατριβή συνεισφέρει καθοριστικά στον συγκεκριμένο τομέα, όχι μόνο αξιοποιώντας αλλά και δημιουργώντας το σύνολο δεδομένων LMD, το οποίο, εξ όσων γνωρίζουμε, είναι το πρώτο στον συγκεκριμένο τομέα έρευνας που περιέχει αποκλειστικά αρχεία καταγραφής Sysmon που περιγράφουν λεπτομερώς 15 διαφορετικές τεχνικές επίθεσης πλευρικής κίνησης από την πλατφόρμα MS Windows. Συνολικά, η διατριβή παρουσιάζει μια ολοκληρωμένη επισκόπηση αυτού του εξειδικευμένου τομέα και των σχετικών μεθοδολογιών του, αξιολογώντας λεπτομερώς και κριτικά τεχνικές μηχανικής μάθησης για την ανίχνευση της πλευρικής μετακίνησης. Αναλυτικότερα, η διατριβή απαντά σε πέντε βασικά ερωτήματα σχετικά με την ανίχνευση της πλευρικής μετακίνησης σε δίκτυα υπολογιστών. Πρώτον, διερευνά την κατάλληλη μεθοδολογία για τη διεξαγωγή μιας ολοκληρωμένης έρευνας σχετικά με την ταυτοποίηση της πλευρικής μετακίνησης, κυρίως από την οπτική γωνία ενός συστήματος ανίχνευσης εισβολών, με στόχο να γεφυρώσει ένα σημαντικό κενό στην υπάρχουσα βιβλιογραφία. Δεύτερον, καθορίζει, βασιζόμενη κυρίως στη σχετική βιβλιογραφία, τα βασικά κριτήρια για τον καθορισμό των καταλληλότερων αρχικών χαρακτηριστικών (features) για το εργαλείο παρακολούθησης συμβάντων του Sysmon, με σκοπό τη χρήση τους ως προσαρμοσμένους κανόνες στο αρχείο ρύθμισης (config.xml) του εργαλείου. Τρίτον, η διατριβή περιγράφει πώς ένα αρχείο ρύθμισης μπορεί να δημιουργηθεί συστηματικά, χρησιμοποιώντας τα επιλεγμένα χαρακτηριστικά, ώστε να μεγιστοποιηθεί η πιθανότητα ανίχνευσης διαφόρων παραλλαγών επίθεσης πλευρικής μετακίνησης. Τέταρτον, διερευνά εάν υπάρχει μια αποδεδειγμένη μεθοδολογία για τη δημιουργία συστημάτων ανίχνευσης εισβολών βασισμένων σε μηχανική μάθηση και προσανατολισμένων στην πλευρική μετακίνηση. Μεθοδολογικά, η διαδικασία αυτή περιλαμβάνει την αξιολόγηση πολλαπλών εποπτευόμενων και μη εποπτευόμενων αλγορίθμωνμηχανικής μάθησης, τόσο παραδοσιακών (shallow) όσο και βαθιάς μάθησης (DNN). Τέλος, η έρευνα αξιολογεί κριτικά το βαθμό στον οποίο η κατανομή των δειγμάτων (samples) σε ένα σύνολο δεδομένων αναφοράς (dataset) επηρεάζει τις μετρικές αξιολόγησης της απόδοσης των μοντέλων ανίχνευσης εισβολών προσανατολισμένων στην πλευρική μετακίνηση, ανεξάρτητα από το αν αυτές χρησιμοποιούν ρηχές ή βαθιά αρχιτεκτονική μάθησης. Για να απαντήσουμε στα παραπάνω πέντε ερωτήματα, αρχικά πραγματοποιήσαμε μια συστηματική επισκόπηση του θέματος. Στη συνέχεια, αξιοποιήσαμε τη γνωστή βάση γνώσης MITRE ATT&CK για τις τακτικές και τεχνικές αντιπάλων, εστιάζοντας αρχικά στην εκτέλεση των εννέα πιο κοινών μεθόδων πλευρικής μετακίνησης. Πειράματα σε ένα κατάλληλα διαμορφωμένο εργαστηριακό περιβάλλον (testbed) αποκάλυψαν έναν σημαντικό αριθμό αλληλένδετων χαρακτηριστικών δικτύωσης, τα οποία υλοποιήσαμε ως προσαρμοσμένους κανόνες Sysmon στο αρχείο ρυθμίσεων config.xml. Επιπλέον, δημιουργήσαμε και ακολούθως αξιοποιήσαμε πειραματικά το LMD, ένα πλούσιο, προσανατολισμένο στις μεθόδους πλευρικής μετακίνησης σύνολο δεδομένων αποτελούμενο στην ενισχυμένη με έξι επιπλέον τεχνικές πλευρικής μετακίνησης νεότερη έκδοσή του από πάνω από 1,75 εκατομμύρια εγγραφές. Αναλύσαμε λεπτομερώς τις διαδικασίες επιλογής χαρακτηριστικών, προεπεξεργασίας δεδομένων (feature preprocessing) και αξιολόγησης χαρακτηριστικών (feature importance) για τη διαμόρφωση τόσο εποπτευόμενων όσο και μη εποπτευόμενων μοντέλων μηχανικής μάθησης, χρησιμοποιώντας τόσο σχήματα ταξινόμησης πολλαπλών κλάσεων όσο και δυαδικής ταξινόμησης. Σε σύγκριση με τη σχετική βιβλιογραφία, και λαμβάνοντας υπόψη το εξαιρετικά μη ισορροπημένο (imbalanced) σύνολο δεδομένων LMD και το πρόβλημα ταξινόμησης πολλαπλών κλάσεων, τα εποπτευόμενα μοντέλα πέτυχαν καλύτερες βαθμολογίες με μετρικές F1-score και AUC, 99,41% και 99,84% αντίστοιχα. Ο καλύτερος ταξινομητής μη εποπτευόμενης μάθησης είχε επίσης υποσχόμενα αποτελέσματα, επιτυγχάνοντας περίπου 94,7% και 93% στις μετρικές AUC και F1-score αντίστοιχα για το καλύτερο παραδοσιακό μοντέλο, και 95,2% και 93,8% AUC και F1-score αντίστοιχα για το καλύτερο μοντέλο βαθιάς μάθησης. Για την περαιτέρω βελτίωση αυτών των προαναφερόμενων αποτελεσμάτων, αναπτύξαμε και αξιολογήσαμε ένα σύνθετο μοντέλο μηχανικής μάθησης δύο σταδίων, το οποίο ξεπέρασε την προηγούμενη καλύτερη απόδοση κατά περίπου 3,5%. Τέλος, επανεξετάσαμε μια πολυταξική εποπτευόμενη προσέγγιση για να προσεγγίσουμε συστηματικά τις επιπτώσεις των τεχνικών υπερδειγματοληψίας (oversampling), υποδειγματοληψίας (undersampling) και υβριδικής δειγματοληψίας (hybrid-sampling) σε 13 αλγορίθμους μηχανικής μάθησης (εννέα παραδοσιακούς και τέσσερις βαθιάς μάθησης) χρησιμοποιώντας το σύνολο δεδομένων LMD. Το κύριο εύρημα της εν λόγω διαδικασίας είναι ότι οι ισορροπημένες (balanced) εκδόσεις του συνόλου δεδομένων γενικά βελτίωσαν την απόδοση των μοντέλων ανίχνευσης εισβολών. Συγκεκριμένα, τα παραδοσιακά μοντέλα μηχανικής μάθησης που εκπαιδεύτηκαν σε δεδομένα στα οποία είχαν εφαρμοστεί συγκεκριμένες τεχνικές επανα-δειγματοληψίας επέδειξαν οριακή σύγκλιση περίπου +0,05% στις μετρικές AUC και F1-score σε σύγκριση με το μη ισορροπημένο σενάριο. Αξίζει να σημειωθεί ότι τα μοντέλα βαθιάς μάθησης είχαν καλύτερη απόδοση, περίπου 3,5%, στις περισσότερες τεχνικές επανα-δειγματοληψίας. Επιπλέον, η ανάλυση του ποσοστού ψευδώς θετικών και ψευδώς αρνητικών δειγμάτων (FPR/FNR) αποκάλυψε κρίσιμους συμβιβασμούς. Ενώ ορισμένα ισορροπημένα σύνολα δεδομένων οδήγησαν σε FNR κοντά στο μηδέν με μεθόδους συνόλων (ensemble) όπως το Bagging, άλλα, ιδιαίτερα οι ταξινομητές βαθιάς μάθησης σε συνδυασμό με τεχνικές επανα-δειγματοληψίας όπως το ADASYN, παρήγαγαν υψηλότερα ποσοστά ψευδών συναγερμών. Οι εν λόγω παρατηρήσεις υπογραμμίζουν τον κρίσιμο ρόλο της εξισορρόπησης (balancing)του συνόλου δεδομένων με στόχο τη βελτιστοποίηση της απόδοσης των συστημάτων ανίχνευσης εισβολών προσανατολισμένων στην πλευρική μετακίνηση, ενώ παράλληλα αναδεικνύουν τον ποικίλο αντίκτυπο διαφορετικών τεχνικών μηχανικής μάθησης και επανα-δειγματοληψίας στον συμβιβασμό μεταξύ των ποσοστών FPR/FNR.
περισσότερα
Περίληψη σε άλλη γλώσσα
Attackers employ lateral movement (LM) to spread from an initial entry point, gain further network access, and ultimately exfiltrate valuable data. This process, particularly challenging on any computing platform, commonly involves pivoting through systems and escalating privileges. This PhD thesis offers a holistic methodology for detecting LM, leveraging a rich combination of comprehensive literature survey and extensive experimental results. Particularly, the detection is achieved through supervised and unsupervised machine learning (ML) techniques, applied effectively to both imbalanced and balanced data samples.This work makes a pivotal contribution to the field by not only leveraging but also creating the LMD dataset, which to our knowledge is the first to exclusively contain Sysmon logs detailing 15 diverse LM attack techniques captured from the MS Windows platform. The thesis presents a comprehensive overview of this specialized area and its associated methodologies, critically ...
Attackers employ lateral movement (LM) to spread from an initial entry point, gain further network access, and ultimately exfiltrate valuable data. This process, particularly challenging on any computing platform, commonly involves pivoting through systems and escalating privileges. This PhD thesis offers a holistic methodology for detecting LM, leveraging a rich combination of comprehensive literature survey and extensive experimental results. Particularly, the detection is achieved through supervised and unsupervised machine learning (ML) techniques, applied effectively to both imbalanced and balanced data samples.This work makes a pivotal contribution to the field by not only leveraging but also creating the LMD dataset, which to our knowledge is the first to exclusively contain Sysmon logs detailing 15 diverse LM attack techniques captured from the MS Windows platform. The thesis presents a comprehensive overview of this specialized area and its associated methodologies, critically examining the potential of standard ML for detection. In detail, the research addresses five core questions pertaining to LM-detection. First, it investigates the appropriate methodology for conducting a comprehensive survey on LM identification, primarily from an Intrusion Detection System (IDS) perspective, to bridge a significant gap in existing literature. Second, it determines, based on expert analysis and relevant literature, the definitive criteria for establishing the most effective initial features for Sysmon's event monitoring tool, suitable for implementation as custom rules within its config.xml configuration file. Third, the thesis outlines how a functional configuration file can be systematically generated, utilizing these identified features, to maximize the identification of various LM attack variants. Fourth, it explores whether a proven methodology exists for the creation of ML-based LM-oriented IDSs, incorporating the evaluation of multiple supervised and unsupervised ML algorithms, including both shallow and Deep Neural Network (DNN) techniques. Finally, the research critically assesses the extent to which sample distribution within a benchmark dataset impacts the performance evaluation metrics of LM-oriented IDS models, irrespective of whether they employ shallow or DNN architectures. To answer these questions, we initially conducted a systematic survey of the topic. We then leveraged the MITRE ATT&CK knowledge base of adversary tactics and techniques, focusing initially on the execution of the nine most common LM methods. Experiments on a properly configured testbed revealed a significant number of interrelated networking features. We implemented these features as custom rules in Sysmon's config.xml file. Furthermore, we capitalized on the rich, LM-oriented corpus, LMD, which we created as the first of its kind specifically focusing on LM samples and enhanced with the execution of six more LM tactics. We elaborated on feature selection, data preprocessing, and feature importance processes for configuring both supervised (SML) and unsupervised (UML) ML models, employing both multiclass and binary classification schemes. Compared to relevant literature, and considering the highly unbalanced corpus and a multiclass classification problem, SML reported superior scores with F1-score and AUC metrics of 99.41% and 99.84%, respectively. The best UML performer also showed promising results, achieving around 94.7% AUC and 93% F1-score for the best shallow model, and 95.2% AUC and 93.8% F1-score for the best DNN model. To further improve these metrics, we devised and evaluated a two-stage ML model, which surpassed the previous best score by approximately 3.5%. Finally, we re-adopted a multiclass supervised approach to scrutinize the effects of oversampling, undersampling, and hybrid-sampling techniques across 13 ML algorithms (nine shallow and four DNN techniques) using the LMD corpus. Our key findings revealed that balanced versions of the dataset generally improved performance. Shallow models trained on resampled data achieved a marginal convergence of roughly +0.05% in AUC and F1-score compared to the imbalanced scenario. Notably, DNN models exhibited a more substantial performance gain of around 3.5% across most balancing techniques. Furthermore, analysis of false positive rate (FPR) and false negative rate (FNR) revealed crucial trade-offs. While some balanced datasets led to near-zero FNR with ensemble methods like Bagging, others, particularly with DNNs and techniques like ADASYN, showed a higher propensity for false alarms. These observations underscore the critical role of data balancing in optimizing LM-focused IDS performance and highlight the varying impact of different techniques on the FPR/FNR trade-off for shallow versus DNN models.
περισσότερα