Περίληψη
Αντικείμενο μελέτης της παρούσας Διδακτορικής Διατριβής είναι η ανάπτυξη μίας μεθόδου με την οποία θα αποκαλύπτεται μέρος της ταυτότητας ενός ατόμου που συνδιαλέγεται μέσω Διαδικτύου. Η ανωνυμία πίσω από την οποία μπορεί να κρυφτεί ένας χρήστης, αυξάνει το βαθμό ασφάλειας για τη μη διαρροή προσωπικών ή και ευαίσθητων δεδομένων του. Ωστόσο, όταν αυτή η ανωνυμία χρησιμοποιείται ως παραπέτασμα συγκάλυψης παράνομης δραστηριότητας, τότε γίνεται επιτακτικό να προστατευθούν οι ανυποψίαστοι χρήστες από κακόβουλες επιθέσεις που θέτουν σε κίνδυνο την ασφάλεια που σχετίζεται με προσωπικά, κοινωνικά και οικονομικά θέματα.Αν και έχουν προταθεί διάφοροι τρόποι για να επιτευχθεί κάτι τέτοιο, ο καθένας τους παρουσιάζει από μία τουλάχιστον αδυναμία που τον καθιστά μη κατάλληλο για γενίκευση. Αντίθετα, στην παρούσα έρευνα, όλα τα απαραίτητα δεδομένα προέρχονται από τους χρόνους συμβάντων που λαμβάνουν χώρα επί του πληκτρολογίου. Τα σημαντικότερα πλεονεκτήματα της προτεινόμενης μεθόδου είναι πρώτον ότι μ ...
Αντικείμενο μελέτης της παρούσας Διδακτορικής Διατριβής είναι η ανάπτυξη μίας μεθόδου με την οποία θα αποκαλύπτεται μέρος της ταυτότητας ενός ατόμου που συνδιαλέγεται μέσω Διαδικτύου. Η ανωνυμία πίσω από την οποία μπορεί να κρυφτεί ένας χρήστης, αυξάνει το βαθμό ασφάλειας για τη μη διαρροή προσωπικών ή και ευαίσθητων δεδομένων του. Ωστόσο, όταν αυτή η ανωνυμία χρησιμοποιείται ως παραπέτασμα συγκάλυψης παράνομης δραστηριότητας, τότε γίνεται επιτακτικό να προστατευθούν οι ανυποψίαστοι χρήστες από κακόβουλες επιθέσεις που θέτουν σε κίνδυνο την ασφάλεια που σχετίζεται με προσωπικά, κοινωνικά και οικονομικά θέματα.Αν και έχουν προταθεί διάφοροι τρόποι για να επιτευχθεί κάτι τέτοιο, ο καθένας τους παρουσιάζει από μία τουλάχιστον αδυναμία που τον καθιστά μη κατάλληλο για γενίκευση. Αντίθετα, στην παρούσα έρευνα, όλα τα απαραίτητα δεδομένα προέρχονται από τους χρόνους συμβάντων που λαμβάνουν χώρα επί του πληκτρολογίου. Τα σημαντικότερα πλεονεκτήματα της προτεινόμενης μεθόδου είναι πρώτον ότι μελετάται η συμπεριφορά του χρήστη κατά την πληκτρολόγηση κειμένου, που αποτελεί το κύριο μέσο επικοινωνίας χρηστών στο Διαδίκτυο. Δεύτερον, ότι όλη η έρευνα διεξήχθη βασισμένη στο πληκτρολόγιο QWERTY, που είναι η επικρατέστερη διάταξη πληκτρολογίου και συναντάται κατά το πλείστον τόσο στις «παραδοσιακές» συσκευές διασύνδεσης χρηστών (desktops και laptops), όσο και στις πιο «σύγχρονες» (tablets και smartphones), όπου έχει τη μορφή πληκτρολογίου οθόνης. Και τρίτον, ότι οι παράμετροι που χρησιμοποιούνται για την επίτευξη των στόχων δεν σχετίζονται με κάποια συγκεκριμένη γλώσσα, αφού έχουν να κάνουν με το πώς πληκτρολογεί ένας χρήστης και όχι με το τι πληκτρολογεί. Συνέπεια όλων αυτών είναι η προτεινόμενη μέθοδος να δύναται να χρησιμοποιηθεί καθολικά, αφού αφορά το κύριο μέσο επικοινωνίας χρηστών, την κύρια συσκευή σύνταξης κειμένου και είναι ανεξάρτητη γλώσσας πληκτρολόγησης.Το πεδίο της επιστήμης των υπολογιστών που ασχολείται με τη μελέτη των χρόνων των συμβάντων επί του πληκτρολογίου, ονομάζεται δυναμική της πληκτρολόγησης (keystroke dynamics) και έχει χρησιμοποιηθεί σχεδόν αποκλειστικά για την αυθεντικοποίηση χρηστών. Οι παράμετροι της δυναμικής της πληκτρολόγησης που μπορούν να αξιοποιηθούν για την εξαγωγή ενός αποτελέσματος είναι πάρα πολλές σε αριθμό, κάθε μία όμως από αυτές περικλείει μικρή ποσότητα πληροφορίας. Σε αυτή την έρευνα, η δυναμική της πληκτρολόγησης χρησιμοποιήθηκε για την κατηγοριοποίηση των χρηστών βάσει κάποιων χαρακτηριστικών τους και οι παράμετροι που εκμεταλλεύτηκαν ήταν οι διάρκειες πατήματος πλήκτρου (keystroke durations) και οι λανθάνοντες χρόνοι διγράμματος (digram latencies).Με σκοπό την επιτυχή πρόβλεψη των χαρακτηριστικών ενός άγνωστου χρήστη, ώστε να αποκαλυφθεί μέρος της ταυτότητάς του, δημιουργήθηκαν συστήματα που δέχονται δεδομένα προερχόμενα από τον τρόπο πληκτρολόγησής του και εξάγουν ένα αποτέλεσμα κατάταξής του σε μία κατηγορία. Τα συστήματα αυτά βασίστηκαν σε ταξινομητές (classifiers), η επιλογή των οποίων έγινε κατά περίπτωση με κριτήρια το ποσοστό ορθής πρόβλεψης, την ταχύτητα λειτουργίας και την σταθερότητα στην απόδοση. Συγκεκριμένα χρησιμοποιήθηκαν ταξινομητές Bayesian, Ευκλείδειας απόστασης, απόστασης Manhattan, μηχανής διανυσμάτων υποστήριξης (support vector machine, SVM), πολυστρωματικού perceptron (multilayer perceptron, MLP) και νευρωνικού δικτύου συνάρτησης ακτινωτής βάσης (radial basis function network, RBFN).Τα απαραίτητα για τη μελέτη δεδομένα λήφθηκαν με δύο τρόπους. Πρώτον, ζητώντας από ομάδες εθελοντών να καταγραφούν κατά τη διάρκεια πληκτρολόγησης δοσμένου κειμένου, δηλαδή με καταγραφή καθορισμένου κειμένου (fixed text). Δεύτερον, ζητώντας από εθελοντές να καταγραφούν κατά την καθημερινή χρήση των υπολογιστών τους, δηλαδή με καταγραφή ελεύθερου κειμένου (free text). Με τα δεδομένα του καθορισμένου κειμένου ακολουθήθηκε μια διαδικασία, που χαρακτηρίστηκε ως πρώτο στάδιο της έρευνας, κατά την οποία μελετήθηκε η κατηγοριοποίηση χρηστών βάσει της συσκευής όπου πληκτρολογούν και βάσει του φύλου τους. Με τα δεδομένα του ελεύθερου κειμένου ακολουθήθηκε αντιστοίχως μια άλλη διαδικασία, που χαρακτηρίστηκε ως δεύτερο στάδιο της έρευνας, κατά την οποία μελετήθηκε η κατηγοριοποίηση χρηστών βάσει της προτίμησης χεριού τους, βάσει της ηλικιακής τους ομάδας, βάσει του μορφωτικού τους επιπέδου και βάσει της ημερήσιας χρήσης υπολογιστή.Τα αποτελέσματα δείχνουν πως η κατηγοριοποίηση χρηστών δια μέσω της δυναμικής της πληκτρολόγησης, είναι εφικτή. Τα ποσοστά ορθής πρόβλεψης κρίνονται ικανοποιητικά και εξάγονται χρήσιμα συμπεράσματα για τη συνέχιση της έρευνας προς αυτή την κατεύθυνση.
περισσότερα
Περίληψη σε άλλη γλώσσα
The study subject of this PhD thesis is the development of a method that is able to reveal part of identity of an unknown user who communicates through Internet. A user can hide behind the anonymity and this offer an ensuring that a leakage of personal and critical data will not happen. However, when this anonymity used to conceal illegal activity, then it becomes necessary the protection of unsuspicious users from malicious attacks which endangering security associated with personal, social and financial issues.Although they have been proposed various ways to succeed something like this, each of them has at least one weakness and therefore it cannot be used as general solution. In contrary, in this research, the necessary data comes from times of events that take place on the keyboard. The most important advantages of the proposed method are three. First, it is studied the user behavior during the text typing, which is the most prevalent media of the users communication on Internet. S ...
The study subject of this PhD thesis is the development of a method that is able to reveal part of identity of an unknown user who communicates through Internet. A user can hide behind the anonymity and this offer an ensuring that a leakage of personal and critical data will not happen. However, when this anonymity used to conceal illegal activity, then it becomes necessary the protection of unsuspicious users from malicious attacks which endangering security associated with personal, social and financial issues.Although they have been proposed various ways to succeed something like this, each of them has at least one weakness and therefore it cannot be used as general solution. In contrary, in this research, the necessary data comes from times of events that take place on the keyboard. The most important advantages of the proposed method are three. First, it is studied the user behavior during the text typing, which is the most prevalent media of the users communication on Internet. Second, the whole research was conducted based on QWERTY keyboard, which is the most common keyboard layout and it can be found both on "traditional" devices, like desktops and laptops, and "modern" devices, like tablets and smartphones, where has the virtual form. Finally, third, the parameters that used to reach the goals doesn't related to specific language, because they have to do with how a user types and not with what he/she types. The consequence of all these is that the proposed method can be generally applied, since it concerns the main communication media of users, the most frequently occurring text composition device and it is language independent.The computer science field that deals with the study of detailed timing information of keyboard events is called keystroke dynamics and it is almost exclusively used to user authentication. The keystroke dynamics parameters that can be exploited for extracting an outcome are too many, but each of them includes small amount of information. In this research, keystroke dynamics was used to classify users according to their characteristics and the parameters that were exploited were the keystroke durations and the digram latencies.Having as the purpose the correct prediction of an unknown user characteristics, so that to reveal part of his/her identity, systems which have as input data that came from the way a user types and extract a result that classify the user into a category were created. These systems were based on classifiers, which were chosen by evaluating the correct prediction percentage, the operating speed and the performance stability. More specifically, they were used Bayesian classifiers, Euclidean distance classifiers, Manhattan distance classifiers, support vector machines (SVM), multilayer perceptrons (MLP) and radial basis function networks (RBFN).The necessary data for the study were obtained in two different ways. First, by asking volunteers’ groups to type specific text while they were recorded, this is the fixed text approach. Second, by asking volunteers to use their computers during everyday activities, this is the free text approach. With fixed text data was followed a procedure, characterized as the first stage of research, in which was studied the user classification according the typing device and according their gender. With free text data was followed another procedure, characterized as the second stage of research, in which was studied the user classification according their dominant hand, according their age group, according their educational level and according computer daily usage.The results show that the user classification through keystroke dynamics is feasible. The correct prediction percentages considered satisfying and useful conclusions are drawn to continue research in this direction.
περισσότερα