Similarity computation in modern applications

Ο υπολογισμός της ομοιότητας μεταξύ δεδομένων είναι μια θεμελιώδης λειτουργία στη διαχείριση δεδομένων. Το πρώτο μέρος της διατριβής προτείνει μια τεχνική που χρησιμοποιείται σε κατανεμημένες εφαρμογές για τον υπολογισμό της ομοιότητας μεταξύ περιγραφών δεδομένων που παράγονται από απομακρυσμένους κόμβους. Η προτεινόμενη τεχνική χρησιμοποιεί προηγούμενη γνώση της κατανομής των δεδομένων προκειμένου να παράγει, στον ίδιο χώρο, πιο ακριβείς περιγραφές από τη μέθοδο Random Hyperplane Projection (RHP). Παρουσιάζουμε αλγόριθμους που υπολογίζουν RHP διαστάσεις οι οποίες περιγράφουν καλύτερα τα δεδομένα, ενώ παράλληλα παράγονται πρόσθετες διαστάσεις σε πραγματικό χρόνο χρησιμοποιώντας απλά α υπολογίζουν RHP διαστάσεις οι οποίες περιγράφουν καλύτερα τα δεδομένα, ενώ παράλληλα παράγονται πρόσθετες διαστάσεις σε πραγματικό χρόνο χρησιμοποιώντας απλά αποθηκευμένα στατιστικά στοιχεία που διατηρούμε. Η μέθοδος μας είναι ανθεκτική στις μεταβολές της κατανομής των δεδομένων εξαιτίας ενός μηχανισμού ασφαλούς αποτυχίας ο οποίος ανιχνεύει σε πραγματικό χρόνο περιπτώσεις όπου συγκεκριμένα υποσύνολα δεδομένων δεν μπορούν να περιγραφούν με ακρίβεια χρησιμοποιώντας τις επιλεγμένες διαστάσεις. Σε τέτοιες περιπτώσεις η μέθοδος επιστρέφει αυτόματα στη χρήση της βασικής RHP τεχνικής. Το δεύτερο μέρος αυτής της διατριβής εισάγει μια νέα προσέγγιση για τον υπολογισμό ομοιότητας μεταξύ προϊόντων η οποία βασίζεται στον χρήστη. Σε αντίθεση με τις τεχνικές που επικεντρώνονται στα χαρακτηριστικά του προϊόντος, η μέθοδος μας λαμβάνει υπόψη τις προτιμήσεις των χρηστών, χρησιμοποιώντας την έννοια των reverse top-k ερωτημάτων. Σε αντίθεση με ένα top-k ερώτημα, το οποίο επιστρέφει τα κ προϊόντα με την καλύτερη βαθμολογία για έναν συγκεκριμένο πελάτη, το αποτέλεσμα ενος reverse top-k ερωτήματος είναι το σύνολο των πελατών (ή οι σειρές κατάταξης) για τους οποίους ένα συγκεκριμένο προϊόν ανήκει στο top-k αποτέλεσμα τους. Καθορίζονται δύο νέοι τύποι επερωτήσεων (θ-ομοιότητα και μ-πλησιέστεροι γείτονες) για τον υπολογισμό ομοιότητας με επίκεντρο τις προτιμήσεις των χρηστών, ενώ επίσης συζητούνται αλγόριθμοι για την αποτελεσματική επεξεργασία αυτών των ερωτημάτων. Οι αλγόριθμοι που παρουσιάζονται μειώνουν το χώρο αναζήτησης εντοπίζοντας αποτελεσματικά όρια ομοιότητας και εκμεταλλεύονται συμβατικά πολυδιάστατα ευρετήρια για αποτελεσματική επεξεργασία των ερωτημάτων. Στο τρίτο μέρος της διατριβής εξετάζουμε το πρόβλημα της ανίχνευσης ακραίων τιμών σε ιεραρχικά οργανωμένα σύνολα δεδομένων. Η ανίχνευση ακραίων τιμών είναι κρίσιμη για τις σύγχρονες εφαρμογές, όπως η υποστήριξη λήψης αποφάσεων (OLAP) και η διαχείριση δικτύου. Ωστόσο, οι υπάρχουσες τεχνικές δεν λαμβάνουν υπόψη την ιεραρχική φύση των δεδομένων που είναι εγγενής σε τέτοιες εφαρμογές. Η φυσική άθροιση των ατομικών τιμών ακολουθώντας τη δομή μιας ιεραρχίας είναι μια διαισθητική τεχνική σύνοψης των δεδομένων που μπορεί να χρησιμοποιηθεί για την ανίχνευση διαφορετικών βαθμών ακραίων τιμών, εξετάζοντας όλα τα επίπεδα της ιεραρχίας. Σε αυτή την εργασία, αρχικά ορίζουμε την έννοια μιας ιεραρχικά ακραίας τιμής και περιγράφουμε μια διαισθητική ιδιότητα μονοτονίας που μας επιτρέπει να διαβαθμίσουμε μια ακραία τιμή με εναν μοναδικό αριθμό. Στη συνέχεια, παρουσιάζουμε μια μέθοδο που συνδυάζει την τεχνική του locality sensitive κατακερματισμού και της ομαδοποίησης των δεδομένων για τη δημιουργία ενός ευρετηρίου. Ο συνδυασμός και των δύο τεχνικών μας επιτρέπει να μειώσουμε το χώρο αποθήκευσης του ευρετηρίου αλλά και τον χρόνο εκτέλεσης ενός ερωτήματος υπολογισμού ιεραρχικά ακραίας τιμής.

περισσότερα

Περίληψη σε άλλη γλώσσα

Computing the similarity between data items is a fundamental operation in data management. The first part of the thesis proposes a technique that is utilized in distributed applications for computing the similarity between data descriptions that are streamed from remote sources. The proposed technique utilizes prior knowledge of the data distribution in order to produce, with the same space, more accurate descriptions than the Random Hyperplane Projection (RHP) method (i.e. a locality sensitive hashing method). We present algorithms that materialize RHP dimensions that better describe the underlying data, while additional dimensions are derived in real-time using simple stored statistics we maintain. Our method is resilient to data distribution changes because of a fail-safe mechanism that detects in real time cases where particular data instances cannot be accurately described using the selected dimensions. In such cases the method automatically falls-back into using the basic RHP sch ...

Περίληψη

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.35 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

υμε την έννοια μιας ιεραρχικά ακραίας τιμής και περιγράφουμε μια διαισθητική ιδιότητα μονοτονίας που μας επιτρέπει να διαβαθμίσουμε μια ακραία τιμή με εναν μοναδικό αριθμό. Στη συνέχεια, παρουσιάζουμε μια μέθοδο που συνδυάζει την τεχνική του locality sensitive κατακερματισμού και της ομαδοποίησης των δεδομένων για τη δημιουργία ενός ευρετηρίου. Ο συνδυασμός και των δύο τεχνικών μας επιτρέπει να μειώσουμε το χώρο αποθήκευσης του ευρετηρίου αλλά και τον χρόνο εκτέλεσης ενός ερωτήματος υπολογισμού ιεραρχικά ακραίας τιμής.

περισσότερα

Περίληψη σε άλλη γλώσσα

DOI

10.12681/eadd/41418

Διεύθυνση Handle

http://hdl.handle.net/10442/hedi/41418

41418

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

	Διαβάστε τη διατριβή (Online)
Εναλλακτικός τίτλος	Similarity computation in modern applications
Συγγραφέας	Γεωργούλας, Κωνσταντίνος (Πατρώνυμο: Θωμάς)
Ημερομηνία	2017
Ίδρυμα	Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της . Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Κωτίδης Ιωάννης Βασσάλος Βασίλειος Δεληγιαννάκης Αντώνιος Κωνσταντόπουλος Πάνος Καλαμπούκης Θεόδωρος Δουλκερίδης Χρήστος Τσουμάκος Δημήτριος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Ομοιότητα
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	xxi, 119 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Υπολογισμός ομοιότητας σε μοντέρνες εφαρμογές"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .