Περίληψη
Η διατριβή εστιάζει στις ερευνητικές περιοχές του Σημασιολογικού Ιστού (Semantic Web) και της Ανάλυσης Κοινωνικών Μέσων (Social Μedia Analysis), με τρόπο που αναδεικνύει τα συγκριτικά τους πλεονεκτήματα. Ο γενικότερος στόχος της διατριβής είναι να συμβάλει στην πραγμάτωση του οράματος του Σημασιολογικού Ιστού μέσα από την ανάπτυξη σημασιολογικών μεθόδων για τη συλλογή, ανάλυση, και διαχείριση σημασιολογικού περιεχομένου. Ο όρος σημασιολογική μέθοδος είναι διττός: από τη μία εννοείται η ανάλυση με στόχο την αποτελεσματική έκφραση της σημασίας των λέξεων, η οποία γίνεται με τεχνικές επεξεργασίας φυσικής γλώσσας, ενώ από την άλλη εννοείται η επεξεργασία με τεχνικές ΣΙ. Οι δύο αυτές προσεγγίσεις μπορούν να εφαρμόζονται με οποιαδήποτε σειρά. Με τον τρόπο αυτό, τα δεδομένα αποκτούν σημασία και καθίστανται κατανοητά τόσο από τις μηχανές, όσο και από τον άνθρωπο. Η διατριβή έχει τρεις ειδικότερους στόχους: α) τον ορισμό κατάλληλης μεθοδολογίας και την υλοποίηση ενός μηχανισμού συλλογής δεδομέν ...
Η διατριβή εστιάζει στις ερευνητικές περιοχές του Σημασιολογικού Ιστού (Semantic Web) και της Ανάλυσης Κοινωνικών Μέσων (Social Μedia Analysis), με τρόπο που αναδεικνύει τα συγκριτικά τους πλεονεκτήματα. Ο γενικότερος στόχος της διατριβής είναι να συμβάλει στην πραγμάτωση του οράματος του Σημασιολογικού Ιστού μέσα από την ανάπτυξη σημασιολογικών μεθόδων για τη συλλογή, ανάλυση, και διαχείριση σημασιολογικού περιεχομένου. Ο όρος σημασιολογική μέθοδος είναι διττός: από τη μία εννοείται η ανάλυση με στόχο την αποτελεσματική έκφραση της σημασίας των λέξεων, η οποία γίνεται με τεχνικές επεξεργασίας φυσικής γλώσσας, ενώ από την άλλη εννοείται η επεξεργασία με τεχνικές ΣΙ. Οι δύο αυτές προσεγγίσεις μπορούν να εφαρμόζονται με οποιαδήποτε σειρά. Με τον τρόπο αυτό, τα δεδομένα αποκτούν σημασία και καθίστανται κατανοητά τόσο από τις μηχανές, όσο και από τον άνθρωπο. Η διατριβή έχει τρεις ειδικότερους στόχους: α) τον ορισμό κατάλληλης μεθοδολογίας και την υλοποίηση ενός μηχανισμού συλλογής δεδομένων από κοινωνικά μέσα με δυνατότητα προσαρμογής στη συνεχώς εξελισσόμενη δομή του διαδικτύου, β) τον ορισμό κατάλληλης μεθοδολογίας και την υλοποίηση ενός πλαισίου σημασιολογικής ανάλυσης δεδομένων για το πρόβλημα της ανακάλυψης γεγονότων, και γ) τον ορισμό κατάλληλης μεθοδολογίας και τη δημιουργία ενός ολοκληρωμένου σημασιολογικού συστήματος που συνδυάζει δεδομένα αποθηκευμένα σε παραδοσιακές μορφές με δεδομένα που συλλέγονται από το διαδίκτυο ή που βρίσκονται ήδη οργανωμένα σε σημασιολογικές μορφές και έχει τη δυνατότητα αναζήτησης, προβολής και επεξεργασίας των σημασιολογικών δεδομένων. Για την εκπλήρωση των παραπάνω στόχων, η διατριβή εστιάστηκε στην ανάπτυξη ενός τεχνολογικού πλαισίου, προτείνοντας νέες ή συνδυάζοντας βιώσιμες και δοκιμασμένες λύσεις για κάθε ένα από τα προβλήματα που αναφέρθηκαν παραπάνω. Συγκεκριμένα, αναπτύχθηκαν και αξιολογήθηκαν πειραματικά α) ένας μηχανισμός συλλογής σημασιολογικών και παραδοσιακών δεδομένων από το διαδίκτυο, β) μια μεθοδολογία σημασιολογικής ανάλυσης των δεδομένων που συλλέγονται για την εύρεση όλων των γεγονότων του πραγματικού κόσμου, όπως αυτά περιγράφονται από τα δεδομένα που ανεβάζουν οι χρήστες των διαδικτυακών κοινωνικών μέσων, και γ) ένα σύστημα ολοκλήρωσης των σημασιολογικών και παραδοσιακών δεδομένων. Η επιστημονική συμβολή της παρούσας διατριβής μπορεί να συνοψιστεί στα παρακάτω πέντε σημεία. Πρώτον, ορίζεται μια νέα μεθοδολογία για την αναγνώριση σημασιολογικά πλούσιων γεγονότων από δεδομένα του Κοινωνικού Ιστού με βασική καινοτομία της τη δυνατότητα ανακάλυψης γεγονότων πλούσιων σε σημασιολογικό περιεχόμενο, ενώ παράλληλα επιτρέπει την αναγνώριση γενικών αλλά και εξειδικευμένων θεμάτων. Δεύτερον, προδιαγράφεται και υλοποιείται ένας καινοτόμος και αποδοτικός αλγόριθμος αναγνώρισης όλων των γεγονότων που εκφράζονται σε μεγάλα σύνολα δεδομένων διαδικτυακών κοινωνικών μέσων, υπό τη θεώρηση ανοικτού κόσμου. Τρίτον, ορίζεται μια μεθοδολογία για την αποτελεσματική αναγνώριση γεγονότων με προκαθορισμένο θέμα. Η προτεινόμενη μεθοδολογία αξιολογήθηκε στα πλαίσια διεθνούς διαγωνισμού, όπου και κατέλαβε την πρώτη θέση. Τέταρτον, σχεδιάζεται μια μεθοδολογία και υλοποιείται το ανάλογο σύστημα για την ολοκληρωμένη διαχείριση σημασιολογικών δεδομένων που περιλαμβάνει την ολοκλήρωση, μετατροπή, αναζήτηση, προβολή, επεξεργασία και συμπερασμό των σημασιολογικών δεδομένων. Πέμπτον, σχεδιάζεται και υλοποιείται ένας μηχανισμός συλλογής σημασιολογικών και παραδοσιακών δεδομένων από τον Παγκόσμιο και Κοινωνικό Ιστό, ο οποίος έχει τη δυνατότητα να βελτιώνει το υποσύστημα συλλογής παραδοσιακών δεδομένων κάνοντας χρήση των σημασιολογικών δεδομένων που ανακαλύπτει.
περισσότερα
Περίληψη σε άλλη γλώσσα
This PhD thesis focuses on the areas of Semantic Web and Social Media Analysis and aspires to enhance their respective advantages. The main goal of this thesis is to contribute towards the realization of Semantic Web by introducing semantic methods for the collection, analysis, and management of semantic content. The concept of semantic analysis covers both the analysis using natural language processing techniques, as well as the analysis with semantic web methods. These two approaches can be applied in any order to make data understandable by both machines and humans. The thesis’ objectives include a) the definition of a methodology and the implementation of an adaptable system for collecting data from web social media, b) the definition of a methodology for the semantic process of web social information for the identification of events, and c) the definition of a methodology and the development of a semantic system that integrates data stored in traditional formats with data collecte ...
This PhD thesis focuses on the areas of Semantic Web and Social Media Analysis and aspires to enhance their respective advantages. The main goal of this thesis is to contribute towards the realization of Semantic Web by introducing semantic methods for the collection, analysis, and management of semantic content. The concept of semantic analysis covers both the analysis using natural language processing techniques, as well as the analysis with semantic web methods. These two approaches can be applied in any order to make data understandable by both machines and humans. The thesis’ objectives include a) the definition of a methodology and the implementation of an adaptable system for collecting data from web social media, b) the definition of a methodology for the semantic process of web social information for the identification of events, and c) the definition of a methodology and the development of a semantic system that integrates data stored in traditional formats with data collected from the Web and data already available in semantically aware formats. Based on these goals, our thesis focuses on the development of a framework, accompanied with a set of algorithms that address each of the above mentioned problems. Thus, we present a web crawler for collecting data using semantically aware techniques, a methodology for the semantic analysis of data to identify all the real world events described by users in online social media, and a system for the integration of semantic and legacy data stored in relational databases. In conclusion, our contribution includes the following: first, we propose a methodology for the identification of events enriched with semantic information using data collected from the Social Web; second, we design and implement an innovative and efficient event detection algorithm that is applicable to large data streams; third, we propose a methodology to efficiently identify events of a predefined topic, which was evaluated in an international challenge and outperformed other approaches; fourth, we design and implement an integrated framework for the management of semantic data including integrating, modifying, searching, viewing, editing and inferencing on semantic data, and fifth, we design and implement a mechanism for the collection of semantic and legacy data from the web, which can adapt to the evolutionary nature of the WWW using the semantic information scattered on it.
περισσότερα