Περίληψη
Η σύγχρονη κοινωνία χαρακτηρίζεται από πρωτοφανή ανάπτυξη στο ρυθμό παραγωγής και διαμοιρασμού δεδομένων και πληροφοριών, ως απόρροια της ραγδαίας αύξησης της υπολογιστικής δύναμης, της διαθεσιμότητας και της δυνατότητας επεξεργασίας τεράστιου όγκου δεδομένων, προερχόμενων κυρίως από το Διαδίκτυο. Αυτός ο κατακλυσμός δεδομένων, ο οποίος συνήθως συναντάται με τη μορφή φυσικής γλώσσας, αναπόφευκτα μειώνει το συλλογικό εύρος προσοχής των παραληπτών, οδηγώντας περισσότερο στην αγχώδη και επιφανειακή κατανάλωσή τους, παρά στην ουσιαστική αφομοίωση και αξιολόγηση τους. Η διεθνής ερευνητική κοινότητα, μέσω εργαλείων και μεθοδολογιών επεξεργασίας φυσικής γλώσσας, προσπαθεί να απαντήσει στην ολοένα αυξανόμενη ζήτηση για αυτοματοποιημένη διαχείριση, αναπαράσταση και εξαγωγή πολύτιμης γνώσης από τις συνεχείς ροές δεδομένων που κατακλύζουν τον Παγκόσμιο Ιστό. Ωστόσο, το μεγαλύτερο μέρος της σημερινής έρευνας επικεντρώνεται σε μόλις 20 από τις περίπου 7000 γλώσσες του κόσμου, αφήνοντας τη συντριπτι ...
Η σύγχρονη κοινωνία χαρακτηρίζεται από πρωτοφανή ανάπτυξη στο ρυθμό παραγωγής και διαμοιρασμού δεδομένων και πληροφοριών, ως απόρροια της ραγδαίας αύξησης της υπολογιστικής δύναμης, της διαθεσιμότητας και της δυνατότητας επεξεργασίας τεράστιου όγκου δεδομένων, προερχόμενων κυρίως από το Διαδίκτυο. Αυτός ο κατακλυσμός δεδομένων, ο οποίος συνήθως συναντάται με τη μορφή φυσικής γλώσσας, αναπόφευκτα μειώνει το συλλογικό εύρος προσοχής των παραληπτών, οδηγώντας περισσότερο στην αγχώδη και επιφανειακή κατανάλωσή τους, παρά στην ουσιαστική αφομοίωση και αξιολόγηση τους. Η διεθνής ερευνητική κοινότητα, μέσω εργαλείων και μεθοδολογιών επεξεργασίας φυσικής γλώσσας, προσπαθεί να απαντήσει στην ολοένα αυξανόμενη ζήτηση για αυτοματοποιημένη διαχείριση, αναπαράσταση και εξαγωγή πολύτιμης γνώσης από τις συνεχείς ροές δεδομένων που κατακλύζουν τον Παγκόσμιο Ιστό. Ωστόσο, το μεγαλύτερο μέρος της σημερινής έρευνας επικεντρώνεται σε μόλις 20 από τις περίπου 7000 γλώσσες του κόσμου, αφήνοντας τη συντριπτική πλειονότητα των γλωσσών υπό-μελετημένη. Οι γλώσσες αυτές χαρακτηρίζονται ως χαμηλών πόρων και συνήθως στερούνται αντίστοιχης προσοχής, ή/και δεδομένων για την ανάπτυξη αντίστοιχων μεθόδων. Μια από αυτές τις γλώσσες είναι και η ελληνική. Είναι πρόδηλη η ανάγκη ανάπτυξης μέσων για την ελληνική γλώσσα τα οποία θα εστιάζουν στη διύλιση δεδομένων που προκύπτουν από τη διάχυση της πληροφορίας στο ευρύ κοινό μέσω του Διαδικτύου. Η παρούσα διδακτορική εργασία αποτελεί προσπάθεια κάλυψης της παραπάνω ανάγκης, με το σχεδιασμό μιας σύγχρονης γνωσιακής μηχανής εξαγωγής πληροφοριών από ελεύθερο κείμενο, ανίχνευσης λανθανουσών συσχετίσεων και προτύπων, που θα αξιοποιεί τον πληροφοριακό πλούτο ελληνικών διαδικτυακών πηγών ώστε να αναγνωρίζει, να ακολουθεί και να συνδυάζει την αλληλουχία εμφάνισης προγενέστερα ασυσχέτιστων δεδομένων (γεγονότων, ειδήσεων, απόψεων κτλ.), επιτρέποντας αφενός την αποτύπωση της πληροφορίας σε δομημένη μορφή και αφετέρου την αξιοποίησή της για τον έλεγχο των ισχυρισμών ενός χρήστη. Συγκεκριμένα, η εργασία αξιοποιεί μηχανισμούς αυτοματοποιημένης άντλησης και προεπεξεργασίας δεδομένων από πηγές του Ιστού, μέσω κινητών πρακτόρων, με σκοπό την εξαγωγή πληροφοριών σε δομημένη μορφή και την εκμετάλλευσή τους για εργασίες διερευνητικής ανάλυσης και διαμόρφωσης αρχικών υποθέσεων. Ακόμη, μελετώνται και αναπτύσσονται εξελιγμένες γνωσιακές τεχνικές για την εξαγωγή σημασιολογικών συμπερασμάτων μέσω του εντοπισμού και συσχέτισης εννοιολογικών οντοτήτων, με απώτερο στόχο την ανακάλυψη συσχετίσεων μεταξύ φαινομενικά ασύνδετων γεγονότων, προσώπων και πράξεων. Το τελικό προϊόν της εργασίας περιλαμβάνει το σχεδιασμό και υλοποίηση μεθοδολογιών εξαγωγής πληροφορίας από αδόμητο κείμενο καθώς και δυναμικού ελέγχου των ισχυρισμών ενός χρήστη (σε ελεύθερο κείμενο) βάσει της συγκεντρωθείσας πληροφορίας. Τα παραπάνω συνοδεύονται από την ανάπτυξη αντίστοιχων μοντέλων μηχανικής μάθησης που υποστηρίζουν τις παραπάνω εργασίες για την ελληνική γλώσσα. Οι μηχανισμοί που προκύπτουν από την ανάπτυξη των προαναφερθεισών μεθοδολογιών επιτρέπουν την αποτύπωση κειμένου σε δομημένη μορφή (σχεσιακών ν-πλειάδων), για την καλύτερη διαχείριση της εξαχθείσας πληροφορίας μέσω βάσεων δεδομένων καθώς και για τον εμπλουτισμό της μέσω συσχετίσεων με εξωτερικές γνωσιακές βάσεις. Επιπλέον, καθίσταται δυνατή η δυνατότητα επικύρωσης ή απόρριψης ενός οποιουδήποτε ισχυρισμού, μέσω του συνδυασμού ετερογενών πληροφοριών από πολλαπλές πηγές σε πραγματικό χρόνο, αξιοποιώντας την προτεινόμενη μεθοδολογία κατασκευής σχετικών τεκμηρίων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Modern society is characterized by an unprecedented growth in the ways data and information are being produced and shared, as a result of the rapid increase in computing power, of the availability of resources and of the ability to process huge data volumes, mainly derived from Internet sources. The occurring data flood, commonly encountered in the form of natural language, inevitably reduces the recipients' collective attention span, leading more to the stressful and superficial consumption of information, rather than to its actual assimilation and evaluation. Many research groups worldwide are responding to the growing demand for automated management, representation and extraction of valuable knowledge from the continuous data streams that are overwhelming the Web, by exploiting natural language processing methodologies and tools. However, most of today’s research is disproportionally focused on around 20 of the world’s more than 7000 spoken languages, leaving the vast majority of th ...
Modern society is characterized by an unprecedented growth in the ways data and information are being produced and shared, as a result of the rapid increase in computing power, of the availability of resources and of the ability to process huge data volumes, mainly derived from Internet sources. The occurring data flood, commonly encountered in the form of natural language, inevitably reduces the recipients' collective attention span, leading more to the stressful and superficial consumption of information, rather than to its actual assimilation and evaluation. Many research groups worldwide are responding to the growing demand for automated management, representation and extraction of valuable knowledge from the continuous data streams that are overwhelming the Web, by exploiting natural language processing methodologies and tools. However, most of today’s research is disproportionally focused on around 20 of the world’s more than 7000 spoken languages, leaving the vast majority of them under-studied. These languages are characterized as low-resource, since they usually lack the corresponding attention and/or data for the development of meaningful applications. Greek belongs to this language group. There is a dire need for the development of methods that will distill information from natural language content produced in Greek. This doctoral dissertation represents an attempt to meet the above need, through the design of a modern cognitive engine that enables the detection of latent correlations and patterns between entities, through the exploitation of the information wealth derived from Greek online sources and the combination of previously unrelated data (events, news, opinions etc.). This allows both the capture of information in a structured form, as well as its use for claim validation in natural language. More specifically, the dissertation utilizes automated crawling and pre-processing techniques on online news sources, in order to extract structured information that can be used for exploratory data analysis purposes and for the formulation of initial claims or hypotheses. In addition, it pertains to the development of advanced cognitive machine learning methods to achieve semantic inference and draw conclusions from the identification and connections between conceptual entities, ultimately aiming at the discovery of correlations between seemingly unrelated events, persons or actions. The final product of this work includes the design and implementation of a set of methodologies for information extraction and dynamic claim validation based on the accumulated information. All the above are accompanied by the development of corresponding machine learning models to support this work for the Greek use case. The mechanisms that will result from the development of the aforementioned methodologies allow the transformation of free-text to a structured representation (relational n-tuples), enabling better database management and enrichment with the help of external knowledge bases. Moreover, they render possible the validation or rejection of any textual claim, by aggregating heterogeneous information from multiple sources in real time, via a proposed evidence construction methodology.
περισσότερα