Περίληψη
Με την ταχύτατη ανάπτυξη του Παγκόσμιου Ιστού (WWW) η διαχείριση του συνόλου της πληροφορίας γίνεται όλο και πιο σύνθετη διαδικασία. Καθημερινά, εκατομμύρια νέες σελίδες προστίθενται στις ήδη υπάρχουσες οι οποίες με τη σειρά τους εμπλουτίζονται συνεχώς, αυξάνοντας τον όγκο της διαθέσιμης πληροφορίας. Ο όγκος είναι ένας αρνητικός παράγοντας στην εκμετάλλευση της πληροφορίας καθότι, παρόλη τη διαθεσιμότητά της, οι χρήστες δυσκολεύονται να βρουν αυτό που αναζητούν. Επιπρόσθετα το γεγονός ότι η πληροφορία είναι ανομοιογενής και γραμμένη στη γλώσσα των ανθρώπων κάνει ακόμη πιο δύσκολη την αναζήτηση. Η ύπαρξη μεταδεδομένων τα οποία θα επεξηγούν τα δεδομένα και θα κάνουν περισσότερο σαφές το περιεχόμενο της πληροφορίας είναι μια συνθήκη που θα βοηθούσε ιδιαίτερα. Συνεπώς, υπάρχει άμεση ανάγκη για την ανάπτυξη τεχνικών και την κατασκευή συστημάτων τα οποία θα μπορούν να αναζητούν, να ταξινομούν και να κατηγοριοποιούν τη διαθέσιμη πληροφορία και εάν είναι δυνατόν να παράγουν αυτόματα μεταδεδομέ ...
Με την ταχύτατη ανάπτυξη του Παγκόσμιου Ιστού (WWW) η διαχείριση του συνόλου της πληροφορίας γίνεται όλο και πιο σύνθετη διαδικασία. Καθημερινά, εκατομμύρια νέες σελίδες προστίθενται στις ήδη υπάρχουσες οι οποίες με τη σειρά τους εμπλουτίζονται συνεχώς, αυξάνοντας τον όγκο της διαθέσιμης πληροφορίας. Ο όγκος είναι ένας αρνητικός παράγοντας στην εκμετάλλευση της πληροφορίας καθότι, παρόλη τη διαθεσιμότητά της, οι χρήστες δυσκολεύονται να βρουν αυτό που αναζητούν. Επιπρόσθετα το γεγονός ότι η πληροφορία είναι ανομοιογενής και γραμμένη στη γλώσσα των ανθρώπων κάνει ακόμη πιο δύσκολη την αναζήτηση. Η ύπαρξη μεταδεδομένων τα οποία θα επεξηγούν τα δεδομένα και θα κάνουν περισσότερο σαφές το περιεχόμενο της πληροφορίας είναι μια συνθήκη που θα βοηθούσε ιδιαίτερα. Συνεπώς, υπάρχει άμεση ανάγκη για την ανάπτυξη τεχνικών και την κατασκευή συστημάτων τα οποία θα μπορούν να αναζητούν, να ταξινομούν και να κατηγοριοποιούν τη διαθέσιμη πληροφορία και εάν είναι δυνατόν να παράγουν αυτόματα μεταδεδομένα. Στη συνέχεια, αυτά τα μεταδεδομένα πρέπει να είναι τέτοια ώστε να μπορούν να υποστούν επεξεργασία από υπολογιστές. Για την επίλυση αυτού του προβλήματος έχουν προταθεί τα συστήματα απάντησης ερωτημάτων τα οποία για τη βελτίωση της απόδοσής τους εκμεταλλεύονται τα μεταδεδομένα των εγγράφων και τη σημασιολογία που υπάρχει σε αυτά. Η συνεισφορά της διατριβής έγκειται στη μελέτη και την ανάπτυξη συστημάτων απάντησης ερωτημάτων που δίνονται σε φυσική γλώσσα. Επιπλέον, μελετούνται συγκεκριμένα προβλήματα που βοηθούν στη σημασιολογική κατανόηση των εγγράφων από τις μηχανές αναζήτησης, ώστε να είναι δυνατή η καλύτερη εξαγωγή της πληροφορίας από αυτά.Τα συστήματα απάντησης ερωτημάτων (question answering systems) επί της ουσίας είναι συστήματα τα οποία λαμβάνουν ως είσοδο ερωτήματα και ένα σύνολο εγγράφων, μέσα στα οποία αναζητούν τις απαντήσεις. Το ερώτημα συνήθως δίνεται σε φυσική γλώσσα και αναζητά απαντήσεις οι οποίες αφορούν ένα συγκεκριμένο πεδίο γνώσεων. Ο άνθρωπος, διαβάζοντας από τον ιστό ένα κείμενο σε φυσική γλώσσα μπορεί να ξεχωρίσει σαφώς τα όρια των λέξεων, τη σημασία τους και εύκολα μπορεί να καταλάβει ποιο είναι το αντικείμενο ή η αφηρημένη έννοια στην οποία αναφέρονται. Η ίδια διαδικασία δεν είναι καθόλου προφανής για ένα υπολογιστικό σύστημα. Χρειάζονται λοιπόν τεχνικές επεξεργασίας και αναπαράστασης κειμένου οι οποίες θα είναι δυνατό να γεφυρώσουν το χάσμα μεταξύ της γλώσσας που αντιλαμβάνεται ο κόσμος των μηχανών και της γλώσσας του κόσμου των ανθρώπων. Για αυτό το λόγο όλα αυτά τα χρόνια αναπτύχθηκαν διάφορες τεχνικές επεξεργασίας κειμένου. Οι τεχνικές αυτές κινούνται προς δύο κατευθύνσεις. Η πρώτη κατεύθυνση αφορά την αναγνώριση μέσα στο κείμενο των ορίων μίας λέξης ή φράσης. Η φράση αυτή περιέχει κάποιο νοηματικό περιεχόμενο και αποτελεί την αναπαράσταση σε φυσική γλώσσα κάποιου αντικείμενου ή αφηρημένης έννοιας. Φυσικά ο υπολογιστής παρότι μέσω αυτών των τεχνικών μπορεί να αναγνωρίσει ότι μια συγκεκριμένη φράση αναπαριστά ένα αντικείμενο, συνεχίζει να μην είναι από μόνος του ικανός να διακρίνει εννοιολογικά ποιο είναι το αντικείμενο αυτό. Για αυτό το λόγο απαιτείται να προστεθεί κάποιου είδους εξωτερική γνώση, όμοια με αυτή που αποκτά με την εμπειρία του ο άνθρωπος. Η γνώση αυτή για να αποθηκευτεί χρειάζεται να μοντελοποιηθεί με τέτοιον τρόπο ώστε να είναι κατανοητή και εύκολα επεξεργάσιμη από έναν υπολογιστή.Στο πλαίσιο της διατριβής αναπτύσσονται αλγόριθμοι και μέθοδοι αναγνώρισης της σημασιολογίας των φράσεων και των κειμένων. Η έννοια της σημασιολογίας έγκειται στο γεγονός ότι στις φράσεις και τα κείμενα προστίθενται αντιστοιχίσεις με αντικείμενα που είναι σαφώς ορισμένα σε διάφορες βάσεις γνώσης και οντολογίες. Αυτή η σημασιολογική επισημείωση δίνει τη δυνατότητα στις μηχανές να αντιλαμβάνονται τη σημασιολογία των κειμένων και να βελτιώνουν τα αποτελέσματα της αναζήτησης. Το πρώτο μέρος της παρούσας διατριβής αφιερώνεται στην παρουσίαση ενός συστήματος απάντησης ερωτημάτων. Το σύστημα αυτό βασίζεται ως ένα βαθμό στην αναγνώριση της σημασιολογίας των εγγράφων στα οποία αναζητείται η προς εξαγωγή πληροφορία. Το σύστημα βασίζεται σε συνδυασμό κλασικών μεθόδων ανάκτησης πληροφοριών με εξωτερική σημασιολογική πληροφορία που προέρχεται από βάσεις γνώσεων. Πρώτον, χρησιμοποιείται μια μηχανή αναζήτησης για να συγκεντρώσει ιστοσελίδες και στη συνέχεια να εξάγει τις φράσεις που είναι υποψήφιες να αποτελούν απάντηση στο ερώτημα. Οι φράσεις αυτές κατατάσσονται χρησιμοποιώντας ένα γραμμικό συνδυασμό διαφόρων μετρικών ανάκτησης ώστε να συγκεντρωθούν οι πιο σημαντικές. Για κάθε μία από αυτές αναζητείται η ιστοσελίδα τους στη Wikipedia. Αυτό γίνεται έτσι ώστε να είναι δυνατή η εκμετάλλευση της δομημένης πληροφορίας που περιέχεται στη δομή της Wikipedia. Στη συνέχεια προτείνεται μία νέα μέθοδος εκμετάλλευσης της πληροφορίας αυτής. Με την εφαρμογή της μεθόδου αυτής επιλέγονται ως απάντηση οι φράσεις που ταιριάζουν καλύτερα ως προς τη σημασιολογία του ερωτήματος. Πέρα από την αναγνώριση της σημασιολογίας των λέξεων των κειμένων, ο σημασιολογικός εμπλουτισμός ολόκληρων εγγράφων είναι εξίσου χρήσιμος στα συστήματα απάντησης ερωτημάτων. Η εκ των προτέρων γνώση της σημασιολογικής πληροφορίας που περιέχει κάθε κείμενο βοηθά στην καλύτερη διαχείριση των εγγράφων. Στο πλαίσιο αυτό, παρουσιάζεται μια σειρά αλγορίθμων που εμπλουτίζουν τα κείμενα με μεταδεδομένα που περιέχουν σημασιολογική πληροφορία χρησιμοποιώντας τεχνικές επιβλεπόμενης μάθησης. Επιπλέον, στο κομμάτι αυτό της διατριβής εξετάζουμε το πρόβλημα της εκμετάλλευσης συλλογών εγγράφων με μη ισορροπημένα δεδομένα ως προς μια οντολογία.Συμπερασματικά, η συνεισφορά της διατριβής εντοπίζεται στη μελέτη και προσπάθεια της γεφύρωσης του χάσματος μεταξύ της φυσικής γλώσσας και του Σημασιολογικού Ιστού. Με βάση αυτό γίνεται μελέτη για την απάντηση των ερωτημάτων με το συνδυασμό τεχνικών επεξεργασίας λόγου σε φυσική γλώσσα και σημασιολογικών τεχνικών. Τα ερωτήματα συνήθως δίνονται από ανθρώπους σε φυσική γλώσσα και δύνανται να έχουν περισσότερες από μία απαντήσεις. Επιπλέον γίνεται μια παρουσίαση ενός νέου τρόπου αναπαράστασης εγγράφων. Η αναπαράσταση αυτή βοηθά στην ταξινόμησή τους και την απάντηση ερωτημάτων μέσω αυτών. Στη συνέχεια, παρουσιάζεται μια μελέτη για την αναγνώριση του νοήματος των λέξεων που υπάρχουν μέσα στα κείμενα σε φυσική γλώσσα και συνήθως αποτελούν μέρος της απάντησης. Τέλος, παρουσιάζεται μια μελέτη πάνω στο σημασιολογικό εμπλουτισμό των εγγράφων με βάση οντολογίες ώστε να εκμεταλλευτούμε τα πλεονεκτήματα του Σημασιολογικού Ιστού ως προς την ταχύτητα και την οργάνωση της πληροφορίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
With the rapid growth of the World Wide Web (WWW) the management of information becomes more difficult. Day by day, millions of new pages are added to the already existing ones, which in turn, are constantly updated, increasing the volume of available information. The volume has a negative impact on the exploitation of available information as the users find it difficult. Moreover, search becomes more difficult because of the fact that the information is heterogeneous and written in human language. The existence of metadata, which will illustrate the data and make the content of the information more clear, is a condition that would be particularly helpful. Therefore, there is an enormous need to develop techniques and built systems that will be able to search, classify and categorize the available information and, automatically generate metadata whenever it is possible. The second step deals with the number of those metadata so as to be possible for the computers to process. As a solut ...
With the rapid growth of the World Wide Web (WWW) the management of information becomes more difficult. Day by day, millions of new pages are added to the already existing ones, which in turn, are constantly updated, increasing the volume of available information. The volume has a negative impact on the exploitation of available information as the users find it difficult. Moreover, search becomes more difficult because of the fact that the information is heterogeneous and written in human language. The existence of metadata, which will illustrate the data and make the content of the information more clear, is a condition that would be particularly helpful. Therefore, there is an enormous need to develop techniques and built systems that will be able to search, classify and categorize the available information and, automatically generate metadata whenever it is possible. The second step deals with the number of those metadata so as to be possible for the computers to process. As a solution to this problem there have been proposed question answering systems, which take advantage of the existing metadata of documents in order to improve performance. The contribution of this thesis is to study and develop question answering systems. Moreover, specific problems are studied, that would help comprehension of semantic documents by search engines, so as to achieve better information extraction.Question answering systems are essentially systems which take as input queries and a set of documents, in which they search for answers. The question is usually given in natural language and searches for answers are related to a particular knowledge domain. When a human is reading from the web a text written in Natural Language, he/she is able to clearly distinguish the boundaries of words, their meaning and can easily understand which is the object or abstract concept to which they refer. However, this procedure is not very obvious for a computer system. So, text processing and representation techniques will be needed so as to bridge the gap between the language understood by the world of machines and the human world language. For this reason, various text processing techniques have been developed over the past years. These techniques are moving in both directions. The first direction regards the recognition of the limits of a word or phrase in the text. This phrase contains a conceptual content and represents a physical object, or an abstract concept, in Natural Language. Of course, the computer can identify that a particular phrase represents an object by using these techniques, but it is still not able to conceptually distinguish the subject by itself. Therefore, we need to add some kind of external knowledge, which is similar to the experience that a human gains. In order to be stored, this knowledge needs to be modeled in a way that can be easy understood and readily processed by a computer.In the context of this thesis, algorithms and methods to recognize the semantics of the phrases and texts are developed. The meaning of semantics is that phrases and texts are mapped to clearly defined objects in various knowledge databases and ontologies. This semantic annotation enables machines to understand the semantics of the text and to improve the searching results.The first part of this thesis is dedicated to the presentation of a question answering system. This system is to some extent based on the identification of the semantics of the documents, from which the information is to be exported. The system is based on the combination of classical information retrieval methods with external semantic information stored in knowledge bases. First of all, a search engine is used to gather the web pages and, then, the sentences that are candidates to be answers to the question are extracted. The phrases are ranked by using a linear combination of various retrieval metrics in order to save the most important. Then, the web page in Wikipedia for each of these phrases is retrieved. This is done to enable exploitation of structured information, which exists in the structure of the Wikipedia page. Then, a novel method for the exploitation of this information is proposed. Using this method the best fitting phrases on the semantics of the query are selected as an answer.Beyond the recognition of the semantics of the text words, the semantic enrichment of whole documents is equally useful in question answering systems. The prior knowledge of the semantic information which is contained in each document helps for the better management of the documents. In this context, a series of algorithms that enrich the texts with metadata is presented, which contain semantic information, by using supervised learning techniques. Moreover, in this part of the thesis, we study the problem of exploiting document collections with unbalanced data regarding an ontology.In conclusion, the contribution of this thesis lies in studying and trying to bridge the gap between natural language and the Semantic Web. Based on this, a study is carried out about Question Answering by combining natural language processing techniques and semantic technologies. The questions, which are usually given by people in Natural Language, may have more than one answer. In addition, we present a new way of document representation, which helps classification and the Question Answering. Then, a study about the identification of the meaning of the words that exist in the texts in natural language and are usually part of the answer is presented. Finally, another study on the semantic enrichment of documents, which are based on ontologies, is presented, in order to exploit the advantages of the semantic web in terms of speed and organization of information.
περισσότερα