Natural language interaction with semantic web ontologies

Ο Σημασιολογικός Ιστός (ΣΙ) είναι μια απόπειρα ανάπτυξης προτύπων και τεχνολογιών που θα επιτρέπουν στους υπολογιστές να εντοπίζουν και να επεξεργάζονται ευκολότερα πόρους (έγγραφα, δεδομένα, υπηρεσίες) του Παγκόσμιου Ιστού. Κεντρικό ρόλο στο ΣΙ παίζουν οι οντολογίες. Μια οντολογία αποτελεί τον ορισμό μιας θεματικής περιοχής (π.χ., ηλεκτρονικά προϊόντα) ορίζοντας τις τάξεις και υποτάξεις των αντικειμένων του πεδίου, τους τύπους πιθανών σχέσεων μεταξύ τους κ.τ.λ. Το τρέχον επικρατών πρότυπο για τον ορισμό του Σημασιολογικού Ιστού είναι η OWL, μια τυπική γλώσσα που βασίζεται στην περιγραφική λογική και στην RDF, με την OWL 2 να αποτελεί την πιο πρόσφατη έκδοση του προτύπου OWL. Δεδομένης μιας οντολογίας OWL για κάποια θεματική περιοχή, κάποιος μπορεί να εκδώσει στον Ιστό δεδομένα, τα οποία μπορούν να διαβαστούν από υπολογιστές, σχετικά με αυτή την περιοχή (π.χ., καταλόγους προϊόντων, τα στοιχεία τους κ.τ.λ.), με τα δεδομένα αυτά να έχουν τυπικά ορισμένη σημασιολογία που βασίζεται στον ορισμό της οντολογίας. Έχουν αναπτυχθεί διάφορα συντακτικά OWL, αλλά όσοι δεν είναι είναι εξοικειωμένοι με τυπικές αναπαραστάσεις γνώσης συχνά έχουν δυσκολίες στην κατανόηση τους. Αυτή η διατριβή εξέτασε μεθόδους που επιτρέπουν σε τελικούς χρήστες να δουν αναπαραστάσεις γνώσης βασισμένες σε οντολογίες του Σημασιολογικού Ιστού στην μορφή αυτόματα παραγόμενων κειμένων σε πολλαπλές φυσικές γλώσσες.Το πρώτο μέρος της διατριβής βελτιώνει το NaturalOWL, ένα σύστημα Παραγωγής Φυσικής Γλώσσας από οντολογίες OWL που είχε αναπτυχθεί παλιότερα στο ΟΠΑ. Το σύστημα τροποποιήθηκε ώστε να υποστηρίζει την OWL 2 και να μπορεί να παράγει υψηλότερης ποιότητας κείμενα. Πειράματα έδειξαν ότι τα κείμενα που παράχθηκαν από την νέα έκδοση του NaturalOWL είναι πράγματι υψηλής ποιότητας και σημαντικά καλύτερα από κείμενα που παράχθηκαν από απλούστερα συστήματα, συχνά γνωστά ως ontology verbalizers, δεδομένου ότι οι απαραίτητοι γλωσσικοί πόροι (π.χ., σχέδια προτάσεων που εκφράζουν σχέσεις) είναι διαθέσιμοι στο NaturalOWL. Το δεύτερο μέρος της διατριβής εξέτασε μεθόδους εξόρυξης κειμένου και μηχανικής μάθησης για να εξάγει από τον Ιστό αυτόματα ή ήμι-αυτόματα τους πιο σημαντικούς γλωσσικούς πόρους που το NaturalOWL χρειάζεται για να παραγάγει κείμενα υψηλής ποιότητας. Πειράματα έδειξαν ότι η ήμι-αυτόματη προσέγγιση, όπου ένας άνθρωπος εξετάζει τους αυτόματα παραγόμενους γλωσσικούς πόρους, επιτρέπει στο NaturaOWL να παράγει κείμενα σχεδόν της ίδιας ποιότητας όσο με γλωσσικούς πόρους που έχουν συγγραφεί χειρωνακτικά από το μηδέν. Το τρίτο μέρος της διατριβής στόχευε να βελτιώσει περαιτέρω την ποιότητα των παραγόμενων κειμένων αναπτύσσοντας ένα μοντέλο Ακέραιο Γραμμικού Προγραμματισμού που εξετάζει παράλληλα την επιλογή περιεχομένου, την λεξικοποίηση, τον συνδυασμό προτάσεων, και μια περιορισμένη μορφή της παραγωγής αναφορικών εκφράσεων, σε αντίθεση με την αρχιτεκτονική διασωλήνωσης των περισσότερων συστημάτων Παραγωγής Φυσικής Γλώσσας, όπου τα τέσσερα στάδια εξετάζονται άπληστα το ένα μετά το άλλο. Πειράματα έδειξαν ότι το νέο μοντέλο επιτρέπει στο NaturalOWL να εκφράζει περισσότερες πληροφορίες ανά λέξη, το οποίο είναι χρήσιμο όταν ο χώρος είναι περιορισμένος (π.χ., στις διαφημίσεις), χωρίς κάποια αντιληπτή αλλοίωση στην ποιότητα των παραγόμενων κειμένων.Καθ’ όλη τη διατριβή, χρησιμοποιήθηκαν οντολογίες από διάφορες θεματικές περιοχές (π.χ., πολιτιστική κληρονομιά, ηλεκτρονικά προϊόντα, βιοπληροφορική). Χρησιμοποιώντας τις μεθόδους αυτής της διατριβής, οργανισμοί (π.χ., εταιρίες, βιβλιοθήκες, μουσεία) μπορούν να εκδώσουν πληροφορίες στον Ιστό που να διαβάζονται από υπολογιστές (π.χ., πληροφορίες που προέρχονται από βάσεις δεδομένων) και είναι διαθέσιμες σε πολλαπλές φυσικές γλώσσες (κείμενα που παράγονται αυτόματα από δεδομένα). Με αυτό τον τρόπο οι πληροφορίες γίνονται πιο εύκολα διαθέσιμες και σε υπολογιστές και σε τελικούς χρήστες.

περισσότερα

Περίληψη σε άλλη γλώσσα

The Semantic Web is an effort to establish standards and mechanisms that will allow computers to reason more easily about the semantics of Web resources (documents, data etc.). Ontologies play a central role in this endeavour. An ontology provides a conceptualization of a knowledge domain (e.g., consumer electronics) by defining the classes and subclasses of the domain's entities, the types of possible relations between them etc. The current standard to specify Semantic Web ontologies is OWL, a formal language based on description logics and RDF, with OWL 2 being the latest OWL standard. Given an OWL ontology for a knowledge domain, one can publish on the Web machine-readable data pertaining to that domain (e.g., catalogues of products, their features etc.), with the data having formally defined semantics based on the conceptualization of the ontology. Several OWL syntaxes have been developed, but people unfamiliar with formal knowledge representation often have difficulties understanding them. This thesis considered methods that allow end-users to view ontology-based knowledge representations of the Semantic Web in the form of automatically generated texts in multiple natural languages.The first part of the thesis improved NaturalOWL, a Natural Language Generation system for OWL ontologies previously developed at AUEB. The system was modified to support OWL 2 and to be able to produce higher quality texts. Experiments showed that the texts generated by the new version of NaturalOWL are indeed of high quality and significantly better than texts generated by simpler systems, often called ontology verbalizers, provided that appropriate domain-dependent linguistic resources (e.g., sentence plans to express relations) are available to NaturalOWL. The second part of the thesis considered text mining and machine learning methods to automatically or semi-automatically extract from the Web the most important of the domain-dependent linguistic resources that NaturalOWL needs to produce high quality texts. Experiments showed that a semi-automatic approach, where a human inspects automatically produced linguistic resources, allows NaturalOWL to produce texts of almost the same quality as with linguistic resources authored manually from scratch. The third part of the thesis aimed to further improve the quality of the generated texts by developing an Integer Linear Programming model that jointly considers content selection, lexicalization, sentence aggregation, and a limited form of referring expression generation, unlike the pipeline architecture of most natural language generation systems, where the four stages are greedily considered one after the other. Experiments indicated that the new model allows NaturalOWL to express more information per word, which is useful when space is limited (e.g., in advertising), with no deterioration in the perceived quality of the generated texts.Throughout the thesis, ontologies from different domains (e.g., cultural heritage, consumer electronics, bioinformatics) were used. Using the methods of the thesis, organizations (e.g., companies, libraries, museums) could publish information on the Web both in a machine-readable form (e.g., data originating from databases) and in multiple natural languages (texts automatically generated from data). This way information becomes more easily accessible to both computers and end-users.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.83 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/35583
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/35583
ND	35583
Εναλλακτικός τίτλος	Natural language interaction with semantic web ontologies
Συγγραφέας	Λάμπουρας, Γεράσιμος (Πατρώνυμο: Παναγιώτης)
Ημερομηνία	2015
Ίδρυμα	Οικονομικό Πανεπιστήμιο Αθηνών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Ανδρουτσόπουλος Ιωάννης ('Ιων) Κωνσταντόπουλος Πάνος Καρκαλέτσης Ευάγγελος Βαζιργιάννης Μιχαήλ Παπαγεωργίου Χάρης Ποταμιάνος Αλέξανδρος Τίτσιας Μιχαήλ
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Παραγωγή φυσικής γλώσσας; Επεξεργασία φυσικής γλώσσας; Οντολογίες; Σημασιολογικός ιστός; Ακέραιος γραμμικός προγραμματισμός; Έξαγωγή προτύπων από τον Ιστό
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	247 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Η στρατηγική σημασία του πετρελαίου και του φυσικού αερίου για την ασφάλεια των μεγάλων δυνάμεων από τον Α' παγκόσμιο πόλεμο έως και τη μεταψυχροπολεμική περίοδο

Σχεδιασμός, κατασκευή και αξιολόγηση ελληνικού γραμματκού διορθωτή

Μέθοδοι μηχανικής μάθησης για αυτόματη ταξινόμηση κειμένων

Η τσαμπούνα του Αιγαίου: οργανολογία, ρεπερτόριο και σύγχρονη αναβίωση

Οι Χάζαροι και το Βυζάντιο: ιστορική και θρησκειολογική προσέγγιση

Το θέμα του τρελού στο λαϊκό μύθο

Γενετική θεωρία της τονικής μουσικής και τροπικότητα - έρευνα με βάση την ανάλυση του έργου: 44 παιδικά κομμάτια πάνω σε λαϊκούς ελληνικούς σκοπούς του Γιάννη Κωνσταντινίδη

Κατηγοριοποίηση και τμηματοποίηση κειμένων με χρήση μεθόδων υπολογιστικής νοημοσύνης

Εφαρμογή αλγορίθμων μηχανικής εκμάθησης για εξόρυξη και κατηγοριοποίηση πληροφοριών περιεχομένου στα οπτικοακουστικά μέσα

Knowledge discovery in high dimensional data

"Αλληλεπίδραση μέσω φυσικής γλώσσας με οντολογίες του σημασιολογικού ιστού"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .