Σημασιολογικός χαρακτηρισμός, οργάνωση και διαχείριση περιεχομένου του Παγκόσμιου Ιστού, με χρήση οντολόγιων και έμφαση στο ρόλο των υπερσυνδέσμων

Η παρούσα διατριβή περιγράφει µια νέα µέθοδο συλλογής, χαρακτηρισµού και οργάνωσης εγγράφων του Παγκόσµιου Ιστού (ΠΙ). Η διαφοροποίηση της µεθόδου από τις ήδη υπάρχουσες έγκειται στη χρήση µιας θεµατικής οντολογίας σε όλα τα επίπεδα της µεθόδου. Η οντολογία περιγράφει σε κάθε περίπτωση το πεδίο ενδιαφέροντος και συνεπώς τα έγγραφα που συλλέγονται και οργανώνονται αποτελούν ένα Θεµατικό Υποσύνολο (THEmatic SUbset) του ΠΙ. Για ένα Θ.Υ. του ΠΙ, η µέθοδος οργάνωσης διακρίνεται σε τρία βασικά στάδια: α) το χαρακτηρισµό των εγγράφων µε λεξικά και σηµασιολογικά χαρακτηριστικά, β) την οργάνωση των εγγράφων σε οµάδες µε κοινά χαρακτηριστικά και γ) τη διαχείριση της συγκεντρωµένης και οργανωµένης πληροφορίας.Με τον όρο λεξικά χαρακτηριστικά ενός εγγράφου αναφερόµαστε στο σύνολο των λέξεων που το περιγράφουν ενώ µε τον όρο σηµασιολογικά χαρακτηριστικά στο σύνολο των εννοιών της οντολογίας στις οποίες αντιστοιχούν οι λέξεις αυτές. Η οργάνωση των εγγράφων του ΠΙ σε θεµατικά υποσύνολα γίνεται µε βάση την οµοιότητα των σηµασιολογικών τους χαρακτηριστικών. Για τον υπολογισµό της οµοιότητας δύο εγγράφων εισάγεται ένα νέο µέτρο που λαµβάνει υπόψη την απόσταση – στην οντολογία – των συνόλων εννοιών που περιγράφουν τα δύο έγγραφα. Το µέτρο αυτό δε βασίζεται στην απόλυτη λεξική οµοιότητα µεταξύ των δύο περιγραφών, όπως συµβαίνει στα υπάρχοντα µέτρα οµοιότητας, αλλά στη σηµασιολογική οµοιότητα που εµφανίζουν. Για το λόγο αυτό είναι περισσότερο ευέλικτο και δίνει καλύτερα αποτελέσµατα.Οι λέξεις και έννοιες που εξάγονται για κάθε έγγραφο αποθηκεύονται σε ξεχωριστό XML αρχείο, το οποίο µπορεί να χρησιµοποιηθεί από άλλες εφαρµογές αλλά και να περιέχεται στο αρχικό έγγραφο ως αρχείο µετα-δεδοµένων. Η δοµή του κάθε XML εγγράφου περιγράφεται αυστηρά από ένα αρχείο XML-Schema. Για να διευκολύνεται η επεξεργασία της συγκεντρωµένης πληροφορίας (ερωτήσεις, εξόρυξη γνώσης κτλ.), τα δεδοµένα των αρχείων XML αποθηκεύονται σε µια σχεσιακή βάση δεδοµένων.Στα πλαίσια της διατριβής αναπτύχθηκε η γλώσσα THESUS, που ορίζει ένα σύνολο τελεστών για τη διαχείριση των υπερσυνδέσµων και της πληροφορίας που αυτοί φέρουν, και το σύστηµα THESUS, που υλοποιεί την προτεινόµενη µέθοδο διαχείρισης των εγγράφων του ΠΙ και ταυτόχρονα χρησιµοποιεί το νέο µέτρο για τον υπολογισµό της οµοιότητας δύο εγγράφων. Επίσης αναπτύχθηκε µια µεθοδολογία απεικόνισης των δοµών της XML-Schema στο σχεσιακό µοντέλο καθώς και το σύστηµα X-Database, που αναλαµβάνει την αυτόµατη δηµιουργία σχεσιακής βάσηςδεδοµένων από το XML-Schema και την αποθήκευση, διαχείριση και ανάκτηση των XML εγγράφων στη σχεσιακή βάση δεδοµένων.

περισσότερα

Περίληψη σε άλλη γλώσσα

The dissertation describes a new method of collecting, characterizing and organizing the contents of the World Wide Web (WWW). The difference of the method from the existing ones lies in the use of a thematic ontology at all levels. The ontology describes in each case the field of interest, and therefore the documents collected and organized constitute a THEMatic SUbset of the WWW. For a thematic subset of the WWW documents, the method of organization is divided into three main stages: a) the characterization of the documents with lexical and semantic features, b) the organization of the documents in groups with common characteristics and c) the management of the collected and organized information.The term "lexical features" of a document refers to the set of words that describe it, while the term "semantic features" refers to the set of ontological concepts to which these words correspond. The organization of WWW documents in thematic subsets is based on the variety of their semantic characteristics. To calculate the quality of two documents, a new measure is introduced that takes into account the distance - in the ontology - of the sets of concepts described by the two documents. This measure is not based on the absolute lexical similarity between the two descriptions, as is the case with the existing similarity measures, but on the semantic similarity they show. For this reason, it is more flexible and gives better results.The words and meanings extracted for each document are stored in a separate XML file, which can be used by other applications but also contained in the original document as a metadata file. The structure of each XML document is strictly described by an XML-Schema file. To facilitate the processing of the collected information (queries, knowledge mining, etc.), the XML file data is stored in a relational database.In the framework of the dissertation, the THESUS language was developed, which defines a set of operators for the management of hyperlinks and the information they carry, and the THESUS system, which implements the proposed method of managing WWW documents and at the same time uses a new similarity measure for documents. Also develops a methodology for mapping XML structures, using XML-Schema, to the relational model as well as the X-Database system, which undertakes the automatic creation of relational databases from the XML-Schema and the storage, management and retrieval of XML documents in the relational database.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.68 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/49798
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/49798
ND	49798
Εναλλακτικός τίτλος	Semantic characterization, organization and content management of the World Wide Web content, using ontologies and emphasizing the role of hyperlinks
Συγγραφέας	Βαρλάμης, Ηρακλής (Πατρώνυμο: Γεώργιος)
Ημερομηνία	2003
Ίδρυμα	Οικονομικό Πανεπιστήμιο Αθηνών. Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Γιαννακουδάκη Εμμανουήλ Δουκίδη Γεώργιος Βαζιργίαννη Μιχαήλ Καλαμπούκης Θεόδωρος Κωνσταντόπουλος Παναγιώτης Σελλής Τιμολέων Ανδρουτσόπουλος Ίων
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Πληροφοριακά συστήματα
Λέξεις-κλειδιά	Εξόρυξη γνώσης σε μεγάλη κλίμακα; Ανάκτηση πληροφοριών από κείμενα; Κατηγοριοποίηση κειμένων; Γλωσσικοί θησαυροί; Παγκόσμιος ιστός; XML
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Σημασιολογικός χαρακτηρισμός, οργάνωση και διαχείριση περιεχομένου του Παγκόσμιου Ιστού, με χρήση οντολόγιων και έμφαση στο ρόλο των υπερσυνδέσμων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .