Η παρούσα διατριβή περιγράφει µια νέα µέθοδο συλλογής, χαρακτηρισµού και οργάνωσης εγγράφων του Παγκόσµιου Ιστού (ΠΙ). Η διαφοροποίηση της µεθόδου από τις ήδη υπάρχουσες έγκειται στη χρήση µιας θεµατικής οντολογίας σε όλα τα επίπεδα της µεθόδου. Η οντολογία περιγράφει σε κάθε περίπτωση το πεδίο ενδιαφέροντος και συνεπώς τα έγγραφα που συλλέγονται και οργανώνονται αποτελούν ένα Θεµατικό Υποσύνολο (THEmatic SUbset) του ΠΙ. Για ένα Θ.Υ. του ΠΙ, η µέθοδος οργάνωσης διακρίνεται σε τρία βασικά στάδια: α) το χαρακτηρισµό των εγγράφων µε λεξικά και σηµασιολογικά χαρακτηριστικά, β) την οργάνωση των εγγράφων σε οµάδες µε κοινά χαρακτηριστικά και γ) τη διαχείριση της συγκεντρωµένης και οργανωµένης πληροφορίας.Με τον όρο λεξικά χαρακτηριστικά ενός εγγράφου αναφερόµαστε στο σύνολο των λέξεων που το περιγράφουν ενώ µε τον όρο σηµασιολογικά χαρακτηριστικά στο σύνολο των εννοιών της οντολογίας στις οποίες αντιστοιχούν οι λέξεις αυτές. Η οργάνωση των εγγράφων του ΠΙ σε θεµατικά υποσύνολα γίνεται µε βάση την οµοιότητα των σηµασιολογικών τους χαρακτηριστικών. Για τον υπολογισµό της οµοιότητας δύο εγγράφων εισάγεται ένα νέο µέτρο που λαµβάνει υπόψη την απόσταση – στην οντολογία – των συνόλων εννοιών που περιγράφουν τα δύο έγγραφα. Το µέτρο αυτό δε βασίζεται στην απόλυτη λεξική οµοιότητα µεταξύ των δύο περιγραφών, όπως συµβαίνει στα υπάρχοντα µέτρα οµοιότητας, αλλά στη σηµασιολογική οµοιότητα που εµφανίζουν. Για το λόγο αυτό είναι περισσότερο ευέλικτο και δίνει καλύτερα αποτελέσµατα.Οι λέξεις και έννοιες που εξάγονται για κάθε έγγραφο αποθηκεύονται σε ξεχωριστό XML αρχείο, το οποίο µπορεί να χρησιµοποιηθεί από άλλες εφαρµογές αλλά και να περιέχεται στο αρχικό έγγραφο ως αρχείο µετα-δεδοµένων. Η δοµή του κάθε XML εγγράφου περιγράφεται αυστηρά από ένα αρχείο XML-Schema. Για να διευκολύνεται η επεξεργασία της συγκεντρωµένης πληροφορίας (ερωτήσεις, εξόρυξη γνώσης κτλ.), τα δεδοµένα των αρχείων XML αποθηκεύονται σε µια σχεσιακή βάση δεδοµένων.Στα πλαίσια της διατριβής αναπτύχθηκε η γλώσσα THESUS, που ορίζει ένα σύνολο τελεστών για τη διαχείριση των υπερσυνδέσµων και της πληροφορίας που αυτοί φέρουν, και το σύστηµα THESUS, που υλοποιεί την προτεινόµενη µέθοδο διαχείρισης των εγγράφων του ΠΙ και ταυτόχρονα χρησιµοποιεί το νέο µέτρο για τον υπολογισµό της οµοιότητας δύο εγγράφων. Επίσης αναπτύχθηκε µια µεθοδολογία απεικόνισης των δοµών της XML-Schema στο σχεσιακό µοντέλο καθώς και το σύστηµα X-Database, που αναλαµβάνει την αυτόµατη δηµιουργία σχεσιακής βάσηςδεδοµένων από το XML-Schema και την αποθήκευση, διαχείριση και ανάκτηση των XML εγγράφων στη σχεσιακή βάση δεδοµένων.
Περίληψη σε άλλη γλώσσα
The dissertation describes a new method of collecting, characterizing and organizing the contents of the World Wide Web (WWW). The difference of the method from the existing ones lies in the use of a thematic ontology at all levels. The ontology describes in each case the field of interest, and therefore the documents collected and organized constitute a THEMatic SUbset of the WWW. For a thematic subset of the WWW documents, the method of organization is divided into three main stages: a) the characterization of the documents with lexical and semantic features, b) the organization of the documents in groups with common characteristics and c) the management of the collected and organized information.The term "lexical features" of a document refers to the set of words that describe it, while the term "semantic features" refers to the set of ontological concepts to which these words correspond. The organization of WWW documents in thematic subsets is based on the variety of their semantic characteristics. To calculate the quality of two documents, a new measure is introduced that takes into account the distance - in the ontology - of the sets of concepts described by the two documents. This measure is not based on the absolute lexical similarity between the two descriptions, as is the case with the existing similarity measures, but on the semantic similarity they show. For this reason, it is more flexible and gives better results.The words and meanings extracted for each document are stored in a separate XML file, which can be used by other applications but also contained in the original document as a metadata file. The structure of each XML document is strictly described by an XML-Schema file. To facilitate the processing of the collected information (queries, knowledge mining, etc.), the XML file data is stored in a relational database.In the framework of the dissertation, the THESUS language was developed, which defines a set of operators for the management of hyperlinks and the information they carry, and the THESUS system, which implements the proposed method of managing WWW documents and at the same time uses a new similarity measure for documents. Also develops a methodology for mapping XML structures, using XML-Schema, to the relational model as well as the X-Database system, which undertakes the automatic creation of relational databases from the XML-Schema and the storage, management and retrieval of XML documents in the relational database.