Περίληψη
Αυτή η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στο πεδίο της εξαγωγής φράσεων κλειδιών. Η εξαγωγή φράσεων κλειδιών από κείμενα σχετίζεται με την αυτόματη εξαγωγή αντιπροσωπευτικών φράσεων από ένα έγγραφο που εκφράζουν όλες τις βασικές πτυχές του περιεχομένου του. Οι φράσεις κλειδιά αποτελούν μια εννοιολογική περίληψη του εγγράφου, η οποία είναι πολύ χρήσιμη στα ψηφιακά συστήματα διαχείρισης πληροφοριών, στη σημασιολογική δεικτοδότηση, καθώς και στην ομαδοποίηση/ταξινόμηση εγγράφων. Η μελέτη μας επικεντρώνεται σε μεθόδους εξαγωγής φράσεων κλειδιών χωρίς επίβλεψη. Τα βασικά βήματα μιας μη επιβλεπόμενης μεθόδου εξαγωγής φράσεων κλειδιών είναι τα ακόλουθα. Αρχικά, η μέθοδος επιλέγει τις υποψήφιες λεκτικές μονάδες με βάση ορισμένους κανόνες, όπως επιλογή λέξεων που ανήκουν σε συγκεκριμένα μέρη του λόγου. Στη συνέχεια, αναθέτει ένα σκορ στις υποψήφιες λεκτικές μονάδες και σχηματίζει φράσεις επιλέγοντας τις λεκτικές μονάδες με τα πιο υψηλά σκορ. Αν και το πεδίο εφαρμογής της διατριβής είναι ...
Αυτή η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στο πεδίο της εξαγωγής φράσεων κλειδιών. Η εξαγωγή φράσεων κλειδιών από κείμενα σχετίζεται με την αυτόματη εξαγωγή αντιπροσωπευτικών φράσεων από ένα έγγραφο που εκφράζουν όλες τις βασικές πτυχές του περιεχομένου του. Οι φράσεις κλειδιά αποτελούν μια εννοιολογική περίληψη του εγγράφου, η οποία είναι πολύ χρήσιμη στα ψηφιακά συστήματα διαχείρισης πληροφοριών, στη σημασιολογική δεικτοδότηση, καθώς και στην ομαδοποίηση/ταξινόμηση εγγράφων. Η μελέτη μας επικεντρώνεται σε μεθόδους εξαγωγής φράσεων κλειδιών χωρίς επίβλεψη. Τα βασικά βήματα μιας μη επιβλεπόμενης μεθόδου εξαγωγής φράσεων κλειδιών είναι τα ακόλουθα. Αρχικά, η μέθοδος επιλέγει τις υποψήφιες λεκτικές μονάδες με βάση ορισμένους κανόνες, όπως επιλογή λέξεων που ανήκουν σε συγκεκριμένα μέρη του λόγου. Στη συνέχεια, αναθέτει ένα σκορ στις υποψήφιες λεκτικές μονάδες και σχηματίζει φράσεις επιλέγοντας τις λεκτικές μονάδες με τα πιο υψηλά σκορ. Αν και το πεδίο εφαρμογής της διατριβής είναι το κείμενο, οι συνεισφορές της θα μπορούσαν να επεκταθούν και σε άλλους τομείς εφαρμογών όπου επικρατούν οι γράφοι ως μέσο αναπαράστασης πληροφορίας. Σε αυτή την εργασία μας απασχολούν τα εξής θέματα: (α) η βαθύτερη κατανόηση των μεθόδων φράσεων κλειδιών, (β) η πρόταση εναλλακτικής αναπαράστασης και τρόπου αξιοποίησης της στατιστικής πληροφορίας του υπό εξέταση εγγράφου, (γ) η μελέτη του βαθμού επίδρασης των διαφορετικών μετρικών/προσεγγίσεων αξιολόγησης και συνόλων φράσεων κλειδιών για αξιολόγηση στην εκτίμηση της επίδοσης των μεθόδων, καθώς και η πρόταση νέων μετρικών/προσεγγίσεων αξιολόγησης. (δ) Τέλος, παρουσιάζουμε μια μελέτη για την σημασιολογική εξέλιξη των λέξεων της ελληνικής γλώσσας χρησιμοποιώντας διανυσματικές αναπαραστάσεις λέξεων. Σε αυτή τη διατριβή, παρουσιάζουμε με οργανωμένο τρόπο τις μεθόδους εξαγωγής φράσεων κλειδιών προτείνοντας σχήματα κατηγοριοποίησής τους. Στη συνέχεια, παρουσιάζουμε μια νέα μη επιβλεπόμενη μέθοδο εξαγωγής φράσεων κλειδιών, της οποίας η βασική καινοτομία είναι η χρήση τοπικης διανυσματικης αναπαράστασης λέξεων. Καθώς αυτή είναι η πρώτη φορά που χρησιμοποιείται μία τέτοια τοπική διανυσματική αναπαράσταση λέξεων στο πεδίο της εξαγωγής φράσεων κλειδιών, δίνουμε επίσης ιδιαίτερο βάρος και σε μεθόδους εξαγωγής λέξεων κλειδιών για τη βελτίωση της διαδικασίας κατάταξης/ανάθεσης σκορ των επιμέρους λέξεων. Στη συνέχεια, παρουσιάζουμε μία μελέτη αξιολόγησης της επίδοσης εμπορικών πακέτων λογισμικού και των κυριότερων μεθόδων μη επιβλεπόμενης εξαγωγής φράσεων κλειδιών καθώς και μία ανάλυση για την εκτίμηση της επίδοσης των μεθόδων σε σχέση με τη χρήση διαφορετικών μετρικών/προσεγγίσεων αξιολόγησης και συνόλων φράσεων κλειδιών για αξιολόγηση. Τέλος, στο πλαίσιο του ενδιαφέροντός μας για εξαγωγή φράσεων κλειδιών από κείμενα ελληνικής λογοτεχνίας του 19ου-21ου αιώνα, αξιοποιώντας διανυσματικές αναπαραστάσεις λέξεων, ξεκινήσαμε μια μελέτη για την σημασιολογική εξέλιξη των λέξεων όπως αυτή αποτυπώνεται μέσα από διανύσματα λέξεων.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents original research in the keyphrase extraction field. Keyphrase extraction is a textual information processing task concerned with the automatic extraction of representative and characteristic phrases from a document that express all the critical aspects of its content. Keyphrases constitute a conceptual summary of a text document, which is very useful in digital information management systems for semantic indexing, faceted search, document clustering, and classification. We focus on the unsupervised mode of the task. The basic steps of an unsupervised keyphrase extraction approach are the following. First, the method selects the candidate lexical units based on some heuristics (e.g., excluding stopwords and choosing words that belong to a specific part-of-speech). It then ranks the candidate lexical units and forms the keyphrases by selecting words from the top-ranked ones or selecting a phrase with a high-rank score or whose parts have a high score. The dissertati ...
This thesis presents original research in the keyphrase extraction field. Keyphrase extraction is a textual information processing task concerned with the automatic extraction of representative and characteristic phrases from a document that express all the critical aspects of its content. Keyphrases constitute a conceptual summary of a text document, which is very useful in digital information management systems for semantic indexing, faceted search, document clustering, and classification. We focus on the unsupervised mode of the task. The basic steps of an unsupervised keyphrase extraction approach are the following. First, the method selects the candidate lexical units based on some heuristics (e.g., excluding stopwords and choosing words that belong to a specific part-of-speech). It then ranks the candidate lexical units and forms the keyphrases by selecting words from the top-ranked ones or selecting a phrase with a high-rank score or whose parts have a high score. The dissertation's application domain is text; however, the thesis's contributions could easily be applied to other fields where graphs prevail as an information representation means, too. This thesis aims at a better understanding of the keyphrase extraction methods. We also propose an alternative representation (different from the widely used graph-of-words) and utilization of the target document's statistical information (other than the popular centrality measures). Furthermore, we contribute to several evaluation issues, such as assessing the impact of different evaluation measures, approaches, ground truth standards on the methods' performance evaluation results, and introducing new evaluation measures/approaches. Finally, we present a study on the evolution of Greek words using word embeddings. In this thesis, we give a well-organized presentation of the keyphrase extraction methods through informative categorization schemes, a list of popular keyphrase extraction datasets, commercial APIs, and free software related to keyphrase extraction. Then, we present a novel unsupervised method for keyphrase extraction, whose main innovation is the use of local word embeddings (employing the GloVe technique), i.e., embeddings trained from the single document under consideration. As this is the first time a local word vector representation is used in the keyphrase extraction task, we focus on the keyword extraction task to improve the individual words' scoring/ranking process. Next, we present a performance evaluation study for commercial APIs and state-of-the-art unsupervised keyphrase extraction methods with a more in-depth analysis of how the keyphrase extractors' performance results are affected by different evaluation measures, approaches, and ground truth standards. Finally, in the context of our interest in unsupervised keyphrase extraction from greek literature documents of the 19th-21st century using word vector representations, we start a study for the evolution of greek words via word embeddings.
περισσότερα