Keyphrase extraction techniques

Αυτή η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στο πεδίο της εξαγωγής φράσεων κλειδιών. Η εξαγωγή φράσεων κλειδιών από κείμενα σχετίζεται με την αυτόματη εξαγωγή αντιπροσωπευτικών φράσεων από ένα έγγραφο που εκφράζουν όλες τις βασικές πτυχές του περιεχομένου του. Οι φράσεις κλειδιά αποτελούν μια εννοιολογική περίληψη του εγγράφου, η οποία είναι πολύ χρήσιμη στα ψηφιακά συστήματα διαχείρισης πληροφοριών, στη σημασιολογική δεικτοδότηση, καθώς και στην ομαδοποίηση/ταξινόμηση εγγράφων. Η μελέτη μας επικεντρώνεται σε μεθόδους εξαγωγής φράσεων κλειδιών χωρίς επίβλεψη. Τα βασικά βήματα μιας μη επιβλεπόμενης μεθόδου εξαγωγής φράσεων κλειδιών είναι τα ακόλουθα. Αρχικά, η μέθοδος επιλέγει τις υποψήφιες λεκτικές μονάδες με βάση ορισμένους κανόνες, όπως επιλογή λέξεων που ανήκουν σε συγκεκριμένα μέρη του λόγου. Στη συνέχεια, αναθέτει ένα σκορ στις υποψήφιες λεκτικές μονάδες και σχηματίζει φράσεις επιλέγοντας τις λεκτικές μονάδες με τα πιο υψηλά σκορ. Αν και το πεδίο εφαρμογής της διατριβής είναι το κείμενο, οι συνεισφορές της θα μπορούσαν να επεκταθούν και σε άλλους τομείς εφαρμογών όπου επικρατούν οι γράφοι ως μέσο αναπαράστασης πληροφορίας. Σε αυτή την εργασία μας απασχολούν τα εξής θέματα: (α) η βαθύτερη κατανόηση των μεθόδων φράσεων κλειδιών, (β) η πρόταση εναλλακτικής αναπαράστασης και τρόπου αξιοποίησης της στατιστικής πληροφορίας του υπό εξέταση εγγράφου, (γ) η μελέτη του βαθμού επίδρασης των διαφορετικών μετρικών/προσεγγίσεων αξιολόγησης και συνόλων φράσεων κλειδιών για αξιολόγηση στην εκτίμηση της επίδοσης των μεθόδων, καθώς και η πρόταση νέων μετρικών/προσεγγίσεων αξιολόγησης. (δ) Τέλος, παρουσιάζουμε μια μελέτη για την σημασιολογική εξέλιξη των λέξεων της ελληνικής γλώσσας χρησιμοποιώντας διανυσματικές αναπαραστάσεις λέξεων. Σε αυτή τη διατριβή, παρουσιάζουμε με οργανωμένο τρόπο τις μεθόδους εξαγωγής φράσεων κλειδιών προτείνοντας σχήματα κατηγοριοποίησής τους. Στη συνέχεια, παρουσιάζουμε μια νέα μη επιβλεπόμενη μέθοδο εξαγωγής φράσεων κλειδιών, της οποίας η βασική καινοτομία είναι η χρήση τοπικης διανυσματικης αναπαράστασης λέξεων. Καθώς αυτή είναι η πρώτη φορά που χρησιμοποιείται μία τέτοια τοπική διανυσματική αναπαράσταση λέξεων στο πεδίο της εξαγωγής φράσεων κλειδιών, δίνουμε επίσης ιδιαίτερο βάρος και σε μεθόδους εξαγωγής λέξεων κλειδιών για τη βελτίωση της διαδικασίας κατάταξης/ανάθεσης σκορ των επιμέρους λέξεων. Στη συνέχεια, παρουσιάζουμε μία μελέτη αξιολόγησης της επίδοσης εμπορικών πακέτων λογισμικού και των κυριότερων μεθόδων μη επιβλεπόμενης εξαγωγής φράσεων κλειδιών καθώς και μία ανάλυση για την εκτίμηση της επίδοσης των μεθόδων σε σχέση με τη χρήση διαφορετικών μετρικών/προσεγγίσεων αξιολόγησης και συνόλων φράσεων κλειδιών για αξιολόγηση. Τέλος, στο πλαίσιο του ενδιαφέροντός μας για εξαγωγή φράσεων κλειδιών από κείμενα ελληνικής λογοτεχνίας του 19ου-21ου αιώνα, αξιοποιώντας διανυσματικές αναπαραστάσεις λέξεων, ξεκινήσαμε μια μελέτη για την σημασιολογική εξέλιξη των λέξεων όπως αυτή αποτυπώνεται μέσα από διανύσματα λέξεων.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis presents original research in the keyphrase extraction field. Keyphrase extraction is a textual information processing task concerned with the automatic extraction of representative and characteristic phrases from a document that express all the critical aspects of its content. Keyphrases constitute a conceptual summary of a text document, which is very useful in digital information management systems for semantic indexing, faceted search, document clustering, and classification. We focus on the unsupervised mode of the task. The basic steps of an unsupervised keyphrase extraction approach are the following. First, the method selects the candidate lexical units based on some heuristics (e.g., excluding stopwords and choosing words that belong to a specific part-of-speech). It then ranks the candidate lexical units and forms the keyphrases by selecting words from the top-ranked ones or selecting a phrase with a high-rank score or whose parts have a high score. The dissertation's application domain is text; however, the thesis's contributions could easily be applied to other fields where graphs prevail as an information representation means, too. This thesis aims at a better understanding of the keyphrase extraction methods. We also propose an alternative representation (different from the widely used graph-of-words) and utilization of the target document's statistical information (other than the popular centrality measures). Furthermore, we contribute to several evaluation issues, such as assessing the impact of different evaluation measures, approaches, ground truth standards on the methods' performance evaluation results, and introducing new evaluation measures/approaches. Finally, we present a study on the evolution of Greek words using word embeddings. In this thesis, we give a well-organized presentation of the keyphrase extraction methods through informative categorization schemes, a list of popular keyphrase extraction datasets, commercial APIs, and free software related to keyphrase extraction. Then, we present a novel unsupervised method for keyphrase extraction, whose main innovation is the use of local word embeddings (employing the GloVe technique), i.e., embeddings trained from the single document under consideration. As this is the first time a local word vector representation is used in the keyphrase extraction task, we focus on the keyword extraction task to improve the individual words' scoring/ranking process. Next, we present a performance evaluation study for commercial APIs and state-of-the-art unsupervised keyphrase extraction methods with a more in-depth analysis of how the keyphrase extractors' performance results are affected by different evaluation measures, approaches, and ground truth standards. Finally, in the context of our interest in unsupervised keyphrase extraction from greek literature documents of the 19th-21st century using word vector representations, we start a study for the evolution of greek words via word embeddings.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (4.37 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/48989
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/48989
ND	48989
Εναλλακτικός τίτλος	Keyphrase extraction techniques
Συγγραφέας	Παπαγιαννοπούλου, Ειρήνη (Πατρώνυμο: Πρόδρομος)
Ημερομηνία	2021
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Τσουμάκας Γρηγόριος Βασιλειάδης Νικόλαος Βλαχάβας Ιωάννης Παπαδόπουλος Απόστολος Βακάλη Αθηνά Καρκαλέτσης Ευάγγελος Βαζιργιάννης Μιχαήλ
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Τεχνικές εξαγωγής φράσεων-κλειδιών; Τεχνικές εξαγωγής λέξεων-κλειδιών; Τοπικές διανυσματικές αναπαραστάσεις λέξεων; Μέθοδοι αξιολόγησης
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	161 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Χρήση τεχνικών εξόρυξης γνώσης στον σχεδιασμό παιχνιδοποιημένων εφαρμογών

Ανάλυση μεγάλου όγκου δεδομένων αγροτικών ψηφιακών αγορών

Deep neural networks for information mining from legal texts

Μηχανική μάθηση για την ανάλυση μεγάλων βιολογικών δεδομένων

Data mining for enhanced marketing decision making: applications in consumers’ behavior data in online and offline environment using a machine learning model

A study on machine learning techniques for technical debt estimation and forecasting

Deep learning techniques for financial data

Μέθοδοι μηχανικής μάθησης για σημασιολογική ανάλυση βίντεο

Εφαρμογές γλωσσικής τεχνολογίας στα ελληνικά για την αναγνώριση προτύπων μάθησης και συμπεριφοράς στις δυνητικές κοινότητες μάθησης: σχολικός εκφοβισμός και αυτοκτονικός ιδεασμός

Identification of fraudulent financial statements using data mining techniques

"Τεχνικές εξαγωγής φράσεων κλειδιών"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .