Περίληψη
Η αυτόματη παραγωγή περιλήψεων έχει κερδίσει μεγάλο ενδιαφέρον τα τελευταία χρόνια μιας και θα μπορούσε να κάνει την αναζήτηση πληροφορίας σε μεγάλες συλλογές δεδομένων λιγότερο κουραστική και χρονοβόρα. Τα περισσότερα συστήματα παράγουν περιλήψεις εξάγοντας αρχικά τις προτάσεις που είναι πιο σχετικές με ένα ερώτημα του χρήστη από τα κείμενα που επέστρεψε μια μηχανή ανάκτησης πληροφορίας.
Σε αυτή την διατριβή, παρουσιάζουμε μια νέα ανταγωνιστική μέθοδο για την εξαγωγή προτάσεων η οποία αναθέτει ένα βαθμό σχετικότητας σε κάθε πρόταση των κειμένων από τα οποία θα παραχθεί η περίληψη. Η μέθοδος αυτή συνδυασμένη με μια απλή τεχνική που επιχειρεί να εντοπίσει προτάσεις που περιέχουν παρόμοιες πληροφορίες έδωσε πολύ ανταγωνιστικά αποτελέσματα συγκρινόμενη με πολλές άλλες μεθόδους σε διάφορα σύνολα δεδομένων.
Εκτός αυτού, προτείνουμε δύο πρωτότυπες μεθόδους συμπίεσης προτάσεων που ξαναγράφουν μια αρχική πρόταση σε συντομότερη μορφή διατηρώντας παράλληλα τις πιο σημαντικές πληροφορίες τ ...
Η αυτόματη παραγωγή περιλήψεων έχει κερδίσει μεγάλο ενδιαφέρον τα τελευταία χρόνια μιας και θα μπορούσε να κάνει την αναζήτηση πληροφορίας σε μεγάλες συλλογές δεδομένων λιγότερο κουραστική και χρονοβόρα. Τα περισσότερα συστήματα παράγουν περιλήψεις εξάγοντας αρχικά τις προτάσεις που είναι πιο σχετικές με ένα ερώτημα του χρήστη από τα κείμενα που επέστρεψε μια μηχανή ανάκτησης πληροφορίας.
Σε αυτή την διατριβή, παρουσιάζουμε μια νέα ανταγωνιστική μέθοδο για την εξαγωγή προτάσεων η οποία αναθέτει ένα βαθμό σχετικότητας σε κάθε πρόταση των κειμένων από τα οποία θα παραχθεί η περίληψη. Η μέθοδος αυτή συνδυασμένη με μια απλή τεχνική που επιχειρεί να εντοπίσει προτάσεις που περιέχουν παρόμοιες πληροφορίες έδωσε πολύ ανταγωνιστικά αποτελέσματα συγκρινόμενη με πολλές άλλες μεθόδους σε διάφορα σύνολα δεδομένων.
Εκτός αυτού, προτείνουμε δύο πρωτότυπες μεθόδους συμπίεσης προτάσεων που ξαναγράφουν μια αρχική πρόταση σε συντομότερη μορφή διατηρώντας παράλληλα τις πιο σημαντικές πληροφορίες της αρχικής. Η πρώτη μέθοδος παράγει συμπιέσεις απλά σβήνοντας λέξεις, ενώ η δεύτερη χρησιμοποιεί επίσης και παραφράσεις. Η πειραματική αξιολόγηση έδειξε πως η πρώτη μέθοδος παράγει συμπιέσεις που είναι καλύτερες η συγκρίσιμες σε ότι αφορά την γραμματική ορθότητα και την διατήρηση της πληροφορίας σε σχέση με αυτές που παράγονται από τις πιο επιτυχημένες έως τώρα μεθόδους. Από την άλλη μεριά, η δεύτερη μέθοδος παράγει πιο ποικίλες (εξαιτίας της χρήσης παραφράσεων) και ελαφρά πιο σύντομες συμπιέσεις από την πρώτη. Σε ότι αφορά την γραμματική ορθότητα και την διατήρηση της πληροφορίας οι δύο μέθοδοι έχουν παρόμοιες επιδόσεις.
Τέλος προτείνουμε μια μέθοδο βελτιστοποίησης που παράγει περιλήψεις διαλέγοντας τις προτάσεις που είναι ταυτόχρονα οι πιο σχετικές και έχουν την μικρότερη επικάλυψη. Η σχετικότητα υπολογίζεται χρησιμοποιώντας την προαναφερθείσα μέθοδο για εξαγωγή προτάσεων και η επικάλυψη υπολογίζετε μετρώντας πόσα διαφορετικά δι-γράμματα (bi-grams) καλύπτονται από τις επιλεγμένες προτάσεις. Η πειραματική αξιολόγηση έδειξε πως η μέθοδος κατατάσσεται ανάμεσα στα συστήματα με τις καλύτερες επιδόσεις σε διάφορα σύνολα δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Automatic text summarization has gained much interest in the last few years, since it could, at least in principle, make the process of information seeking in large document collections less tedious and time-consuming. Most existing summarization methods generate summaries by initially extracting the sentences that are most relevant to the user's query from documents returned by an information retrieval engine.
In this thesis, we present a new competitive sentence extraction method that assigns relevance scores to the sentences of the texts to be summarized. Coupled with a simple method to avoid selecting redundant sentences, the resulting summarization system achieves state-of-the-art results on widely used benchmark datasets.
Moreover, we propose two novel sentence compression methods, which rewrite a source sentence in a shorter form, retaining the most important information. The first method produces extractive compressions, i.e., it only deletes words, whereas the second o ...
Automatic text summarization has gained much interest in the last few years, since it could, at least in principle, make the process of information seeking in large document collections less tedious and time-consuming. Most existing summarization methods generate summaries by initially extracting the sentences that are most relevant to the user's query from documents returned by an information retrieval engine.
In this thesis, we present a new competitive sentence extraction method that assigns relevance scores to the sentences of the texts to be summarized. Coupled with a simple method to avoid selecting redundant sentences, the resulting summarization system achieves state-of-the-art results on widely used benchmark datasets.
Moreover, we propose two novel sentence compression methods, which rewrite a source sentence in a shorter form, retaining the most important information. The first method produces extractive compressions, i.e., it only deletes words, whereas the second one produces abstractive compressions, i.e., it also uses paraphrasing. Experiments show that the extractive method generates compressions better or comparable, in terms of grammaticality and meaning preservation, to those produced by state-of-the-art systems. On the other hand, the abstractive method produces more varied (due to paraphrasing) and slightly shorter compressions than the extractive one. In terms of grammaticality and meaning preservation, the two methods have similar scores.
Finally, we propose an optimization model that generates summaries by jointly selecting the most relevant and non-redundant input sentences. Sentence relevance is estimated using our sentence extraction method, and redundancy is estimated by counting how many word bigrams of the input sentences occur in the summary. Experimental evaluation with widely used datasets shows that the proposed optimization method ranks among the top perfoming systems.
περισσότερα