Περίληψη
Η παρούσα έρευνα εστιάζει στον εντοπισμό οικονομικών όρων της γερμανικής γλώσσας, στην ηλεκτρονική επεξεργασία τους και στη Μηχανική Μετάφραση αυτών από τον μεταφραστή Google Translator. Στο τέλος της διατριβής προτείνεται ένας αλγόριθμος Στατιστικής Μηχανικής Μετάφρασης για συγκεκριμένες σύνθετες πολυλεκτικές ορολογικές δομές της γερμανικής. Συγκεκριμένα, ο προτεινόμενος αλγόριθμος στοχεύει στην βελτίωση της απόδοσης συστημάτων Μηχανικής Μετάφρασης. Η διαδικασία που ακολουθήθηκε περιγράφεται σε δύο φάσεις: αρχικά, κατασκευάστηκε ένα παραλληλοποιημένο Ηλεκτρονικό Σώμα Κειμένων με μεταφράσεις από τον αυτόματο μεταφραστή Google (Γερμανικά-Ελληνικά), παράλληλα πραγματοποιήθηκε η εξαγωγή νέων όρων [Manual Term Extraction], όπως επίσης και η αναγνώριση ήδη υπαρχόντων όρων. Σε ό,τι αφορά τις επικρατούσες θεωρητικές προσεγγίσεις για την ανάλυση των (πολυ)σύνθετων λέξεων στα Γερμανικά και στα Ελληνικά, πρόκειται για τις αναλύσεις κατά Elsen (2011) και Sternefeld (2006) για τα Γερμανικά και κα ...
Η παρούσα έρευνα εστιάζει στον εντοπισμό οικονομικών όρων της γερμανικής γλώσσας, στην ηλεκτρονική επεξεργασία τους και στη Μηχανική Μετάφραση αυτών από τον μεταφραστή Google Translator. Στο τέλος της διατριβής προτείνεται ένας αλγόριθμος Στατιστικής Μηχανικής Μετάφρασης για συγκεκριμένες σύνθετες πολυλεκτικές ορολογικές δομές της γερμανικής. Συγκεκριμένα, ο προτεινόμενος αλγόριθμος στοχεύει στην βελτίωση της απόδοσης συστημάτων Μηχανικής Μετάφρασης. Η διαδικασία που ακολουθήθηκε περιγράφεται σε δύο φάσεις: αρχικά, κατασκευάστηκε ένα παραλληλοποιημένο Ηλεκτρονικό Σώμα Κειμένων με μεταφράσεις από τον αυτόματο μεταφραστή Google (Γερμανικά-Ελληνικά), παράλληλα πραγματοποιήθηκε η εξαγωγή νέων όρων [Manual Term Extraction], όπως επίσης και η αναγνώριση ήδη υπαρχόντων όρων. Σε ό,τι αφορά τις επικρατούσες θεωρητικές προσεγγίσεις για την ανάλυση των (πολυ)σύνθετων λέξεων στα Γερμανικά και στα Ελληνικά, πρόκειται για τις αναλύσεις κατά Elsen (2011) και Sternefeld (2006) για τα Γερμανικά και κατά Ράλλη (1997) για τα σύνθετα και τις σύνθετες δομές της ελληνικής γλώσσας, βάσει των οποίων αναλύθηκαν και οι πολυλεκτικές φράσεις από τα εμπειρικά δεδομένα και τέθηκαν οι βάσεις για μια συγκριτική προσέγγιση των δύο γλωσσών. Η αναφορά στα χαρακτηριστικά των σύνθετων, όπως αυτό της θέσης της Κεφαλής, έπαιξε βασικό ρόλο. Επιπλέον, αναλύθηκαν οι κατηγορίες των σύνθετων ουσιαστικών, όπως για παράδειγμα, μεταξύ άλλων, των προσδιοριστικών και των παρατακτικών.Η παρουσίαση, ανάλυση και κατηγοριοποίηση των λαθών που προκύπτουν κατά την υπολογιστική επεξεργασία των προαναφερόμενων οικονομικών δομών από την προαναφερόμενη διαδικασία αποτέλεσαν την βάση για την κατασκευή του αλγόριθμου, καθώς η παράθεση αυτών, εστιάζει στα προβλήματα που εμφανίζονται και δημιουργεί τις προϋποθέσεις για επεξεργασία των αυτόματων εργαλείων μετάφρασης. Οι κυριότερες κατηγορίες λαθών που παρουσιάζονται είναι τα σημασιολογικά και τα μορφολογικά λάθη τα οποία ο αλγόριθμος επιδιώκει να υπερκεράσει.Επιπλέον, παραθέτονται παραδείγματα μοντέλων ευθυγράμμισης (Μεταφραστικά Μοντέλα). Τα κυριότερα μοντέλα ευθυγράμμισης είναι τα επονομαζόμενα «χιαστί» (Sternefeld, 2006) και τα «κάθετα» (Koehn, 2010). Αναφέρονται, εντούτοις, κι άλλα μικτά μοντέλα, τα οποία ονομάζονται «περιγραφικά». Ο προτεινόμενος αλγόριθμος βασίζεται σε μεγάλο βαθμό στα μοντέλα ευθυγράμμισης ή αλλιώς μεταφραστικά μοντέλα, και τα αξιοποιεί ανάλογα. Μετά την επεξεργασία ΜΜ με τη Στατιστική Μέθοδο (IBM Models, 1993), εξάγονται για τον προτεινόμενο αλγόριθμο, μεταξύ άλλων, ορισμένα βασικά συμπεράσματα: Τα Μεταφραστικά Μοντέλα συντελούν στη σωστή τοποθέτηση των λέξεων στη γλώσσα στόχο, επίσης, αλλάζοντας τη σειρά των λέξεων, ο αλγόριθμος καθιστά πιθανότερο το ενδεχόμενο ορθής ολοκληρωμένης μετάφρασης. Στη συνέχεια, ελέγχοντας την κάθε ελληνική και γερμανική φράση με την συνδρομή παραμέτρων Στατιστικής ΜΜ, όπως: γλωσσικού μοντέλου p(gr), γονιμότητας n(), μετάφρασης t() κ.α. αυξάνονται οι πιθανότητες να επιλεγεί από το συγκεκριμένο, προτεινόμενο Σύστημα η ορθή μετάφραση.
περισσότερα
Περίληψη σε άλλη γλώσσα
The present Thesis concerns the analysis, translation and processing of German multi-word compounds as financial and economic terms in journalistic texts and business news. The German multi-word compounds constituting financial and economic terms are analyzed in respect to Modern Greek and their machine translation is evaluated with available online machine translation tools. In particular, the Google Translate machine translation tool is used, as well as its latest updated version (with Deep Learning). Finally, an algorithm and statistical approach is proposed, for the correct analysis and processing of the German multi-word financial and economic terms.The present study involves the comparison of theoretical models in German (for example, Sternefeld, 2006, Elsen 2011 and Ralli, 2007) and in Modern Greek for the analysis of compound words and multi-word compounds. The analysis is based on empirical data from a large corpus of collected German financial texts and business news availabl ...
The present Thesis concerns the analysis, translation and processing of German multi-word compounds as financial and economic terms in journalistic texts and business news. The German multi-word compounds constituting financial and economic terms are analyzed in respect to Modern Greek and their machine translation is evaluated with available online machine translation tools. In particular, the Google Translate machine translation tool is used, as well as its latest updated version (with Deep Learning). Finally, an algorithm and statistical approach is proposed, for the correct analysis and processing of the German multi-word financial and economic terms.The present study involves the comparison of theoretical models in German (for example, Sternefeld, 2006, Elsen 2011 and Ralli, 2007) and in Modern Greek for the analysis of compound words and multi-word compounds. The analysis is based on empirical data from a large corpus of collected German financial texts and business news available online from major German media and the German press. According to the empirical data, sixteen (16) most commonly occurring structures of German multi-word compounds as financial and economic terms are determined (1).In addition, a parallel corpus is constructed for the German financial texts and business news and the respective equivalent terms in Modern Greek. In addition to the parallel corpus, a separate database contains the errors and error types for the machine translation of the German multi-word financial and economic terms into Modern Greek. The errors and error types are determined according to a specified set of criteria and related research in the domain of Terminology. Five (5) main categories and various sub-categories of machine translation errors are defined and evaluated (2). We note here that the due to the particularities of the language pair German-Greek, most error categories continue to persist, despite the latest developments in Machine Translation.From the empirical data and findings, a set of translation models is determined (3). The constructed translation models constitute the basis for the proposed theoretical model integrating the existing theoretical models in German and in Modern Greek (Sternefeld, 2006, Elsen 2011 and Ralli, 2007) (4). The theoretical model presented is connected to the proposed algorithm analyzing German multi-word financial and economic terms. The algorithm (5), involving the use of IBM-Models, produces re-ordered (re-ordering algorithm), re-constructed, re-phrased equivalent financial terms and expressions in Modern Greek, targeting to precision and correctness. The proposed algorithm is reinforced with statistical models, for example, Bhattacharrya (2015), which demonstrate an evident difference in output quality and efficiency in respect to lexical-based approaches.
περισσότερα