Περίληψη
Τη σημερινή εποχή, πολλές επιχειρήσεις χρησιμοποιούν τα μέσα κοινωνικής δικτύωσης με σκοπό να βελτιώσουν την επωνυμία τους και να μεγιστοποιήσουν τα κέρδη τους, μέσω της προβολής των αγαθών τους (προϊόντα ή υπηρεσίες). Η ανάπτυξη του Παγκόσμιου Ιστού 2.0 έχει επιτρέψει στους χρήστες να μεταφορτώνουν, να διαμοιράζονται και να ανταλλάζουν τις απόψεις ή τις ιδέες τους για διάφορα θέματα σε μια πληθώρα ιστοτόπων. Παράγεται, όπως είναι κατανοητό, ένας μεγάλος όγκος δεδομένων που περιέχει χρήσιμες πληροφορίες σχετικά με τις προτιμήσεις των καταναλωτών και από ποίκιλες πηγές, όπως μικρο-ιστολόγια, αξιολογήσεις σε ψηφιακές αγορές ή ιστοτόπους συζητήσεων κ.ά. Στην περίπτωση του αγροδιατροφικού κλάδου και κατ’ επέκταση της Εστίασης και Ποτών (Ε&Π), όλο και περισσότεροι ιστότοποι αξιολογήσεων λειτουργούν παγκοσμίως (Yelp, TripAdvisor κ.ά.) και πολλοί από αυτούς επιτρέπουν στους χρήστες να πραγματοποιούν ηλεκτρονικά τις παραγγελίες τους για τη διανομή στο σπίτι έτοιμου φαγητού (Volton, just-eat, e ...
Τη σημερινή εποχή, πολλές επιχειρήσεις χρησιμοποιούν τα μέσα κοινωνικής δικτύωσης με σκοπό να βελτιώσουν την επωνυμία τους και να μεγιστοποιήσουν τα κέρδη τους, μέσω της προβολής των αγαθών τους (προϊόντα ή υπηρεσίες). Η ανάπτυξη του Παγκόσμιου Ιστού 2.0 έχει επιτρέψει στους χρήστες να μεταφορτώνουν, να διαμοιράζονται και να ανταλλάζουν τις απόψεις ή τις ιδέες τους για διάφορα θέματα σε μια πληθώρα ιστοτόπων. Παράγεται, όπως είναι κατανοητό, ένας μεγάλος όγκος δεδομένων που περιέχει χρήσιμες πληροφορίες σχετικά με τις προτιμήσεις των καταναλωτών και από ποίκιλες πηγές, όπως μικρο-ιστολόγια, αξιολογήσεις σε ψηφιακές αγορές ή ιστοτόπους συζητήσεων κ.ά. Στην περίπτωση του αγροδιατροφικού κλάδου και κατ’ επέκταση της Εστίασης και Ποτών (Ε&Π), όλο και περισσότεροι ιστότοποι αξιολογήσεων λειτουργούν παγκοσμίως (Yelp, TripAdvisor κ.ά.) και πολλοί από αυτούς επιτρέπουν στους χρήστες να πραγματοποιούν ηλεκτρονικά τις παραγγελίες τους για τη διανομή στο σπίτι έτοιμου φαγητού (Volton, just-eat, e-food κ.ά.). Επίσης, οι χρήστες έχουν τη δυνατότητα να αξιολογούν δημόσια τα αγαθά που έχουν καταναλώσει. Όπως γίνεται αντιληπτό, παράγεται ταχύτατα ένας μεγάλος όγκος χρήσιμων πληροφορίων από τις ηλεκτρονικές αξιολογήσεις χρηστών στο Διαδίκτυο που μπορεί να επηρεάσει άλλους και να μεταβάλει την καταναλωτική τους συμπεριφορά. Αξίζει να σημειωθεί ότι οι ηλεκτρονικές αξιολογήσεις του κλάδου χαρακτηρίζονται ως μικτές, επειδή αξιολογούνται ταυτόχρονα διαφορετικές λειτουργίες ενός καταστήματος. Έτσι, τα ενδιαφερόμενα μέρη (επιχειρήσεις ή καταναλωτές) δεν είναι σε θέση να εξάγουν και να αναλύουν σε πραγματικό χρόνο τις χρήσιμες πληροφορίες που παράγονται, εξαιτίας της έλλειψης πόρων και των βιολογικών και διανοητικών περιορισμών του ανθρώπινου παράγοντα. Στη βιβλιογραφία παρουσιάζονται διάφορες μεθοδολογίες που αντιμετωπίζουν το συγκεκριμένο πρόβλημα με την ανάλυση συναισθήματος να είναι η προτιμότερη. Απαντάται ως η αυτόματη ανακάλυψη θετικών ή αρνητικών εκφράσεων σε περιεχόμενο που δημιουργείται από τους χρήστες των κοινωνικών δικτύων. Ερευνητικά παρουσιάζονται δύο προσεγγίσεις: η προσέγγιση της μηχανικής μάθησης και η προσέγγιση του σημασιολογικού προσανατολισμού. Επίσης παρουσιάζονται τρία επίπεδα ανάλυσης: το επίπεδο κειμένου, το επίπεδο πρότασης και το επίπεδο απόψεων. Αρκετά πλαίσια έχουν προταθεί που χρησιμοποιούν τεχνικές μηχανικής μάθησης, ενώ δεν παρουσιάζεται το ίδιο ενδιαφέρον για την προσέγγιση του σημασιολογικού προσανατολισμού. Ωστόσο, προηγούμενες έρευνες κατέληξαν στο συμπέρασμα ότι η προσέγγιση του σημασιολογικού προσανατολισμού θεωρείται αποδοτικότερη, όταν εφαρμόζεται για να ταξινομήσει τις απόψεις των χρηστών και ταυτόχρονα να υπολογίσει την ισχύ των απόψεων αυτών μέσω της ποσοτικοποίησης τους. Τέλος, ενώ αρκετές έρευνες έχουν διεξαχθεί σχετικά με την ανάλυση συναισθήματος σε διάφορες γλώσσες και κλάδους, η ελληνική και ειδικά ο κλάδος Ε&Π έχουν λάβει ελάχιστα την προσοχή του επιστημονικού κοινού. Αυτό οφείλεται κυρίως στο γεγονός ότι η ελληνική θεωρείται μια γλώσσα πολλών διακυμάνσεων με περίπλοκους γραμματικούς και συντακτικούς κανόνες. Η παρούσα διατριβή αντιμετωπίζει το πρόβλημα που περιγράφηκε, προτείνοντας ένα νέο πλαίσιο ανάλυσης συναισθήματος, εφαρμόζοντας την προσέγγιση του σημασιολογικού προσανατολισμού. Μέσω της εμπεριστατωμένης ανάλυσης 91.504 πραγματικών αξιολογήσεων πελατών (9.150 αξιολογήσεις στο σύνολο εκπαίδευσης) που εξορύχθηκαν από επιχειρήσεις που λειτουργούν σε όλη την Ελληνική επικράτεια, καθώς και με τη χρήση των κατάλληλων μέτρων και προτύπων (BOW, tf-idf, POS), κατασκευάζεται ένα λεξικό απόψεων που αναφέρεται στον κλάδο Ε&Π. Το προτεινόμενο λεξικό περιλαμβάνει τρία υπο-λεξικά που αντιστοιχούν στις λειτουργίες των καταστημάτων του κλάδου (ποιότητα φαγητού, εξυπηρέτηση & εικόνα καταστήματος). Στη συνέχεια, μέσω της εφαρμογής του προτύπου αμοιβαίας πληροφόρησης (PMI), εντοπίζονται οι σχέσεις των μερών του λόγου, καθώς και οι θέσεις τους στις μικτές αξιολογήσεις των πελατών και προτείνονται τα αντίστοιχα μοτίβα ετικετών, τα οποία χρησιμοποιούνται στη συνέχεια, με σκοπό να εντοπιστούν και να ποσοτικοποιηθούν οι απόψεις των χρηστών. Η καινοτομία του πλαισίου βασίζεται στη μορφή της ανάλυσης, πρώτα σε επίπεδο πρότασης και έπειτα σε επίπεδο απόψεων, με σκοπό να εξαχθούν και να ποσοτικοποιηθούν αυτόματα οι απόψεις για τις διαφορετικές λειτουργίες ενός καταστήματος. Επιπλέον, προτείνεται μια νέα υβριδική τεχνική κατασκευής λεξικών απόψεων, κάνοντας χρήση και των τριών τεχνικών που προτείνονται στη βιβλιογραφία (μηχανική τεχνική, τεχνική βασισμένη σε σώμα, τεχνική βασισμένη σε λεξικό). Τέλος, δεδομένου ότι η εξαγωγή των χρήσιμων πληροφοριών που παράγεται από το περιεχόμενο που δημιουργείται από τους χρήστες, πρέπει να λαμβάνει χώρα σε πραγματικό χρόνο, ώστε να διευκολύνει τα ενδιαφερόμενα μέρη να λάβουν ορθές αποφάσεις, κατασκευάστηκε ένα διαδικτυακό σύστημα εξόρυξης και ανάλυσης αξιολογήσεων πελατών σε σχεδόν πραγματικό χρόνο. Το σύστημα περιλαμβάνει δύο αρθρώματα: το άρθρωμα ιστο-συγκομιδής, που χρησιμοποιείται για να εξάγει τις ηλεκτρονικές αξιολογήσεις των πελατών από όλες τις σχετικές πλατφόρμες του κλάδου και το άρθρωμα εφαρμογής του προτεινόμενου υβριδικού πλαισίου ανάλυσης συναισθήματος. Βασιζόμενοι στις μήτρες σύγχυσης των συνόλων δεδομένων που κατασκευάστηκαν, υπολογίστηκαν τα γνωστά μέτρα αποδοτικότητας της ακριβείας, της ευστοχίας, της ανάκλησης και του F1-στόχου, τα οποία παρουσίασαν μια υψηλή αποδοτικότητα του προτεινόμενου υβριδικού πλαισίου, τόσο στην ταξινόμηση συναισθήματος, όσο και στην ανάλυση σε επίπεδο απόψεων. Συγκεκριμένα, το μέσο μέτρο ακριβείας στο σύνολο εκπαίδευσης σχετικά με την ταξινόμηση συναισθήματος υπολογίστηκε σε 98,45%. Επίσης, το αντίστοιχο μέτρο ακριβείας στο σχολιασμένο σύνολο σχετικά με την ταξινόμηση σε επίπεδο απόψεων υπολογίστηκε σε 93,61%. Στη συνέχεια, με σκοπό να αξιολογηθεί η αποδοτικότητα του πλαισίου σε ένα μεγάλο σύνολο αξιολογήσεων, δοκιμάστηκε στο σύνολο δεδομένων, οπότε και διαπιστώθηκε ένα εξαιρετικά υψηλό μέσο μέτρο ακριβείας ίσο με 90,69%. Ωστόσο, σε όλα τα προαναφερόμενα σύνολα παρουσιάστηκαν χαμηλότερα μέτρα αποδοτικότητας για τις αρνητικές προβλέψεις, κυρίως λόγω των δυσκολιών αναγνώρισης της άρνησης και του σαρκασμού σε κείμενα της φυσικής γλώσσας. Αναλυτικότερα, το μέσο μέτρο ανάκλησης για τις αρνητικές προβλέψεις στο σύνολο εκπαίδευσης υπολογίστηκε σε 85,99% έναντι του 99,43% στις θετικές προβλέψεις, στο σχολιασμένο σύνολο σε 81,49% έναντι του 96,43% και στο σύνολο δεδομένων σε 70,81% έναντι του 95,79%. Είναι άξιο προσοχής ότι η αποδοτικότητα της αρνητικής πρόβλεψης παραμένει σε υψηλά επίπεδα, συγκρίσιμη με άλλες παρεμφερείς έρευνες. Οι υψηλές μέσες τιμές των μέτρων μας οδήγησαν στο συμπέρασμα ότι η μεγαλύτερη πλειοψηφία των καταχωρήσεων απόψεων (ουσιαστικά), που περιγράφουν τις εξεταζόμενες λειτουργίες ενός καταστήματος στον κλάδο Ε&Π με τους αντίστοιχους όρους σημασιολογικού προσανατολισμού (επίθετα) που συνυπάρχουν, εντοπίστηκαν ορθά. Τέλος, προτείνεται μια νέα τεχνική διαχείρισης των κειμένων με ασάφειες, που συνήθως δεν αξιολογούνται από τα συστήματα ανάλυσης συναισθήματος, αφού δεν συμπεριλαμβάνονται στις μήτρες σύγχυσης, με αποτέλεσμα να μην επηρεάζουν τα αντίστοιχα μέτρα αποδοτικότητας. Η προτεινόμενη τεχνική επέφερε μέση μείωση 8,27% στους δείκτες αποδοτικότητας της αρνητικής πρόβλεψης και μέση μείωση 2,34% στους δείκτες αποδοτικότητας της θετικής πρόβλεψης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Nowadays, a lot of companies aim to tap into social media networking in order to maximize their profit by endorsing their products or services and for improving their brands’ names. The development of Web 2.0 has permitted Internet users to post, share and exchange their own self-generated opinions or thoughts on various topics on different websites. A large amount of data containing useful information concerning the consumers’ preferences is generated from a variety of sources such as reviews, posts, microblogs or online digital markets. In the case of Food and Beverage (F&B) sector, more and more review websites are established globally (Yelp, TripAdvisor, etc.) and most of them allow users to digitally make their own orders for delivery, or take away goods (just eat, etc.), as well as to digitally evaluate about the products or services that they have consumed. The produced information (evaluations) which is generated rapidly can be large and generally modifies consumers’ behavior. ...
Nowadays, a lot of companies aim to tap into social media networking in order to maximize their profit by endorsing their products or services and for improving their brands’ names. The development of Web 2.0 has permitted Internet users to post, share and exchange their own self-generated opinions or thoughts on various topics on different websites. A large amount of data containing useful information concerning the consumers’ preferences is generated from a variety of sources such as reviews, posts, microblogs or online digital markets. In the case of Food and Beverage (F&B) sector, more and more review websites are established globally (Yelp, TripAdvisor, etc.) and most of them allow users to digitally make their own orders for delivery, or take away goods (just eat, etc.), as well as to digitally evaluate about the products or services that they have consumed. The produced information (evaluations) which is generated rapidly can be large and generally modifies consumers’ behavior. It is also notable that the e-evaluations could be characterized as mixed-documents, because users evaluate different companies’ functions at the same time. However, in most of the cases, the involved stakeholders (companies or customers) cannot mine and analyze in real time the useful information that is created due to the lack of resources and humans’ physical or mental restrictions.In bibliography, there are various methodologies to face this problem, with the sentiment analysis being the preferred one. It is presented as the automatic detection of positive or negative expressions in user generated content. Also, in research there are two approaches: the machine learning approach and the semantic orientation approach and three levels of analysis: the document-level, the sentence-level and the aspect-level. A lot of frameworks have already proposed that use machine learning techniques, while the semantic orientation approach has not received the same interest yet. However, some previous researches concluded that the semantic orientation approach may be more efficient when implemented for classifying users’ opinions and for determining the polarity and the strength of opinions at the same time. Finally, while a lot has been written and researched about sentiment analysis in various domains and languages too, the F&B sector in the Greek language has drawn limited researchers’ attention. This study faces this problem by making a suggestion of a new hybrid framework of sentiment analysis using the semantic orientation approach. A thorough analysis of 91,504 customers’ reviews (9,150 reviews in the training set) collected from an e-ordering platform of some F&B companies distributed in almost all prefectures of Greece is occurred. After, the implementation of some well-known models and metrics in the training set (BOW, tf-idf and POS) resulted in the creation of an opinion dictionary concerning the F&B domain. The dictionary consists of three sub-dictionaries that correspond to three companies’ functions (quality of food, customer service and image of the company). Further, after the implementation of the PMI metric in the training set, the relationships between the parts of the speech and their positions in mixed customers’ e-valuations are identified and used for constructing the proposed patterns of tags. The patterns of tags are then used for detecting and quantifying the customers’ opinions per function in a review. The main innovation of this framework is based on the form of the analysis, first at sentence and after at aspect-level. Also, a new hybrid technique for constructing opinion dictionaries is proposed, using all the known techniques that are presented in bibliography (manually-technique, corpus-based technique and dictionary-based technique). Finally, since the extraction of useful information from the user generated content must usually be held in real-time in order to facilitate the stakeholders to make smart decisions on-time, a web-based system that able to mine and analyze customers’ evaluations in almost real-time, is introduced. For this, two modules will be designed and implemented. The first is a web scraping module for mining the reviews from all e-ordering platforms and the second is a module for implementing the proposed hybrid framework.Based on the confusion matrix of the designed sets, the well-known performance metrics of accuracy, precision, recall, and F-score were computed. The results showed a remarkable high performance on the sentiment classification and the aspect-level analysis respectively. Specifically, the proposed hybrid framework showed an average accuracy of 98.45% in the training set concerning the sentiment classification. Moreover, it showed an average accuracy of 93.61% in the annotated set concerning the aspect-analysis. Then, for the purposes of assessing the framework in a big set of customers’ reviews, it tested in the data set and it showed an extremely high average accuracy of 90.69%. However, in all designed sets were calculated lower values in negative predictions, mainly due to the identification difficulties of negation and sarcasm, in natural language texts. In more detail, the framework showed an average recall of 85.99% in negative predictions against of 99.43% in positive predictions in the training set, an average recall of 81.49% in negative predictions against of 96.43% in positive predictions in the annotated set and an average recall of 70.81% in negative predictions against of 95.79% in positive predictions in the data set. It is noteworthy that the performance of negative prediction remains at a high level, comparable to other similar researches. The average high values of the metrics lead us to conclude that the vast majority of aspects that described the examined functions in the F&B sector with the semantic orientation terms (adjectives) that con-currently occur, were detected. To conclude, a new technique for managing the instances that cannot be detected and evaluated by the system is proposed.
περισσότερα