Περίληψη
Το θέμα της παρούσας διδακτορικής μελέτης είναι η ανίχνευση της κλινικής κατάθλιψης στη Νέα Ελληνική γλώσσα αναλύοντας δεδομένα χρηστών που χρησιμοποιούν την πλατφόρμα κοινωνικής δικτύωσης Twitter. Σύμφωνα με την Αμερικανική Ψυχιατρική Ένωση η κατάθλιψη είναι μία ψυχική διαταραχή που επηρεάζει έναν στους δεκαπέντε ενηλίκους (6.7%), ενώ επιπλέον γύρω στο 16.6% των ανθρώπων βιώνουν κατάθλιψη κάποια χρονική στιγμή της ζωής τους. Ωστόσο, σε αρκετές περιπτώσεις οι ασθενείς δεν έχουν επίγνωση της ψυχολογικής τους κατάστασης, όπως για παράδειγμα οι έφηβοι μεταξύ 12-17 χρόνων (περίπου 77 σύμφωνα με τον Schiller et al., 2013). Στις παραδοσιακές μεθόδους διάγνωσης της κατάθλιψης εμπεριέχονται τα ερωτηματολόγια και οι ατομικές εξετάσεις που είναι χρονοβόρες, δαπανηρές και εξαρτώνται από την επιθυμία και ευαισθητοποίηση του εκάστοτε προσώπου. Πρόσφατες μελέτες στο πλαίσιο Κοινών Εργασιών της Υπολογιστικής Γλωσσολογίας και Κλινικής Ψυχολογίας (Coppersmith et al., 2015) χρησιμοποίησαν δεδομένα χρησ ...
Το θέμα της παρούσας διδακτορικής μελέτης είναι η ανίχνευση της κλινικής κατάθλιψης στη Νέα Ελληνική γλώσσα αναλύοντας δεδομένα χρηστών που χρησιμοποιούν την πλατφόρμα κοινωνικής δικτύωσης Twitter. Σύμφωνα με την Αμερικανική Ψυχιατρική Ένωση η κατάθλιψη είναι μία ψυχική διαταραχή που επηρεάζει έναν στους δεκαπέντε ενηλίκους (6.7%), ενώ επιπλέον γύρω στο 16.6% των ανθρώπων βιώνουν κατάθλιψη κάποια χρονική στιγμή της ζωής τους. Ωστόσο, σε αρκετές περιπτώσεις οι ασθενείς δεν έχουν επίγνωση της ψυχολογικής τους κατάστασης, όπως για παράδειγμα οι έφηβοι μεταξύ 12-17 χρόνων (περίπου 77 σύμφωνα με τον Schiller et al., 2013). Στις παραδοσιακές μεθόδους διάγνωσης της κατάθλιψης εμπεριέχονται τα ερωτηματολόγια και οι ατομικές εξετάσεις που είναι χρονοβόρες, δαπανηρές και εξαρτώνται από την επιθυμία και ευαισθητοποίηση του εκάστοτε προσώπου. Πρόσφατες μελέτες στο πλαίσιο Κοινών Εργασιών της Υπολογιστικής Γλωσσολογίας και Κλινικής Ψυχολογίας (Coppersmith et al., 2015) χρησιμοποίησαν δεδομένα χρηστών κοινωνικής δικτύωσης, οι οποίοι διαγνώστηκαν με κατάθλιψη, ενώ εφήρμοσαν διάφορες μεθόδους με απώτερο στόχο την δημιουργία μοντέλων αναγνώρισης της κατάθλιψης. Η πλειονότητα των μελετών βασίζεται σε παρατηρήσεις που έχουν γίνει για την Αγγλική γλώσσα και αποσκοπεί στον εντοπισμό διαφοροποιητικών χαρακτηριστικών μεταξύ καταθλιπτικών και νευροτυπικών ατόμων. Συγκεκριμένα, οι περισσότερες έρευνες περιστρέφονται γύρω από τρεις άξονες σε σχέση με τον τρόπο ανίχνευσης: (i) σε μεθόδους ανίχνευσης συναισθημάτων (Schwartz et al, 2014.), (ii) σε μεθόδους χρήσης γλωσσικών δεικτών, για παράδειγμα με τη χρήση του LIWC λεξικού (Pennebaker et al., 1999) ή μοντέλων ν-γραμμάτων (Coppersmith et al., 2015; Mitchell et al., 2015), και (iii) σε μεθόδους εντοπισμού θεμάτων (Resnik et al., 2013). Ο ρόλος της γλώσσας στην διάκριση των ψυχολογικών καταστάσεων έχει προταθεί ήδη από τη δεκαετία του 1960 με την μέθοδο Gottschalk (Gottschalk & Gleser, 1969), σύμφωνα με την οποία τα λεξικά χαρακτηριστικά δύνανται να αποκαλύψουν το μέγεθος διάφορων ψυχολογικών διαστάσεων, όπως το άγχος ή η κοινωνική αποξένωση. Τα χαρακτηριστικά διακρίνονται σε δύο είδη: (i) στα εξωγλωσσικά χαρακτηριστικά, όπως για παράδειγμα η συχνότητα των ποστ, το ποσοστό αναδημοσιεύσεων, ο αριθμός ακολούθων, οι δημογραφικές πληροφορίες των χρηστών κ.α. και (ii) στα γλωσσικά χαρακτηριστικά, όπως η χρήση λέξεων αρνητικής συναισθηματικής φόρτισης (De Choudhury et al., 2013a). Με τους μεν πρώτους δείκτες επιχειρείται η αποτύπωση και ποσοτικοποίηση του παράγοντα της κοινωνικής αλληλεπίδρασης, με τους δε γλωσσικούς δείκτες είναι δυνατόν να καταγραφεί και να σκιαγραφηθεί τόσο ο τρόπος έκφρασης των καταθλιπτικών ασθενών (π.χ. συχνή χρήση του α’ προσώπου των προσωπικών αντωνυμιών), όσο και το περιεχόμενο των συζητήσεων/θεμάτων που τους απασχολούν (π.χ. αυξημένο ενδιαφέρον για ιατρικά θέματα και θρησκευτικά δρώμενα). Η συνεισφορά της εργασίας αυτής έγκειται στην προσπάθεια προσαρμογής των μεθόδων που απαιτούνται, προκειμένου να εντοπιστεί η κατάθλιψη μέσω της παρατήρησης γλωσσικών χαρακτηριστικών στην Νέα Ελληνική. Για το σκοπό αυτό δημιουργήσαμε ένα σώμα κειμένων για την κατάθλιψη, το οποίο βασίζεται σε αυτοαναφορές χρηστών. Επιπλέον, συλλέξαμε δύο σώματα κειμένων για τους νευροτυπικούς χρήστες με δύο τρόπους: (i) βάσει τυχαίας επιλογής και (ii) βάσει αναλογίας των θεμάτων. Εν συνεχεία, δοκιμάσαμε και συγκρίναμε διάφορους στατιστικούς ταξινομητές, αλλά και νευρωνικά δίκτυα προκειμένου να εντοπίσουμε τόσο την ύπαρξη ιδιαίτερων γλωσσικών δεικτών, αλλά και για να δημιουργήσουμε ένα πρώτο μοντέλο αναφοράς ανίχνευσης της κατάθλιψης για την Νέα Ελληνική γλώσσα. Ακόμα, στο πλαίσιο αυτό προσαρμόσαμε το εργαλείο LIWC στα Ελληνικά. Παράλληλα, εστιάσαμε στις ιδιαιτερότητες αντιστοίχισης της Ελληνικής εκδοχής, καθώς επίσης την αξιολογήσαμε τόσο ως προς την επάρκεια του λεξικού, τρέχοντάς το λεξικό σε παράλληλα σώματα κειμένων, όσο και ως προς την δυνατότητα πρόβλεψης των LIWC-κατηγοριών, εφαρμόζοντάς το σε σώματα κειμένων καταθλιπτικού λόγου. Επιπλέον, συγκρίναμε δύο τύπους χαρακτηριστικών: χαρακτηριστικά TFIDF και χαρακτηριστικά LIWC, και αναλύσαμε τη σημασία τους στην απόδοση των μοντέλων. Συνοψίζοντας, η μελέτη μας εντοπίζει συγκεκριμένους γλωσσικούς δείκτες που σχετίζονται με την κατάθλιψη, οι οποίοι περιλαμβάνουν αυξημένη χρήση προσωπικών αντωνυμιών στο πρώτο πρόσωπο ενικού αριθμού, κυριαρχία του συναισθήματος της θλίψης, αυξημένο ενδιαφέρον για θέματα που σχετίζονται με την υγεία, μειωμένη συμμετοχή σε δραστηριότητες που σχετίζονται με την εργασία, μειωμένα κίνητρα που συνοδεύονται από χαμηλές προσδοκίες επιτυχίας και συχνές αναφορές σε γεγονότα που αφορούν τον Ενεστώτα χρόνο. Η παρούσα διδακτορική μελέτη αποτελεί μία βάση για τη διερεύνηση της κατάθλιψης στην Νέα Ελληνική Γλώσσα. Μελλοντικά θα ήταν δυνατό να δημιουργηθεί ένα εργαλείο που θα μπορούσε να λειτουργήσει ως αφετηρία διάγνωσης των ατόμων που πάσχουν από κατάθλιψη στα πρώτα στάδια εμφάνισής της. Επιπρόσθετα, τα τρέχοντα μοντέλα, θα μπορούσαν να χρησιμοποιηθούν ως αναφορά και να αξιολογηθούν έναντι δεδομένων που προέρχονται από επίσημα διαγνωσμένους καταθλιπτικούς ασθενείς.
περισσότερα
Περίληψη σε άλλη γλώσσα
The topic of this PhD dissertation is the detection of clinical depression in Modern Greek by analyzing data of users belonging to the social networking platform of Twitter. According to the American Psychiatric Association, depression is a mental disorder that impacts one in fifteen adults (6.7%), with an additional 16.6% of individuals encountering depression at some point in their lives. Nevertheless, in many cases, such among adolescents aged 12 to 17 (approximately 77%, as indicated by Schiller et al., 2013), individuals are not aware of their psychological state. Traditional methods of diagnosing depression involve questionnaires and individual examinations that are time-consuming, costly and depend on the individual's willingness and awareness. Recent studies within the Computational Linguistics and Clinical Psychology Shared Task (Coppersmith et al., 2015) have leveraged data obtained from social media users diagnosed with depression. These studies have employed diverse method ...
The topic of this PhD dissertation is the detection of clinical depression in Modern Greek by analyzing data of users belonging to the social networking platform of Twitter. According to the American Psychiatric Association, depression is a mental disorder that impacts one in fifteen adults (6.7%), with an additional 16.6% of individuals encountering depression at some point in their lives. Nevertheless, in many cases, such among adolescents aged 12 to 17 (approximately 77%, as indicated by Schiller et al., 2013), individuals are not aware of their psychological state. Traditional methods of diagnosing depression involve questionnaires and individual examinations that are time-consuming, costly and depend on the individual's willingness and awareness. Recent studies within the Computational Linguistics and Clinical Psychology Shared Task (Coppersmith et al., 2015) have leveraged data obtained from social media users diagnosed with depression. These studies have employed diverse methodologies with the aim of developing models for depression detection. The majority of them have centered their observations on the English language, focusing on discerning distinctive traits between individuals with depression and neurotypical ones. Primarily, the research has revolved around three key detection approaches: (i) emotion detection methods (Schwartz et al., 2014.), (ii) methods employing linguistic markers such as LIWC-categories (Pennebaker et al, 1999) or n-gram models (Coppersmith et al., 2015; Mitchell et al., 2015), and (iii) topic detection techniques (Resnik et al., 2013). The role of language in discriminating psychological states has been a topic of interest since the 1960s, as demonstrated by the Gottschalk method (Gottschalk & Gleser, 1969). According to this, lexical features can reveal the extent of various psychological dimensions, including anxiety or social alienation. Features incorporated into models can be categorized into two primary types: (i) non-linguistic features, such as post frequency, repost percentages, follower counts, user demographic information, etc., and (ii) linguistic features, such as words carrying a negative emotional weight (De Choudhury et al., 2013a). The first set of indicators attempt to capture and quantify the social interaction factor, while the linguistic indicators enable the identification of two aspects: how individuals with depression express themselves (i.e., frequent use of 1SG personal pronouns) and what they discuss, namely their topics of interest (i.e., increased interest in medical issues and religious events). The contribution of this dissertation lies in the attempt to adapt the methods required to identify depression through the observation of linguistic features in Modern Greek language. To this end, we created a depression corpus based on user self-reports. In addition, we collected two corpora for neurotypical users in two ways: (i) based on random selection and (ii) based on topic similarity. Subsequently, we implemented and compared several Machine and Deep Learning models in order to identify both the existence of specific linguistic markers and to create the first baseline model for detecting depression in Modern Greek. We employed two distinct sets of features: LIWC and TF-IDF. In this context, we adapted the LIWC (Linguistic Inquiry and Word Count) dictionary to Greek, considering the unique linguistic characteristics of the language. Moreover, the dictionary was evaluated both in terms of adequacy by running the lexicon on parallel textual corpora, and in terms of prediction by applying it to corpora of depressed language. In summary, our study identifies notable linguistic indicators of depression, encompassing increased usage of 1SG personal pronouns, expressions of sadness, heightened interest in health-related topics, decreased participation in work-related activities, lowered motivation accompanied by diminished expectations for success, and frequent references to events in the Present Tense. The present PhD dissertation provides a basis for investigating depression in Modern Greek. In the future, it would be possible to create a tool that could serve as a starting point for the diagnosis of people suffering from depression in the early stages. In addition, the current models could be used as a reference and evaluated against data from formally diagnosed depressed patients.
περισσότερα