Περίληψη
Η ψηφιακή αλλαγή που συμβαίνει στη κοινωνία δημιουργεί τεράστιο όγκο δεδομένων με πρωτοφανή ρυθμό. Ένα μεγάλο μέρος αυτών των δεδομένων είναι σε μη δομημένη μορφή κειμένου. Ενώ απολαμβάνουμε το πλεονέκτημα της άμεσης πρόσβασης σε δεδομένα, επιβαρυνόμαστε επίσης από την υπερφόρτωση πληροφοριών. Στην υγειονομική περίθαλψη, οι ιατροί πρέπει να ξοδεύουν σημαντικό μέρος του χρόνου τους διαβάζοντας, γράφοντας και συνθέτοντας δεδομένα σε ηλεκτρονικά συστήματα καταγραφής ασθενών. Η υπερφόρτωση από πληροφορίες αναφέρεται ως ένας από τους κύριους παράγοντες που συμβάλλουν στην επαγγελματική εξουθένωση των ιατρών - ωστόσο, η υπερφόρτωση από πληροφορίες δεν αφορά μόνο την υγειονομική περίθαλψη. Χρειαζόμαστε καλύτερα πρακτικά εργαλεία που θα μας βοηθήσουν να έχουμε πρόσβαση στις σωστές πληροφορίες τη σωστή στιγμή. Αυτό έχει οδηγήσει σε αυξημένο ενδιαφέρον για την έρευνα και τις λύσεις υψηλών επιδόσεων Επεξεργασίας Φυσικής Γλώσσας. Η Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ), ή Γλωσσική Τεχνολογία, είναι έ ...
Η ψηφιακή αλλαγή που συμβαίνει στη κοινωνία δημιουργεί τεράστιο όγκο δεδομένων με πρωτοφανή ρυθμό. Ένα μεγάλο μέρος αυτών των δεδομένων είναι σε μη δομημένη μορφή κειμένου. Ενώ απολαμβάνουμε το πλεονέκτημα της άμεσης πρόσβασης σε δεδομένα, επιβαρυνόμαστε επίσης από την υπερφόρτωση πληροφοριών. Στην υγειονομική περίθαλψη, οι ιατροί πρέπει να ξοδεύουν σημαντικό μέρος του χρόνου τους διαβάζοντας, γράφοντας και συνθέτοντας δεδομένα σε ηλεκτρονικά συστήματα καταγραφής ασθενών. Η υπερφόρτωση από πληροφορίες αναφέρεται ως ένας από τους κύριους παράγοντες που συμβάλλουν στην επαγγελματική εξουθένωση των ιατρών - ωστόσο, η υπερφόρτωση από πληροφορίες δεν αφορά μόνο την υγειονομική περίθαλψη. Χρειαζόμαστε καλύτερα πρακτικά εργαλεία που θα μας βοηθήσουν να έχουμε πρόσβαση στις σωστές πληροφορίες τη σωστή στιγμή. Αυτό έχει οδηγήσει σε αυξημένο ενδιαφέρον για την έρευνα και τις λύσεις υψηλών επιδόσεων Επεξεργασίας Φυσικής Γλώσσας. Η Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ), ή Γλωσσική Τεχνολογία, είναι ένα πεδίο της επιστήμης των υπολογιστών που επικεντρώνεται στην ανάλυση και την αναπαράσταση της ανθρώπινης γλώσσας. Οι πιο πρόσφατες εξελίξεις στον τομέα της ΕΦΓ είναι τα μεγάλα προ-εκπαιδευμένα γλωσσικά μοντέλα με βάση τα συμφραζόμενα (π.χ. transformers μοντέλα), τα οποία προ-εκπαιδεύονται σε μαζικά σώματα κειμένων. Η εισαγωγή αυτών των μοντέλων έχει οδηγήσει σε σημαντική αύξηση της απόδοσης σε διάφορες μεταγενέστερες εργασίες, συμπεριλαμβανομένης της ανάλυσης συναισθήματος και της αναγνώρισης οντοτήτων. Τέτοια μοντέλα έχουν τη δυνατότητα να αλλάζουν την embeddding μιας λέξης με βάση την υποτιθέμενη σημασία της, η οποία προκύπτει από τα συμφραζόμενα.Τα contextual μοντέλα μπορούν να κωδικοποιήσουν μόνο τη γνώση που είναι διαθέσιμη σε σώματα ακατέργαστου κειμένου. Η ενσωμάτωση δομημένης γνώσης συγκεκριμένου τομέα σε αυτά τα contextual μοντέλα θα μπορούσε να βελτιώσει περαιτέρω την απόδοση και την αποτελεσματικότητά τους. Ωστόσο, αυτό δεν είναι ένα τετριμμένο έργο. Απαιτεί βαθιά κατανόηση της αρχιτεκτονικής του μοντέλου και της φύσης και της δομής της γνώσης του τομέα που ενσωματώνεται στο μοντέλο. Μια άλλη πρόκληση που αντιμετωπίζει η ΕΦΓ είναι το πρόβλημα των "χαμηλών πόρων", που προκύπτει από την έλλειψη δημοσίως διαθέσιμων (ειδικού τομέα) μεγάλων συνόλων δεδομένων για σκοπούς εκπαίδευσης. Η πρόκληση των χαμηλών πόρων είναι ιδιαίτερα έντονη στον τομέα της βιοϊατρικής, όπου αυστηροί κανονισμοί για την προστασία των ιδιωτικών πληροφοριών απαγορεύουν σε πολλά σύνολα δεδομένων να είναι δημόσια διαθέσιμα στην κοινότητα της ΕΦΓ. Η σοβαρή έλλειψη κλινικών εμπειρογνωμόνων επιδεινώνει περαιτέρω την έλλειψη συνόλων δεδομένων εκπαίδευσης για την κλινική ΕΦΓ έρευνα. Προσεγγίζουμε αυτές τις προκλήσεις από τη σκοπιά της επαύξησης της γνώσης των μοντέλων. Η παρούσα διατριβή διερευνά πώς η γνώση που βρίσκεται σε δομημένες βάσεις γνώσης, είτε σε λεξιλογικές βάσεις δεδομένων γενικού σκοπού (π.χ. WordNet) είτε σε βάσεις γνώσης ειδικού τομέα (π.χ. UMLS, ICD), μπορεί να χρησιμοποιηθεί για την αντιμετώπιση του προβλήματος των χαμηλών πόρων. Δείχνουμε ότι με την ενσωμάτωση γνώσης ειδικού τομέα σε μια αρχιτεκτονική βαθιάς μάθησης, μπορούμε να αναγκάσουμε ένα μοντέλο να μάθει τις συσχετίσεις μεταξύ διακριτών ορολογιών που διαφορετικά μπορεί να μην έχει την ευκαιρία να μάθει λόγω της σπανιότητας των συνόλων δεδομένων ειδικού τομέα. Ακολουθήθηκαν τέσσερις διαφορετικές αλλά συμπληρωματικές στρατηγικές. Πρώτον, διερευνούμε πώς τα contextual μοντέλα μπορούν να χρησιμοποιήσουν τη δομημένη γνώση που περιέχεται στη λεξιλογική βάση δεδομένων WordNet για να διακρίνουν μεταξύ σημασιολογικά παρόμοιων λέξεων. Επικαιροποιούμε την πολιτική εισόδου ενός contextual μοντέλου εισάγοντας μια νέα mix-up embedding στρατηγική. Εισάγουμε επίσης πρόσθετες πληροφορίες, όπως ο βαθμός ομοιότητας μεταξύ των ορισμών της λέξης-στόχου και των υποψήφιων λέξεων. Αποδεικνύουμε ότι αυτή η συμπληρωματική πληροφορία επέτρεψε στο μοντέλο να επιλέξει υποψήφιες λέξεις που είναι σημασιολογικά παρόμοιες με τη λέξη-στόχο και όχι εκείνες που είναι κατάλληλες μόνο για τα συμφραζόμενα της πρότασης. Αφού αποδείξαμε με επιτυχία ότι η λεξιλογική γνώση μπορεί να βοηθήσει ένα contextual μοντέλο στη διάκριση μεταξύ σημασιολογικά παρόμοιων λέξεων, επεκτείνουμε αυτή την προσέγγιση σε εξαιρετικά εξειδικευμένα λεξιλόγια, όπως αυτά που συναντώνται σε ιατρικά κείμενα. Διερευνούμε κατά πόσον η χρήση γνώσης ειδικού τομέα (ιατρικής) στην αρχιτεκτονική ενός transformer μοντέλου μπορεί να βοηθήσει το μοντέλο στη δημιουργία "σημασιολογικά εμπλουτισμένων" αναπαραστάσεων. Διερευνούμε επίσης κατά πόσον η ενσωμάτωση δομημένης ιατρικής γνώσης στη φάση προ-εκπαίδευσης ενός transformer μοντέλου μπορεί να βοηθήσει στο μοντέλο να μάθει με μεγαλύτερη ακρίβεια τη συσχέτιση μεταξύ διακριτών ορολογιών. Η στρατηγική αυτή έχει αποδειχθεί αποτελεσματική μέσω μιας σειράς συγκρίσεων με άλλα συναφή μοντέλα.Αφού δείξαμε την επίδραση της δομημένης ιατρικής γνώσης στην απόδοση ενός transformer μοντέλου, επεκτείνουμε τα ιατρικά χαρακτηριστικά και καταδεικνύουμε ότι η δομημένη ιατρική γνώση μπορεί επίσης να ενισχύσει την απόδοση ενός transformer-based sequence-to-sequence μοντέλου (ιατρικής) περίληψης. Εισάγουμε ένα σήμα καθοδήγησης που αποτελείται από τις ιατρικές ορολογίες στην ακολουθία εισόδου. Επιπλέον, η πολιτική εισόδου τροποποιείται με τη χρήση των σημασιολογικών τύπων από το UMLS, και προτείνουμε επίσης μια νέα σταθμισμένη συνάρτηση απώλειας. Η μελέτη μας καταδεικνύει το όφελος αυτών των στρατηγικών στην παροχή ενός ισχυρότερου κινήτρου για το μοντέλο ώστε να συμπεριλάβει τα σχετικά ιατρικά γεγονότα στη περίληψη. Εξετάζουμε περαιτέρω κατά πόσον ένα μοντέλο μπορεί να εκμεταλλευτεί τόσο τις σχεσιακές πληροφορίες μεταξύ διαφορετικών ετικετών όσο και τις embedding πληροφορίες, εισάγοντας έναν νέο μηχανισμό προσοχής (αντί να ενισχύσουμε την αρχιτεκτονική των μοντέλων με δομημένες πληροφορίες, όπως περιγράφηκε στις προηγούμενες παραγράφους). Αντιμετωπίζουμε την πρόκληση της αυτόματης κωδικοποίησης ΙCD η οποία είναι το έργο της αντιστοίχισης κωδικών του Διεθνούς συστήματος ICD σε ιατρικές σημειώσεις. Μέσω ενός καινοτόμου μηχανισμού προσοχής, ενσωματώνουμε τις πληροφορίες από ένα Graph Convolutional Network (GCN) που εξετάζει τη σχέση μεταξύ των διαφόρων κωδικών με τα συμφραζόμενα των προτάσεων των ιατρικών σημειώσεων. Τα πειράματά μας αποκαλύπτουν ότι αυτή η βελτίωση ενισχύει αποτελεσματικά την απόδοση του μοντέλου στην εργασία αυτόματης κωδικοποίησης ICD.Η κύρια συνεισφορά αυτής της διατριβής είναι διττή: (1) η διατριβή αυτή συνεισφέρει στη βιβλιογραφία της επιστήμης των υπολογιστών, καταδεικνύοντας τον τρόπο με τον οποίο η γνώση συγκεκριμένου τομέα μπορεί να ενσωματωθεί αποτελεσματικά σε contextual μοντέλα για τη βελτίωση της απόδοσης του μοντέλου σε εργασίες που δεν διαθέτουν χρήσιμους πόρους εκπαίδευσης και (2) οι στρατηγικές επαύξησης της γνώσης και τα contextual μοντέλα που αναπτύχθηκαν σε αυτή την έρευνα αποδεικνύεται ότι βελτιώνουν την απόδοση της ΕΦΓ στον τομέα της βιοϊατρικής, όπου τα δημόσια διαθέσιμα σύνολα δεδομένων εκπαίδευσης είναι σπάνια, αλλά οι βάσεις γνώσης για συγκεκριμένους τομείς έχουν επιτύχει ευρεία υιοθέτηση στα συστήματα ηλεκτρονικών ιατρικών αρχείων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The digital transformation of our society is creating a tremendous amount of data at an unprecedented rate. A large part of this data is in unstructured text format. While enjoying the benefit of instantaneous data access, we are also burdened by information overload. In healthcare, clinicians have to spend a significant portion of their time reading, writing and synthesizing data in electronic patient record systems. Information overload is reported as one of the main factors contributing to physician burnout; however, information overload is not unique to healthcare. We need better practical tools to help us access the right information at the right time. This has led to a heightened interest in high-performing Natural Language Processing research and solutions. Natural Language Processing (NLP), or Computational Linguistics, is a sub-field of computer science that focuses on analyzing and representing human language. The most recent advancements in NLP are large pre-trained contextu ...
The digital transformation of our society is creating a tremendous amount of data at an unprecedented rate. A large part of this data is in unstructured text format. While enjoying the benefit of instantaneous data access, we are also burdened by information overload. In healthcare, clinicians have to spend a significant portion of their time reading, writing and synthesizing data in electronic patient record systems. Information overload is reported as one of the main factors contributing to physician burnout; however, information overload is not unique to healthcare. We need better practical tools to help us access the right information at the right time. This has led to a heightened interest in high-performing Natural Language Processing research and solutions. Natural Language Processing (NLP), or Computational Linguistics, is a sub-field of computer science that focuses on analyzing and representing human language. The most recent advancements in NLP are large pre-trained contextual language models (e.g., transformer-based models), which are pre-trained on massive corpora, The introduction of these models has led to significant performance gains in various downstream tasks, including sentiment analysis, and entity recognition. Such models have the ability to change the embedding of a word based on its imputed meaning, which is derived from the surrounding context. Contextual models can only encode the knowledge available in raw text corpora. Injecting structured domain-specific knowledge into these contextual models could further improve their performance and efficiency. However, this is not a trivial task. It requires a deep understanding of the model’s architecture and the nature and structure of the domain knowledge incorporated into the model. Another challenge facing NLP is the “low-resource” problem, arising from a shortage of publicly available (domain-specific) large datasets for training purposes. The low-resource challenge is especially acute in the biomedical domain, where strict regulation for privacy protection prohibits many datasets from being publicly available to the NLP community. The severe shortage of clinical experts further exacerbates the lack of labeled training datasets for clinical NLP research. We approach these challenges from the knowledge augmentation angle. This thesis explores how knowledge found in structured knowledge bases, either in general-purpose lexical databases (e.g., WordNet) or domain-specific knowledge bases (e.g., the Unified MedicalLanguage Systems or the International Classification of Diseases), can be used to address the low-resource problem. We show that by incorporating domain-specific prior knowledge into a deep learning NLP architecture, we can force an NLP model to learn the associations between distinctive terminologies that it otherwise may not have the opportunity to learn due to the scarcity of domain-specific datasets. Four distinct yet complementary strategies have been pursued. First, we investigate how contextual models can use structured knowledge contained in the lexical database WordNet to distinguish between semantically similar words. We update the input policy of a contextual model by introducing a new mix-up embedding strategy for the input embedding of the target word. We also introduce additional information, such as the degree of similarity between the definitions of the target and the candidate words. We demonstrate that this supplemental information has enabled the model to select candidate words that are semantically similar to the target word rather than those that are only appropriate for the sentence’s context. Having successfully proven that lexical knowledge can aid a contextual model in distinguishing between semantically similar words, we extend this approach to highly specialized vocabularies such as those found in medical text. We explore whether using domain-specific (medical) knowledge in the architecture of a transformer-based encoder model can aid the model in building ‘semantically enriched’ contextual representations that will benefit from both the contextual learning and the domain knowledge. We also investigate whether incorporating structured medical knowledge into the pre-training phase of a transformer-based model can incentivize the model to learn more accurately the association between distinctive terminologies. This strategy is proven to be effective through a series of benchmark comparisons with other related models. After demonstrating the effect of structured domain (medical) knowledge on the performance of a transformer-based encoder model, we extend the medical features and illustrate that structured medical knowledge can also boost the performance of a (medical) summarization transformer-based sequence-to-sequence model. We introduce a guidance signal consisting of the medical terminologies in the input sequence. Moreover, the input policy is modified by utilizing the semantic types from UMLS, and we also propose a novel weighted loss function. Our study demonstrates the benefit of these strategies in providing a stronger incentive for the model to include relevant medical facts in the summarized output. We further examine whether an NLP model can take advantage of both the relational information between different labels and contextual embedding information by introducing a novel attention mechanism (instead of augmenting the architecture of contextual models with structured information as described in the previous paragraphs). We tackle the challenge of automatic ICD coding, which is the task of assigning codes of the International Classification of Diseases (ICD) system to medical notes. Through a novel attention mechanism, we integrate the information from a Graph Convolutional Network (GCN) that considers the relationship between various codes with the contextual sentence embeddings of the medical notes. Our experiments reveal that this enhancement effectively boosts the model’s performance in the automatic ICD coding task. The main contribution of this thesis is two-fold: (1) this thesis contributes to the computer science literature by demonstrating how domain-specific knowledge can be effectively incorporated into contextual models to improve model performance in NLP tasks that lack helpful training resources; and (2) the knowledge augmentation strategies and the contextual models developed in this research are shown to improve NLP performance in the biomedical field, where publicly available training datasets are scarce but domain-specific knowledge bases and data standards have achieved a wide adoption in electronic medical records systems.
περισσότερα