Development of deep learning methods on big data with a focus on natural language processing

Η ραγδαία αύξηση της διαθεσιμότητας μεγάλης κλίμακας βιοϊατρικών δεδομένων και γλωσσικών δεδομένων έχει ανοίξει νέους ορίζοντες αλλά και έχει αναδείξει επίμονες δυσκολίες για την Τεχνητή Νοημοσύνη. Οι τεχνικές Βαθιάς Μάθησης έχουν αποδειχθεί ιδιαίτερα αποτελεσματικές στη διαχείριση ακολουθιακών και ετερογενών δεδομένων, ωστόσο η αξιοποίησή τους στην πράξη συχνά περιορίζεται από τα ελλιπή δεδομένα, τις αυξημένες υπολογιστικές ανάγκες και την απαίτηση προσαρμογής σε εξειδικευμένα πεδία. Η παρούσα διατριβή εξετάζει συστηματικά τα παραπάνω ζητήματα και εισάγει νέες μεθοδολογικές προσεγγίσεις Βαθιάς Μάθησης, οι οποίες διευρύνουν το υφιστάμενο επίπεδο της τεχνολογίας τόσο στη βιοϊατρική πρόβλεψη όσο και στην Επεξεργασία Φυσικής Γλώσσας. Στον χώρο της βιοϊατρικής, προτείνεται ένα ολοκληρωμένο πλαίσιο προγνωστικής ιατρικής ακριβείας που βασίζεται σε διαχρονικά δεδομένα Ηλεκτρονικών Φακέλων Υγείας. Το πλαίσιο συνδυάζει αναδρομικά νευρωνικά δίκτυα, τεχνικές συνδυαστικής μάθησης και προηγμένες μεθόδους αντιμετώπισης ελλιπών τιμών, με στόχο την ενίσχυση της αξιοπιστίας και της ακρίβειας στην πρόβλεψη κλινικού κινδύνου. Παράλληλα, διερευνάται ο ρόλος των φαρμακευτικών πληροφοριών και της συμμόρφωσης των ασθενών, αναδεικνύοντας τη σημασία τους για την προγνωστική απόδοση σε πραγματικές συνθήκες υγειονομικής περίθαλψης. Στον τομέα της Επεξεργασίας Φυσικής Γλώσσας, η διατριβή συνεισφέρει σε τρία διακριτά επίπεδα. Αρχικά, αξιοποιούνται μοντέλα μετασχηματιστών σε μεγάλης κλίμακας δεδομένα από μέσα κοινωνικής δικτύωσης και εισάγεται ένας μηχανισμός ανίχνευσης μεταβολών στο συναίσθημα, με σκοπό την παρακολούθηση της εξέλιξης της κοινής γνώμης κατά την περίοδο της πανδημίας του COVID-19. Στη συνέχεια, αντιμετωπίζεται το σύγχρονο ζήτημα της διάκρισης μεταξύ ανθρωπογενούς και τεχνητά παραγόμενου κειμένου, μέσω μιας προσέγγισης μεταφοράς μάθησης που επιτυγχάνει υψηλή ακρίβεια και παρουσιάζει ισχυρή γενίκευση σε διαφορετικά είδη κειμένων, από επιστημονικές περιλήψεις έως κριτικές βιβλίων. Τέλος, προτείνεται ένα επεκτάσιμο και ενεργειακά αποδοτικό σύστημα θεματικής μοντελοποίησης, το οποίο συνδυάζει ιεραρχική ομαδοποίηση με στοχευμένες εντολές σε Μεγάλα Γλωσσικά Μοντέλα, επιτυγχάνοντας την παραγωγή συνεκτικών θεμάτων με σημαντικά μειωμένο υπολογιστικό κόστος. Συνοψίζοντας, τα ευρήματα της διατριβής αποδεικνύουν ότι η Βαθιά Μάθηση μπορεί να προσαρμοστεί αποτελεσματικά σε διαφορετικές μορφές ακολουθιακών Μεγάλων Δεδομένων, με έμφαση τόσο στην ερμηνευσιμότητα όσο και στην αποδοτικότητα. Η εργασία συμβάλλει στη μεθοδολογική πρόοδο του πεδίου, εισάγει νέες εφαρμογές στην ανάλυση δεδομένων υγείας, στα μέσα κοινωνικής δικτύωσης και στα επιστημονικά κείμενα, και αναδεικνύει την ανάγκη για ανάπτυξη συστημάτων Βαθιάς Μάθησης που συνδυάζουν υψηλή ακρίβεια με υπολογιστική οικονομία, ανταποκρινόμενα στους περιορισμούς του πραγματικού κόσμου.

περισσότερα

Περίληψη σε άλλη γλώσσα

The rapid proliferation of large-scale biomedical and natural language data has created both unprecedented opportunities and persistent challenges for Artificial Intelligence (AI). Deep Learning (DL) methods are particularly powerful for modeling sequential and heterogeneous data, yet their deployment in practice is limited by missing data, computational overhead, and the demand for domain-specific adaptation. This dissertation investigates these challenges and proposes novel DL methodologies that extend the state of the art in both biomedical prediction and Natural Language Processing (NLP). In the biomedical domain, a framework for predictive precision medicine has been developed using longitudinal Electronic Health Records (EHRs). The framework incorporates Recurrent Neural Networks (RNNs), Ensemble Learning strategies, and robust imputation techniques to improve the stability and accuracy of clinical risk prediction. This work further examines the impact of medication data and patient adherence, demonstrating how these factors influence predictive performance in real-world healthcare settings. In the NLP domain, three distinct contributions are made. First, transformer-based models are applied to large-scale social media data, and a sentiment change detection pipeline is introduced to track public opinion shifts during the COVID-19 pandemic. Second, the thesis addresses the emerging problem of distinguishing human-authored text from AI-generated text, presenting a transfer learning approach that achieves high accuracy and generalizes across domains ranging from scientific abstracts to book reviews. Third, a scalable and energy-efficient framework for topic modeling is introduced, integrating hierarchical clustering with targeted Large Language Model (LLM) prompting to deliver coherent topics while substantially reducing computational cost. Collectively, these contributions demonstrate how DL can be adapted to diverse forms of large-scale sequential data while emphasizing robustness, interpretability, and efficiency. The thesis advances methodological innovation and establishes new applications across healthcare, social media, and scientific text mining. Ultimately, this work underscores the imperative of developing DL systems that are not only accurate but also efficient and grounded in real-world constraints.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (6.33 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61294
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61294
ND	61294
Εναλλακτικός τίτλος	Development of deep learning methods on big data with a focus on natural language processing
Συγγραφέας	Θεοχαρόπουλος, Παναγιώτης (Πατρώνυμο: Χρήστος)
Ημερομηνία	03/2026
Ίδρυμα	Πανεπιστήμιο Θεσσαλίας. Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική
Εξεταστική επιτροπή	Πλαγιανάκος Βασίλειος Τασουλής Σωτήριος Καρανίκας Χαράλαμπος Ιακωβίδης Δημήτριος Δελήμπασης Κωνσταντίνος Σαβελώνας Μιχάλης Γεωργακόπουλος Σπυρίδων
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Μηχανική μάθηση; Μεγάλα δεδομένα (BigData); Βαθιά μάθηση; Επεξεργασία φυσικής γλώσσας; Μεγάλα γλωσσικά μοντέλα (LLMs); Ηλεκτρονικός Φάκελος Υγείας (ΗΦΥ); Θεματική μοντελοποίηση; Αλγόριθμοι ομαδοποίησης; Τεχνητή νοημοσύνη (ΤΝ); Μέθοδος πρόβλεψης; Αλγόριθμοι ταξινόμησης; Υγειονομική περίθαλψη; Ανάλυση δεδομένων; Προγνωστική Ιατρική Ακριβείας
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., χαρτ., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μέθοδοι μηχανικής μάθησης για αυτόματη ταξινόμηση κειμένων

Μέθοδοι και τεχνικές ανακάλυψης γνώσης στο σημαντικό ιστό: παραγωγική απόκτηση γνώσης από οντολογικά έγγραφα και η τεχνική της σημασιακής προσαρμογής

Κατηγοριοποίηση και τμηματοποίηση κειμένων με χρήση μεθόδων υπολογιστικής νοημοσύνης

Κατηγοριοποίηση κειμένων

The effect of text and reader variables on reading comprehension: the case of the greek state certificate of english language proficiency exams (KPG): a new text difficulty index for automatic text classification

Learning ontologies from text collections and evaluating them against gold standards

Εξατομικευμένα συστήματα διαχείρισης δεδομένων

Μέτρα ομοιότητας με εναλλακτικές μεθόδους για συστήματα συλλογιστικής των περιπτώσεων (Case Based Reasoning)

Knowledge discovery in high dimensional data

Intelligent mining of biomedical data for the creation of integrated physiological models

"Ανάπτυξη μεθόδων βαθιάς μάθησης σε μεγάλα δεδομένα με έμφαση στην επεξεργασία φυσικής γλώσσας"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .