Fairness-aware machine learning for multimedia data

Τα συστήματα βαθιάς μάθησης έχουν κάνει αισθητή την παρουσία τους σε ένα μεγάλο εύρος της σύγχρονης κοινωνίας, επιτυγχάνοντας κορυφαίες επιδόσεις σε πληθώρα εφαρμογών. Ωστόσο, τέτοια συστήματα αναπόφευκτα ενσωματώνουν τα στατιστικά χαρακτηριστικά και τις ατέλειες των δεδομένων εκπαίδευσης. Αυτό μπορεί να οδηγήσει στην εισαγωγή διαφόρων μορφών μεροληψίας στις αναπαραστάσεις και στις διαδικασίες λήψης αποφάσεων, επηρεάζοντας τη συμπεριφορά των μοντέλων με τρόπους που δεν ευθυγραμμίζονται πάντα με τον επιδιωκόμενο στόχο. Ιδιαίτερα, ο μεγάλος βαθμός συνύπαρξης ορισμένων χαρακτηριστικών των δεδομένων με συγκεκριμένες κλάσεις του προς πρόβλεψη χαρακτηριστικού, που δεν αντανακλά πραγματικές αιτιώδεις σχέσεις, γνωστές και ως «ψευδείς συσχετίσεις», μπορεί να οδηγήσει σε μοντέλα που αποτυγχάνουν όταν χρησιμοποιούνται σε δεδομένα εκτός κατανομής, όπου τέτοιες συσχετίσεις δεν ισχύουν, και να εγείρει ζητήματα δικαιοσύνης όταν τα ψευδώς συσχετισμένα χαρακτηριστικά αντιστοιχούν σε προστατευόμενα γνωρίσματα όπως η φυλή, το φύλο ή η ηλικία. Η παρούσα διατριβή μελετά αυτού του είδους τις μεροληψίες, με έμφαση στην υπολογιστική όραση, ενώ παράλληλα εξετάζει τη γενίκευση σε διαφορετικές μορφές δεδομένων και τις προκλήσεις που προκύπτουν σε εφαρμογές ανάλυσης προσώπου. Συγκεκριμένα, αντιμετωπίζει βασικούς περιορισμούς των υφιστάμενων προσεγγίσεων, όπως την εξάρτησή τους από την ύπαρξη ετικετών για τα χαρακτηριστικά που εισάγουν τη μεροληψία, τη περιορισμένη δυνατότητα διαχείρισης πολλαπλών μεροληψιών, τον κατακερματισμό των πρακτικών αξιολόγησης και την αβέβαιη γενίκευσή τους πέρα από τα σύνολα φυσικών εικόνων. Προς αυτή την κατεύθυνση, η διατριβή εισάγει ένα σύνολο νέων μεθοδολογικών συνεισφορών. Πρώτον, προτείνεται το FLAC, μια μεθοδολογία μάθησης δίκαιων αναπαραστάσεων που καταστέλλει τις συσχετίσεις μεταξύ μεροληπτικών γνωρισμάτων και κλάσεων χωρίς να απαιτείται η ύπαρξη ετικετών για τα μεροληπτικά γνωρίσματα. Δεύτερον, παρουσιάζεται το BAdd, μια απλή και αποτελεσματική προσέγγιση που μετριάζει μεροληψίες ενός ή πολλαπλών γνωρισμάτων, εισάγοντας τα χαρακτηριστικά που σχετίζονται με τη μεροληψία κατά τη διαδικασία εκπαίδευσης, με στόχο την εκμάθηση ουδέτερων ως προς τη μεροληψία αναπαραστάσεων. Τρίτον, εισάγεται το MAVias, μια μέθοδος μετριασμού μεροληψιών σε συνθήκες ανοιχτού συνόλου, η οποία αξιοποιεί σύγχρονα θεμελιώδη μοντέλα για την αυτόματη ανακάλυψη και μετριασμό άγνωστων οπτικών μεροληψιών. Εκτός από τις αλγοριθμικές συνεισφορές, η διατριβή παρουσιάζει το VB-Mitigator, μια βιβλιοθήκη ανοιχτού κώδικα που ενσωματώνει σύνολα δεδομένων, μετρικές και μεθόδους μετριασμού μεροληψιών, επιτρέποντας αναπαράξιμες και δίκαιες συγκρίσεις. Βάσει αυτού, διεξάγεται επιπλέον μια εκτεταμένη μελέτη, η οποία αξιολογεί μεθόδους μετριασμού μεροληψιών σε δεδομένα κειμένου, ήχου, ιατρικών εικόνων και βίντεο, παρέχοντας τις πρώτες συστηματικές ενδείξεις της ικανότητάς τους να γενικεύουν σε διαφορετικά πεδία και μορφές δεδομένων. Τέλος, η διατριβή εξετάζει ζητήματα δικαιοσύνης στην ανάλυση εικόνων προσώπου, αναδεικνύοντας διατομεακές δημογραφικές μεροληψίες σε συστήματα αναγνώρισης και επαλήθευσης προσώπου, προτείνοντας μια μέθοδο για την εκπαίδευση δικαιότερων συστημάτων επαλήθευσης προσώπου με τη χρήση συνθετικών δεδομένων και εισάγοντας το FaceX, μια μέθοδο επεξηγηματικής τεχνητής νοημοσύνης που παρέχει οπτικές εξηγήσεις σε επίπεδο περιοχών προσώπου και επιμέρους τμημάτων εικόνας, υποστηρίζοντας τόσο τη διάγνωση όσο και την ερμηνεία της μεροληψίας. Συνολικά, η παρούσα διατριβή εισάγει καινοτομίες στον μετριασμό μεροληψιών, συνδυάζοντας θεωρητικές, μεθοδολογικές, εμπειρικές και εφαρμοσμένες συνεισφορές. Παρέχει πρακτικά εργαλεία, τυποποιημένα πρωτόκολλα αξιολόγησης και νέα επιστημονικά ευρήματα που συμβάλλουν στην ανάπτυξη δικαιότερων, πιο ανθεκτικών και πιο διαφανών συστημάτων τεχνητής νοημοσύνης.

περισσότερα

Περίληψη σε άλλη γλώσσα

Deep learning systems have become ubiquitous across society, driving state-of-the-art performance in countless applications. However, such systems inevitably reflect the statistical characteristics and imperfections present in the training data. This can introduce various forms of bias into the learned representations and decision-making processes, influencing model behavior in ways that are not always aligned with the intended task. In particular, high co-occurrence between certain data attributes and target labels that does not reflect true causal relationships, namely spurious correlations, can lead to models that fail catastrophically when deployed in out-of-distribution environments where such correlations do not exist, and raise fairness issues when spurious attributes correspond to protected characteristics such as race, gender, or age. This dissertation investigates such types of biases, with a primary focus on computer vision, while also examining generalization across modalities and application-specific challenges in facial analysis. It addresses several key limitations of existing approaches, including their dependence on annotations related to the attributes introducing the bias, limited ability to handle multiple biases, fragmented evaluation practices, and uncertain transferability beyond natural image benchmarks. To this end, the thesis introduces a set of novel methodological contributions. First, it proposes FLAC, a fairness-aware representation learning framework that suppresses bias attribute and target class associations without requiring bias attribute annotations. Second, it presents BAdd, a simple yet effective approach that mitigates single and multi-attribute biases by injecting bias-capturing features during training to encourage bias-neutral representations. Third, it introduces MAVias, an open-set bias mitigation method that leverages foundation models to automatically discover and mitigate unknown visual biases. Beyond algorithmic advances, this dissertation presents VB-Mitigator, an open-source framework that integrates datasets, metrics, and mitigation methods, enabling reproducible and fair comparisons. Building on this, a large-scale cross-domain benchmark study evaluates bias mitigation methods across text, audio, medical imaging, and video, providing the first systematic evidence of their cross-domain and modality generalization capabilities. Finally, the thesis investigates fairness in facial image analysis, revealing intersectional demographic biases in face recognition and verification systems, proposing a framework for training fairer face verification models using synthetic data, and introducing FaceX, an explainability method that provides face region-level and patch-level insights into face attribute classifiers, supporting bias diagnosis. Overall, this dissertation advances the state-of-the-art in bias mitigation by combining theoretical, methodological, empirical, and application-driven contributions. It offers practical tools, standardized benchmarks, and new insights that collectively contribute to the development of fairer, more robust, and more transparent artificial intelligence systems.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (10.61 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61411
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61411
ND	61411
Εναλλακτικός τίτλος	Fairness-aware machine learning for multimedia data
Συγγραφέας	Σαρρίδης, Ιωάννης (Πατρώνυμο: Δημήτριος)
Ημερομηνία	04/2026
Ίδρυμα	Χαροκόπειο Πανεπιστήμιο. Σχολή Ψηφιακής Τεχνολογίας. Τμήμα Πληροφορικής και Τηλεματικής
Εξεταστική επιτροπή	Δίου Χρήστος Βαρλάμης Ηρακλής Παπαδόπουλος Συμεών Μιχαήλ Δημήτριος Παπαδόπουλος Γεώργιος Τέφας Αναστάσιος Sebe Niculae
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Δίκαιη μηχανική μάθηση; Βαθιά μάθηση; Υπολογιστική όραση; Μεροληψία; Ψευδείς συσχετίσεις
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Αξιοποίηση της βαθιάς μάθησης για την ακριβή διάγνωση της ρήξης του πρόσθιου χιαστού συνδέσμου και την ανίχνευση ανωμαλιών της άρθρωσης του γονάτου στην ιατρική απεικόνιση

3-Dimensional triangular meshes: texture processing and retrieva

Retrieval of 3-dimensional rigid and non-rigid objects

Τεχνικές πολλαπλών αναλύσεων στην απλοποίηση τριγωνικών και τετραεδρικών πλεγμάτων

Applications of machine learning algorithms in quality of life

Unsupervised 3D mesh segmentation

Performance analysis in team sports using new technologies

Μεθοδολογίες ανάπτυξης ασαφών συστημάτων ταξινόμησης με χρήση εξελικτικών αλγορίθμων: εφαρμογή σε προβλήματα υψηλής διαστατικότητας

"Δίκαιη μηχανική μάθηση σε πολυμεσικά δεδομένα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .