Περίληψη
Στην παρούσα διατριβή προτείνονται πρωτότυπες μέθοδοι υπολογιστικής ανάλυσης που εστιάζονται στην ανάλυση και επεξεργασία εικόνων με εφαρμογές σε βιοϊατρικά δεδομένα. Η ανάλυση και η επεξεργασία εικόνων βιοϊατρικών δεδομένων, όπως είναι οι εικόνες μικροσυστοιχιών cDNA, καθώς και τα πηκτώματα που έχουν προέλθει από δισδιάστατη ηλεκτροφόρηση πρωτεϊνών, αποτελούν την τελευταία δεκαετία κορυφαίο ερευνητικό πεδίο στην επιστήμη της βιοπληροφορικής. Η βασική αιτία οφείλεται στην ανικανότητα των υπαρχόντων λογισμικών συστημάτων να αναλύσουν και να επεξεργαστούν τις εικόνες αυτές αυτόματα. Η παρέμβαση του χρήστη είναι σε αυτά απαραίτητη είτε για την αρχικοποίηση διαφόρων παραμέτρων τους, είτε για την διόρθωση εσφαλμένων αποτελεσμάτων τους. Ως εκ τούτου, η ανάλυση και επεξεργασία των εικόνων καθίσταται αφενός χρονοβόρα διότι οι χρήστες θα πρέπει να επιλέξουν τις κατάλληλες τιμές στις παραμέτρους και να διορθώσουν τα αποτελέσματα, αφετέρου υποκειμενική διότι οι χρήστες θα αρχικοποιήσουν και θα δι ...
Στην παρούσα διατριβή προτείνονται πρωτότυπες μέθοδοι υπολογιστικής ανάλυσης που εστιάζονται στην ανάλυση και επεξεργασία εικόνων με εφαρμογές σε βιοϊατρικά δεδομένα. Η ανάλυση και η επεξεργασία εικόνων βιοϊατρικών δεδομένων, όπως είναι οι εικόνες μικροσυστοιχιών cDNA, καθώς και τα πηκτώματα που έχουν προέλθει από δισδιάστατη ηλεκτροφόρηση πρωτεϊνών, αποτελούν την τελευταία δεκαετία κορυφαίο ερευνητικό πεδίο στην επιστήμη της βιοπληροφορικής. Η βασική αιτία οφείλεται στην ανικανότητα των υπαρχόντων λογισμικών συστημάτων να αναλύσουν και να επεξεργαστούν τις εικόνες αυτές αυτόματα. Η παρέμβαση του χρήστη είναι σε αυτά απαραίτητη είτε για την αρχικοποίηση διαφόρων παραμέτρων τους, είτε για την διόρθωση εσφαλμένων αποτελεσμάτων τους. Ως εκ τούτου, η ανάλυση και επεξεργασία των εικόνων καθίσταται αφενός χρονοβόρα διότι οι χρήστες θα πρέπει να επιλέξουν τις κατάλληλες τιμές στις παραμέτρους και να διορθώσουν τα αποτελέσματα, αφετέρου υποκειμενική διότι οι χρήστες θα αρχικοποιήσουν και θα διορθώσουν με διαφορετικό τρόπο ο καθένας τα λογισμικά συστήματα, με αποτέλεσμα να οδηγηθούν σε διαφορετικά βιολογικά αποτελέσματα, τα οποία αποκλίνουν από τα σωστά. Οι προτεινόμενες μέθοδοι στην παρούσα διατριβή αξιοποιούν την πληροφορία έντασης των εικόνων και μετατρέπουν βασικά προβλήματα ανάλυσης και επεξεργασίας των προαναφερθέντων εικόνων, όπως αυτά της κατασκευής πλέγματος και κατάτμησης κηλίδων, σε προβλήματα βελτιστοποίησης, τα οποία επιλύονται χρησιμοποιώντας ως βασικό άξονα την μεθοδολογία των γενετικών αλγορίθμων. Καταρχήν, προτείνεται πρωτότυπη μέθοδος κατασκευής πλέγματος (gridding) σε εικόνες μικροσυστοιχιών cDNA. Η μέθοδος βασίζεται σε έναν γενετικό αλγόριθμο που καθορίζει δυο σύνολα από ευθύγραμμα τμήματα. Το πρώτο σύνολο περιέχει τα ευθύγραμμα τμήματα κάθετης κατεύθυνσης που απαρτίζουν το βέλτιστο πλέγμα, ενώ το δεύτερο σύνολο περιέχει τα ευθύγραμμα τμήματα οριζόντιας κατεύθυνσης. Κάθε σύνολο από αυτά περιέχει ευθύγραμμα τμήματα που είναι μεταξύ τους παράλληλα και δύνανται να έχουν συγχρόνως μια συγκεκριμένη κλίση. Μετά τον καθορισμό των συνόλων αυτών, κάθε ευθύγραμμο τμήμα ελέγχεται εάν έχει εντοπιστεί βέλτιστα και αν όχι τροποποιείται κατά ελάχιστο η θέση και η κλίση του έτσι ώστε να βρίσκεται στο μέσο της απόστασης μεταξύ δυο μπλοκ ή κηλίδων. Προτείνεται επίσης μια πρωτότυπη μέθοδος κατάτμησης κηλίδων (spot-segmentation) σε εικόνες μικροσυστοιχιών cDNA βάσει της συγκεκριμένης τρισδιάστατης μορφολογίας που παρουσιάζουν οι κηλίδες στις εικόνες αυτές. Ειδικότερα, αξιοποιώντας την τρισδιάστατη μορφολογία των κηλίδων, ορίζεται η μαθηματική εξίσωση ενός μοντέλου τρισδιάστατης αναπαράστασης των διαφόρων τύπων των κηλίδων, δηλαδή κηλίδων σε σχήμα κορυφής (peak-shaped), οροπεδίου (plateau-shaped), ηφαιστείου (volcano-shaped) και ντόνατς (doughnut shaped). Η μαθηματική εξίσωση αποτελείται από τρεις βασικούς όρους. Με τον πρώτο όρο αναπαριστάνεται η τιμή του υποβάθρου που υπάρχει γύρω από την κηλίδα, με τον δεύτερο όρο αναπαριστάνεται το κυρίως σώμα της κηλίδας, ενώ με τον τρίτο όρο αναπαριστάνεται (εάν υπάρχει) η εσωτερική κοιλότητα της κηλίδας. Χρησιμοποιώντας την μαθηματική εξίσωση, κάθε πραγματική κηλίδα αναπαριστάνεται κατά βέλτιστο τρόπο με μια κηλίδα μοντέλο. Για την βελτιστοποίηση του μοντέλου κηλίδας σχεδιάστηκε και υλοποιήθηκε γενετικός αλγόριθμος ο οποίος καθορίζει, για κάθε κηλίδα, τις βέλτιστες τιμές που πρέπει να έχουν οι παράμετροι της μαθηματικής εξίσωσης. Εξαιτίας του θορύβου που υπάρχει στις εικόνες αυτές, ο γενετικός αλγόριθμος λαμβάνει υπόψη του την αβεβαιότητα που υπάρχει στις εντάσεις των πραγματικών κηλίδων και η οποία εκτιμάται χρησιμοποιώντας την ασαφή λογική (Fuzzy Logic). Με αυτόν τον τρόπο η “ομαλή” τρισδιάστατη επιφάνεια της κηλίδας μοντέλο μπορεί να πλησιάσει βέλτιστα την “ανώμαλη” τρισδιάστατη επιφάνεια της πραγματικής κηλίδας. Οι πραγματικές κηλίδες κατατέμνονται μέσω της απεικόνισης του περιγράμματος των κηλίδων-μοντέλων. Προτείνεται τέλος μια μέθοδος κατάτμησης κηλίδων σε εικόνες πηκτώματος προερχόμενο από δισδιάστατη ηλεκτροφόρηση πρωτεϊνών. Η μεθοδολογία που αναπτύχθηκε περιλαμβάνει δυο κύρια βήματα: (i) Κατάτμηση της εικόνας του πηκτώματος σε περιοχές γύρω από τα τοπικά μέγιστα που εμφανίζονται στις εντάσεις των εικονοστοιχείων της και (ii) Κατάτμηση των κηλίδων που βρίσκονται στις παραπάνω περιοχές. Η διαδικασία της κατάτμησης βασίζεται στην δυνατότητα του μοντέλου διάχυσης να αναπαραστήσει την τρισδιάστατη μορφολογία των κηλίδων αυτών και επιλύεται χρησιμοποιώντας γενετικούς αλγορίθμους. Ειδικότερα, ο πρωτότυπος γενετικός αλγόριθμός λαμβάνει υπόψη του τυχόν επικαλύψεις γειτονικών κηλίδων και καθορίζει συγχρόνως τις παραμέτρους πολλαπλών μοντέλων διάχυσης τα οποία αναπαριστάνουν βέλτιστα γειτονικές κηλίδες. Η ανίχνευση και κατάτμηση των επικαλυπτόμενων κηλίδων επιτυγχάνεται με την υπέρθεση δυο ή περισσοτέρων τρισδιάστατων μοντέλων διάχυσης που αναπαριστάνουν τις γειτονικές κηλίδες. Οι πραγματικές κηλίδες κατατέμνονται μέσω της απεικόνισης του περιγράμματος των κηλίδων-μοντέλων. Οι προτεινόμενες μέθοδοι κατασκευής πλέγματος και κατάτμησης κηλίδων εφαρμόσθηκαν σε συνθετικές και πραγματικές εικόνες οι οποίες πάρθηκαν από καθιερωμένες στην βιβλιογραφία βάσεις δεδομένων όπως η βάση δεδομένων του Stanford (Stanford Microarray Database). Η εφαρμογή τους έδειξε ότι επιτυγχάνουν υψηλότερη ακρίβεια προσδιορισμού πλέγματος και κατάτμησης κηλίδων σε σύγκριση με αντίστοιχες καθιερωμένες μεθόδους και ευρέως χρησιμοποιούμενα λογισμικά συστήματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
In the course of the present PhD thesis, original methods of computational analysis are put forward, which focus on image analysis and processing and are applied in biomedics. As a research field, the analysis and processing of biomedical images, such as cDNA microarray images as well as 2D gels that derive from two-dimensional electrophoresis of proteins, is at the very forefront of biomedical science in the last decade. This is mainly due to the ineffectiveness of the existent software packages in automatically analyzing and processing the aforementioned images. Human intervention is necessary either for the initialization of their input parameters, or for the rectification of their incorrect results. As a result, the analysis and processing of these images becomes on the one hand time-consuming since the users have to choose the appropriate values for their input parameters and rectify their results, and on the other subjective since the users initialize and correct the software pro ...
In the course of the present PhD thesis, original methods of computational analysis are put forward, which focus on image analysis and processing and are applied in biomedics. As a research field, the analysis and processing of biomedical images, such as cDNA microarray images as well as 2D gels that derive from two-dimensional electrophoresis of proteins, is at the very forefront of biomedical science in the last decade. This is mainly due to the ineffectiveness of the existent software packages in automatically analyzing and processing the aforementioned images. Human intervention is necessary either for the initialization of their input parameters, or for the rectification of their incorrect results. As a result, the analysis and processing of these images becomes on the one hand time-consuming since the users have to choose the appropriate values for their input parameters and rectify their results, and on the other subjective since the users initialize and correct the software programs in an individual manner thus affecting the biological results, which differ from the real ones. The proposed methods in the present PhD thesis exploit the intensity information of the images and convert basic problems of analysis and processing of the aforementioned images, such as the determination of grid structure (gridding) and spot segmentation, to optimization problems which are subsequently solved using the methodology of genetic algorithms. Firstly, an original method of cDNA gridding microarray images is proposed. The proposed method is based on a genetic algorithm which determines two sets of line-segments. The first one contains the line-segments of the grid structure having vertical direction, while the second one contains the line-segments having horizontal direction. Each of the aforementioned sets contains line-segments which are parallel and have the same slope. After the determination of the aforementioned sets, each line-segment is inspected in order to establish whether or not it has been determined optimally. If it is not determined optimally, its position and its slope are slightly modified so that it is finally located in the middle of the distance between two blocks or spots. An original method for segmenting spots in cDNA microarray images is also proposed which is based on the three-dimensional morphology of the spots that are located on these images. More precisely, a mathematical equation of a model is defined that represents on a three dimensional space the various spot-shapes such as peak-shaped spots, plateau-shaped spots, volcano-shaped spots and doughnut-shaped spots. The mathematical equation consists of three main components. The first component represents the average background intensity which appears around the spot. The second component represents the 3D-curve of the main body of the spot, while the third component represents the 3D-curve of the inner dip of the spot. Using the aforementioned mathematical equation, each real spot is optimally represented by a spot model. A genetic algorithm was designed and implemented towards the optimization of the spot model that determines the optimal values of the parameters of the aforementioned mathematical equation for each spot. Due to the existence of noise, the genetic algorithm takes under consideration the uncertainty that exists in the intensity of the real spots and which is estimated using fuzzy logic. As such the smooth 3D curve of the spot model can approximate the scabrous 3D-curve of the real spot. The real-spots are segmented by drawing the contours of the spot-models. Last but not least, a method is proposed for segmenting spots on the images of 2D gels which result from the two dimensional electrophoresis of proteins. The methodology which was developed includes two main stages: (i) Segmentation of the 2D gel image into regions around the local extremes that appear in the intensities of its pixels and (ii) Segmentation of the spots located in the aforementioned regions. The segmentation process is based on the possibility of the diffusion model to represent the three-dimensional morphology of the spots and is solved by using genetic algorithms. More precisely, the original genetic algorithm takes under consideration possible overlaps of adjacent spots and determines in parallel the parameters of multiple diffusion models that optimally represent them. The detection and segmentation of the overlapping spots is conducted by the superposition of two or more diffusion models representing adjacent spots. The real spots are segmented by drawing the contours of the spot-models. The proposed methods of gridding and spot-segmentation were applied to synthetic images as well as to real ones. The latter were obtained from established databases such as the Stanford Microarray Database. Their application showed that the proposed methods achieve higher accuracy in comparison to various well-known and broadly used techniques.
περισσότερα