Περίληψη
Σε αυτή τη διατριβή μελετήθηκε η εφαρμογή πολυπαραμετρικών τεχνικών σε μεγάλες βάσεις δεδομένων ταξινόμησης, με σκοπό τη θεωρητική τους παρουσίαση, τη σύγκριση αυτών και την εξαγωγή συμπερασμάτων, σχετικά με το πεδίο εφαρμογής τους και το χειρισμό τους, τις δυνατότητες και τους περιορισμούς τους. Χρησιμοποιήθηκαν μη επιβλεπόμενες τεχνικές όπως Principal Components Analysis/Factor Analysis (PCA/FA) και Cluster Analysis (CA) αλλά και επιβλεπόμενες όπως Discriminant Analysis (DA), Classification Trees (CT) και Artificial Neural Networks (ANN). Ιδιαίτερη έμφαση δόθηκε στις τεχνικές CT και ANN (μελετήθηκαν τρεις μέθοδοι και αρχιτεκτονικές αντίστοιχα για καθεμιά από αυτές). Ερευνήθηκαν τα πλεονεκτήματα, μειονεκτήματα και ιδιαιτερότητες τους και βελτιστοποιήθηκαν τα μοντέλα ταξινόμησης των τεχνικών. Όλες οι τεχνικές συγκρίθηκαν μεταξύ τους, με κριτήριο τα αποτελέσματα τους (της ορθής ταξινόμησης των δειγμάτων) σε τρεις βάσεις δεδομένων οι οποίες αφορούσαν τους προσδιορισμούς α) μετάλλων-μετ ...
Σε αυτή τη διατριβή μελετήθηκε η εφαρμογή πολυπαραμετρικών τεχνικών σε μεγάλες βάσεις δεδομένων ταξινόμησης, με σκοπό τη θεωρητική τους παρουσίαση, τη σύγκριση αυτών και την εξαγωγή συμπερασμάτων, σχετικά με το πεδίο εφαρμογής τους και το χειρισμό τους, τις δυνατότητες και τους περιορισμούς τους. Χρησιμοποιήθηκαν μη επιβλεπόμενες τεχνικές όπως Principal Components Analysis/Factor Analysis (PCA/FA) και Cluster Analysis (CA) αλλά και επιβλεπόμενες όπως Discriminant Analysis (DA), Classification Trees (CT) και Artificial Neural Networks (ANN). Ιδιαίτερη έμφαση δόθηκε στις τεχνικές CT και ANN (μελετήθηκαν τρεις μέθοδοι και αρχιτεκτονικές αντίστοιχα για καθεμιά από αυτές). Ερευνήθηκαν τα πλεονεκτήματα, μειονεκτήματα και ιδιαιτερότητες τους και βελτιστοποιήθηκαν τα μοντέλα ταξινόμησης των τεχνικών. Όλες οι τεχνικές συγκρίθηκαν μεταξύ τους, με κριτήριο τα αποτελέσματα τους (της ορθής ταξινόμησης των δειγμάτων) σε τρεις βάσεις δεδομένων οι οποίες αφορούσαν τους προσδιορισμούς α) μετάλλων-μεταλλοειδών στους τρεις ταμιευτήρες που χρησιμοποιούνται για την ύδρευση της πρωτεύουσας (Υλίκη, Μόρνο και Μαραθώνα), β) μετάλλων-μεταλλοειδών και ανόργανων στοιχείων σε θαλάσσια δείγματα ιζημάτων από μεγάλες ιχθυοκαλλιέργειες της χώρας, γ) σπανίων γαιών σε δείγματα ελαιολάδων από διάφορες περιοχές. Η DA αν και είναι παραμετρική τεχνική με πολλούς περιορισμούς στην εφαρμογή της, ανταποκρίθηκε στις ανάγκες των προβλημάτων και παρείχε πάντα μια πρώτη άποψη για το πρόβλημα (δυνατότητα ή όχι γραμμικού διαχωρισμού των ομάδων με βάση το Canonical plot της ανάλυσης και αρχική αξιολόγηση των μεταβλητών). Τα ποσοστά ορθής ταξινόμησης που παρείχε ήταν αρκετές φορές συγκρίσιμα με των πιο προηγμένων τεχνικών. Τα CT με 3 διαφορετικές μεθόδους και αρκετή ευελιξία (παρείχαν πολλές παραμέτρους προς δοκιμή και βελτιστοποίηση), επέτυχαν υψηλά ποσοστά ταξινόμησης με λίγες ή πολλές μεταβλητές (περισσότερες συνήθως των ANN), κατασκευάζοντας επαναλήψιμα μοντέλα με δυνατότητες γενίκευσης. Τα ANN αποδείχθηκαν ιδιαίτερα ευέλικτη τεχνική, με δυνατότητες αποτελεσματικής αξιολόγησης των μεταβλητών και εφαρμογής τους σε απλές αλλά και πολυπλοκότερες βάσεις προσεγγίζοντας γραμμικές και μη γραμμικές συναρτήσεις. Κατασκευάστηκαν ανθεκτικά και ευέλικτα μοντέλα. Μειονέκτημά τους αποτέλεσαν ωστόσο, τα φαινόμενα υπερπροσαρμογής που παρουσιάζουν και χρειάστηκαν προσεκτικοί χειρισμοί για την αποφυγή τους. Έτσι, τα διαθέσιμα δείγματα διαχωρίστηκαν σε τρεις ομάδες: χρησιμοποιήθηκαν εκτός της συνήθους ομάδας εκπαίδευσης, επιπλέον ομάδες επικύρωσης και ελέγχου. Με τον τρόπο αυτό, έγινε άμεση ταυτοποίηση των φαινομένων υπερπροσαρμογής (ώστε να διακόπτεται αυτόματα η εκπαίδευση του μοντέλου), αλλά και δοκιμή των μοντέλων σε νέα, “’άγνωστα” δείγματα, ώστε να ελέγχεται η δυνατότητα γενίκευσης αυτών. Ο διαχωρισμός σε ομάδες έγινε είτε τυχαία (όπως επιτάσσει η σύγχρονη βιβλιογραφία), είτε με βάση της προκατεργασίας με DA (μέθοδος που δεν έχει χρησιμοποιηθεί ποτέ στο παρελθόν). Επιπλέον, έγινε προσπάθεια εφαρμογής όσο το δυνατόν απλούστερων δομών με λίγες παραμέτρους (μεταβλητές, βάρη) αλλά και λειτουργικές μονάδες επεξεργασίας (νευρώνες).
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis investigated the implementation of multivariate techniques in large classification data bases, targeting their theoretical presentation, comparison and inference, regarding their application field, handling, potentialities and restrictions. Unsupervised techniques like Principal Components Analysis/Factor Analysis (PCA/FA) and Cluster Analysis (CA) and supervised ones like Discriminant Analysis (DA), Classification Trees (CTs) and Artificial Neural Networks (ANNs) were used. Emphasis was placed on the techniques of CTs and ANNs (three methods and architectures are studied respectively for each one of them). The advantages, disadvantages and their particularities were exploited and the classification models were optimized. All the techniques were compared to each other in terms of their results (the percentages of samples correctly classified) in three data bases, that concerned the determinations of a) metals-metalloids in the three reservoirs that are used for the water su ...
This thesis investigated the implementation of multivariate techniques in large classification data bases, targeting their theoretical presentation, comparison and inference, regarding their application field, handling, potentialities and restrictions. Unsupervised techniques like Principal Components Analysis/Factor Analysis (PCA/FA) and Cluster Analysis (CA) and supervised ones like Discriminant Analysis (DA), Classification Trees (CTs) and Artificial Neural Networks (ANNs) were used. Emphasis was placed on the techniques of CTs and ANNs (three methods and architectures are studied respectively for each one of them). The advantages, disadvantages and their particularities were exploited and the classification models were optimized. All the techniques were compared to each other in terms of their results (the percentages of samples correctly classified) in three data bases, that concerned the determinations of a) metals-metalloids in the three reservoirs that are used for the water supply of Athens (Iliki, Mornos and Marathon), b) metals-metalloids and nutrients in marine sediments from big aquacultures of the country, c) rare earth elements (REE) in olive oil samples from different regions. Although DA is a parametric multivariate technique, with many restrictions in its implementation, responded to the needs of all the problems and always provided an initial evaluation for that (capability of linear or not linear discrimination on the basis of the Canonical plot of the analysis and initial evaluation of the variables). The percentages of the correct classification it provided, were frequently compared to that of the most sophisticated techniques. CTs with 3 different methods and enough flexibility (they provided many parameters for trials and optimization), resulted in high percentages with the use of few or more variables (usually more than ANNs), constructing reproducible models with generalization. ANNs were proved to be a particularly flexible technique, with potentialities of efficient variables’ evaluation and implementation in simple but also complicated data bases, approximating linear and non-linear functions. Robust and flexible models were constructed. However, over-training phenomena seemed to plague ANN and careful handling was needed for their avoidance. The available samples were split in three sets: except the usual training one, validation ant test sets were used. In this way, an immediate identification of these phenomena was achieved (so that training was automatically interrupted), and moreover, a test of the models in new “unknown” samples was carried out, so that generalization potentialities were checked. Samples sets were split randomly (as modern bibliography dictates), or were based on DA pre-treatment (a method that has never been used in the past). Moreover, the simplest structures were used: with few parameters (variables, weights) and operating processing units (neurons).
περισσότερα