Περίληψη
Η εκτίμηση του κόστους ή της διάρκειας ενός έργου λογισμικού αποτελούν σημαντικά ζητήματα στην επιστημονική περιοχή της τεχνολογίας λογισμικού. Η εκτίμηση αυτή γίνεται ως επί το πλείστον με στατιστικά μοντέλα που εφαρμόζονται σε ιστορικές βάσεις. Από την στιγμή που τα περισσότερα από τα σύνολα δεδομένων κόστους λογισμικού περιέχουν χαμένες τιμές, προκύπτει παράλληλα και το πρόβλημα της συμπλήρωσής τους. Η παρούσα διατριβή ασχολείται τόσο με την εκτίμηση του κόστους ή της διάρκειας, όσο και με τη διαχείριση των χαμένων τιμών, αντιμετωπίζοντάς τα με στατιστικές μεθόδους και μοντέλα που κατασκευάζονται πάνω σε δεδομένα κόστους λογισμικού. Συγκεκριμένα, η συνεισφορά της διατριβής επικεντρώνεται στα ακόλουθα πεδία: Αρχικά παρουσιάζεται για την εκτίμηση του κόστους των έργων λογισμικού, η διατεταγμένη παλινδρόμηση (OR) προκειμένου να παραχθούν εκτιμήσεις κόστους σε κατηγορίες σύμφωνα με εκτιμώμενες πιθανότητες. Η μέθοδος παράλληλα παρέχει τη δυνατότητα για εκτίμηση σε σημείο, καθιστώντας την ...
Η εκτίμηση του κόστους ή της διάρκειας ενός έργου λογισμικού αποτελούν σημαντικά ζητήματα στην επιστημονική περιοχή της τεχνολογίας λογισμικού. Η εκτίμηση αυτή γίνεται ως επί το πλείστον με στατιστικά μοντέλα που εφαρμόζονται σε ιστορικές βάσεις. Από την στιγμή που τα περισσότερα από τα σύνολα δεδομένων κόστους λογισμικού περιέχουν χαμένες τιμές, προκύπτει παράλληλα και το πρόβλημα της συμπλήρωσής τους. Η παρούσα διατριβή ασχολείται τόσο με την εκτίμηση του κόστους ή της διάρκειας, όσο και με τη διαχείριση των χαμένων τιμών, αντιμετωπίζοντάς τα με στατιστικές μεθόδους και μοντέλα που κατασκευάζονται πάνω σε δεδομένα κόστους λογισμικού. Συγκεκριμένα, η συνεισφορά της διατριβής επικεντρώνεται στα ακόλουθα πεδία: Αρχικά παρουσιάζεται για την εκτίμηση του κόστους των έργων λογισμικού, η διατεταγμένη παλινδρόμηση (OR) προκειμένου να παραχθούν εκτιμήσεις κόστους σε κατηγορίες σύμφωνα με εκτιμώμενες πιθανότητες. Η μέθοδος παράλληλα παρέχει τη δυνατότητα για εκτίμηση σε σημείο, καθιστώντας την ικανή για σύγκριση με παραδοσιακές μεθόδους. Στη συνέχεια εφαρμόζεται η μέθοδος της πολυωνυμικής λογιστικής παλινδρόμησης (MLR) για την εκτίμηση των χαμένων τιμών σε κατηγορικά δεδομένα. Η μέθοδος εφαρμόζεται σε πλήρες σύνολο δεδομένων, αφού πρώτα δημιουργήθηκαν τεχνητά χαμένες παρατηρήσεις, αλλά και σε σύνολο με πραγματικά χαμένες τιμές. Τέλος, παρουσιάζεται ένα στατιστικό πλαίσιο για τη μελέτη της κατανομής της διάρκειας των έργων λογισμικού καθώς επίσης και των παραγόντων που την επηρεάζουν. Προτείνεται η στατιστική μεθοδολογία της ανάλυσης επιβίωσης (SA) έχοντας ως βασικό της γνώρισμα την κατασκευή μοντέλων πιθανοτήτων σε δεδομένα που προέρχονται τόσο από ολοκληρωμένα έργα λογισμικού όσο και από έργα που δεν έχουν ακόμα ολοκληρωθεί μέχρι τη χρονική στιγμή της μελέτης μας. Οι πιο πάνω μεθοδολογίες μπορούν να συμβάλουν θετικά στην αντιμετώπιση των προβλημάτων που η κάθε μια διαχειρίζεται.
περισσότερα
Περίληψη σε άλλη γλώσσα
Estimating the cost or the duration of a software project is an important issue in software engineering. This estimation is usually made with statistical models which are based on historical databases. Since most of the software cost datasets include missing values, the problem of their completion arises. The present dissertation deals with the estimation of the cost or the duration and also with the handling of missing data, using statistical methods and models which are built on software cost data. More specifically, the contribution of the dissertation is focused on the following fields: First of all the ordinal regression (OR) is presented for the estimation of the cost of software projects, in order to produce categorical cost estimations according to estimated probabilities. The method also provides the capability for point estimation, in order to be able to be compared with other traditional methods. Then, the method of multinomial logistic regression (MLR) is applied for the es ...
Estimating the cost or the duration of a software project is an important issue in software engineering. This estimation is usually made with statistical models which are based on historical databases. Since most of the software cost datasets include missing values, the problem of their completion arises. The present dissertation deals with the estimation of the cost or the duration and also with the handling of missing data, using statistical methods and models which are built on software cost data. More specifically, the contribution of the dissertation is focused on the following fields: First of all the ordinal regression (OR) is presented for the estimation of the cost of software projects, in order to produce categorical cost estimations according to estimated probabilities. The method also provides the capability for point estimation, in order to be able to be compared with other traditional methods. Then, the method of multinomial logistic regression (MLR) is applied for the estimation of missing values in categorical data. The method is first applied on a complete data, using artificially generated missing values, and then on a dataset with real missing data. Finally, a statistical framework is presented, in order to study the distribution of the duration of software projects and also the most important factors that affect it. The statistical methodology of survival analysis (SA) is proposed, having as basic feature the construction of probabilistic models from software data with not only completed projects but also from projects which are still active (ongoing projects). In summary, the above methods are able to contribute positively in dealing with the problems which each one is involved.
περισσότερα