Περίληψη
Δεδομένα που συλλέχθηκαν στο πλαίσιο υπηρεσίας παρακολούθησης της περιόδου μετάβασης, από 133 μονάδες σε διάστημα δύο ετών, χρησιμοποιήθηκαν για την ανάπτυξη προβλεπτικών μοντέλων υγείας, παραγωγής και αναπαραγωγής. Συμπεριλήφθηκαν μεταβλητές τόσο σε επίπεδο ζώου όσο και σε επίπεδο μονάδας, ως υποψήφιοι προγνωστικοί παράγοντες, και εφαρμόστηκε σειρά στατιστικών και μηχανικών μεθόδων: γραμμική παλινδρόμηση, decision tree, random forest, MARS και τεχνητά νευρωνικά δίκτυα για συνεχείς μεταβλητές· και λογιστική παλινδρόμηση, decision tree, random forest, ANNs, SVM και naïve Bayes για δυαδικές εκβάσεις. Αναπτύχθηκαν μοντέλα με προβλέψεις τόσο σε ατομικό επίπεδο όσο και σε επίπεδο μονάδας/τριμήνου.Εξετάστηκαν διάφορες υγειονομικές εκβάσεις (εμφάνιση ή μη υπασβεστιαιμίας, LDA, RFM και μητρίτιδας, καθώς και ένας συνολικός δείκτης νοσηρότητας). Σε ατομικό επίπεδο γαλακτικής περιόδου η προγνωστική αξία ήταν γενικά χαμηλή· το καλύτερο μοντέλο ήταν αυτό για τη συνολική νοσολογική έκβαση, με τιμή K ...
Δεδομένα που συλλέχθηκαν στο πλαίσιο υπηρεσίας παρακολούθησης της περιόδου μετάβασης, από 133 μονάδες σε διάστημα δύο ετών, χρησιμοποιήθηκαν για την ανάπτυξη προβλεπτικών μοντέλων υγείας, παραγωγής και αναπαραγωγής. Συμπεριλήφθηκαν μεταβλητές τόσο σε επίπεδο ζώου όσο και σε επίπεδο μονάδας, ως υποψήφιοι προγνωστικοί παράγοντες, και εφαρμόστηκε σειρά στατιστικών και μηχανικών μεθόδων: γραμμική παλινδρόμηση, decision tree, random forest, MARS και τεχνητά νευρωνικά δίκτυα για συνεχείς μεταβλητές· και λογιστική παλινδρόμηση, decision tree, random forest, ANNs, SVM και naïve Bayes για δυαδικές εκβάσεις. Αναπτύχθηκαν μοντέλα με προβλέψεις τόσο σε ατομικό επίπεδο όσο και σε επίπεδο μονάδας/τριμήνου.Εξετάστηκαν διάφορες υγειονομικές εκβάσεις (εμφάνιση ή μη υπασβεστιαιμίας, LDA, RFM και μητρίτιδας, καθώς και ένας συνολικός δείκτης νοσηρότητας). Σε ατομικό επίπεδο γαλακτικής περιόδου η προγνωστική αξία ήταν γενικά χαμηλή· το καλύτερο μοντέλο ήταν αυτό για τη συνολική νοσολογική έκβαση, με τιμή Kappa 0,16, αν και η ακρίβεια ήταν σχετικά υψηλή (0,86). Σε επίπεδο μονάδας/τριμήνου, το καλύτερο μοντέλο ήταν για την υπασβεστιαιμία: η εκτιμώμενη επιπολαστικότητα εξηγούσε ~44% της διακύμανσης των παρατηρούμενων τιμών, στοιχείο που δείχνει μέτρια προς χαμηλή χρησιμότητα πρόβλεψης. Καλύτερη απόδοση επιτεύχθηκε όταν οι προβλέψεις των ατομικών μοντέλων ομαδοποιήθηκαν σε επίπεδο μονάδας–τριμήνου: για τη μητρίτιδα, ~67% της διακύμανσης εξηγήθηκε από τις ομαδοποιημένες προβλέψεις. Στα αναπαραγωγικά αποτελέσματα εξετάστηκαν η πιθανότητα επιτυχούς σπερματέγχυσης και ο χρόνος από τον τοκετό έως την επιτυχή σύλληψη. Οι τιμές Kappa για την επιτυχία σπερματέγχυσης κυμάνθηκαν 0,04–0,17, ενώ το R² που περιέγραφε τη σχέση προβλεπόμενων και παρατηρούμενων ομαδοποιημένων τιμών σε επίπεδο μονάδας–τριμήνου ήταν 0,37. Όταν τα μοντέλα κατασκευάστηκαν εξαρχής σε επίπεδο μονάδας–τριμήνου, η μέγιστη τιμή R² ήταν 0,24 (MARS). Για τον χρόνο ως τη σπερματέγχυση, το μέγιστο R² ήταν μόλις 0,024 (γραμμική παλινδρόμηση). Παρά την αδύναμη προγνωστική απόδοση, τα επαγωγικά μοντέλα για τα ίδια outcomes έδειξαν ισχυρές συσχετίσεις — π.χ. η επιτυχία σπερματέγχυσης συσχετίστηκε με αριθμό γαλακτικής περιόδου, μήνα τοκετού και θνησιμότητα μοσχαριού· ενώ ο χρόνος έως τη σπερματέγχυση συσχετίστηκε με μητρίτιδα, διορθωμένο ποσοστό πρωτεΐνης, μήνα τοκετού και αριθμό γαλακτικής περιόδου. Για τα παραγωγικά αποτελέσματα αναπτύχθηκαν μοντέλα τόσο για την προβλεπόμενη γαλακτοπαραγωγή 305 ημερών όσο και για το ημερήσιο residual yield (διαφορά παρατηρούμενης – αναμενόμενης παραγωγής βάσει καμπύλης γαλακτοπαραγωγής της αντίστοιχης γαλακτικής περιόδου στη μονάδα). Σε ατομικό επίπεδο γαλακτικής περιόδου τα R² ήταν χαμηλά (~0,1) με εξαίρεση random forest (0,34). Αντίστοιχα η σύγκριση ομαδοποιημένων προβλέψεων με πραγματικές ομαδοποιημένες τιμές έδωσε R² 0,024. Μοντέλα σε επίπεδο μονάδας–τριμήνου είχαν R² 0,12–0,39 (γραμμική παλινδρόμηση – random forest). Για το residual yield οι ατομικές προβλέψεις έδωσαν R² έως 0,21 (random forest), ενώ τα ομαδοποιημένα μοντέλα είχαν μέγιστο 0,134. Όταν οι ατομικές προβλέψεις συγκρίθηκαν με ομαδοποιημένες παρατηρούμενες τιμές το R² ήταν 0,34. Όπως και στα αναπαραγωγικά αποτελέσματα, παρά την αδύναμη προγνωστική απόδοση, εντοπίστηκαν πολλές ισχυρές επαγωγικές συσχετίσεις. Δεδομένου ότι η διαχείριση της περιόδου μετάβασης είναι κρίσιμος παράγοντας για την επιτυχία μιας γαλακτοπαραγωγικής μονάδας, η μηχανική μάθηση θα μπορούσε να αξιοποιηθεί τόσο για την έγκαιρη αναγνώριση ζώων υψηλού κινδύνου (ώστε να επιτηρηθούν στενότερα ή να εφαρμοστούν παρεμβάσεις) όσο και ως δείκτης παρακολούθησης σε επίπεδο ομάδας. Αυτό σημαίνει ότι ακόμη και αν η ατομική πρόβλεψη δεν είναι επαρκής, η γνώση εκτιμώμενης επιπολαστικότητας, επιτυχίας σύλληψης ή παραγωγής σε επίπεδο ομάδας θα μπορούσε να λειτουργήσει ως δείκτης «επιτυχίας» μετάβασης. Συνολικά, λίγα μοντέλα ήταν αρκετά προγνωστικά ώστε να θεωρηθούν άμεσα αξιοποιήσιμα — όμως η απόδοση ίσως θα βελτιωνόταν εάν υπήρχαν επιπλέον δεδομένα (π.χ. αισθητήρες, ιστορικά προηγούμενων γαλακτικών περιόδων). Το έργο αποτελεί χαρακτηριστικό παράδειγμα του πόσο σημαντικό είναι η προσεκτική επιλογή μετρικών πρόβλεψης (και η αποφυγή της ακρίβειας ως βασικού δείκτη σε μη ισορροπημένα δεδομένα) και του πώς οι ισχυρές επαγωγικές συσχετίσεις δεν εγγυώνται απαραίτητα ισχυρή προγνωστική ικανότητα σε νέα δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Data collected under a transition period monitoring service, from 133 herds overthe course of 2 years, were utilised in order to build predictive models for disease, production and reproductive outcomes. Both cow level and pen level variables were used as potential predictor variables, while a variety of methods including linear regression, decision tree, random forest, multiple adaptive regression splines (MARS) and artificial neural networks (ANNs) for continuous outcomes; and logistic regression, decision tree, random forest, ANNs, support vector machines (SVM) and naïve Bayes for binary outcomes. Models generating predictions on both the individual and the herd/quarter-year group level were produced. Various health outcomes (occurrence or not of milk fever, LDA, RFM and metritis, as well as a collective disease status outcome) were explored. On the individual lactation level all models lacked predictive value; the best performing model was that for collective disease outcome, with ...
Data collected under a transition period monitoring service, from 133 herds overthe course of 2 years, were utilised in order to build predictive models for disease, production and reproductive outcomes. Both cow level and pen level variables were used as potential predictor variables, while a variety of methods including linear regression, decision tree, random forest, multiple adaptive regression splines (MARS) and artificial neural networks (ANNs) for continuous outcomes; and logistic regression, decision tree, random forest, ANNs, support vector machines (SVM) and naïve Bayes for binary outcomes. Models generating predictions on both the individual and the herd/quarter-year group level were produced. Various health outcomes (occurrence or not of milk fever, LDA, RFM and metritis, as well as a collective disease status outcome) were explored. On the individual lactation level all models lacked predictive value; the best performing model was that for collective disease outcome, with a kappa value (measuring agreement between predicted and observed data) of 0.16, although accuracy was relatively high at 0.86. When building models on the herd/quarter-year level, the best performing model was for the milk fever outcome; predicted group prevalence of milk fever explained around 44% of variation in observed prevalence, suggesting relatively low predictiveness. Better prediction performance was revealed when individual lactation level model predictions were aggregated at herd-quarter-year level and compared with observed aggregated disease prevalences; just over two thirds (67%) of the variation in 4 observed outcome was explained by the aggregated predictions for occurrenceof metritis. Moving to the reproductive outcomes, probability of insemination success, as well as time from calving to successful insemination, were investigated. Kappavalues for the former ranged from 0.04 to 0.17, while the R2 value describing the relationship between aggregated predictions and actual aggregated valueson the herd-quarter-year level was found to be 0.37. When building models on the aggregated level instead, the maximum R2 value was found to be at 0.24 for the MARS model. Regarding the time to insemination outcome, the maximum R2 value calculated was found just at 0.024 for the linear regression, indicating very low predictive value. Interestingly, while no strong predictive value was found in these models, inferential models were built for those same outcomes and found strong associations between insemination success and lactation number, calving month, as well as calf mortality; and between time to insemination and metritis, corrected protein percentage in milk, calving monthand lactation number. For the production outcomes, models for both the 305-day predicted milk yield and the daily residual milk yield (difference between observed yield for a given cow on a given day, and expected daily yield based on lactation curve shape for the appropriate parity in the cow’s herd) were built. For the individual lactation level of the 305-day milk yield models, R2 values were again relatively low, at around 0.1, with the exception of the random forest that had a value of 0.34. Similarly, when comparing aggregated predictions using the individual lactation models and actual aggregated values, the R2 was as low as 0.024. Building models on a herd/quarter-year level yielded similar results with R25 ranging from 0.12 to 0.39 for the linear regression and the random forest models respectively. For the daily residual milk yield outcome, the R2 values of individual lactation models had a maximum value of 0.21 for the random forest model, while regarding the aggregated models the maximum value was at 0.134. When using the individual lactation level models to compare aggregated predictions with actual aggregated values the R2 was found to be at 0.34. Not unlike our results on the reproductive outcomes, various strong inferential associations were identified for these outcomes, regardless of the predictivemodels’ performance. Since transition management is key to successful dairy farming, machine learning would be useful both in terms of predicting which individuals may geta negative outcome and possibly require enhanced observation or other preventive interventions, and also in providing a potential monitoring metric.The latter would mean that even if individual predictions are not good, knowing the predicted disease prevalence, insemination success or yield in each group’scows could be used as a measure of overall transition “success”. Overall, very few of our models were predictive enough to be useful in either context mostlikely, but that could perhaps improve if we had other data available such assensor data or history from previous lactations. The project as a whole provides a good example of why it is important to be cautious with choice of prediction performance metrics and avoid accuracy as the main measure in unbalanced data, and of how in many areas inferential models can find strongly significant associations but still generate very poor predictions when applied to new data.
περισσότερα