Περίληψη
Η παρούσα διατριβή προτείνει μοντέλα και αλγόριθμους οι οποίοι αξιοποιούν σήματα από φορητούς αισθητήρες με στόχο την αντικειμενική ποσοτικοποίηση της ανθρώπινης, σχετικής με βρώση συμπεριφοράς. Εστιάζουμε σε δύο συσκευές οι οποίοι καταγράφουν διαφορετικού τύπου πληροφορία και προτείνουμε αλγόριθμους για κάθε αισθητήρα οι οποίοι εξάγουν συγκεκριμένους συμπεριφορικούς δείκτες, και εστιάζουμε κυρίως στη γενίκευση κάτω από διαφορετικές συνθήκες όπως θορυβώδες περιβάλλον και ρεαλιστικές συνθήκες. Η πρώτη συσκευή είναι ένα πρωτότυπο μοντέλο και περιλαμβάνει μικρόφωνο, και φωτοπλυθησμογράφο τοποθετημένους στο αυτί, και τρισδιάστατο επιταγχυνσιόμετρο τοποθετημένο στη ζώνη. Παρουσιάζεται μία ανάλυση των ήχων μάσησης με έμφαση στη fractal διάστασή τους, και προτείνονται αλγόριθμοι βασισμένοι στην εξαγωγή χαρακτηριστικών και ταξινομητές τύπου support vector machine, καθώς και συνελικτικά νευρωνικά δίκτυα. Επίσης προτείνουμε (για πρώτη φόρα στη βιβλιογραφία) τη χρήση φωτοπλυθησμογράφου για την αν ...
Η παρούσα διατριβή προτείνει μοντέλα και αλγόριθμους οι οποίοι αξιοποιούν σήματα από φορητούς αισθητήρες με στόχο την αντικειμενική ποσοτικοποίηση της ανθρώπινης, σχετικής με βρώση συμπεριφοράς. Εστιάζουμε σε δύο συσκευές οι οποίοι καταγράφουν διαφορετικού τύπου πληροφορία και προτείνουμε αλγόριθμους για κάθε αισθητήρα οι οποίοι εξάγουν συγκεκριμένους συμπεριφορικούς δείκτες, και εστιάζουμε κυρίως στη γενίκευση κάτω από διαφορετικές συνθήκες όπως θορυβώδες περιβάλλον και ρεαλιστικές συνθήκες. Η πρώτη συσκευή είναι ένα πρωτότυπο μοντέλο και περιλαμβάνει μικρόφωνο, και φωτοπλυθησμογράφο τοποθετημένους στο αυτί, και τρισδιάστατο επιταγχυνσιόμετρο τοποθετημένο στη ζώνη. Παρουσιάζεται μία ανάλυση των ήχων μάσησης με έμφαση στη fractal διάστασή τους, και προτείνονται αλγόριθμοι βασισμένοι στην εξαγωγή χαρακτηριστικών και ταξινομητές τύπου support vector machine, καθώς και συνελικτικά νευρωνικά δίκτυα. Επίσης προτείνουμε (για πρώτη φόρα στη βιβλιογραφία) τη χρήση φωτοπλυθησμογράφου για την ανίχνευση μάσησης, τόσο αυτόνομα όσο και σε συνδυασμό με το μικρόφωνο. Προτείνονται αλγόριθμοι ανίχνευσης μάσησης, ο καλύτερος εκ των οποίων χρησιμοποιεί ταξινομητές τύπου support vector machine με χαρακτηριστικά φάσματος, και μπορεί να συνδυαστεί με τον αντίστοιχο αλγόριθμο ήχου, βελτιώνοντας την επίδοση της ανίχνευσης. Επίσης, η χρήση του επιταγχυνσιομέτρου μπορεί να βελτιώσει ακόμα περισσότερο την επίδοση (0.76 F1-score για leave-one-subject-out πειράματα σε ένα μεγάλο, ρεαλιστικό σύνολο δεδομένων). Το μικρόφωνο χρησιμοποιείται επίσης για την αναγνώριση χαρακτηριστικών τροφής όπως πχ τραγανότητα. Εισάγουμε το πρόβλημα ως ένα πρόβλημα πολλαπλών ετικετών όπου κάθε ετικέτα αντιστοιχεί σε ένα χαρακτηριστικό και προτείνουμε αλγόριθμούς αναγνώρισης τόσο σε επίπεδο μασήματος όσο και σε μπουκιάς. Τα πειραματικά αποτελέσματα δείχνουν ότι μπορούμε να γενικεύσουμε τόσο σε νέους χρήστες όσο και σε νέους τύπους τροφής με μεγάλη ακρίβεια σε κάποιες περιπτώσεις (0.92 βεβαρυμμένη ακρίβεια ανά μπουκιά για leave-one-subject-out πείραμα). Η δεύτερη συσκευή καταγράφει το βάρος της τροφής που βρίσκεται μέσα σε ένα πιάτο, καθ’ όλη τη διάρκεια ενός γεύματος. Από τέτοιου τύπου καταγραφές μπορούν να εξαχθούν δείκτες που αφορούν το γεύμα, όπως πχ ο ρυθμός πρόσληψης τροφής. Προτείνουμε δύο αλγόριθμους. Ο πρώτος εντοπίζει χρονικές στιγμές κατά τις οποίες προστίθεται επιπλέον ποσότητα φαγητού, καθώς κατά τις στιγμές αυτές αλλοιώνεται η γενικώς φθίνουσα τάση του σήματος. Στη συνέχεια, το καταγεγραμμένο σήμα επεξεργάζεται ώστε να αναιρεθεί η επίδραση της πρόσθεσης φαγητού στο σήμα, και στη συνέχεια εντοπίζονται μπουκιές από τις μικρές πτώσεις στο καταγραφόμενο βάρος. Ο δεύτερος αλγόριθμος μοντελοποιεί την ανθρώπινη συμπεριφορά κατά τη διάρκεια ενός γεύματος με τη χρήση μίας γραμματικής χωρίς συμφραζόμενα. Κάθε γεύμα αντιστοιχεί σε μία συμβολοσειρά των τελικών συμβόλων της γραμματικής, ενώ κάθε ανθρώπινη δράση (όπως μπουκιά, πρόσθεση φαγητού, κλπ) αντιστοιχεί σε ένα μη-τελικό σύμβολο. Σε κάθε συμβολοσειρά αντιστοιχούν πολλαπλά δένδρα, και προτείνουμε έναν τρόπο εκτίμησης της πιθανοφάνειας κάθε δένδρου ώστε να επιλέξουμε το πιο πιθανοφανές. Από το πιο πιθανοφανές δένδρο εξάγονται οι μπουκιές και στη συνέχεια οι συμπεριφορικοί δείκτες. Ο δεύτερος αλγόριθμος επιτυγχάνει τα χαμηλότερα μέσα απόλυτα σφάλματα ανά δείκτη (σε σχέση και με άλλους αλγόριθμους της βιβλιογραφίας), πχ 24 γραμμάρια για το συνολικό βάρος του γεύματος, και 1 λεπτό για τη συνολική διάρκεια.
περισσότερα
Περίληψη σε άλλη γλώσσα
This work proposes models and algorithms that leverage signals collected from wearable sensors to objectively quantify human eating behavior by extracting eating-behavior indicators. We focus on two different sensors that capture different, yet complimentary, aspects of eating behavior and propose new algorithms for each sensor to derive these indicators, focusing mainly on the generalization under different situations such as noisy background and usage during real-life activities. The first device is a prototype multi-modal sensor that captures audio, photoplethysmography, and acceleration signals. We explore some properties of audio signals of chews, such as their fractal dimension, and propose algorithms based on feature extraction and classification with support vector machines, as well as end-to-end approaches with convolutional neural netwroks. We also propose (for the first time in literature) the use of photoplethysmography as a means to detect chewing, both independently and c ...
This work proposes models and algorithms that leverage signals collected from wearable sensors to objectively quantify human eating behavior by extracting eating-behavior indicators. We focus on two different sensors that capture different, yet complimentary, aspects of eating behavior and propose new algorithms for each sensor to derive these indicators, focusing mainly on the generalization under different situations such as noisy background and usage during real-life activities. The first device is a prototype multi-modal sensor that captures audio, photoplethysmography, and acceleration signals. We explore some properties of audio signals of chews, such as their fractal dimension, and propose algorithms based on feature extraction and classification with support vector machines, as well as end-to-end approaches with convolutional neural netwroks. We also propose (for the first time in literature) the use of photoplethysmography as a means to detect chewing, both independently and combined with audio. We propose and evaluate different algorithms. The best algorithm uses a support vector machine classifier with spectral features and is also combined in a late-fusion scheme with a respective audio-based algorithm. This late-fusion approach achieves higher effectiveness compared to each sensor individually and can be improved even further by taking into account the energy signal from a belt-mounted three-dimensional accelerometer (F1-score of 0.76 for a leave-one-subject-out experiment on a challenging, real-life dataset). The audio sensor is also used to recognize food attributes such as crispiness. We form a multi-label problem where labels correspond to food attributes and propose recognition algorithms both for individual chews and for chewing bouts. Experiments show that it is possible to generalize these properties to new, unknown (to the training stage) food types with high effectiveness, in some cases (0.92 weighted accuracy per bout for a leave-one-food-type-out experiment). The second sensor continuously measures the weight of the food inside a plate during a meal. Based on the captured weight signal we can derive useful in-meal indicators of eating behavior. We propose two types of algorithms. The first type focuses on identifying moments when additional food is placed on the plate, since these moments change the generally decreasing trend of the captured weight (as food is removed from the plate to be consumed). The effect of adding food is then removed from the captured signal and bites are identified as abrupt weight decrements. The second type of algorithm models the events of a meal with the help of a context-free grammar. Maximum-likelihood is then used to select the most likely parse tree of the meal. The parse tree is an interpretation of the meal structure and events, and is used to derive the in-meal indicators. The context-free grammar and maximum-likelihood--based algorithm is the one who achieves the lowest average (per meal) error rates for almost all indicators (e.g. 24 grams for total food intake, and 1 minute for meal duration).
περισσότερα