Περίληψη
Η αναγνώριση ομιλητή αποτελεί τη διαδικασία της αυτόματης αναγνώρισης του ατόμου που μιλάει, με βάση κάποια χαρακτηριστικά που εξάγονται από το σήμα φωνής. Χωρίζεται σε δύο επιμέρους κατηγορίες, και συγκεκριμένα στην ταυτοποίηση και στην επαλήθευση του ομιλητή. Ένα ευρύ φάσμα εφαρμογών έχει ως πυρήνα του την αναγνώριση ομιλητή, όπου συνήθως η παρουσία περιβαλλοντικού θορύβου στο σήμα φωνής δυσκολεύει την εξαγωγή σωστών εκτιμήσεων. Ένας επιπρόσθετος παράγοντας που συμβάλει στη δυσκολία σωστής αναγνώρισης αποτελεί η περιορισμένη ποσότητα δεδομένων εκπαίδευσης και δεδομένων αξιολόγησης. Αυτό μπορεί να οφείλεται είτε σε λόγους δυσκολίας απόκτησης μεγάλου όγκου δεδομένων εκπαίδευσης είτε στην ανάγκη να μειώσουμε το υπολογιστικό κόστος μέσω της χρήσης λίγων, αλλά αξιόπιστων, δεδομένων αξιολόγησης. Στην προσπάθειά μας να αντιμετωπίσουμε τις παραπάνω δυσκολίες, επιτυγχάνοντας υψηλά ποσοστά επιτυχούς αναγνώρισης, η παρούσα εργασία χωρίζεται σε δύο μέρη. Στο πρώτο μέρος, το πρόβλημα της αναγνώρι ...
Η αναγνώριση ομιλητή αποτελεί τη διαδικασία της αυτόματης αναγνώρισης του ατόμου που μιλάει, με βάση κάποια χαρακτηριστικά που εξάγονται από το σήμα φωνής. Χωρίζεται σε δύο επιμέρους κατηγορίες, και συγκεκριμένα στην ταυτοποίηση και στην επαλήθευση του ομιλητή. Ένα ευρύ φάσμα εφαρμογών έχει ως πυρήνα του την αναγνώριση ομιλητή, όπου συνήθως η παρουσία περιβαλλοντικού θορύβου στο σήμα φωνής δυσκολεύει την εξαγωγή σωστών εκτιμήσεων. Ένας επιπρόσθετος παράγοντας που συμβάλει στη δυσκολία σωστής αναγνώρισης αποτελεί η περιορισμένη ποσότητα δεδομένων εκπαίδευσης και δεδομένων αξιολόγησης. Αυτό μπορεί να οφείλεται είτε σε λόγους δυσκολίας απόκτησης μεγάλου όγκου δεδομένων εκπαίδευσης είτε στην ανάγκη να μειώσουμε το υπολογιστικό κόστος μέσω της χρήσης λίγων, αλλά αξιόπιστων, δεδομένων αξιολόγησης. Στην προσπάθειά μας να αντιμετωπίσουμε τις παραπάνω δυσκολίες, επιτυγχάνοντας υψηλά ποσοστά επιτυχούς αναγνώρισης, η παρούσα εργασία χωρίζεται σε δύο μέρη. Στο πρώτο μέρος, το πρόβλημα της αναγνώρισης ομιλητή ανάγεται σε ένα πρόβλημα ταξινόμησης. Στην κατεύθυνση αυτή αναπτύσσουμε και μελετάμε συμπεριφορά τεχνικών ταξινόμησης που βασίζονται σε υποθέσεις αραιής αναπαράστασης, όπου επικεντρωνόμαστε στην εφαρμογή ταυτοποίησης ομιλητή με χρήση πολύ περιορισμένων δεδομένων εκπαίδευσης και αξιολόγησης, σε περιβάλλοντα με υψηλά επίπεδα θορύβου. Η βασική υπόθεση που διέπει τις συγκεκριμένες τεχνικές είναι πως το υπό ταυτοποίηση σήμα φωνής, και ειδικότερα τα χαρακτηριστικά που έχουν εξαχθεί από αυτό, μπορεί να γραφεί ως αραιός γραμμικός συνδυασμός ως προς ένα υπερπλήρη πίνακα, ο οποίος συχνά αναφέρεται στη βιβλιογραφία με τον όρο λεξικό. Το λεξικό αυτό κατασκευάζεται κατάλληλα από τα διαθέσιμα δεδομένα εκπαίδευσης, ενώ η εύρεση των αραιών γραμμικών αναπαραστάσεων επιτυγχάνεται μέσω της επίλυσης ενός προβλήματος βελτιστοποίησης με βάση την lp-νόρμα (p = 1 ή 2). Τα βέλτιστα εκτιμώμενα αραιά βάρη των γραμμικών συνδυασμών, οι επονομαζόμενοι και αραιοί κώδικες, που προκύπτουν ως λύσεις του προβλήματος βελτιστοποίησης, χρησιμοποιούνται για την τελική ταυτοποίηση του ομιλητή μέσω ενός κανόνα ελάχιστου σφάλματος ανακατασκευής. Επεκτείνοντας την παραπάνω μέθοδο ταξινόμησης μέσω αραιής αναπαράστασης, εξετάζουμε την εφαρμογή μίας μεθόδου διακριτικής εκμάθησης λεξικού. Με την μέθοδο αυτή εκτιμάται από κοινού το λεξικό που περιέχει τα δεδομένα εκπαίδευσης μαζί με ένα κατάλληλο γραμμικό ταξινομητή. Το πλεονέκτημα αυτής της προσέγγισης είναι ότι οδηγεί στην παραγωγή αραιών κωδίκων οι οποίοι χαρακτηρίζονται από μεγαλύτερη διακριτική ικανότητα. Κατά τη διάρκεια της πειραματικής αξιολόγησης της απόδοσης αυτής της μεθόδου, μέσω προσομοιώσεων, χρησιμοποιήθηκε μία σχετικά ολιγομελής βάση δεδομένων. Στα δεδομένα αυτά προστέθηκαν διάφορα είδη περιβαλλοντικού θορύβου για ένα ευρύ σύνολο τιμών σηματοθορυβικού λόγου. Οι εκτενείς συγκρίσεις που πραγματοποιήθηκαν τόσο με πιθανοτικά μοντέλα, τα οποία βασίζονται στην υπόθεση ότι τα χαρακτηριστικά της φωνής ακολουθούν γενικευμένη Gaussian κατανομή, όσο και με μερικές εκ των κορυφαίων μεθόδων ταξινόμησης, όπως μοντέλα μίξης Gaussian κατανομών και κοινής παραγοντικής ανάλυσης, ανέδειξαν την υπεροχή της προτεινόμενης μεθόδου αναφορικά με την επίτευξη υψηλότερων ποσοστών σωστής ταυτοποίησης σε περιβάλλοντα θορύβου σε συνδυασμό με τη χρήση περιορισμένης ποσότητας δεδομένων εκπαίδευσης και αξιολόγησης. Το δεύτερο μέρος της διατριβής μελετάει τη χρήση τεχνικών χαμηλής τάξης ως ένα εργαλείο για την εκτίμηση αξιόπιστων χαρακτηριστικών φωνής. Ειδικότερα, εφαρμόζεται μία τεχνική ανάκτησης πίνακα χαμηλής τάξης για την ανακατασκευή εκείνων των φασματικών περιοχών του σήματος φωνής, οι οποίες δεν είναι αξιόπιστες εξαιτίας της έντονης παρουσίας θορύβου. Ο διαχωρισμός αυτών των φασματικών περιοχών επιτυγχάνεται με τη βοήθεια μιας μάσκας αξιοπιστίας, η οποία διακρίνει τις περιοχές που χαρακτηρίζονται από παρουσία θορύβου σε σχέση με τις περιοχές στις οποίες επικρατεί η πληροφορία του σήματος φωνής. Η συμπλήρωση των κενών φασματικών περιοχών πραγματοποιείται βάσει της υπόθεσης ότι η λογαριθμική αναπαράσταση πλάτους ενός σήματος φωνής στο πεδίο χρόνου-συχνότητας μέσω του short-time μετασχηματισμού Fourier (STFT) είναι χαμηλής τάξης. Κατόπιν, ο Singular Value Thresholding (SVT) αλγόριθμος υιοθετείται για την συμπλήρωση των περιοχών της STFT αναπαράστασης που θεωρούνται ως μη αξιόπιστες. Η πειραματική αξιολόγηση της προτεινόμενης μεθόδου αναδεικνύει την ισχύ της στον υπολογισμό αξιόπιστων χαρακτηριστικών τα οποία οδηγούν σε αρκετά υψηλά ποσοστά σωστής ταυτοποίησης ομιλητή σε περιπτώσεις όπου τα επίπεδα θορύβου είναι υψηλά. Η σύγκριση με την ευρέως χρησιμοποιούμενη μέθοδο της αραιής συμπλήρωσης, η οποία βασίζεται στην υπόθεση αραιής αναπαράστασης, φανερώνει την ανωτερότητα της προτεινόμενης μεθόδου αναφορικά με την επίτευξη ακριβούς ταυτοποίησης ομιλητή, για χαμηλά επίπεδα σηματοθορυβικού λόγου. Η παραπάνω μέθοδος δε λαμβάνει υπόψη την εκ των προτέρων γνώση που υπάρχει σχετικά με τα δεδομένα εκπαίδευσης που έχουμε στη διάθεσή μας, αποτελώντας ουσιαστικά μία μέθοδο χωρίς επίβλεψη. Έχοντας αυτή την παρατήρηση ως κίνητρο, προτείνεται μία επέκταση της μεθόδου συμπλήρωσης πίνακα η οποία εκμεταλλεύεται την εκ των προτέρων γνώση ότι ο πίνακας δεδομένων είναι χαμηλής τάξης, καθώς και τη γνώση ότι τα δεδομένα μπορούν να αναπαρασταθούν με αποτελεσματικό τρόπο ως προς ένα λεξικό. Ειδικότερα, προτείνουμε έναν αλγόριθμο από κοινού αναπαράστασης χαμηλότερης τάξης και συμπλήρωσης πίνακα (J-SVT). Ο J-SVT υπερέχει του κλασικού SVT στον υπολογισμό της αναπαράστασης χαμηλότερης τάξης ενός πίνακα δεδομένων ως προς ένα δοσμένο λεξικό χρησιμοποιώντας λίγες παρατηρήσεις από τον αρχικό πίνακα. Μέσω προσομοιώσεων παρατηρείται η βελτίωση του σφάλματος ανακατασκευής που επιτυγχάνει ο J-SVT σε αντίθεση με τον τυπικό SVT, για διάφορα πειραματικά σενάρια.
περισσότερα
Περίληψη σε άλλη γλώσσα
Speaker recognition is the process for recognizing a speaker automatically, based on specific features extracted from the speech signal. It is divided in two distinct categories, namely, speaker identification and speaker verification. A broad range of applications exploits at its core the process of speaker recognition, where usually the presence of environmental noise in the speech signal impedes the inference of correct decisions. An additional factor, which contributes to the difficulty of recognizing a speaker correctly, is the limited amount of available training and evaluation data. This can be due to either a practical difficulty in obtaining a large volume of training data, or to the need to reduce the overall computational cost by using limited, yet reliable, evaluation data. Focusing on overcoming the above limitations, while achieving high rates of successful recognition, this dissertation is divided in two main parts. In the first part, the problem of speaker recognition i ...
Speaker recognition is the process for recognizing a speaker automatically, based on specific features extracted from the speech signal. It is divided in two distinct categories, namely, speaker identification and speaker verification. A broad range of applications exploits at its core the process of speaker recognition, where usually the presence of environmental noise in the speech signal impedes the inference of correct decisions. An additional factor, which contributes to the difficulty of recognizing a speaker correctly, is the limited amount of available training and evaluation data. This can be due to either a practical difficulty in obtaining a large volume of training data, or to the need to reduce the overall computational cost by using limited, yet reliable, evaluation data. Focusing on overcoming the above limitations, while achieving high rates of successful recognition, this dissertation is divided in two main parts. In the first part, the problem of speaker recognition is reduced in an equivalent classification problem. To this end, we develop and study the performance of classification techniques, which are based on the framework of sparse representations, where we focus on the task of speaker identification by employing highly limited amounts of training and evaluation data, in environments with high levels of noise. The main assumption that governs these techniques is that the identified speech signal, and specifically the features that have been extracted from this signal, can be expressed as a sparse linear combination in terms of the columns of an overcomplete matrix, which is often referred in the literature with the term dictionary. This dictionary is constructed appropriately from the available training data, while the computation of the sparse linear combinations is achieved via the solution of an optimization problem based on lp-norms (p = 1 or 2). The optimally estimated sparse weights of the linear combinations, the so-called sparse codes, which are obtained as the solutions of the optimization problem, are then employed for the final identification of the speaker based on a minimum reconstruction error criterion. Extending our previous classification method based on sparse representations, we study the efficiency of a method for discriminative dictionary learning. This method estimates jointly the dictionary comprising of the training data in conjunction with an appropriate linear classifier. The advantage of this approach is that it results in sparse codes, which are characterized by enhanced discriminative capability. For this experimental evaluation of the performance of our proposed method, through extensive simulations, a relatively small-sized database was used. The corresponding data were corrupted by several distinct types of environmental noise, for a wide range of signal-to-noise ratio values. Extensive comparisons with probabilistic models, which are based on the hypothesis that the extracted speech features follow a generalized Gaussian distribution, as well as with some of the state-of-the-art classification methods, such as Gaussian mixture models and joint factor analysis, revealed the superiority of our proposed method in terms of achieving higher correct recognition rates in noisy environments combined with the use of short training and testing speech data. The second part of this dissertation focuses on the use of low-rank techniques as a powerful tool for extracting reliable features from a speech signal. More specifically, a technique for recovering a low-rank matrix is designed, which is employed for the reconstruction of those spectral regions of a speech signal, which are unreliable due to the presence of noise. The discrimination of the spectral regions is achieved by means of a reliability mask, which discriminates the regions characterized by the presence of noise from the regions which are dominated by the speech signal information. The completion of the empty spectral regions is performed based on the assumption that the logarithmic magnitude representation of a speech signal in the time-frequency domain, obtained via the short-time Fourier transform (STFT), is of low rank. Then, the Singular Value Thresholding (SVT) algorithm is exploited for the completion of those regions of the STFT representation, which are considered to be unreliable. The experimental evaluation of the proposed method reveals its power in extracting reliable features, which yield high rates of correct speaker identification in cases of high noise levels. The comparison against the widely used method of sparse imputation, which is based on sparse representations, reveals the superiority of our proposed approach in terms of achieving accurate speaker identification, especially for low levels of signal-to-noise ratios. The above method does not take into account the existing prior knowledge with respect to the available training data, constituting essentially an unsupervised method. Motivated by this observation, we propose an extension of the matrix completion method, which exploits the prior knowledge that the data matrix is low rank, as well as the knowledge that the data can be represented efficiently in terms of a dictionary. In particular, we proposed an algorithm for joint low-rank representation and matrix completion (J-SVT). J-SVT is superior when compared with the standard SVT with respect to the computation of the low-rank representation of a data matrix in terms of a given dictionary, by employing a small number of observations from the original matrix. Through extensive simulations, we observed an improvement of the reconstruction error achieved by the J-SVT, in contrast to the typical SVT, for several distinct experimental scenarios.
περισσότερα