Περίληψη
Ο τομέας της Αλγοριθμικής Σύνθεσης Μουσικής (AMC) ασχολείται με την δημιουργία ενός καθορισμένου συστήματος που έχει ως σκοπό την αυτόματη σύνθεση μουσικής. Θεωρείται, μια από τις πιο δημοφιλείς εφαρμογές του ευρύτερου πεδίου της Ανάκτησης Πληροφορίας από Μουσική (MIR) με αμέτρητες δημοσιεύσεις τα τελευταία χρόνια. Η παρούσα διατριβή διαπραγματεύεται την δημιουργία καινοτόμων AMC αρχιτεκτονικών για αρμονική και ρυθμική σύνθεση μουσικής. Επιπροσθέτως, συνεισφέρει έμμεσα και σε άλλες σχετικές MIR εφαρμογές όπως στην δημιουργία συνόλων μουσικών δεδομένων (datasets) για χρήση στην MIR κοινότητα, και ανάπτυξη αλγορίθμων για διαχωρισμό φωνών σε συμβολικά δεδομένα (π.χ. MIDI αρχεία). Συνολικά τα κυριότερα επιτεύγματα και συνεισφορές της διατριβής συνοψίζονται ως εξής: - Την δημιουργία του πρώτου dataset που περιέχει Ελληνική παραδοσιακή και σύγχρονη μουσική με την ονομασία Greek Music Dataset (GMD). Συγκεκριμένα πρόκειται για μια συλλογή από 1400 κομμάτια για τα οποία προσφέρονται: (α) προ-υπ ...
Ο τομέας της Αλγοριθμικής Σύνθεσης Μουσικής (AMC) ασχολείται με την δημιουργία ενός καθορισμένου συστήματος που έχει ως σκοπό την αυτόματη σύνθεση μουσικής. Θεωρείται, μια από τις πιο δημοφιλείς εφαρμογές του ευρύτερου πεδίου της Ανάκτησης Πληροφορίας από Μουσική (MIR) με αμέτρητες δημοσιεύσεις τα τελευταία χρόνια. Η παρούσα διατριβή διαπραγματεύεται την δημιουργία καινοτόμων AMC αρχιτεκτονικών για αρμονική και ρυθμική σύνθεση μουσικής. Επιπροσθέτως, συνεισφέρει έμμεσα και σε άλλες σχετικές MIR εφαρμογές όπως στην δημιουργία συνόλων μουσικών δεδομένων (datasets) για χρήση στην MIR κοινότητα, και ανάπτυξη αλγορίθμων για διαχωρισμό φωνών σε συμβολικά δεδομένα (π.χ. MIDI αρχεία). Συνολικά τα κυριότερα επιτεύγματα και συνεισφορές της διατριβής συνοψίζονται ως εξής: - Την δημιουργία του πρώτου dataset που περιέχει Ελληνική παραδοσιακή και σύγχρονη μουσική με την ονομασία Greek Music Dataset (GMD). Συγκεκριμένα πρόκειται για μια συλλογή από 1400 κομμάτια για τα οποία προσφέρονται: (α) προ-υπολογισμένα feature sets για ήχο, στίχους και συμβολική αναπαράσταση, (β) επισημειώσεις για το είδος της μουσικής και τα συναισθήματα που προκαλούν, (γ) τα αντίστοιχα MIDI αρχεία για 500 επιλεγμένα κομμάτια του dataset και (δ) επιλεγμένο YouTube link που αντιστοιχεί σε κάθε κομμάτι. Σύμφωνα με την σχετική έρευνα το GMD μπορεί να θεωρηθεί ένα από τα μεγαλύτερα datasets όσο αφορά την συμβολική πληροφορία που παρέχει. - Η επέκταση και βελτίωση ενός Rule-Based αλγορίθμου για διαχωρισμό φωνών σε συμβολικά δεδομένα υπό την ονομασία VISA3. Η αναθεώρηση του αλγορίθμου βασίζεται στις προηγούμενες εκδόσεις του, με την εισαγωγή νέων μουσικών κανόνων και διορθώσεις γνωστών σφαλμάτων που μείωναν την απόδοση του σε άλλα είδη μουσικής πέρα τη κλασσικής. Επίσης διαφέρει από άλλες σχετικές προσπάθειες που συναντάμε στην βιβλιογραφία, καθώς ορίζει τον όρο voice (φωνή) ως μια αντιλαμβανόμενη ακολουθία νοτών που δεν απαραίτητα μονοφωνική. Επιπλέον, παρουσιάζεται ένα καινούργιο, υποσύνολο του, το οποίο είναι επισημειωμένο από music experts. Τα αποτελέσματα υποδεικνύουν την σημαντική βελτίωση απόδοσης του αλγορίθμου που επιτυγχάνεται με τις προτεινόμενες αναθεωρήσεις. - Την δημιουργία του πρώτου probabilistic συστήματος που εξετάζει το Voice Leading της μπάσας γραμμής στον τομέα της Αυτόματης Μελωδικής Εναρμόνισης, έχοντας ως κίνητρο ότι οι περισσότερες σχετικές προσεγγίσεις δεν λαμβάνουν υπόψη την οριζόντια κίνηση των φωνών σε ένα τέτοιο σύστημα. Το σύστημα αυτό είναι συνδυασμός probabilistic και στατιστικών μοντέλων όπου καθορίζει την κίνηση της μπάσας γραμμής μέσα στην εναρμόνιση υπό τις εξής συνθήκες: (α) την χρησιμοποίηση ενός Hidden Markov μοντέλου που μελετάει την κίνηση της μπάσας γραμμής σε σχέση με την μελωδία, (β) στατιστικά που αφορούν την κατά απόλυτο απόσταση μεταξύ μελωδίας και μπάσου και (γ) στατιστικά σχετικά με τις αναστροφές και τους διπλασιασμούς στην παρούσα συγχορδία. Τα αποτελέσματα, με χρήση διάφορων μουσικών ιδιωμάτων, δείχνουν ότι η προτεινόμενη μεθοδολογία αποτυπώνει τα χαρακτηριστικά του κάθε ιδιώματος, οδηγώντας στο συμπέρασμα για την αποτελεσματικότητα του καθορισμού της μπάσας φωνής κατά την μελωδική εναρμόνιση. - Την δημιουργία μιας καινοτόμου αρχιτεκτονικής Νευρωνικών Δικτύων Βαθιάς Μάθησης με τίτλο Conditional Neural Sequence Learners (CNSL) για ρυθμική σύνθεση, και πιο συγκεκριμένα για τύμπανα. Αν λάβουμε υπόψη την μουσική ως μια ακολουθία γεγονότων με πολλαπλές και πολύπλοκες εξαρτήσεις σε διάφορα επίπεδα, οι αρχιτεκτονικές βασισμένες σε LSTM δίκτυα έχουν αποδειχθεί πολύ αποτελεσματικές στην εκμάθηση και σύνθεση ενός συγκεκριμένου μουσικού στυλ. Ωστόσο αδυνατούν να ενσωματώσουν εύκολα εξωγενείς παραμέτρους οι οποίες δεν ορίζονται κατά την διάρκεια της εκμάθησης (training). Για να αντιμετωπιστεί αυτό το πρόβλημα προτείνεται η παράλληλη χρήση ενός Feed-Forward (FF) νευρωνικού δικτύου, το οποίο ονομάζεται Conditional Layer. Η κύρια συνεισφορά αυτής της αρχιτεκτονικής βασίζεται στην ικανότητα των CNSLs να συνδυάζουν την έμμεση εκμάθηση (με βάση τα LSTMs) του ζητούμενου οργάνου, σε συνδυασμό με της ρητά καθορισμένες μουσικές συνθήκες του χρήστη (Conditional Layer). Επίσης παρουσιάζονται τρεις παραλλαγές της αρχιτεκτονικής που βασίζονται σε διαφορετικές αναπαραστάσεις της μουσικής πληροφορίας. Μετά από μια σειρά πειραμάτων, τα αποτελέσματα αναδεικνύουν την αποτελεσματικότητα της CNSL αρχιτεκτονικής στην αυτόματη σύνθεση τυμπάνων καθώς: (α) συνθέτουν με βάση το είδος μουσικής όπου έγινε η εκμάθηση, και (β) καταφέρνουν να παράγουν συνθέσεις που ανταποκρίνονται στις απαιτήσεις (conditions) του χρήστη, ακόμα και αν αυτές δεν ήταν γνωστές στο δίκτυο κατά την διάρκεια εκμάθησης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Algorithmic Music Composition (AMC) deals with the creation of a rigid, well-defined system for the process of composing music. It is considered as one of the most popular applications of Music Information Retrieval (MIR) research field with countless approaches over the past years. This dissertation deals with the developing of innovating AMC architectures, specifically for harmonic and rhythm generation. Besides, it contributes indirectly to related MIR applications such as with the creation of a dataset and developing a voice separation algorithm in the symbolic domain. Specifically, the most significant contributions of this thesis can be summarised as follows:- Creation of the first symbolic dataset containing Greek traditional and popular music called the Greek Music Dataset (GMD); a collection of 1400 Greek tracks which offers: pre-computed audio, lyrics & symbolic features for immediate use in MIR tasks, manually annotated labels pertaining to mood & genre styles of music, gene ...
Algorithmic Music Composition (AMC) deals with the creation of a rigid, well-defined system for the process of composing music. It is considered as one of the most popular applications of Music Information Retrieval (MIR) research field with countless approaches over the past years. This dissertation deals with the developing of innovating AMC architectures, specifically for harmonic and rhythm generation. Besides, it contributes indirectly to related MIR applications such as with the creation of a dataset and developing a voice separation algorithm in the symbolic domain. Specifically, the most significant contributions of this thesis can be summarised as follows:- Creation of the first symbolic dataset containing Greek traditional and popular music called the Greek Music Dataset (GMD); a collection of 1400 Greek tracks which offers: pre-computed audio, lyrics & symbolic features for immediate use in MIR tasks, manually annotated labels pertaining to mood & genre styles of music, generic objective metadata, a manually selected MIDI file (available for 500 of the tracks) and a manually selected link to a performance/audio content in YouTube for each track. According to Related Research, GMD can be considered one of the most extensive datasets in the symbolic domain. - The refinement of a Rule-Based Voice Separation algorithm in the symbolic domain called VISA3. This revision builds upon its previous editions by the introduction of new characteristics that adhere to general perceptual principles, address assignment errors that accumulate affecting the precision and tackle more generic musical content. It also differs with related attempts by defining the term “voice” as a perceptually independent, and not necessarily monophonic, sequence of notes or multi-note simultaneities. In addition, a manually annotated subset of the GMD is introduced. Experimental results indicated the significant performance amelioration the proposed revision achieves in relation to its predecessors. - The introduction of the first modular probabilistic system for examining Bass Voice Leading in Melodic Harmonisation. Since most of the relevant approaches do not take into account the horizontal relation of notes between successive chords, a combination of probabilistic and statistical modules is proposed which defines the motion of the bass voice according to several statistical aspects: (a) melody voice contour and previous bass line motion with the utilisation of a Hidden Markov Model, (b) statistics regarding the absolute difference between the bass voice and the melody and (c) statistics regarding inversions and note doublings in chords. The experimental results on diverse music idioms indicated that the proposed methodology captures the characteristics of each idiom efficiently, thus leading to the conclusion of the effectiveness to generate the bass voice-first during melodic harmonisation. - An innovating Deep Learning Architecture called Conditional Neural Sequence Learners (CNSL) for rhythm (drums) generation. Considering music as a sequence of events with multiple complex dependencies on various levels of a composition, the Long Short-term Memory-based (LSTM) architectures have been proven to be very efficient in learning and reproducing musical styles. However, they are hardly useful for tasks that incorporate human input or generally constraints. To address this problem, a novel solution is presented that harnesses the LSTM module with a Feed-Forward (FF) part, which is called the Conditional Layer. The main contribution of this architecture relies on the ability that CNSLs are able to combine implicitly learnt information (LSTM module) and explicitly defined conditions (FF module). Three variations are presented highlighting different representations and feature selection on LSTM and FF modules, respectively. The experimental results indicated the effectiveness of the CNSL architecture in producing drums’ sequences that (a) resemble a learnt style (implicit learning) and (b) keep the entire network “on-track” and enable it to respond to constraints that were not encountered during training (explicit learning).
περισσότερα