Please use this identifier to cite or link to this item:
https://olympias.lib.uoi.gr/jspui/handle/123456789/31470
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Ζώνιος, Χρήστος | el |
dc.date.accessioned | 2021-11-10T07:34:12Z | - |
dc.date.available | 2021-11-10T07:34:12Z | - |
dc.identifier.uri | https://olympias.lib.uoi.gr/jspui/handle/123456789/31470 | - |
dc.identifier.uri | http://dx.doi.org/10.26268/heal.uoi.11291 | - |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
dc.subject | Automatic music transcription | en |
dc.subject | Machine learning | en |
dc.subject | Deep learning | en |
dc.subject | Transformers | en |
dc.subject | Αυτόματη μετεγγραφή μουσικής | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Βαθιά μάθηση | el |
dc.title | Transformer-based approaches for automatic music transcription | en |
dc.title | Προσεγγίσεις βασισμένες σε transformers για αυτόματη μετεγγραφή μουσικής | el |
heal.type | masterThesis | - |
heal.type.en | Master thesis | en |
heal.type.el | Μεταπτυχιακή εργασία | el |
heal.classification | Machine learning | - |
heal.dateAvailable | 2021-11-10T07:35:12Z | - |
heal.language | en | - |
heal.access | free | - |
heal.recordProvider | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής | el |
heal.publicationDate | 2021 | - |
heal.bibliographicCitation | Βιβλιογραφία: σ. 50-53 | el |
heal.abstract | Automatic Music Transcription (AMT) is the process of extracting information from audio into some form of music notation. In polyphonic music, this is a very hard problem for computers to solve as it requires significant prior knowledge and understanding of music language and the audio is subject to a multitude of variations in frequencies depending on many factors such as instrument materials, tuning, player performance, recording equipment and others. Transformers are self-supervised models that have recently showed great promise as they use self-attention in order to learn contextual representations from unlabeled data. They have surpassed state of the art (SOTA) performance in various Speech Recognition (SR), Natural Language Processing (NLP) and Computer Vision tasks. In this work, we examine transformer-based approaches for performing AMT on piano recordings by learning audio and music language representations. Specifically, we look at the popular SR model wav2vec2 as a solution to the former and the NLP model BERT in order to perform Music Language Modelling (MusicLM). We propose a new pre-training approach for MusicLM transformers based on an appropriately defined transcription error correction task. In addition, three novel models for AMT are proposed and studied that appropriately integrate wav2vec2 and BERT transformers at various stages. We conclude that a wav2vec2 encoder model pre-trained on speech audio is not able to surpass SOTA models using mel-scale spectrograms and convolutional network encoders without significant conditioning on music audio. viiiWe show that a BERT transformer pre-trained on natural language has transfer learning potential for MusicLM. We also examine the robustness of such a transformer for performing MusicLM, and find that we are able to achieve interesting results when doing Masked MusicLM and when replacing Recurrent Neural Networks with pre- trained transformers in SOTA models for AMT. | en |
heal.abstract | Η Αυτόματη Μετεγγραφή Μουσικής (Automatic Music Transcription, AMT) είναι η διαδικασία εξαγωγής πληροφορίας από ένα σήμα ήχου σε κάποια μορφή μουσικής σημειογραφίας. Στην πολυφωνική μουσική, το AMT είναι ένα δύσκολο πρόβλημα για υπολογιστικά συστήματα καθώς χρειάζεται σημαντική εκ των προτέρων γνώση και κατανόηση της γλώσσας της μουσικής, και το σήμα του ήχου περιέχει πολλές διαφοροποιήσεις στις συχνότητες που περιέχει λόγω διαφόρων συντελεστών όπως τα υλικά του μουσικού οργάνου, το κούρδισμα, την εκτέλεση του κομματιού από τον οργανοπαίκτη, τον εξοπλισμό ηχογράφησης κ.α. Οι transformers είναι μοντέλα βαθιάς μάθησης τα οποία εκπαιδεύονται με τε- χνικές αυτο-εποπτευόμενης μάθησης (self-supervised learning) και χρησιμοποιούν αυτο-προσοχή (self-attention) ώστε να μάθουν αναπαραστάσεις που περιέχουν τα συμφραζόμενα από ακολουθίες δεδομένων χωρίς ετικέτα. Έχουν δείξει ότι ξεπερ- νούν σε απόδοση τα προηγούμενα state of the art (SOTA) μοντέλα σε πολλά προ- βλήματα μοντελοποίησης ακολουθιών όπως Αυτόματη Αναγνώριση Φωνής (Speech Recognition, SR), Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) και Υπολογιστικής Όρασης (Computer Vision). Σε αυτή την εργασία εξετάζουμε προσεγγίσεις βασισμένες σε transformers για την υλοποίηση συστημάτων AMT σε ηχογραφήσεις εκτελέσεων μουσικών κομματιων σε πιάνο, μαθαίνοντας αναπαραστάσεις για το σήμα του ήχου και τη γλώσσα της μουσικής. Συγκεκριμένα, χρησιμοποιούμε το δημοφιλές SR μοντέλο wav2vec2 για να εξάγουμε αναπαραστάσεις από το σήμα του ήχου, και το NLP μοντέλο BERT για xνα κάνουμε Μοντελοποίηση της Μουσικής Γλώσσας (Music Language Modelling, MusicLM). Προτείνουμε μια νέα τεχνική προεκπαίδευσης (pre-training) για μοντέλα trans- formers βασισμένη σε διόρθωση λαθών της μετεγγραφής μουσικής, καθώς και τρία νέα μοντέλα για ΑΜΤ. Συμπεραίνουμε πως το μοντέλο wav2vec2 προεκπαιδευμένο σε σήμα ήχου ομι- λητικής φύσης δεν καταφέρνει να ξεπεράσει τα καλύτερα μοντέλα που χρησιμο- ποιούν mel-scale φασματογράμματα και συνελικτικά νευρωνικά δίκτυα, χωρίς να εκπαιδευτεί με σήμα ήχου μουσικών κομματιών. Δείχνουμε πως ένας BERT transformer προεκπαιδευμένος σε φυσική γλώσσα έχει μεγάλες δυνατότητες μεταφοράς μάθησης σε MusicLM. Εξετάζουμε επίσης την ευρωστία ενός τέτοιου transformer για MusicLM, και βρίσκουμε πως πρκύπτουν ενδιαφέροντα αποτελέσματα όταν εφαρμόζουμε Masked MusicLM, καθώς και όταν αντικαθιστούμε τα επαναληπτικά νευρωνικά δίκτυα (Recurrent Neural Networks) με προεκπαιδευμένους transformers στα SOTA μοντέλα για ΑΜΤ. | el |
heal.advisorName | Λύκας, Αριστείδης | el |
heal.committeeMemberName | Λύκας, Αριστείδης | el |
heal.committeeMemberName | Μπλέκας, Κωνσταντίνος | el |
heal.committeeMemberName | Βλάχος, Κώστας | el |
heal.academicPublisher | Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής | el |
heal.academicPublisherID | uoi | - |
heal.numberOfPages | 54 σ. | - |
heal.fullTextAvailability | true | - |
Appears in Collections: | Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Μ.Ε. ΖΩΝΙΟΣ ΧΡΗΣΤΟΣ 2021.pdf | 3.26 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License