Please use this identifier to cite or link to this item: https://olympias.lib.uoi.gr/jspui/handle/123456789/31470
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΖώνιος, Χρήστοςel
dc.date.accessioned2021-11-10T07:34:12Z-
dc.date.available2021-11-10T07:34:12Z-
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/31470-
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.11291-
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectAutomatic music transcriptionen
dc.subjectMachine learningen
dc.subjectDeep learningen
dc.subjectTransformersen
dc.subjectΑυτόματη μετεγγραφή μουσικήςel
dc.subjectΜηχανική μάθησηel
dc.subjectΒαθιά μάθησηel
dc.titleTransformer-based approaches for automatic music transcriptionen
dc.titleΠροσεγγίσεις βασισμένες σε transformers για αυτόματη μετεγγραφή μουσικήςel
heal.typemasterThesis-
heal.type.enMaster thesisen
heal.type.elΜεταπτυχιακή εργασίαel
heal.classificationMachine learning-
heal.dateAvailable2021-11-10T07:35:12Z-
heal.languageen-
heal.accessfree-
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.publicationDate2021-
heal.bibliographicCitationΒιβλιογραφία: σ. 50-53el
heal.abstractAutomatic Music Transcription (AMT) is the process of extracting information from audio into some form of music notation. In polyphonic music, this is a very hard problem for computers to solve as it requires significant prior knowledge and understanding of music language and the audio is subject to a multitude of variations in frequencies depending on many factors such as instrument materials, tuning, player performance, recording equipment and others. Transformers are self-supervised models that have recently showed great promise as they use self-attention in order to learn contextual representations from unlabeled data. They have surpassed state of the art (SOTA) performance in various Speech Recognition (SR), Natural Language Processing (NLP) and Computer Vision tasks. In this work, we examine transformer-based approaches for performing AMT on piano recordings by learning audio and music language representations. Specifically, we look at the popular SR model wav2vec2 as a solution to the former and the NLP model BERT in order to perform Music Language Modelling (MusicLM). We propose a new pre-training approach for MusicLM transformers based on an appropriately defined transcription error correction task. In addition, three novel models for AMT are proposed and studied that appropriately integrate wav2vec2 and BERT transformers at various stages. We conclude that a wav2vec2 encoder model pre-trained on speech audio is not able to surpass SOTA models using mel-scale spectrograms and convolutional network encoders without significant conditioning on music audio. viiiWe show that a BERT transformer pre-trained on natural language has transfer learning potential for MusicLM. We also examine the robustness of such a transformer for performing MusicLM, and find that we are able to achieve interesting results when doing Masked MusicLM and when replacing Recurrent Neural Networks with pre- trained transformers in SOTA models for AMT.en
heal.abstractΗ Αυτόματη Μετεγγραφή Μουσικής (Automatic Music Transcription, AMT) είναι η διαδικασία εξαγωγής πληροφορίας από ένα σήμα ήχου σε κάποια μορφή μουσικής σημειογραφίας. Στην πολυφωνική μουσική, το AMT είναι ένα δύσκολο πρόβλημα για υπολογιστικά συστήματα καθώς χρειάζεται σημαντική εκ των προτέρων γνώση και κατανόηση της γλώσσας της μουσικής, και το σήμα του ήχου περιέχει πολλές διαφοροποιήσεις στις συχνότητες που περιέχει λόγω διαφόρων συντελεστών όπως τα υλικά του μουσικού οργάνου, το κούρδισμα, την εκτέλεση του κομματιού από τον οργανοπαίκτη, τον εξοπλισμό ηχογράφησης κ.α. Οι transformers είναι μοντέλα βαθιάς μάθησης τα οποία εκπαιδεύονται με τε- χνικές αυτο-εποπτευόμενης μάθησης (self-supervised learning) και χρησιμοποιούν αυτο-προσοχή (self-attention) ώστε να μάθουν αναπαραστάσεις που περιέχουν τα συμφραζόμενα από ακολουθίες δεδομένων χωρίς ετικέτα. Έχουν δείξει ότι ξεπερ- νούν σε απόδοση τα προηγούμενα state of the art (SOTA) μοντέλα σε πολλά προ- βλήματα μοντελοποίησης ακολουθιών όπως Αυτόματη Αναγνώριση Φωνής (Speech Recognition, SR), Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) και Υπολογιστικής Όρασης (Computer Vision). Σε αυτή την εργασία εξετάζουμε προσεγγίσεις βασισμένες σε transformers για την υλοποίηση συστημάτων AMT σε ηχογραφήσεις εκτελέσεων μουσικών κομματιων σε πιάνο, μαθαίνοντας αναπαραστάσεις για το σήμα του ήχου και τη γλώσσα της μουσικής. Συγκεκριμένα, χρησιμοποιούμε το δημοφιλές SR μοντέλο wav2vec2 για να εξάγουμε αναπαραστάσεις από το σήμα του ήχου, και το NLP μοντέλο BERT για xνα κάνουμε Μοντελοποίηση της Μουσικής Γλώσσας (Music Language Modelling, MusicLM). Προτείνουμε μια νέα τεχνική προεκπαίδευσης (pre-training) για μοντέλα trans- formers βασισμένη σε διόρθωση λαθών της μετεγγραφής μουσικής, καθώς και τρία νέα μοντέλα για ΑΜΤ. Συμπεραίνουμε πως το μοντέλο wav2vec2 προεκπαιδευμένο σε σήμα ήχου ομι- λητικής φύσης δεν καταφέρνει να ξεπεράσει τα καλύτερα μοντέλα που χρησιμο- ποιούν mel-scale φασματογράμματα και συνελικτικά νευρωνικά δίκτυα, χωρίς να εκπαιδευτεί με σήμα ήχου μουσικών κομματιών. Δείχνουμε πως ένας BERT transformer προεκπαιδευμένος σε φυσική γλώσσα έχει μεγάλες δυνατότητες μεταφοράς μάθησης σε MusicLM. Εξετάζουμε επίσης την ευρωστία ενός τέτοιου transformer για MusicLM, και βρίσκουμε πως πρκύπτουν ενδιαφέροντα αποτελέσματα όταν εφαρμόζουμε Masked MusicLM, καθώς και όταν αντικαθιστούμε τα επαναληπτικά νευρωνικά δίκτυα (Recurrent Neural Networks) με προεκπαιδευμένους transformers στα SOTA μοντέλα για ΑΜΤ.el
heal.advisorNameΛύκας, Αριστείδηςel
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.committeeMemberNameΒλάχος, Κώσταςel
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoi-
heal.numberOfPages54 σ.-
heal.fullTextAvailabilitytrue-
Appears in Collections:Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ

Files in This Item:
File Description SizeFormat 
Μ.Ε. ΖΩΝΙΟΣ ΧΡΗΣΤΟΣ 2021.pdf3.26 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons