Generative Adversarial Networks for Synthesis and Control of Drum Sounds - Institut de Recherche et Coordination Acoustique/Musique Access content directly
Theses Year : 2023

Generative Adversarial Networks for Synthesis and Control of Drum Sounds

Réseaux adversaires génératifs pour la synthèse et le contrôle des sons de batterie

Abstract

Audio synthesizers are electronic systems capable of generating artificial sounds under parameters depending on their architecture. Even though multiple evolutions have transformed synthesizers from simple sonic curiosities in the 1960s and earlier to the main instruments in modern musical productions, two major challenges remain; the development of a system of sound synthesis with a parameter set coherent with its perception by a human and the design of a universal synthesis method, able to model any source and provide new original sounds. This thesis studies using and enhancing Generative Adversarial Networks (GAN) to build a system answering the previously-mentioned problems. The main objective is to propose a neural synthesizer capable of generating realistic drum sounds controllable by predefined timbre parameters and hit velocity. The first step in the project was to propose an approach based on the latest technological advances at the time of its conception to generate realistic drum sounds. We added timbre control capabilities to this method by exploring a different way from existing solutions, i.e., differentiable descriptors. To give experimental guarantees to our work, we performed evaluation experiments via objective metrics based on statistics and subjective and psychopĥysical evaluations on perceived quality and perception of control errors. These experiments continued to add velocity control to the timbral control. Still, with the idea of pursuing the realization of a versatile synthesizer with universal control, we have created a dataset ex-nihilo composed of drum sounds to create an exhaustive database of sounds accessible in the vast majority of conditions encountered in the context of music production. From this dataset, we present experimental results related to the control of dynamics, one of the critical aspects of musical performance but left aside by the literature. To justify the capabilities offered by the GANs synthesis method, we show that it is possible to marry classical synthesis methods with neural synthesis by exploiting the limits and particularities of GANs to obtain new and musically interesting hybrid sounds.
Les synthétiseurs audio sont des systèmes électroniques capable de générer des sons artificiels sous un ensemble de paramètres dépendants de leur architecture. Quand bien même de multiples évolutions ont transformé les synthétiseurs de simples curiosités sonores dans les années 60 et précédentes à des instruments maîtres dans les productions musicales modernes, deux grands défis restent à relever: le développement d'un système de synthèse répondant à des paramètres cohérent avec leur perception par un humain et la conception d'une méthode de synthèse universelle, capable de modéliser n'importe quelle source et de la dépasser. Cette thèse étudie l'utilisation et la valorisation des réseaux antagonistes génératifs (Generative Adversarial Networks, abrégé en GAN) pour construire un système répondant aux deux problèmes exposés précédemment. L'objectif principal est ainsi de proposer un synthétiseur neuronal capable de générer des sons de batteries réalistes et contrôlable par un ensemble de paramètres de timbres prédéfinis, ainsi que de proposer un contrôle de la vélocité de la synthèse. La première étape dans le projet a été de proposer une approche basée sur les dernières avancées techniques au moment de sa conception pour générer des sons de batteries réalistes. A cette méthode de synthèse neuronale, nous avons aussi ajouter des capacités de contrôle du timbre en explorant une voie différente des solutions existantes: l'utilisation de descripteurs différentiables. Pour donner des garanties expérimentales à notre travail, nous avons réalisé des expériences d'évaluation à la fois via des métriques objectives basées sur les statistiques mais aussi des évaluations subjectives et psychoĥysiques sur la qualité perçue et la perception des erreurs de contrôle. Pour proposer un synthétiseur utilisable pour des performances musicales, nous avons aussi ajouter un contrôle de la vélocité. Toujours dans l'idée de poursuivre la réalisation d'un synthétiseur universel et à contrôle universel, nous avons créer ex-nihilo un jeu de données composé de sons de batteries dans le but avoué de créer une base exhaustive des sons accessibles dans l'immense majorité des conditions rencontrées dans le contexte de la production musicale. De ce jeu de données, nous présentons des résultats expérimentaux liés au contrôle de la dynamique, un des aspects phares de la performance musicale mais laissé de côté par la littérature. Pour justifier des capacités offertes par la méthode de synthèse par GANs, nous montrons qu'il est possible de marier les méthodes de synthèse classiques avec la synthèse neuronale en exploitant les limites et particularités des GANs pour obtenir des sons hybrides nouveaux et musicalement intéressants.
Fichier principal
Vignette du fichier
140721_LAVAULT_2023_archivage.pdf (15.95 Mo) Télécharger le fichier
Origin Version validated by the jury (STAR)

Dates and versions

tel-04511699 , version 1 (19-03-2024)

Identifiers

  • HAL Id : tel-04511699 , version 1

Cite

Antoine Lavault. Generative Adversarial Networks for Synthesis and Control of Drum Sounds. Sound [cs.SD]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS614⟩. ⟨tel-04511699⟩
29 View
12 Download

Share

Gmail Mastodon Facebook X LinkedIn More