Robustness of language recognition system to transmission channel - Department of Natural Language Processing & Knowledge Discovery Accéder directement au contenu
Thèse Année : 2021

Robustness of language recognition system to transmission channel

Robustesse au canal des systèmes de reconnaissance de la langue

Résumé

Language recognition is the task of predicting the language used in a test speech utterance. Since 2017, the best performing systems have been based on a deep neural network which is trained to predict language labels for the whole utterance. These systems suffer from a drop in performance when they are exposed to a change of the transmission channel between train and test data. The goal of this thesis is to investigate approaches to limit this performance drop, for these new systems. An increase in the invariance, with respect to the transmission channel, of the representations used by the neural network can increase the robustness of the system. We show that the regularization of the loss function used to train the neural network is an efficient approach to increase invariance. Two kinds of regularization functions are analysed. Divergence measures between domains reduce effectively the variability between known domains, they can also be used to incorporate unlabeled data into the training set in a semi-supervised learning framework. Metric learning cost functions are able to reduce unknown variabilities within the training set. We show how this regularization method can be enforced for three practical learning settings : unsupervised domain adaptation, multi-domain learning and domain generalization. During this work, we have designed methods for analyzing the quality of the representations. They aim at evaluating the variability of the representations induced by the transmission channel and to compare it to the variability that caused the language. Two tools are proposed : ratio between inter class and intra class covariance matrices and divergence measures between groups of representations. With these tools, we quantitatively evaluate the robustness to a change of transmission channel of the representations and analyse the effect of the regularization functions over the space of representations. We understand that an increase in invariance between channels can lead to more discriminative representations between languages and consequently to an increase in performance over each transmission channel. Finally, we contribute to the improvement of the training recipe of another module of the system, the bottleneck feature extractor. We replace it with a multilingual end-to-end automatic speech recognition neural network. It achieves a simiar performance as a traditional bottleneck feature extractor with a simplified training recipe. The use of data augmentation and regularization methods improves further this module. Moreover we show that a performance gain can be achieved with a joint training of the bottleneck feature extractor along with the language identification neural network. This paves the way to the application of the proposed regularization loss functions to the two modules jointly.
La tâche de reconnaissance de la langue consiste à prédire la langue utilisée dans un énoncé audio contenant de la parole. Depuis 2017, les systèmes atteignant les meilleures performances reposent sur un réseau de neurones profond, entraîné à identifier la langue pour l’ensemble du segment. Ces systèmes subissent une perte de performance lorsqu’ils sont exposés à une variation des canaux de transmission entre les données d’entraînement et d’évaluation. L’objet de cette thèse est l’exploration d’approches permettant de limiter cette perte de performance dans le cadre de ces nouveaux systèmes. Nos travaux peuvent être regroupés en trois directions : l’étude d’une méthode d’amélioration de la robustesse au canal des systèmes, l’analyse de leur robustesse et la simplification de la recette d’apprentissage. Une augmentation de l’invariance, par rapport au canal de transmission, des représentations utilisées par le réseau de neurones peut augmenter la robustesse du système. Nous montrons que la régularisation de la fonction de coût utilisée lors de l’entraînement du réseau de neurones est un outil efficace pour augmenter cette invariance. Deux types de fonction de régularisation sont analysés. Les mesures de divergence entre les domaines réduisent efficacement la variabilité entre des canaux identifiés, elles peuvent également être utilisées pour valoriser des données non annotées dans le cadre d’un apprentissage semi-supervisé. Les fonctions de coût de metric learning permettent de réduire des variabilités inconnues dans l’ensemble d’apprentissage. Nous montrons comment cette méthode peut être mise en œuvre dans trois scénarios d’apprentissage d’intérêt pratique : l’adaptation de domaine non supervisée, l’apprentissage multi-domaines et la généralisation à un domaine inconnu. Au cours de l’étude de cette approche, nous développons des méthodes d’analyse de la qualité des représentations. Elles visent à mesurer la variabilité des représentations due au canal de transmission et à la comparer à la variabilité due à la langue. Deux outils sont introduits : le calcul de rapports entre les covariance inter-classes et intra-classes et la mesure de divergences entre groupes de représentations. Ceux-ci nous permettent d’évaluer quantitativement la robustesse des représentations au changement de canal et donc de comprendre l’effet des fonctions de régularisation sur l’espace des représentations. En particulier, ces méthodes révèlent que l’augmentation de l’invariance entre les canaux peut mener à des représentations plus discriminantes entre les langues et donc à une amélioration de la performance sur chacun des canaux de transmission. Enfin, nous contribuons à l’amélioration de la recette d’entraînement d’un autre module du système, l’extracteur de bottleneck features. Nous montrons qu’un réseau de neurones de reconnaissance de la parole de bout en bout multilingue permet de réaliser cette extraction, avec une meilleure performance et une recette d’apprentissage simplifiée. L’utilisation d’augmentations de données et de méthodes de régularisation améliore la performance de ce module. D’autre part nous montrons qu’un gain de performance peut 207être obtenu en réalisant un entraînement conjoint de ce module avec le réseau d’identification de la langue. Cela ouvre la voie à l’application simultanée des fonctions de régularisation étudiées aux deux modules.
Fichier principal
Vignette du fichier
manuscrit_raphael_post-soutenance_v3.pdf (4.34 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03546267 , version 1 (27-01-2022)

Identifiants

  • HAL Id : tel-03546267 , version 1

Citer

Raphaël Duroselle. Robustness of language recognition system to transmission channel. Computer Science [cs]. Université de Lorraine, 2021. English. ⟨NNT : 2021LORR0250⟩. ⟨tel-03546267⟩
98 Consultations
53 Téléchargements

Partager

Gmail Facebook X LinkedIn More