Un synthétiseur vocal capable de reconstituer la parole d’une personne articulant "silencieusement"
Des chercheurs du BrainTech Laboratory (Inserm) et de l'équipe CRISSP du laboratoire Grenoble Images Parole Signal Automatique (GIPSA-lab - CNRS / Grenoble INP / Université Grenoble Alpes) ont conçu un synthétiseur vocal pilotable en temps-réel uniquement à partir des mouvements articulatoires. Ce synthétiseur est capable de reconstituer la parole d’une personne articulant "silencieusement", c’est-à-dire bougeant sa langue, ses lèvres, sa mâchoire, mais ne vocalisant pas.
Un algorithme d’apprentissage automatique (machine learning), de type réseau de neurones profonds (deep neural network), est utilisé pour décoder ces mouvements articulatoires à l’aide de capteurs posés sur la langue, les lèvres et la mâchoire, et les convertir en temps-réel en une parole de synthèse. La conversion d’une articulation silencieuse en un signal de parole intelligible a déjà fait l’objet de plusieurs travaux.

Vue schématique du synthétiseur vocal © Bocquelet et al.

Vue schématique du synthétiseur vocal © Bocquelet et al.

Ces nouveaux développements récemment publiés dans la revue PLoS Computational Biology se focalisent sur la reconstruction de la parole en temps-réel, sur la conception d’un synthétiseur pilotable a priori par n’importe quel locuteur (après une courte période de calibration du système), et sur l’absence de restriction sur le vocabulaire, ce qui est classiquement le cas dans les systèmes de lecture labiale automatique (lip reading). Ces nouveaux résultats sont une étape nécessaire vers un objectif encore plus ambitieux. Les chercheurs travaillent actuellement sur une interface cerveau-machine pour la restauration de la parole dont l’objectif, à terme, est de reconstruire la parole en temps réel, mais cette fois ci, à partir de l’activité cérébrale.

 

 

 

Publié le  16 décembre 2016
Mis à jour le  21 décembre 2016