Étiquette : Parole audiovisuelle

Modélisation de la coarticulation multimodale : vers l’animation d’une tête parlante intelligible

Dans ces travaux, nous cherchons à simuler par un algorithme l’influence d’un phonème sur la production des phonèmes voisins, phénomène connu sous le nom de coarticulation, dans le but de prédire les mouvements articulatoires nécessaires à la production d’une séquence phonétique. Il faut en effet savoir que nous ne pouvons considérer l’articulation comme une simple concaténation de mouvements articulatoires correspondant aux phonèmes. Dans le domaine d’étude de la production de la parole, il est bien établis que la production d’un phonème est largement influencé par son contexte. Par exemple, la forme des lèvres est très différentes pendant la production du /k/ de « qui » et « quoi, car ce phonème subis une influence de la voyelle suivante. In fine, notre modèle permet de contrôler une tête parlante virtuelle, afin de synchroniser son animation à un segment de parole prononcé par un adulte.
Nous cherchons ici à proposer un nouveau modèle de coarticulation basé sur les techniques récentes d’intelligence artificielle (deep learning) avec pour principal objectif une modélisation indépendante de la langue et de la modalité. Par modalité, nous entendons l’aspect visuelle et articulatoire de la parole, c’est-à-dire les mouvements du visage induits par l’articulation d’un locuteur (modalité visuelle), mais aussi les mouvements des principaux articulateurs internes comme la langue, la mâchoire ou le vélum (la modalité articulatoire). Finalement, nous souhaitons appliquer ce modèle de coarticulation à la langue Allemande afin de proposer un système de synchronisation labiale automatique pour cette langue, capable d’animer un visage virtuelle depuis la voix de l’enseignant.

Cliquer sur une étiquette pour accéder à la liste des articles avec la même étiquette

Retour haut de page