Titre : Clones parlants 3D video-realistes : application à l'analyse de messages audiovisuels

auteur(s) : M. Odisio, F. Elisei, G. Bailly, P. Badin

Laboratoire(s) : Institut de la communication parlee (ICP)

Résumé :

Cet article présente un paradigme de modélisation linéaire 3D pour le visage, qui capture l'activité de parole d'une personne donnée, avec seulement 6 paramètres. Construit par analyse statistique de données réelles collectées sur le visage du locuteur cible, un tel modèle capture la spécificité de son articulation. Pour la synthèse, un mélange de textures permet de reproduire de manière vidéo-réaliste la présence ou l'apparition de détails fins, comme les plis faciaux. Pour estimer automatiquement les mouvements faciaux à partir d'images d'un locuteur, son clone est utilisé dans une boucle d'analyse par la synthèse. Nous présentons une évaluation de ce paradigme d'analyse et son application dans des conditions de type téléconférence virtuelle.

Liste de mots-clefs :

Tête parlante, suivi automatique de modèle articulé, codage de la parole audiovisuelle

PDF


Titre : Clones parlants 3D vidéo-réalistes : Application à l'interprétation de FAP MPEG-4

Auteur(s) : F. Elisei, G. Bailly, M. Odisio, P. Badin

Laboratoire(s) : Institut de la Communication Parlée, INPG

Résumé :

MPEG-4 et ses Facial Animation Paramèters normalisent un codage de l'animation de visages 3D, mais sans suggérer aucun algorithme pour le problème délicat de leur utilisation (interprétation) du coté du récepteur : comment peut-on, à partir de cet échantillonnage de quelques déplacements à la surface d'un visage, recréer des mouvements fins et naturels pour tous les points d'un visage 3D ? Cet article propose de réaliser cette tâche à l'aide d'un modèle paramétrique linéaire. De tels modèles peuvent être créés avec la capture des déplacements de points du visage (peau, lèvres...) d'une personne réelle. Son activité de parole peut être capturée par un simple modèle linéaire à 6 paramètres. Il suffit à représenter de façon compacte et video-réaliste les apparences de ce visage parlant. Sans sortir de la norme MPEG­4, un tel modèle gagne à être intégré à un décodeur pour interpréter et extrapoler de façon robuste les valeurs de FAP reçues, et obtenir un visage à l'animation non-caricaturale. En plus de cet algorithme d'interprétation des FAP, on détaille aussi une évaluation quantitative de la dégradation du codage/décodage d'un visage parlant, mettant en avant les gains en robustesse et en débit.

Liste de mots-clefs :

MPEG-4, SNHC, FAP, clone parlant.

PDF