CORESA 2014 - Sessions

Mercredi 26 novembre

  • 11:00-12:00 – Session C1 – Segmentation / classification

    Contribution des descripteurs de texture LBP à la classification d’images de dentelles

    Wael Bensoltana, Alice Porebski, Nicolas Vandenbroucke, Adeel Ahmad, Denis Hamad

    L’analyse d’image de dentelles présente un défit dans le domaine du traitement de l’image. Ceci est lié principalement à la nature complexe de la dentelle qui est généralement constituée de plusieurs parties avec des textures différentes : le fond, le motif, etc. Dans cet article, nous étudions séparément le comportement de trois descripteurs : l’histogramme d’image (HistI) et deux variantes des motifs binaires locaux (LBP) extraits des images de dentelles en présence du facteur de rotation. Ces variantes sont présentées par l’histogramme des LBP (LBP-B) et la transformée de Fourier appliquée sur les histogrammes de LBP (LBP-FFT). Par la suite, nous analysons l’apport de la fusion des données au niveau descripteur et au niveau score dans les différentes expérimentations. Le taux de classification évalue le degré de discrimination de chaque descripteur via le classifieur des plus proches voisins (k-ppv). Les résultats expérimentaux montrent qu’en l’absence de transformation, LBP-B, LBP-FFT et HistI fusionnés au niveau score génèrent la meilleure performance. En présence de changement de rotation, LBP-FFT et HistI fusionnés dans le même niveau produisent le meilleur taux de classification.

    Image de dentelle, analyse de texture, classification, LBP, FFT, invariance, fusion des données, k-ppv

    Un jeu, des images, des clics et du texte : collecte implicite de données visuelles et sémantiques

    Axel CARLIER, Vincent CHARVILLAT

    Nous décrivons un corpus de données visuelles et sémantiques collectées à partir d’un jeu. Nous avons conçu ce jeu pour deux joueurs qui coopèrent à distance sur le Web. Les données collectées sont directement utilisables pour résoudre des problèmes de vision (par exemple des problèmes de détection, de segmentation, d’étiquetage sémantique). La collecte est toutefois implicite au sens où le jeu n’a pas pour but explicite de détecter ou segmenter des objets présents dans une image. Le corpus inclut plus de 3,250 jeux basés sur 104 images et comporte des annotations textuelles et des données spatiales (clics, relations spatiales). Dans cet article, nous expliquons pourquoi et comment utiliser ces données pour différentes applications visant la compréhension des images. Nous montrons surtout qu’elles sont suffisamment riches pour superviser, dans un sens à définir, une analyse sémantique globale du contenu visuel. Le corpus est rendu accessible aux chercheurs.

    Jeu GWAP, Corpus de données, Sémantique, Détection, Segmentation

  • 14:20-15:40 – Session C2 – Sécurité

    Identification du système d'acquisition scanner X à partir de l'analyse du bruit dans des images médicales

    Anas KHARBOUTLY, William PUECH, Gérard SUBSOL, Denis HOA

    L’imagerie médicale aide les médecins à améliorer et accélérer le processus de diagnostic. Il est donc fondamental de s’assurer que les images d’un patient n’ont pas été altérées ou interverties avec celles d’un autre. Pour cela, nous proposons une méthode pour identifier l’appareil scanner X à partir du bruit dans les images médicales. Nous avons construit un modèle de bruit de référence pour les images acquises par chaque système scanner X. Nous avons ensuite corrélé les images 3D obtenues avec chaque modèle de bruit de référence pour identifier l’appareil scanner X correspondant. Nous avons utilisé une approche de filtre de Wiener basé sur des ondelettes pour extraire le bruit. Des résultats expérimentaux préliminaires ont été obtenus sur 8 images 3D de 100 coupes de scanner X différents et nous avons pu globalement identifier chaque scanner X.

    criminalistique numérique, imagerie médicale, authentification, identification des dispositifs, analyse de bruit

    Nouvelle méthode d’évaluation de robustesse des algorithmes de tatouage vidéo: Jeu d’attaque

    Asma Kerbiche, Saoussen Ben Jabra, Ezzeddine Zagrouba, Axel Carlier, Vincent Charvillat

    L’évaluation d’une technique de tatouage a été toujours une étape critique et importante. En effet, l’évolution progressive des outils de traitement et de communication de vidéos a fait naître de nombreuses et différentes techniques de tatouage dont l’efficacité varie d’un algorithme à un autre. Cette efficacité est toujours évaluée en se basant sur plusieurs contraintes dont les plus importantes sont l’invisibilité et la robustesse face aux attaques. Cette dernière est souvent évaluée en testant des attaques classiques et simples telles que la compression, la rotation, la translation et l’ajout de bruit. Des techniques simples de tatouage peuvent résister à des attaques simples sans pour autant être robustes aux attaques observées dans le monde réel comme le "Camcording" d’un contenu vidéo. En situation réelle, un utilisateur mal intentionné (ou un pirate) va filmer illégalement un contenu projeté, recadrer l’image, transcoder le contenu obtenu. La question que nous nous posons est l’évaluation de méthodes de tatouage dans ce type de contexte. Dans le cadre de l’élaboration d’un nouveau protocole d’évaluation de techniques de tatouage vidéo, nous proposons, dans ce papier, un jeu d’attaques de vidéos tatouées mis à disposition d’un ensemble d’utilisateurs qui vont interagir afin de détruire la marque qui a été insérée. Ceci sera réalisé en leur fournissant une liste d’attaques qu’ils peuvent librement appliquer et combiner à ces vidéos tatouées. Cette liste va comprendre les attaques les plus importantes et réelles que peut subir une vidéo telles que le camcording, la déformation, l’ajout de couleur et la compression. Ce jeu nous a permis non seulement d’évaluer n’importe quel algorithme de tatouage vidéo, mais surtout, d’identifier, à partir de l’étude de choix des utilisateurs les attaques les plus importantes pour eux.

    tatouage, vidéo, crowdsourcing, camcording, attaques, jeu…

    Schéma conjoint de Tatouage et Compression des LDI(s) générées à partir d’images issues des flux auto-stéréoscopiques

    Najia KHELFI née TRACHE, Zoubir AHMED-FOITIH, Laurent LUCAS

    Dans cet article est présenté un schéma conjoint de tatouage et compression des LDI(s) (Layer Depht Image), générées à partir d’un jeu d’images multi-vues, issues de 08 caméras placées d’une façon appropriée. Chaque couche « layer » correspond à une vue et contient les informations qui ne sont pas contenues dans les autres couches. Aussi, les couches de profondeur sur lesquelles nos travaux se basent contiennent uniquement des informations non redondantes (ou résiduelles). Elles ont été extraites à partir de n vues d’entrée et de leur carte de disparité et correspondent généralement, à des zones occultées. Toutes les informations qui peuvent être déduites à partir d’autres données sont supprimées. Nous les appelons informations redondantes. Au contraire, les informations résiduelles sont les informations conservées. Ces dernières correspondent généralement à des zones occultées. Les pixels occlus, qui sont susceptibles d’être visualisés à partir d’autres angles de vue se voient conférer une plus forte protection contre les erreurs de transmission ou de compression. Aussi, nous cherchons donc à effectuer l’insertion d’une marque dans un ensemble de LDI(s) pendant la phase de quantification et de compression à l’aide d’une méthode qui devrait tenir compte de ces pixels occlus (ou résiduels) localisés dans des zones dispersées de chaque layer. Notre approche de tatouage joint à la compression est basée sur la quantification vectorielle algébrique à zone morte (QVAZM). Cette technique permet d’effectuer conjointement compression et tatouage à l’aide de la QVAZM en réalisant simultanément la quantification et l’insertion de la marque durant la compression

    Images auto-stéréoscopiques, Cartes de profondeur, Layer Depth Image, Sécurité, Tatouage numérique, Quantification vectorielle à zone morte, Compression

  • 16:00-17:40 – Session C3 – Exposé invité / posters

    Vidéo 3D – technologies existantes et émergente

    Frédéric Dufaux

    Squelette Euclidien Discret Connecté (DECS) résistant au bruit pour l'appariement de formes basé graphes

    Aurélie Leborgne, Julien Mille, Laure Tougne

    Le squelette est un descripteur de formes important qui fournit une représentation compacte de la forme étudiée pouvant être utilisée en reconnaissance d’objets réels. Néanmoins, du fait de la discrétisation, les propriétés requises pour construire un graphe (finesse, robustesse au bruit, homotopie, donc par conséquent connexité) peuvent être difficiles à obtenir simultanément. La squelettisation proposée, basée sur la carte de distance, a toutes ces propriétés. Plus précisément, l’algorithme extrait les centres des boules maximales de la forme ainsi que les crêtes de la carte de distance pour les combiner de manière intelligente. Un post-traitement est utilisé pour amincir et élaguer le squelette. Ces différentes étapes se font en temps linéaire. Le squelette ainsi obtenu a été comparé à d’autres squelettes de la littérature et nous avons mis en évidence ses « bonnes » propriétés pour l’appariement de graphes.

    Carte de Distance Euclidienne, boules maximales, squelette, détection de points de crêtes, résistance au bruit.

    Comparaison de la segmentation pixel et segmentation objet pour la détection d’objets multiples et variables dans des images

    Jérôme Pasquet, Marc Chaumont, Gérard Subsol

    Cet article étudie et compare deux méthodes de segmentation. La première est la segmentation par objet où l’on cherche à détecter des fenêtres à partir d’un modèle. La seconde est la segmentation pixel, où l’on cherche à déterminer à quelle classe appartient chaque pixel. De plus, nous proposons une extension au modèle classique de détection par cascade de HOG en utilisant les sacs de mots visuels. Des expérimentations sur des jeux de données réelles permettront la comparaison et mettront en avant un gain de performance non négligeable de notre méthode.

    Segmentation d’images, détection d’objets, sac de mots visuels, HOG

    Intra Residual Prediction in HEVC

    Bihong Huang, Christine Guillemot, Félix Henry, Philippe Salembier, Gordon Clare

    The main goal of this paper is to exploit correlations that may remain in the residual block, after the intra prediction in HEVC. We first show that correlation remains, leading to some high-energy prediction residuals, which we try to remove by exploiting both local and non-local similarity. We propose two strategies to reduce the remaining redundancy in the residual prediction domain: an Intra Residual Prediction (IRP) by template matching, and a Vector Quantization (VQ) of the intra residual.

    HEVC, video coding, residual prediction, template matching, vector quantization

    Vers une reconnaissance d'état affectif à base de mouvements du haut du corps et du visage

    Benjamin Allaert, Ioan Marius Bilasco, Adel Lablack

    L’émotion est une réaction complexe qui engage à la fois le corps et l’esprit. Elle peut être définie comme étant une réaction affective transitoire d’assez grande intensité provoquée par une stimulation venue de l’environnement. L’analyse des expressions corporelles a un rôle important dans le processus de reconnaissance de l’état affectif. Pour cela, nous proposons une approche de reconnaissance émotionnelle combinant deux canaux : le visage et le corps. Notre contribution s’appuie sur l’analyse du mouvement au sein du visage et du haut du corps qui sont synthétisés par des modèles de direction et de magnitude construit à partir des flux optiques. Ces modèles permettent de s’abstraire des bruits de détection à l’aide de l’extraction des caractéristiques principales des mouvements et constituent une base stable pour identifier les évolutions de l’état émotionnel et plus particulièrement de la valence et de l’arousal. Les modalités sont analysées individuellement et sont fusionnées dans un deuxième temps afin d’étudier l’apport informationnel issu de l’étude du mouvement de la personne dans sa globalité. L’approche proposée a ensuite été validée avec succès sur un sous-ensemble de la base de données SEMAINE.

    Reconnaissance d’émotions, analyse gestuelle, analyse du mouvement, analyse du visage

    Caractérisation locale des changements de texture pour la reconnaissance d’expressions faciales spontanées

    Walid Adaidi, Adel Lablack, Ioan Marius Bilasco

    La reconnaissance des émotions et des expressions faciales est un challenge intéressant. Dans cet article, une approche permettant la reconnaissance d’expressions faciales spontanées grâce une représentation appropriée des traits du visage sur des flux vidéos et des images statiques est proposée. Une mesure sensible aux changements dans les traits du visage est utilisée dans des régions d’intérêt identifiées pour détecter la présence de chaque émotion. L’expérimentation a été réalisée sur un ensemble de données standard composées de vidéos et d’images statiques et a montré des résultats prometteurs.

    Reconnaissance d’expressions faciales spontanées, approche locale, régions d’intérêt

    Design, Implementation and Simulation of a Cloud Computing System for Enhancing Real-time Video Services by using VANET and Onboard Navigation Systems

    Karim Hammoudi, Nabil Ajam, Mohamed Kasraoui, Fadi Dornaika, Karan Radhakrishnan, Karthik Bandi, Qing Cai, Sai Liu

    In this paper, we propose a design for novel and experimental cloud computing systems. The proposed system aims at enhancing computational, communicational and annalistic capabilities of road navigation services by merging several independent technologies, namely vision-based embedded navigation systems, prominent cloud computing systems and Vehicular Ad-hoc NETwork (VANET). This work presents our initial investigations by describing the design of a global generic system. The designed system has been experimented with various scenarios of video-based road services. Moreover, the associated architecture has been implemented on a small scale car prototype. The implemented architecture has been experimented in the case of a simulated road service to aid the police agency. The goal of this service is to recognize and track searched individuals and vehicles in a realtime monitoring system remotely connected to moving cars. The presented work demonstrates the potential of our system for efficiently enhancing and diversifying real-time video services in road environments.

    Vehicular Network (VANET), Vehicular Cloud Computing (VCC), Image-based Recognition, Fusion of Multi-source Imagery, Real-time Video Services, Cooperative Monitoring System

Jeudi 27 novembre

  • 9:00-11:00 – Session C4 – 3D

    Vers un schéma temps réel de compression multi-vues sans perte

    Benjamin BATTIN, Julien LEHURAUX, Philippe VAUTROT, Laurent LUCAS

    Ce papier s’intéresse au problème de la compression multi-vues en environnements virtualisés. Nous présentons notamment un nouveau schéma de compression multi-vues sans perte basé sur l’algorithme LOCO-I. Notre algorithme exploite la double redondance (spatiale et temporelle) spécifique à ce type de média en adaptant les étapes de prédiction et de modélisation de contexte à la matrice d’images. Les premiers tests effectués avec notre approche montrent que celle-ci propose de bons ratios de compression pour une complexité algorithmique moindre vis-à-vis des méthodes de l’état de l’art.

    Multi-vues, auto-stéréoscopie, 3DTV, compression 3D, compression sans perte

    Méthode d’optimisation pour l’appariement de pixels d’images stéréoscopiques basée sur une métrique conjointe entropie-distorsion

    Aysha Kadaikar, Anissa Mokraoui, Gabriel Dauphin

    Cet article s’intéresse au problème de la mise en correspondance de pixels d’images stéréoscopiques pour estimer la meilleure carte de disparité au sens du critère entropie-distorsion. Dans la majorité des cas, les correspondants sont choisis au sens de la minimisation de l’erreur quadratique moyenne retenue comme critère de distorsion. Cependant pour l’appariement d’un même pixel, il est possible que plusieurs disparités soient candidates puisqu’elles répondent uniquement au critère de distorsion minimale. En revanche le choix adopté pourrait ne pas être en adéquation avec la réduction du coût de codage. Pour y remédier, cet article propose une approche d’optimisation où la métrique habituelle est remplacée par une métrique entropie-distorsion de façon à ce que les disparités sélectionnées réduisent non seulement la distorsion de l’image reconstruite mais également l’entropie associée à la carte de disparité. L’estimation de la carte de disparité s’appuie sur la construction séquentielle d’un arbre afin d’éviter une recherche exhaustive tout en assurant de bonnes performances en termes d’entropie-distorsion. A une profondeur donnée dans l’arbre, les M meilleurs chemins retenus selon le critère entropie-distorsion sont ensuite prolongés pour construire de nouveaux chemins. Ces chemins sont triés selon la métrique entropie-distorsion pour n’en retenir que les M meilleurs. Le processus est itéré jusqu’à la lecture du dernier pixel à apparier. Les résultats de simulation montrent que notre algorithme fournit de meilleurs résultats en termes d’entropie-distorsion comparé à la programmation dynamique.

    Image stéréoscopique, image 3D, mise en correspondance, algorithme à M-chemins, optimisation, entropie, distorsion.

    Compression de contenu vidéo Super Multi-Vue avec parallaxe horizontale et verticale

    Antoine Dricot, Joël Jung, Marco Cagnazzo, Béatrice Pesquet-Popescu, Frédéric Dufaux

    La vidéo Super Multi-Vue (SMV) est une technologie clé pour mettre en place les futurs services de vidéo 3D. Le SMV permet une visualisation sans lunette et élimine beaucoup des causes d’inconfort présentes dans les technologies de vidéo 3D actuelles. Le contenu vidéo SMV est composé de dizaines ou de centaines de vues d’une scène, qui peuvent être alignées soit uniquement dans la direction horizontale, soit dans les directions horizontale et verticale. Cet article compare plusieurs schémas de codage, puis propose une structure de codage qui exploite les corrélations inter-vues dans les deux directions, permettant de réduire le débit (pour une qualité donnée) de 29.1% par rapport à une structure de référence basique. De plus, une amélioration des outils de codage Neighboring Block Disparity Vector (NBDV) et Inter-View Motion Prediction (IVMP) est proposée afin d’exploiter efficacement les structures de codage en deux dimensions, avec une réduction de débit allant jusqu’à 4.2% par rapport à l’encodeur référence 3D-HEVC.

    Compression vidéo 3D, multi-vue, parallaxe de mouvement

    Transformation d'un dispositif multimédia webcam-écran en un scanner 3D

    Yvain Quéau, Richard Modrzejewski , Pierre Gurdjos, Jean-Denis Durou

    Nous étudions un dispositif de scannage 3D constitué d’un couple webcam-écran, où l’écran est utilisé comme source lumineuse. Ceci permet de transformer en scanner 3D n’importe quel dispositif multimédia comprenant ces deux éléments (ordinateurs portables, smartphones, tablettes etc.). Un protocole d’étalonnage simplifié est introduit, pour lequel nous démontrons que deux prises de vue sont suffisantes. Une fois cet étalonnage géométrique effectué, nous montrons que le dispositif étudié permet d’effectuer la reconstruction 3D sans ambiguïté, grâce à la technique de stéréophotométrie.

    étalonnage, webcam, écran LCD, reconstruc- on 3D, stéréophotométrie

    Reconstruction semi-régulière de surfaces par stéréoscopie

    Jean-Luc Peyrot, Frédéric Payan, Marc Antonini

    Notre objectif consiste à inclure dans les systèmes stéréoscopiques un remailleur semi-régulier qui est capable de générer une maille semi-régulière uniquement à partir des images stéréoscopiques, au contraire des systèmes actuels qui génèrent seulement des nuages de points. Notre méthode de reconstruction est basée sur une approche coarse-to-fine, et créé directement à partir des images stéréoscopiques une maille semi-régulière multi-résolution. De plus, pour tenir compte des contraintes temps-réel des systèmes d’acquisition, cette construction semi-régulière est parallélisée sur GPU. Les résultats expérimentaux montrent l’efficacité de notre méthode sur divers types de surfaces.

    Maillage semi-régulier, multi-résolution, stéréoscopie, GPU

  • 14:00-15:40 – Session C5 – Visage / mouvement humain / suivi

    Détection des yeux, du nez et de la bouche par filtres de Haar adaptatifs

    Nam Jun Pyun, Mathieu Marmouget, Nicole Vincent

    L’extraction des yeux, du nez et de la bouche du visage humain sont des tâches largement étudiées dans le domaine de la reconnaissance de formes. Localiser ces régions anatomiques pertinentes du visage est souvent la première étape de nombreuses approches de la vision par ordinateur, comme la segmentation, la reconnaissance ou l’identification de personne, la reconnaissance de l’expression ou de l’émotion du visage, la localisation de points d’intérêts, l’estimation de pose ou encore le suivi du visage. La télésurveillance, l’indexation automatique ou semi-automatique d’images ou de vidéos, la robotique sont autant de domaines applicatifs. Dans cet article, nous proposons une méthode basée sur l’analyse des lignes horizontales. Elles sont extraites d’une carte d’énergie calculée sur des filtres de Haar adaptatifs. L’introduction de connaissances, notamment sur les positions des différentes régions anatomiques pertinentes, ainsi que sur leurs relations spatiales nous permet de les séparer. Une des difficultés majeures de la détection des éléments anatomiques pertinents du visage réside dans la variabilité de l’illumination d’un visage à l’autre, mais aussi des conditions d’illumination inégale sur un visage donné. Afin de rendre la méthode robuste à ces variations d’illumination, nous proposons une analyse multi-seuils capable de choisir, pour chaque région anatomique, un seuil adéquat sur la carte d’énergie horizontale. Notre approche est testée sur la base BioID et Color FERET et montre des résultats prometteurs.

    OEil, yeux, nez, bouche, Haar, carte d’énergie, analyse multi-seuils, relations spatiales, connaissance

    Reconnaissance d'actions humaines 3D par l'analyse de forme des trajectoires de mouvement.

    Maxime Devanne, Hazem Wannous, Stefano Berretti, Pietro Pala, Mohamed Daoudi, Alberto Del Bimbo

    La reconnaissance d’actions humaines dans des séquences vidéo 3D est un problème important, actuellement au cœur de nombreux domaines de recherche comme la vidéo surveillance, les interfaces Homme-Machine et la rééducation. Le développement d’algorithmes de reconnaissance d’actions précis et efficaces est une tâche difficile à cause des fortes variabilités des formes humaines, des vêtements et du mouvement. Dans ce papier, nous proposons un nouvel outil permettant de représenter de manière compacte, de comparer et de reconnaître des actions humaines capturées à partir de caméras de profondeur. Dans un premier temps, les coordonnées 3D de chaque articulation du squelette humain sont considérées comme une chaîne de mouvement. L’évolution spatiale et temporelle de ce vecteur caractéristique est ensuite représentée par une trajectoire dans l’espace des actions. Grâce à cette représentation basée sur les articulations 3D, nous sommes capable de capturer simultanément aussi bien l’apparence géométrique du corps humain que sa dynamique au cours du temps. Le problème de reconnaissance d’actions est ensuite formulé comme un problème de recherche de similarités entre la forme des trajectoires dans une variété riemannienne. La classification par l’algorithme des k-plus-proches-voisins est ensuite effectuée sur la variété pour bénéficier de la géométrie riemannienne dans l’espace des formes. Notre méthode est évaluée sur deux bases de données publiques. En comparaison avec les méthodes existantes dans l’état de l’art, les résultats obtenus montrent l’efficacité de l’approche proposée avec un taux supérieur à 91% sur les deux bases de données.

    Reconnaissance d’actions 3D, modélisation temporelle, espace des formes, variété riemannienne.

    Un système de suivi multi-objets utilisant une stratégie d'association en trois passes adapté à la vidéosurveillance

    Matthieu Rogez, Lionel Robinault, Laure Tougne

    Le suivi multi-objets est une des thématiques centrales de l’analyse vidéo du fait de son large champ d’application. Nous nous intéressons ici plus particulièrement aux applications en vidéo-surveillance. Ainsi, nous décrivons un ensemble d’améliorations destinées à l’algorithme de suivi multi-objets proposé par R. Di Lascio et al. En particulier, nous généralisons le suivi en retirant la spécialisation faite pour les piétons; nous intégrons le modèle de scène et de visualisation développé par Rogez et al. afin de permettre un raisonnement tridimensionnel permettant de mieux gérer les occultations; et enfin nous améliorons le mécanisme de formation et destruction des groupes d’objets grâce à l’introduction d’une passe d’association supplémentaire ainsi que d’un critère de similarité de recouvrement. Enfin, nous évaluons le système proposé sur des vidéos synthétiques et réelles afin de montrer l’apport de nos modifications. L’algorithme proposé améliore sensiblement les performances générales par rapport à la version originale, notamment pour la création et destruction des groupes, et ouvre la possibilité d’un raisonnement tridimensionnel.

    Suivi multi-objets, vidéo-surveillance, groupes, automate fini