GdR I3 (Information-Interaction-Intelligence) |
|
Français
| English
|
GDR I3 - Thème 6: Documents Multimedia
Sylvie Calabretto, LIRIS INSA de Lyon - sylvie.calabretto@insa-lyon.fr
Véronique Eglin, LIRIS INSA de Lyon - veronique.eglin@insa-lyon.fr
Cette structure d'animation s'appuie sur le GRCE (Groupe de Recherche en Communication Ecrite), structure associative créée en 1992, visant à fédérer, dans la durée, les forces francophones en matière de lecture automatique de documents ainsi que sur l’ARIA (Association francophone en Recherche d’Information et Applications) visant au développement des divers domaines concourants au savoir et aux connaissances autour de la conception, la réalisation et l'évaluation des systèmes de Recherche d'Information actuels et futurs. Le constat aujourd’hui que le support papier reste encore un media qui offre de nombreuses facilités d’usages (ergonomie, coût, préservation), nous pousse à encourager les développements des technologies numériques, aujourd’hui arrivées à un certain niveau de maturité. La dissémination de l’information et de la connaissance devient de ce fait un enjeu de taille impliquant les grands organismes privés (Sociétés spécialisées dans les technologies du numérique), les grandes structures de préservation tels que les bibliothèques, les archives et les administrations. L’accès au patrimoine documentaire est devenu un enjeu de société en même temps qu’un défi scientifique posé à la communauté. Parallèlement, l’avènement de l'Internet au cours de ces dernières années amène également à une réflexion sur les formats d'échange, l'accessibilité et l'indexation des documents complexes sur le Web, la distribution des traitements et la veille technologique. D’autre part, le déploiement récent des outils nomades de communication (PDA, e-book, téléphones mobiles, …), ainsi que la problématique de la multi-modalité génèrent de nouveaux usages et de thématiques scientifiques auxquelles il convient de répondre. De fait, ces documents et données semi-structurées doivent être intégrées et stockées afin d’être manipulées et analysées en utilisant conjointement des modèles et techniques issus de plusieurs domaines de l’informatique et notamment de la recherche d’information et des bases de données. Il s’agit d’étudier d’une part l’intégration et le stockage de documents et données semi-structurées issus de sources différentes et de structures hétérogènes, la recherche personnalisée comme collaborative, ainsi que l’analyse multidimensionnelle des informations extraites de ces documents. Les évolutions de ces recherches se sont accompagnées ces dernières années de projets nouveaux, autour de la valorisation du patrimoine notamment, pour lesquels le caractère pluridisciplinaire prend tout son sens (exemple récent de la politique de numérisation massive annoncée par Google), tant pour les connaissances du domaine qui sont impliquées que pour la grande diversité des usages qui accompagnent ce mouvement. Au-delà des réunions de travail organisées grâce au GDR-I3, cette structure d'animation est également à la base des Conférences INFORSID, CORIA et CIDE qui se réunissent tous les ans, ainsi que les conférences internationales du domaine (ACM DocEng, ECDL, Extreme Markup Language, RIAO, ElPub …), de la Conférence Internationale Francophone sur l'Ecrit et le Document, qui se réunit tous les deux ans, en alternance avec les conférences du domaine (IAPR-ICDAR, ICFHR, WDA, GREC, Digital Librairies, DAS, DRR-SPIE). Le prochain événement phare du domaine est la réédition de la Semaine du Document Numérique et de la Recherche d’Information (SDNRI’2012) qui rassemblera en 2012 les communautés autour du document numérisé et de la recherche d’information, http://cifed-coria2012.labri.fr/ comme cela fut le cas à Sousse en 2010, http://sdnri2010.loria.fr/.
Le thème 6 poursuit ainsi depuis plusieurs années ses actions autour des grands thèmes suivants :
- Numérisation et valorisation du patrimoine (enrichissement collaboratif)
- Traitement des grands corpus de documents
- Mobilité et interaction avec l’utilisateur
- Prise en compte des nouveaux usages
Dans le contexte actuel de déploiement massif des grandes bibliothèques numériques, les thématiques fortement soutenues par le groupe s’articulent désormais pour une grande partie autour d’approches innovantes de traitement d’images (restauration des images, transcription assistée, word-spotting, alignement texte-image, …), de l’aide à la transcription des textes anciens imprimés ou manuscrits, de l’annotation collaborative de manuscrits numérisés, et de façon corrélée aux points précédents autour du traitement des grandes masses de données. Celles-ci induisent des approches très différentes dans l’analyse et la recherche par le contenu en imposant notamment de structurer les grands corpus afin de limiter les recherches et d’éviter les parcours exhaustifs de l’espace de représentation des contenus en se focalisant préférentiellement sur les données pertinentes. Le groupe d’animation a ainsi proposé ces dernières années de soutenir les actions menées dans le cadre de travaux interdisciplinaires alliant les sciences dures et les SHS sur les nouveaux usages des bibliothèques numérique, les aspects sociaux et collaboratifs des actions menées dans une bibliothèque étant alors très récemment considérées. Ceci fait partie des ambitions des bibliothèques numériques visant précisément à intégrer une dimension sociétale autour d’applications collaboratives visant notamment l’enrichissement et l’annotation des contenus autour d’applications de navigations avancées liées à des stratégies de recherche multicritère et multimodale.
Plus généralement et de façon très transverse aux différentes problématiques soulevées par le thème 6, le groupe s’intéresse à la dématérialisation des contenus et son corollaire lié à l’organisation et l’exploitation des systèmes d’information associés. Dans ce contexte et depuis plusieurs années, des laboratoires français rattachés au thème (L3I, LITIS, LIPADE, LI, LABRi, LORIA, LIRIS), des équipes de recherches européennes (Allemagne, Angleterre, Suisse, Italie, Espagne) ainsi qu’un groupement d’industriels de pointe (Docapost, IBM, Vedana, ITESoft, I2S, SOOD, A3D Num, APROGED) œuvrent sur la mise en place d’infrastructures pérennes autour de la dématérialisation des contenus dans une logique d’interopérabilité. Initialement rassemblés autour de l’équipex Grand Emprunt PLEIAD dirigé par le L3I de La Rochelle (PôLe d’Excellence Académique et Industrielle de Dématérialisation : novembre 2010), les différents partenaires du projet ont pérennisé leurs actions à travers la mise en place d'une association de préfiguration Valconum dont l’objectif à terme est la création d’une structure innovante et compétitive de niveau international dans le domaine de la dématérialisation, associant acteurs publics et privés. Le projet PIXL, en réponse à l’appel de mars 2011 de la caisse des dépôts constitue le premier projet accepté Grand Emprunt.
Les nouvelles orientations actuelles et à venir soutenues par le thème 6 relèvent des points suivants :
- Chaîne complète de rétro-conversion des documents
- Recherche multimodale dans les documents
- Applications autour des nouveaux dispositifs mobiles
Les points forts des actions du thème
Les Journées d’études
Journées d’étude dans le cadre des projets de recherche régionaux :
- Organisation de plusieurs journées sur la mise en ligne de corpus électroniques et le travail collaboratif (recouvrement avec le projet "Corpus numériques" du cluster 13 Rhône-Alpes). Organisateurs: Véronique Eglin, Hubert Emptoz, 2008-2009.
- Web et Contexte. Lyon, 26 mars 2009. Organisateurs : Sylvie Calabretto et Jérôme Gensel. Recouvrement avec le projet Web Intelligence Cluster 2.
Journées d’étude dans le cadre des associations GRCE et ARIA:
- Méthodes structurelles pour la représentation de documents, 17 Janvier 2008 Paris, organisation : Jean-Yves Ramel, Pierre Heroux
- Fusion et Combinaison d’information, Organisateur :L. Heutte – L. Wendling – N. Vincent, Paris, Janvier 2009.
- Caractéristiques et similarités dans les images naturelles et les images de documents, Véronique Eglin et Jean Yves Ramel, 23 juin 2009, Site Telecom Paris-Tech (50 participants).
- Qualité des données, Organisateur : L. Wendling, Paris, Octobre 2009.
- Modèles Graphiques : cette journée a fait le point sur les modèles graphiques récents : réseaux Bayesiens et champs de Markov et étenduss aux réseaux de neurones récurrents et réseaux profonds. Organisateurs : Laurent Heutte et Laurence Likforman, Telecom ParisTech, 20 Juin 2011.
- Recent Developments in OCR for Digital Libraries : cette journée a fait le bilan des développements récents ou en cours dans le domaine des systèmes de reconnaissance optique de caractères (OCR), réalisés dans le cadre de différents projets de numérisation de documents pour les bibliothèques numériques. Organisateur : T. Paquet (LITIS Rouen) et G. Cron (BNF paris), 31 mars 2011.
Les forums
- "Web Intelligence & Usages", 4 février 2010, l'objectif de ce forum est de montrer le potentiel des modèles et des outils du Web Intelligence, c’est aussi identifier des verrous scientifiques et techniques dont certains peuvent être partagés, enfin c’est percevoir des enjeux de recherche pour le futur.
- "Culture, Créativité et Web Intelligence", Lyon, jeudi 1er avril 2010 : Ce forum est conçu comme une journée d’ouverture des travaux de recherche sur le Web Intelligence vers d’autres communautés. La journée est l’occasion de plusieurs présentations de chercheurs de la région autour des problématiques de la modélisation des connaissances pour la création de documents numériques multistructurés, de la recherche et de la création de contenus multimédia, etc.
Les ateliers
- Ateliers ECOI : Extraction de COnnaissance et Images, Nice – Sofia Antipolis, le 29 janvier 2008 (organisateurs : Nicolas Loménie, Nicole Vincent et Rémy Mullot), et Strasbourg en janvier 2009 (organisateurs : Nicole Vincent Nicolas Loménie, Laurent Heutte, Laurent Wendling), dans le cadre des conférences EGC.
- Ateliers RISE (Recherche d’Information SEmantique) : ateliers dédiés à l'usage des ressources sémantiques dans les systèmes de Recherche d'Information Multimedia et/ou Multilingue dans le cadre du congrès INFORSID en 2009 à Toulouse, dans le cadre du congrès INFORSID en 2010 à Marseille et dans le cadre du congrès CORIA en 2011 à Avignon.
- Atelier PECUSI (Prise en Compte de l'Utilisateur dans les Systèmes d'Information) dans le cadre du congrès INFORSID’2010, Marseille, 25 mai 2010 avec l'objectif de réunir chercheurs et industriels travaillant à la prise en compte de l’utilisateur dans les SI pour une organisation et une utilisation adaptées, adaptables et/ou adaptatives de services, de contenus.
- Participation à l’organisation de la session « Document et mémoire d’entreprise » de la conférence INFORSID’2011, Lille, 2011
Les écoles thématiques
- Ecole d’Eté WI’2010 : Ecole d’Eté sur le Web Intelligence, Saint-Germain au Mont d’Or, 5-9 juillet 2010 : l’objectif de cette école d’été est de fournir un panorama des différents travaux relatifs au Web centré sur l'utilisateur.
- EARIA’2008 (8-10 octobre 2008, Toulouse), EARIA’2010 (Lyon, 8-10 novembre 2010): Ecole d’Automne en Recherche d’Information et Applications, l’EARIA a pour objectif principal la formation des doctorants dans le domaine de la Recherche d'Information (RI).
Les publications
- Numéro spécial Document Numérique et Multidisciplinarité 2011, dir. Josiane Mothe
- Numéros spéciaux récurrents Document Numérique des meilleures publications (articles étendus) des conférences INFORSID, CORIA et CIFED (depuis 2008).
- Revue ISI Ingénierie des systèmes d’Informations, chapitre sur « document numérique », 2011.
- "Vers une recherche d'information contextuelle, assistée et personnalisée", collection Hermès - "Recherche d'information et Web", dir. Patrice Bellot.
Les conférences
Internationales
- GREC’2009, Eigth IAPR International Workshop on Graphic Recognition, La Rochelle, 22-23 Juillet 2009, organisateur chair : Jean-Marc Ogier (150 participants)
- ECIR’2009 European Conference on Information Retrieval, Toulouse, 6-9 avril 2009
- CBMI’2010 Content Based Multimedia Indexing, Grenoble 23-25 juin 2010.
Nationales
- CORIA 2008, Cinquième COnférence en Recherche d'Information et Applications, Trégastel, 12-14 mars 2008
- INFORSID 2008, Fontainbleau, mai 2008.
- CIFED 2008, Colloque International Francophone sur l'Ecrit et le Document, 28-30 octobre 2008.
- CORIA’2009, Sixième COnférence en Recherche d'Information et Applications, Presqu’île de Giens, 5-7 mai 2009
- SNDRI’2010, Conférence fédérative sur le document numérique et la recherche d’information CORIA-CIFED 2010 en mars 2010 à Sousse en Tunisie , Salvatore Tabbone, Jean Yves Ramel (événement commun CIFED-CORIA 2010)
- Co-organisation de la conférence internationale IEEE/WIC/ACM International Conference on Web intelligence, Lyon, août 2011
- Conférence CORIA’2011, Avignon, mars 2011
- Colloque Analyse d'images et paléographie systématique, IRHT Paris, 14-15 avril 2011, pour marquer la conclusion du programme ANR GRAPHEM (Grapheme based Retrieval and Analysis for PalaeograpHic Expertise of medieval Manuscripts).
- Participation active à l'organisation de la DRR Document Recognition & Retrieval XIX avec comme co-président du comité de programme: Christian Viard-Gaudin, Univ. of Nantes (France), janvier 2012.
- Préparation du colloque SDNRI (2ème édition) mars 2012: CORIA-CIFED à Bordeaux.
Les grandes initiatives (Grand Emprunt, Equipex, Pôle technologique…)
Participation aux initiatives Grand Emprunt
1/Technopole de dématérialisation
- Participation de plusieurs laboratoires spécialistes du document numérique au technopole Dématérialisation et Valorisation des Contenus Numériques : piXL
- Mise en place d'une association de préfiguration Valconum qui rassemble industriels, académiques dans le monde du document numérique. L’objectif à terme est la création d’une structure innovante et compétitive de niveau international dans le domaine de la dématérialisation, associant acteurs publics et privés.
2/ Equipex/Labex
- -Partenaire de la demande d’Equipement d’Excellence national PLEIAD « Pour un Atelier National de Recherche et d’Innovation de dématérialisation et valorisation des Contenus » constitué à partir d’un consortium d’industriels et de laboratoires académiques. (09/2010)
- -Labex H²N « Humanités et Humanités Numériques » s’insérant dans l’initiative d’excellence du PRES Lyonnais et s’inscrivant dans la thématique « Savoirs, échanges et régulation » en collaboration avec Lyon 2, Lyon 3, et l’ENS de Lyon. (11/2010)
- -Equipex DS2H « Shared platform for Digital Social Science and Humanities » en collaboration avec l’ISH (Institut des Sciences de l’Homme), déposé en septembre 2011.
- Participation aux ARC (Communautés de Recherche Académique) de la région Rhône-Alpes
- Membre pilote de la création de l’ARC 5 « Cultures, Sciences, Sociétés et Médiations » de la région Rhône-Alpes. Animation de l’axe « Culture numérique ». Responsabilité du thème « Corpus numériques ».
- Membre pilote de la création de l’ARC 6 « Technologies de l’Information et de la Communication et Usages Informatiques Innovants » de la région Rhône-Alpes. Co-responsabilité du thème 3 « Mondes numériques pour l’humain et la société : conception, comportements et Usages » depuis septembre 2011
Numéro spécial de la revue Document Numérique sur le thème « Document et Humanités Numériques »
Semaine du Document Numérique et de la Recherche d’Information à Bordeaux, mars 2012
Rédaction d’un article de synthèse sur « Document et Mémoire d’entreprise » pour la revue ISI
Organisation de l’atelier sur les « Humanités Numériques » dans le cadre des assises i3, Toulon, mai 2012
Organisation d’une journée de formation à un système de Bibliothèques Numériques : Porphyry/Cassandre/LaSuli