Facebook Twitter Newsletter Linkedin RSS

Portail de la presse

Diadeis numérisation, groupe Numen, remporte l’un des tous premiers financements R&D des Investissements d’avenir.

Alors même que la numérisation des contenus (livres, dossiers, iconographie,…) se développe, Diadeis Numérisation prend de l’avance et relève le défi du traitement des contenants par l’amélioration de la qualité des textes issus de la numérisation.
Diadeis, leader européen de la numérisation patrimoniale, a renforcé ses budgets R&D autour de PACTE (Projet d’Amélioration de la Capture Textuelle) pour entrer dans le programme "Développement de l'économie numérique" des Investissements d'Avenir. Ce programme gouvernemental mis en place au niveau national est géré dans le cadre du Fonds pour la Société Numérique, par la Caisse des Dépôts et Consignation.

Le dossier PACTE de Diadeis Numérisation a été retenu dans le cadre de l’appel à projets "Technologies de numérisation et valorisation des contenus culturels, scientifiques et éducatifs n°1".
PACTE vise l’amélioration de la performance des processus de capture textuelle (OCR, reconnaissance d’écriture manuscrite, saisie manuelle, rédaction) par l’utilisation de méthodes de traitement de la langue sur les contenus issus de cette capture. Les apports scientifiques du projet concernent la combinaison des méthodes linguistiques statistiques ou hybrides et des techniques d’apprentissage machine, en déterminant des modèles d’erreurs et des modèles de langue. L’information linguistique intervient dans l’arbitrage entre hypothèses de reconnaissance ou de correction de mots.
Ses applications concernent en premier lieu les projets de numérisation du patrimoine écrit, dans un contexte multilingue, et plus généralement le traitement de tout corpus documentaire écrit.

L’objectif est d’obtenir grâce à PACTE moins de 0,5% de mots erronés dans les corpus documentaires traités, soit 10 fois mieux que les meilleurs moteurs OCR actuels.

Le consortium PACTE, mené par DIADEIS Groupe Numen, regroupe également deux autres entreprises, A2iA et Isako, et deux laboratoires, Alpage INRIA/Paris VII, l’une des principales équipes de recherche linguistique en France et le LIUM, Laboratoire informatique de l’Université du Maine, spécialiste des méthodes statistiques en linguistique. Il regroupe ainsi l’ensemble des problématiques métier, les ressources lexicales, l’expertise scientifique et la technologie nécessaires pour mener à bien le projet.

D'un point de vue économique, le projet PACTE doit permettre l’accroissement de la compétitivité des entreprises impliquées, tant dans la conduite de projets de numérisation que dans la mise au point de technologies performantes en lecture automatique de textes. L'ensemble de la filière française de numérisation patrimoniale en tirera profit pour rattraper un retard technologique préjudiciable. Enfin, en permettant la production de masses importantes de contenus numériques de très haute qualité, le projet va également bénéficier aux détenteurs de fonds d’archives qui pourront exploiter les données ainsi qu’aux producteurs et diffuseurs de contenus. D’une manière générale, les bénéfices sont multiples : amélioration de la qualité de la recherche dans les vastes fonds documentaires, facilité de l’indexation, extraction efficace de données, optimisation de la catégorisation et du tri des documents, quelle que soit leur nature. Sont visés en
effet les documents du patrimoine culturel ou documentaire (ouvrages de bibliothèques, recueils, instruments de recherche, journaux…), le patrimoine administratif (registres, plans) et le patrimoine d’entreprise (archives, contrats, dossiers…). PACTE participe ainsi directement à la préservation, à la diffusion et à la valorisation économique du patrimoine, grâce à la très haute qualité de restitution des contenus.
Ce projet s’inscrit pleinement dans la stratégie générale du Groupe Numen qui consacre en permanence 5% de son chiffre d’affaires à la Recherche & Développement. Les domaines couverts concernent divers aspects critiques liés à la numérisation des documents, l’indexation et la capture d’information et l’automatisation des tâches : traitements d’image post-numérisation (amélioration de la qualité), compression d’image haute performance, classification automatique de documents, text-mining et extraction d’information, moteurs de workflow génériques.
« Nous sommes très heureux que le projet PACTE ait été retenu», déclare François CHAHUNEAU, Directeur des Technologies de Diadeis. « Ce financement va nous permettre d’accélérer fortement les travaux de R&D déjà engagés chez Diadeis en matière de correction automatisée ou assistée des contenus textuels. La technologie OCR actuelle, très mature, tend à plafonner en ce qui concerne la reconnaissance des formes de caractères. On ne pourra dorénavant progresser de manière significative qu’en prenant en compte un contexte linguistique plus large que le mot, comme le fait inconsciemment un lecteur humain. En se plaçant résolument dans un contexte de post-traitement, l’approche PACTE contribuera à faire progresser l’état de l’art, indépendamment des méthodes de production de texte et des moteurs OCR utilisés».



--
Contact Presse:

Oxygen



Profil du diffuseur :
http://www.categorynet.com/reseaucategorynet/profile?userid=70731



--

Communiqué envoyé le 22.03.2012 10:20:54 via le site Categorynet.com dans la rubrique Défense / Sécurité

Diffuser votre communiqué de presse : http://www.diffuseruncommuniquedepresse.com

______