Partenaires

CNRS
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Programmes 2010-2013 > Conservation et Mutualisation des ressources linguistiques orales

Conservation et Mutualisation des ressources linguistiques orales

Programme inter-fédérations
Responsables du programme : Isabelle Léglise (SeDyL) & Lorenza Mondada (ICAR)

Participants de la fédération
Les participants ont été contactés sur la base de leur expertise dans certains domaines linguistiques ou techniques et de leur connaissance de projets nationaux ou internationaux de constitution de corpus, de bases de données, de numérisation, d’archivage, de publication des ressources etc. Les différentes plateformes existantes seront représentées (CRDO, CLAPI, CNRTL, liens avec ADONIS etc.). Ponctuellement, il sera fait appel à d’autres collègues pour leur expertise dans un champ de connaissance particulier (notamment MC Borne-Varol, D. Caubet ou S. Chaker, chacun pour les corpus dans leur domaine, pour les langues de France déterritorialisées).

Laboratoires membres de TUL

Chercheurs et enseignants-chercheurs : CELIA (UMR 8133) : I. Léglise, P. Vaillant ; LACITO (UMR 7107) : E. Adamou, B. Michailovsky ; LCF (UMR 8143) : G. Ledegen

ITA : CELIA (UMR 8133) : D. Troiani, J.-M. Hoppan ; LACITO (UMR7107) : M. Jacobson (actuellement détaché à la Direction des Archives) ; LLACAN (UMR 7594) : C. Chanard

Laboratoires membres de l’ILF

Chercheurs et enseignants-chercheurs : ATILF (UMR 7118) : E. Canut, J.-M. Pierrel ; BCL (UMR 6039) : T. Scheer ; ICAR (UMR 5191) : L. Mondada

Thématique principale de l’axe
Les pratiques et méthodes d’un certain nombre de sous-disciplines des sciences du langage se sont modifiées avec l’existence de corpus de plus en plus importants et l’utilisation de traitements informatisés. Cependant, alors que des banques de données existent aux Etats-Unis et dans certains pays européens comme l’Angleterre, l’Allemagne ou l’Espagne, ces ressources sont encore insuffisamment développées en France (Balthasar et Bert, 2005 : 13). Si de très nombreux corpus ont été récoltés, et un certain nombre de bases de données construites, un problème de mutualisation des ressources demeure. Pour les corpus de français parlé, un travail sans pareil pour d’autres domaines linguistiques a été réalisé (cf. notamment Cappeau et Seijido). Pour les langues en danger et les variétés orales des langues du monde, un bilan des ressources existantes fait encore défaut. Parallèlement, les Fédérations CNRS, TUL et ILF sont sollicitées – notamment par le Ministère de la Culture – au travers d’appels d’offre visant à publier des données linguistiques. Il semble urgent d’engager une réflexion collective sur une politique de mutualisation et de publication des ressources.

Objectifs scientifiques
Les fédérations TUL et ILF travaillent avec le Conseil scientifique de l’Observatoire des pratiques linguistiques de la DGLFLF, conseil présidé par Pierre Encrevé, pour définir des priorités pour les années à venir en ce qui concerne les ressources à constituer sur l’oral à propos des langues de France. Pour prolonger les étapes annuelles du programme Corpus de la parole et pour les inscrire dans une cohérence à plus long terme, un accord cadre a été signé entre le CNRS et le Ministère de la culture (2008-2011). Les actions communes précédentes ont rassemblé et rendu disponible une partie des corpus existants. Il s’agirait à présent de faire le bilan des ressources existantes, prévoir des actions pour un certain nombre de domaines linguistiques et d’usages non couverts et encourager la mutualisation des ressources.

Au niveau des fédérations, les objectifs de ce programme transversal sont de :

  • définir l’existant, les manques, les besoins en veillant à préciser le public visé par les différentes ressources (ressources pour de futurs travaux de recherche, pour des applications didactiques particulières, pour conservation patrimoniale et retour aux communautés concernées, pour information du grand public etc.)
  • réfléchir à des éléments de politique de conservation des ressources
  • réfléchir à des éléments de politique de publication en ligne de quelques données exemplifiant les langues et situations sur lesquelles on travaille dans le cadre des 2 fédérations
  • encourager la mise en commun des ressources entre laboratoires et équipes de recherche en faisant le point sur les standards techniques (notamment des métadonnées facilitant la réutilisation des données)
  • trouver des institutions partenaires pour envisager de nouvelles collaborations
  • trouver des institutions partenaires pour envisager de nouvelles collaborations
  • permettre des interactions entre de nouveaux projets et les projets existants qui développent et utilisent des corpus oraux

Il s’agira d’opérer un état des lieux des ressources et une réflexion sur les besoins (des chercheurs, des laboratoires, voire des institutions), de gérer les relations avec certains bailleurs de fonds, comme le Ministère de la Culture, la DGLFLF, et d’orienter les demandes éventuelles de chercheurs et d’équipes vers des lieux d’archivage (en collaboration avec les lieux existants, le projet ADONIS, ou encore les projets du réseau des MSH), des moyens de financements (divers partenaires possibles) etc.

A un niveau européen, le projet CLARIN vise à rendre accessibles et interopérables les instruments et ressources linguistiques déjà développés (/off-the-shelf tools and solutions/). La présence de JM Pierrel (ATILF), correspondant français au sein du projet européen, permettra d’assurer un lien nécessaire avec les travaux de l’atelier.

Résultats attendus

Il s’agira de réaliser :

  1. un état des lieux des ressources en France (corpus, bases de données)
  2. des propositions et recommandations pour la mutualisation, la publication et l’archivage de l’existant.