Partenaires

CNRS
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Programmes 2010-2013 > Corpus oraux et typologie de l’articulation syntaxe / prosodie

Corpus oraux et typologie de l’articulation syntaxe / prosodie

Responsable du programme : Martine Vanhove (LLACAN UMR 8135)
Co-responsables : Amina Mettouchi (LACNAD) ; A. Rialland et C. Patin (LPP)
Laboratoires impliqués de la fédération : 5 (LLACAN, LACITO, LPP, LACNAD, DDL)

Participants de la fédération :
Chercheurs et enseignants-chercheurs LLACAN : B. Caron, P. Roulon-Doko, M.C. Simeone-Senelle, M. Vanhove ; LACITO : E. Adamou ; LPP : C. Patin, A. Rialland ; LACNAD : S. Chaker, M. El-Adak, H. Smaïl DDL : S. Manus, F. Rose Doctorants : S. Behessou, M. Boudjelal, L. Pecqueur (LACNAD)

Langues étudiées
afar, arabes (marocain, yéménite), bedja, berbères (kabyle, chleuh, tamazight, rifain), dahalik, émérillon, gbaya ‘bodoe, haoussa, maltais, mehri, mojeño trinitario, nashta, pomaque, romani, soqotri, zaar

Thématique
Valorisation de corpus oraux pour l’étude de l’articulation entre syntaxe, structure de l’information et prosodie.

Objectifs scientifiques et intérêt du programme
Le contexte international est propice aux études sur les corpus de langues parlées qui sont en pleine expansion. Les nouvelles technologies en matière de stockage, de diffusion et d’exploitation des enregistrements sonores, couplées aux outils de traitement automatique du langage, ouvrent de nouvelles perspectives. De nombreux pays occidentaux proposent désormais des corpus ou bases de données à la communauté internationale pour des langues de grande diffusion (langues germaniques, romanes, slaves, cf. le portail sur les corpus de David Lee (http://devoted.to/corpora), ou le projet sur les langues romanes C-Oral Rom, LABLITA, Florence). Des projets de sauvegarde de langues en danger se sont également développés (e.g. Endangered Language Documentation Programme (School of Oriental and African Languages, Londres R.U.) avec pour objectif l’archivage de données sonores brutes ou semi-annotées. Par contre, il n’existe que très peu de corpus en ligne qui soient exploitables par les typologues intéressés par l’interaction entre prosodie, syntaxe et structure de l’information.

Les avancées théoriques et méthodologiques déjà réalisées par la vingtaine de chercheurs français, italiens, néerlandais et les deux experts étrangers (B. Comrie et S. Izre’el) membres du projet CORPAFROAS (voir ci-dessous), d’une part, et, d’autre part, l’accumulation de corpus oraux dans des langues très variées, recueillis à partir des données de terrain par les chercheurs de la Fédération (voir le projet d’Isabelle Léglise sur le recensement et l’archivage de ces données dans la Fédération TUL), et enfin la participation de spécialistes de phonétique et de prosodie d’un autre laboratoire de la Fédération, le LPP, offrent des conditions idéales pour amplifier le projet au sein de la Fédération, dans une triple direction :

- Mettre les résultats obtenus pour les langues afroasiatiques à l’épreuve d’autres langues sur un corpus-pilote

- Développer le corpus en ligne pour les langues afroasiatiques, et éventuellement d’autres.

- Confronter les approches théoriques (école d’Aix-en-Provence, théorie de l’énonciation) pour l’oral spontané qui sous-tendent essentiellement les travaux sur les langues afroasiatiques avec des approches fondées sur l’élicitation de corpus pour déterminer les unités prosodiques (“phonologie de laboratoire”, théorie de l’optimalité).

Les objectifs sont de deux ordres :
1) Déterminer

- Quelles sont les unités de l’oral spontané (par opposition à celles de l’écrit) ? Sont-elles comparables d’une famille de langues à l’autre, d’une langue à l’autre ? Existe-t-il réellement des universaux en la matière ?

- Ces unités sont-elles de nature différente selon les systèmes prosodiques (accentuel/tonal) ?

- Comment s’articulent prosodie et morphosyntaxe (en particulier au niveau de la structure de l’information) ?

- Quel degré optimal d’unification des annotations est-il possible d’atteindre, pour à la fois respecter la spécificité des langues, et pouvoir comparer les catégories morphosyntaxiques ?

2) Mettre au point un questionnaire pour l’élicitation de corpus dans des langues sans écriture permettant de déterminer les unités prosodiques et le tester sur un petit échantillon de langues afin de le confronter aux résultats obtenus par l’analyse de corpus spontanés. Les recommandations suivies pour la mise en ligne des corpus seront celles du Guide des Bonnes Pratiques pour la constitution, l’exploitation, la conservation et la diffusion des corpus oraux (http://www.culture.gouv.fr/culture/... ), elles-mêmes en accord avec les normes internationales dans ce domaine. Le projet pourrait être un projet transversal à la Fédération TUL, permettant de valoriser les corpus oraux existants ou à constituer au cours de la première année du projet, d’associer étroitement linguistes de terrain, syntacticiens, phonéticiens/prosodiciens et ingénieurs.

Un projet ANR (CORPAFROAS) actuellement en cours (http://www.univ-nantes.fr/52488077/...), dirigé par Amina Mettouchi (LACNAD et LLING, Universite de Nantes) et dont deux équipes constitutives de la Fédération TUL sont partenaires, le LACNAD et le LLACAN, met en place depuis l’automne 2007 un corpus pilote pour les langues afroasiatiques. Le corpus-pilote sera accessible en ligne en 2010 à la communauté des chercheurs, notamment en typologie. Le projet établit une méthodologie de partage et d’unification des données orales (spontanées) avec découpage en unités prosodiques à partir de leur analyse théorique, de transcriptions unifiées de manière systématique, accompagnées d’annotations morphosyntaxiques, et associant son et texte. Grâce à l’expertise acquise, il est possible d’envisager d’étendre l’expérience à d’autres familles et aires linguistiques.

Résultats attendus 1. Mise en ligne des corpus annotés (transcription, gloses, traduction) avec indexation son-texte pour les langues concernées par le projet. La durée des corpus pourra varier d’une heure minimum à trois heures maximum, en fonction des difficultés et spécificités des corpus et des langues. 2. Publication d’un ouvrage collectif sur la typologie des unités prosodiques et sur les systèmes d’articulation entre syntaxe, structure de l’information et prosodie. 3. Un projet européen de corpus en ligne pour la typologie sera monté en 2008-09 pour faire suite au projet CORPAFROAS. Des discussions sont déjà engagées en vue du montage du projet entre A. Mettouchi et B. Comrie. Le projet de la fédération pourra être rattaché, en totalité ou en partie, à celui-ci.