La constitution de corpus en diachronie longue : méthodologies, objectifs et exploitations linguistiques et stylistiques

Colloque Recherche
13 octobre 2022 - 14 octobre 2022Saint-Martin-d'Hères - Domaine universitaire
L’objectif de ce colloque, co-organisé par l'UMR Litt&Arts et le LIDILEM, est d’interroger d’une part les choix constitutifs des corpus en diachronie longue, d’autre part les objectifs linguistiques mais aussi stylistiques ou littéraires qui déterminent leur constitution.

Depuis plusieurs décennies, la numérisation des textes anciens et les progrès du TAL pour les traiter et les interroger ont largement modifié nos habitudes de travail. Il est désormais possible d’obtenir des données quantitatives massives qui affinent notre perception des phénomènes linguistiques ou stylistiques pour des corpus écrits dans des états de langue anciens. Les corpus numériques créés depuis maintenant près d’un quart de siècle permettent d’envisager plus facilement la dynamique du français en diachronie longue dont l’aboutissement, après de nombreuses années de travail, de la Grande Grammaire Historique du Français (Marchello-Nizia et al., 2020) constitue un bel exemple. Nous définissons un corpus en diachronie longue comme un corpus périodisé, regroupant des textes choisis pour leur caractère représentatif des états de langue (de l’ancien français au français contemporain) des périodes couvertes par le corpus.

La première étape dans la construction d’un corpus, comme le rappellent Reppen (2010 : 31) et Nelson (2010 : 53), est de savoir précisément quel est l’objectif poursuivi. Par exemple, la sélection de sources comparables pour permettre des analyses quantitatives homogènes est essentielle et la temporalité prise en compte dépend des phénomènes que l’on veut observer (GGHF 2020 : 43). Ensuite, la construction d’un corpus est le fruit de choix raisonnés qui visent à satisfaire le principe de la représentativité. Celui-ci recouvre des réalités diverses en fonction des objectifs visés par celles et ceux qui construisent les corpus : les lexicographes qui souhaitent rendre compte du sens d’unités lexicales n’auront pas les mêmes exigences de représentativité que les linguistes et stylisticiens qui travaillent sur la caractérisation d’un genre textuel. Certains posent comme essentiels le fait de recourir exclusivement à des textes intégraux (Rastier, 2011 : 33), d’autres rappellent qu’un corpus ne peut être qu’un échantillon et qu’à ce titre, il peut être construit à partir d’échantillons (Renouf, 1987 ; Biber, 1993).

Le colloque ConCorDiaL2022 s'inscrit dans le cadre du projet « PhraséoRoChe » (Phraséologie du roman de chevalerie, XIIIe-XVIIe siècles, IRGA « Phraséo 13-18 »), dirigé par Julie Sorba (UGA, LIDILEM).

En pratique

L'inscription au colloque est obligatoire pour toutes et tous, et payante sauf pour les étudiant·es de l'UGA et les membres des laboratoires organisateurs.
Elle a lieu sur la plateforme AzurColloque, en cliquant sur ce lien
Le paiement par CB doit être réalisé sur cette même plateforme, tout de suite après l'inscription.
Toutes les informations sont disponibles en ligne sur le site du colloque.

Publié le  4 octobre 2022
Mis à jour le  6 octobre 2022