ZT Corpusa
Objectifs et description générale
Le Corpus de Science et Technologie (ou corpus ZT) est un recueil organisé et étiqueté de textes sur la science et la technologie en basque, et son objectif principal est de devenir un outil de recherche sur l'utilisation du basque dans ces domaines. Il s'agit d'un corpus spécial (ou spécialisé), fruit de la collaboration entre le Groupe IXA (UPV) et la Fondation Elhuyar.
La version que nous présentons sur ztcorpusa.net (d'ores et déjà consultable) est la première étape vers un projet de corpus plus vaste. Si vous souhaitez plus d'informations détaillés sur le corpus conçu dans ce projet et la méthodologie de sa conception, consultez le site ZT corpusaren diseinua eta metodologia .
- Concernant la composition du corpus, nous avons utilisé comme référence des ouvrages du domaine scientifique et technologique publiés entre 1990 et 2002.
- Il s'agit d'un corpus classé en fonction du domaine (discipline) et du genre (type de texte).
- C'est un corpus étiqueté au niveau de la structure et du format de texte, ainsi que linguistiquement. Pour l'étiquetage linguistique, nous avons utilisé une technologie avancée de traitement automatique du basque (le système d'étiquetage Eustagger, du Groupe IXA).
- La première version du corpus contient déjà 7,6 millions de mots, dont 1,6 millions ont été révisés, désambiguïsés et corrigés manuellement. La deuxième version contient 8,5 millions de mots, dont 1,9 millions ont été traitées à la main.
- Pour élaborer le corpus et le gérer, nous avons conçu l'outil Corpusgile, qui "intériorise" les étapes nécessaires pour concevoir le corpus et utilise les outils Eustagger et Eulia, tous deux du Groupe IXA.
La version que nous présentons sur Internet fait partie d'un projet plus vaste organisé en deux parties :
- Le site équilibré, conçu pour servir d'indicateur d'élaboration de textes sur la science et la technologie en basque.
- La section ouverte, composée d'ouvrages ou de parties d'ouvrages intégrés dans le corpus en fonction de leur accessibilité.
Nous avons d'autre part conçu une interface puissante pour consulter le corpus, grâce auquel l'utilisateur pourra réaliser un grand nombre de types de recherches simples et complexes, en utilisant pour ce faire tout un ensemble de paramètres : sujet, forme de texte, catégorie, domaine, genre, partie du corpus (corrigé à la main / corpus intégral)...
Participants:
- Le Corpus de Science et Technologie est le fruit de la collaboration entre le Groupe IXA (UPV) et la Fondation Elhuyar.
Financement:
- Son élaboration a commencé dans le cadre du projet de recherche stratégique Hizking 21. Le projet Hizking 21 a reçu des aides des programmes suivants : Le programme Etortek (2002-2004) du Département de l'Industrie du Gouvernement basque et du programme du Réseau de la Science, de la Technologie et de l'Innovation (2004) de la Députation Forale de Gipuzkoa.
- Le programme Basque et Nouvelles Technologies (2005) du Département de la Culture du Gouvernement basque.
- Le programme TIC (2006) du Département de la Culture du Gouvernement Basque.
- Le programme TIC (2007) du Département de la Culture du Gouvernement Basque.
Diffusion:
- Nous avons conçu trois modalités de divulgation de la version d'Internet du corpus ZT:
- Recherche gratuite sur Internet : ce site web est la matérialisation du projet cité.
- Don pour la recherche par accord de collaboration : les institutions et équipes qui se consacrent à la recherche peuvent l'acquérir gratuitement, par accord de collaboration, à condition qu'il soit destiné uniquement à la recherche.
- Distribution par licence d'exploitation commerciale : nous offrons la possibilité d'utiliser les données du corpus dans l'élaboration de dictionnaires, dans les applications des technologies du langage… Le corpus fera très prochainement partie des ressources d'ELDA, à partir d'où sera gérée sa distribution.
Dans les options citées, les deux dernières sont pionnières dans le domaine des corpus basques, puisque les précédentes n'offraient d'autre possibilité d'utilisation que le système ponctuel de recherche.
Publications:
- Areta N., Gurrutxaga A., Leturia I., Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A. "ZT Corpus: Annotation and tools for Basque corpora". Corpus Linguistics 2007. Birmingham
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Genoa.
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2005. "Zientzia eta teknologiaren corpusa. Diseinua eta metodologia" EHU/UPV. Bilbao.
- Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A., Soroa A., Valverde A., N. Arteta, A. Gurrutxaga, I. Leturia, R. Saiz. 2005."Zientzia eta teknologiaren corpusa". Euskera zientifiko-teknikoa: Normalizaziotik homologazinora. Mendebalde Kultura Alkartea. Bilbao.
Informations publiées dans les médias: