Objectifs et description générale
Afin de développer un outil pour aider à la construction d'autres projets de corpus qui pourront être encouragés par Elhuyar et Zientzia eta Teknologiaren Corpusa, la Fondation Elhuyar a mis en marche le projet Corpusgile. Les objectifs spécifiques du projet sont les suivants :
- Offrir une méthodologie et la technologie pour organiser automatiquement l'élaboration de corpus.
- Que les équipes qui vont concevoir le corpus utilisent le même modèle et la même méthodologie de travail.
- Offrir une méthodologie élaborée et contrastée pour concevoir le corpus général de référence, objectif principal du secteur pour l'avenir.
- Que l'élaboration du corpus se fasse en fonction des normes internationales actuelles.
Les motifs d'organisation de cet outil sont les suivants :
- Il existe un grand besoin de corpus dans le domaine des technologies linguistiques, et il est très important que celles qui sont conçues soient réutilisables.
- L'élaboration de corpus est un processus très complexe, puisqu'il exige l'intégration de nombreuses ressources et de nombreux outils ; par conséquent il est indispensable de contrôler les étapes du processus et le flux d'informations et de documents entre elles.
- L'élaboration d'un corpus exige de grands investissements financiers, et il est donc très intéressant de pouvoir proposer des procédures pour réduire les coûts.
- Les rares outils de conception de corpus disponibles sur le marché ne contiennent pas les ressources et outils nécessaires pour le traitement automatique du basque, et ne sont pas non plus adaptés pour élaborer des corpus de textes en basque.
Corpusgile est composé de plusieurs modules :
- Module de recueil de textes : la fonction de ce module est de concevoir et de mettre en place un système de recueil et de stockage de textes à inclure dans le corpus.
- Module d'étiquetage de la structure : Dans ce module, nous effectuons la conversion du format original de l'échantillon de texte provenant de la sortie du module de recherche au format du modèle choisi pour étiqueter la structure. Puis nous enrichissons l'étiquetage de la structure avec des outils automatiques ou semi-automatiques (échantillonnage, erreurs typographiques, standardisation, étiquettes de sens...).
Difussion
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Gêne.