Retour au haut de la page

R+D

Ressources de Corpus

Le corpus Eroski Consumer

Grâce à une interface web, il est possible de consulter tout le contenu du magazine Consumer comme cela se fait généralement dans les corpus (selon la forme d'un mot ou sa catégorie) et d'afficher les résultats de la même manière (en voyant le contexte et la quantité des occurrences du mot recherché). Par ailleurs, s'agissant d'un corpus multilingue, il est également possible de voir comment ce mot est dit dans d'autres langues.

Ce corpus multilingue est une ressource linguistique importante pour les professionnels de la langue mais également pour le grand public puisque toute personne intéressée aura la possibilité de le consulter sur Internet.

Le Corpus Consumer actuellement en ligne reprend les numéros du magazine publiés entre 1998 et 2009 : 131 numéros et 2 590 articles au total. Le tableau suivant montre le nombre total de phrases et de mots dans chacune des quatre langues du corpus (il faut tenir compte du fait que els versions des langues ont été réalisées à des époques autres que certains langues plus agglutinantes que d'autres, raison pour laquelle le nombre de mots est inférieur).

 Langue Phrases Mots
 Basque 2322502362536
 Espagnol 2922743758454
 Catalan 2145842760467
 Galicien 2086522549878

 

 

 

 

 

 

Les documents ont été alignés par phrases, pour pouvoir voir plus facilement comment les mots ont été traduits dans les autres langues : Cet alignement par phrases a été fait de manière automatique, il n'est donc pas parfait. Le pourcentage de bonnes réponses dans l'alignement du basque avec les autres langues est de 82-84% environ, et de 89-93% dans les trois autres langues.

Le Corpus Consumer a été créé par Elhuyar Hizkuntza Zerbitzuak et Eleka Ingeniaritza Linguistikoa pour Eroski Fundazioa.

Le séminaire « la confection moderne des corpus »

Un séminaire intitulé « la confection actuelle des corpus » organisé par Eroski Fundazioa, Euskaltzaindia et Elhuyar Fundazioa a eu lieu au siège de Euskaltzaindia à Bilbao, le 21 janvier 2010.

Le Corpus Eroski Consumer a été présenté lors de ces journées, pendant lesquelles les participants ont également souligné l'importance des corpus pour la linguistique et expliqué la situation actuelle des corpus en basque et les corpus multilingues.

Programme et documentation des conférences :

  • Ouverture Andoni Sagarna. Euskaltzaindia.
  • Les corpus de texte et la planification linguistique Xavier Gómez Guinovart. Responsable du séminaire d'Informatique Linguistique Université de Vigo
  • L'importance de la confection des corpus et la situation du basque Miriam Urkia. Euskaltzaindia.
  • Présentation du Corpus Consumer Eroski Igor Leturia, Elhuyar Fundazioa et Edurne Martinez, Eleka Ingeniaritza Linguistikoa.

 

Retour au haut de la page
twitter

Services

Retour au haut de la page
Elhuyar sinonimoen kutxa. Sinonimo eta antonimoen hiztegia
14,25€Acheter
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
24,70€Acheter
Retour au haut de la page Retour au haut de la page

Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Retour au haut de la page