Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D+i

Extracción de léxico y terminología

AzerHitz 

Objetivos y descripción general

Las técnicas destinadas a extraer léxico bilingüe que se han desarrollado hasta el momento están orientadas principalmente a la extracción de léxico a partir de corpus paralelos o memorias de traducción. Sin embargo, esta estrategia presenta puntos débiles. Por un lado la fuente de las extracciones está compuesta por segmentos traducidas manualmente, y por tanto las equivalencias logradas son fruto de un proceso de traducción.

Este hecho podría provocar una cierta falta de naturalidad. Por otro lado, los corpus paralelos son un recurso muy escaso, un problema todavía mas acentuado en el caso de idiomas con pocos recursos lingüísticos. En consecuencia, el interés por los corpus comparables y su explotación a crecido de manera significativa.

Los corpus comparables plurilingües son colecciones de textos escritos al menos en dos idiomas, los cuales no son traducciones los unos de los otros, a diferencia de lo que ocurre en los corpus paralelos. Sin embargo sí que comparten algunas características, como pueden ser el área del conocimiento; fechas de publicación; género o registro; etc. Estas características influirán en el tipo de información a analizar o extraer. Por ejemplo, si los textos pertenecen al mismo área del conocimiento (e.g., Medicina) puede extraerse terminología plurilingüe de ese área.

El principal objetivo de AzerHitz es investigar y desarrollar técnicas para extraer léxico bilingüe a partir de corpus comparables, de manera semiautomática. Como punto de partida se ha tomado el trabajo realizado en los proyectos Erauzterm y ELexBI. A pesar de que los recursos y técnicas utilizadas para este proyecto difieren en gran medida, hay ciertos aspectos que se mantienen para los dos tipos de extracción.

La idea de la que parte AzerHitz es la siguiente: ”Las palabras que aparecen en torno a una determinada palabra son similares en dos idiomas.” Es decir, el contexto de una palabra es similar en diferentes idiomas. AzerHitz busca traducciones de palabras utilizando esta similitud.

El segundo objetivo de este proyecto es diseñar medidas para calcular el nivel de similitud entre corpus comparables. Si somos capaces de medir hasta que punto se parecen dos colecciones de textos de diferentes lenguas, podremos lograr corpus comparables que sean mas adecuados para llevar a cabo la extracción de léxico.

Financiación

Subvención de la convocatoria del 2007 del programa Saiotek del Departamento de Industria, Comercio y Turismo del Gobierno Vasco.

Difusión
Volver al inicio de la página

Servicios

Volver al inicio de la página
Elhuyar hiztegi txikia. Euskara/Gaztelania - Castellano/Vasco
21,85€Comprar
Geologia Hiztegi entziklopedikoa
Geologia Hiztegi entziklopedikoa
11,40€Comprar
Volver al inicio de la página Volver al inicio de la página
Elhuyar Zientzia eta Teknologia Hiztegi Entziklopedikoa
Itzulterm

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página