Erauzterm
Objetivos y descripción general
- Investigar y desarrollar técnicas de extracción automática de términos de textos y corpus escritos en euskera
- Implementar una herramienta mediante dichas técnicas
Para la extracción automática de términos se emplean diversos procedimientos; no obstante, todos ellos están basados en dos técnicas principales: las técnicas lingüísticas y las estadísticas. Dado que el euskera es una lengua aglutinante, los resultados del método exclusivamente estadístico no serían aceptables (dispersión de datos resultante de la flexión). Por tanto, hemos optado por un método híbrido. En primer lugar, se emplean técnicas lingüísticas para extraer los candidatos a términos; en segundo lugar, técnicas estadísticas para realizar un ranking de los mismos.
Las áreas que hemos investigado en el desarrollo de las técnicas lingüísticas son las siguientes:
- Análisis de la estructura morfosintáctica de los términos vascos y especificación de los patrones principales o más productivos (N, NN, NApos, AprepN, NNApos, AprepNApos...)
- Gramática y transductor para marcar automáticamente los sintagmas que cumplan los patrones morfosintácticos seleccionados (extracción de términos candidatos de máxima longitud)
- Análisis de los términos ‘anidados’ que se encuentran dentro de los términos candidatos de máxima longitud, para extraer los términos candidatos que éstos últimos pudieran contener
- Estudio de las variantes terminológicas: tipos de variantes y técnicas de tratamiento automático de algunas de ellas (para relacionarlas entre sí)
Las áreas que hemos investigado en el desarrollo de las técnicas estadísticas son las siguientes:
- Medidas de determinación del termhood (grado en que una palabra o secuencia de palabras pueda ser considerada un término en cierto dominio) de los términos candidatos simples
- Medidas de clasificación del termhood de los términos candidatos multipalabra. Medidas de asociación estadística (AM): información mutua (MI, MI3), razón de verosimilitud (LR), ji-cuadrado (χ2), t-score, coeficiente Dice...
La herramienta Erauzterm
Los módulos de Erauzterm
- Creador de corpus
- Extractor automático de términos
- Módulo lingüístico: etiquetado del corpus, extracción de términos candidatos → base de datos de términos candidatos.
- Módulo estadístico: cálculo de las medidas estadísticas de los términos candidatos → ranking de los términos candidatos
- Navegador de corpus
- Opciones para ordenar la lista de candidatos (alfabéticamente, según la frecuencia, según las medidas de asociación)
- Información sobre los términos candidatos: forma canónica, patrón morfosintáctico, frecuencia, medida de asociación seleccionada (LLR, en la imagen)
- Visualización de los contextos de los términos candidatos: concordancias (KWIC) y contexto más amplio
Visualización de las variantes de los términos candidatos (T: ortotipográfico; M: morfosintáctico; S: sintáctico) - Especificación del área de especialidad
- Validación de términos
- Exportación de términos
Interfaz del usuario

Financiación
- Subvención de la convocatoria del 2002 del programa Saiotek del Departamento de Industria, Comercio y Turismo del Gobierno Vasco.
- Subvención de la convocatoria del 2003 del programa Saiotek del Departamento de Industria, Comercio y Turismo del Gobierno Vasco.
- Subvención de la convocatoria del 2003 del programa Sareko Agenteak de la Diputación Foral de Gipuzkoa
Difusión
- Medios
- Artículos
- Gurrutxaga A., Saralegi X., Ugartetxea S., Alegria I. 2005. "Erauzterm: euskarazko terminoak erauzteko tresna erdiautomatikoa". Mendebalde Kultur Alkartea, IX. Jardunaldiak: Euskera zientifiko-teknikoa. Bilbao.
- Alegria I., Gurrutxaga A., Lizaso P., Saralegi X., Ugartetxea S., Urizar R. 2004. "Linguistic and Statistical Approaches to Basque Term Extraction". GLAT 2004: The production of specialized texts. Barcelona.
- Alegria I., Gurrutxaga A., Lizaso P., Saralegi X., Ugartetxea S., Urizar R. 2004. "An Xml-Based Term Extraction Tool for Basque". 4th International Conference on Language Resources and Evaluations (LREC). Lisbon.