Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D

Extracción de léxico y terminología

Erauzterm 

Objetivos y descripción general
  • Investigar y desarrollar técnicas de extracción automática de términos de textos y corpus escritos en euskera
  • Implementar una herramienta mediante dichas técnicas

Para la extracción automática de términos se emplean diversos procedimientos; no obstante, todos ellos están basados en dos técnicas principales: las técnicas lingüísticas y las estadísticas. Dado que el euskera es una lengua aglutinante, los resultados del método exclusivamente estadístico no serían aceptables (dispersión de datos resultante de la flexión). Por tanto, hemos optado por un método híbrido. En primer lugar, se emplean técnicas lingüísticas para extraer los candidatos a términos; en segundo lugar, técnicas estadísticas para realizar un ranking de los mismos.

Las áreas que hemos investigado en el desarrollo de las técnicas lingüísticas son las siguientes:

  • Análisis de la estructura morfosintáctica de los términos vascos y especificación de los patrones principales o más productivos (N, NN, NApos, AprepN, NNApos, AprepNApos...)
  • Gramática y transductor para marcar automáticamente los sintagmas que cumplan los patrones morfosintácticos seleccionados (extracción de términos candidatos de máxima longitud)
  • Análisis de los términos ‘anidados’ que se encuentran dentro de los términos candidatos de máxima longitud, para extraer los términos candidatos que éstos últimos pudieran contener
  • Estudio de las variantes terminológicas: tipos de variantes y técnicas de tratamiento automático de algunas de ellas (para relacionarlas entre sí)

Las áreas que hemos investigado en el desarrollo de las técnicas estadísticas son las siguientes:

  • Medidas de determinación del termhood (grado en que una palabra o secuencia de palabras pueda ser considerada un término en cierto dominio) de los términos candidatos simples
  • Medidas de clasificación del termhood de los términos candidatos multipalabra. Medidas de asociación estadística (AM): información mutua (MI, MI3), razón de verosimilitud (LR), ji-cuadrado (χ2), t-score, coeficiente Dice...
La herramienta Erauzterm

Los módulos de Erauzterm

  • Creador de corpus
  • Extractor automático de términos
    • Módulo lingüístico: etiquetado del corpus, extracción de términos candidatos → base de datos de términos candidatos.
    • Módulo estadístico: cálculo de las medidas estadísticas de los términos candidatos → ranking de los términos candidatos
  • Navegador de corpus
    • Opciones para ordenar la lista de candidatos (alfabéticamente, según la frecuencia, según las medidas de asociación)
    • Información sobre los términos candidatos: forma canónica, patrón morfosintáctico, frecuencia, medida de asociación seleccionada (LLR, en la imagen)
    • Visualización de los contextos de los términos candidatos: concordancias (KWIC) y contexto más amplio
      Visualización de las variantes de los términos candidatos (T: ortotipográfico; M: morfosintáctico; S: sintáctico)
    • Especificación del área de especialidad
    • Validación de términos
    • Exportación de términos
Interfaz del usuario

Erauzterm intefazea

Financiación
  • Subvención de la convocatoria del 2002 del programa Saiotek del Departamento de Industria, Comercio y Turismo del Gobierno Vasco.
  • Subvención de la convocatoria del 2003 del programa Saiotek del Departamento de Industria, Comercio y Turismo del Gobierno Vasco.
  • Subvención de la convocatoria del 2003 del programa Sareko Agenteak de la Diputación Foral de Gipuzkoa
Difusión

 

Volver al inicio de la página

Servicios

Volver al inicio de la página
Elhuyar sinonimoen kutxa. Sinonimo eta antonimoen hiztegia
14,25€Comprar
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
22,30€Comprar
Volver al inicio de la página Volver al inicio de la página

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página