Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Hizkuntza Zerbitzuak 

Itzuli orriaren hasierara

I+G unitatea

Corpus-tresnak

Helburuak eta azalpen orokorra

Zientzia eta Teknologiaren Corpusa, eta Elhuyarrek etorkizunean izan ditzakeen beste corpus proiektuak eraikitzen laguntzeko, tresna bat garatzeko asmoz, Corpusgile proiektua jarri zuen abian Elhuyarrek. Hauek dira proiektu horren helburu zehatzak:

  • Corpusgintza modu sistematikoan antolatzeko metodologia eta teknologia eskaintzea
  • Corpusgintzan arituko diren lantaldeek lan-eredu eta metodología bera erabiltzea une oro
  • Corpusgintzaren etorkizuneko helburua den erreferentzia-corpus orokorra egiteko baliagarria izango den metodologia adostua eta kontrastatua eskaintzea
  • Corpusgintza nazioarteko gaur egungo estandarren araberakoa izatea

Eta tresna hori egiteko arrazoiak ondokoak:

  • Hizkuntza-teknologien alorrean, corpus-beharra handia da, eta oso garrantzitsua da egiten diren corpusak berrerabilgarriak izatea
  • Corpusgintza prozesu konplexua da, baliabide eta tresna askoren integrazioa eskatzen du, eta prozesua osatzen duten urratsen gaineko kontrola eta horien arteko informazio- eta dokumentu-fluxuaren kontrola behar-beharrezkoa da
  • Corpusgintza diru-ezartze handiak eskatzen dituen prozesua izaki, kostuak minimizatzeko prozedurak eskaintzea interes handiko ideia da
  • Merkaturatu diren corpusgintza-tresna urriek ez dute euskararen prozesamendu automatikorako beharrezkoak diren tresnak eta baliabideak integratzen, eta ez dira egokiak euskarazko testu-corpusak eratzeko

Corpusgilek corpus orekatu bat egiteko urrats guztiak hartzen ditu bere baitan (inbentarioa, laginketa, bihurketa eta egitura-etiketatzea) eta etiketatze linguistikoko tresnak ere bertan integratzen dira (nahiz eta aparteko aplikazioak izan).

Corpusgile hainbat moduluz osatuta dago:

  • Testu-bilketa modulua: modulu honen eginkizuna corpusean sartuko diren testuak hautatzeko (lagintze-eredu estatistikoa barne), jasotzeko eta biltegiratzeko sistema diseinatzea eta inplementatzea da.
  • Egitura etiketatzearen modulua: modulu honetan, bilketa-moduluaren irteeratik jatorrizko formatuan datorren testu-lagina egitura-etiketatzerako erabakitzen den ereduaren araberako formatura bihurtzen da (TEI), eta ondoren egitura-etiketatze hori tresna automatiko edo erdiautomatikoen bidez aberasten da (laginketa, akats tipografikoak, estandarizazioa, esanahi etiketak...).

 

Itzuli orriaren hasierara

Zerbitzuak

Itzuli orriaren hasierara
Elhuyar Ikaslearen Hiztegia
24,70€Erosi
Elhuyar Ikaslearen Hiztegia
Elhuyar Ikaslearen Hiztegia
24,70€Erosi
Itzuli orriaren hasierara Itzuli orriaren hasierara

Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Itzuli orriaren hasierara