Zientzia eta Teknologiaren Corpusa
Helburuak eta azalpen orokorra
Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.
ztcorpusa.net gunean aurkezten dugun eta kontsulta daitekeen bertsioa corpus-proiektu zabal baten lehen emaitza da. Proiektu horretan diseinatu den corpusari eta corpusgintza-metodologiari buruzko informazio zehatza ZT corpusaren diseinua eta metodologia atalean duzu irakurgai.
- Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko.
- Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.
- Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea).
- Corpusaren lehen bertsioan, 7,6 milioi hitz daude, eta horietatik 1,6 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu ziren. Bigarren bertsioan 8,5 milioi hitz daude, horietako 1,9 milioi eskuz landuak
- Corpusgintza-lanak egiteko eta kudeatzeko, Corpusgile tresna garatu dugu; tresna horrek corpusa eratzeko urratsak hartzen ditu bere baitan, eta, etiketatze linguistikoa egiteko, IXA taldearen Eustagger eta Eulia tresnekin egiten du lan.
Interneten aurkezten dugun bertsioa proiektu zabal baten parte dela, eta corpus-proiektu hori bi atalez osatua da:
- Zientzia eta teknologiaren alorreko euskarazko testugintzaren adierazgarria izateko asmoz diseinatu den gune orekatua
- Eskuragarritasunaren arabera corpuseratzen diren obrez edo obra-zatiez osatutako atal irekia
Corpusa kontsultatzeko interfaze ahaltsua antolatu dugu, eta erabiltzaileak era askotako bilaketa bakunak eta konplexuak egiteko aukera izango du, horretarako parametro-multzo zabala erabiliz: lema, testu-forma, kategoria, eremua, generoa, corpus-atala (eskuz zuzendua/corpus osoa)...
Parte-hartzaileak:
- Zientzia eta Teknologiaren Corpusa UPV/EHUko IXA taldearen eta Elhuyar Fundazioaren lankidetza-proiektua da
Finantziazioa:
- Hizking21 ikerketa estrategikoko proiektuaren barnean hasi zen egiten. Hizking21 proiektuak honako laguntza hauek jaso ditu: Eusko Jaurlaritzaren Industria Sailaren Etortek programa (2002-2004) eta Gipuzkoako Foru Aldundiaren Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea programa (2004).
- Eusko Jaurlaritzaren Kultura Sailaren 2005eko Euskara eta Teknologia Berriak programaren laguntza jaso du
- Eusko Jaurlaritzaren Kultura Sailaren 2006ko IKT programaren laguntza ere jaso du
- Eusko Jaurlaritzaren Kultura Sailaren 2007ko IKT programaren laguntza ere jaso du
Gizarteratzea:
ZT corpusaren Interneteko bertsioa gizarteratzeko hiru modalitate antolatu ditugu:
- Interneteko doako kontsulta: web gune hau bera da asmo horren gauzatzea
- Ikerkuntzarako hitzarmen bidezko dohaintza: ikerkuntzan ari diren erakunde eta ikertzaile-taldeek doan eskura dezakete, hitzarmen bidez, eta ikerkuntzarako betiere
- Ustiapen komertzialerako lizentzia bidezko banaketa: corpuseko datuak hiztegigintzan, hizkuntza-teknologietako aplikazioetan eta abarretan erabiltzeko aukera eskaini nahi dugu; 2007tik aurrera, corpusa ELDAren baliabideen artean egongo da, eta bertatik kudeatuko da corpusaren banaketa
Azken bi aukerak aitzindariak dira euskal corpusen alorrean, orain artean eratu diren corpusek ez baitute kontsulta-sistema puntuala beste erabiltze-aukerarik eskaintzen.
Argitalpenak:
- Areta N., Gurrutxaga A., Leturia I., Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A. "ZT Corpus: Annotation and tools for Basque corpora". Corpus Linguistics 2007. Birmingham
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Genoa.
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2005. "Zientzia eta teknologiaren corpusa. Diseinua eta metodologia" EHU/UPV. Bilbao.
- Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A., Soroa A., Valverde A., N. Arteta, A. Gurrutxaga, I. Leturia, R. Saiz. 2005."Zientzia eta teknologiaren corpusa". Euskera zientifiko-teknikoa: Normalizaziotik homologazinora. Mendebalde Kultura Alkartea. Bilbao.
Hedabideetan agertutako albisteak: