18 dic 2019

FERREMENTA EN LIÑA




O Centro Ramón Piñeiro presenta a nova versión do Corpus Documental do Galego Actual 'CORGA 3.2.'


           A nova versión desta ferramenta lingüística pensada para favorecer a incorporación do galego ás TIC supera os 40 millóns de palabras e inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliñan texto e voz.


          O  secretario xeral de Política Lingüística, Valentín García, participou o pasado día 16 no Pazo de San Roque, na presentación da nova versión do Corpus Documental do Galego Actual (CORGA 3.2.), unha ferramenta lingüística en liña desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) representativa do uso lingüístico do galego actual.
         Valentín García recordou que o Ramón Piñeiro, centro de investigación dependente da Consellería de Cultura e Turismo, “ten entre as súas finalidades fundacionais o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das tecnoloxías da información e da comunicación” e que “o do CORGA é un dos proxectos de investigación que se centran en darlle cumprimento a este obxectivo”.

Nova versión 3.2.

       
      O CORGA é un corpus documental desenvolvido no CRPIH, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.
O corpus da versión ampliada -accesible no enderezo http://corpus.cirp.gal/corga, foi enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos e contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.
         As principais novidades que mostra fronte á versión anterior son a visualización da información recuperada en forma de expresións coincidentes, de xeito que os resultados iguais se reducen a un, e a presentación, a modo de dicionario de frecuencias, de listaxes personalizadas relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema. Estas funcionalidades veñen completar as que xa se deron a coñecer na versión 3.1. do CORGA, agora ampliada.


FONTE LINGUA.GAL

No hay comentarios:

Publicar un comentario