CRPIH

18/06/2015
Logo Corpus de Referencia do Galego Actual (CORGA)

O Centro Ramón Piñeiro para a Investigación en Humanidades inclúe, entre os seus obxectivos fundacionais, o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. Co proxecto CORGA preténdese contribuír a ese obxectivo, poñendo a disposición da comunidade científica un novo recurso accesible a través de Internet que posibilite a obtención de datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos da historia recente da nosa lingua.

O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico, na que están representados os diferentes tipos de textos da lingua galega actual (xornalísticos, literarios, etc.). Cronoloxicamente comprende textos publicados dende 1975 ata a actualidade.

Dirección/Coordinación

Director técnico da Área de Lingüística

Guillermo Rojo

Directora

Marisol López Martínez

Director adxunto

Francisco García Gondar

Coordinadora do equipo lingüístico

Eva Domínguez Noya

Coordinador informático

Fco. Mario Barcala Rodríguez

Persoal vinculado

Equipo lingüístico

Iria Gael Romay Fernández (2014-)

Natividad Otero Ares (2014-)

Ana Belén Crespo Bastos (2012-2014)

Marcos García Salido (2012-1013)

Outros membros do equipo informático

Fernando Magán Muñoz

José Carlos Sánchez Rivas

Membros anteriores do equipo lingüístico

Anxo Bea Sampedro (2009-2012)

Laura López Fernández (2009-2012)

Paula Gómez López (2008-2011)

Olalla Márquez Losada (2007-2010)

Isabel Porto Cacheiro (2006-2009)

Diego Bernal Rico (2009-2009)

Iria del Río Gayo (2007-2008)

Bárbara Canziani Kristensen (2007-2008)

Mario Regueira Fernández (2007)

Silvana Castro García (2006-2007)

Susana Vázquez Recarey (2004-2007)

Amparo Cereixo Silva(2003-2006)

Sonia Gómez Castro (2004-2006)

Belén López Gómez (2004-2006)

Sandra Domínguez Carreiro (2005-2006)

Damián Suárez Vázquez (2003-2005)

Luísa Pita Rubido (2001-2004)

Beatriz Fernández Paredes (2001-2004)

Cristina Blanco González (2001-2004)

Ana Ledo Villaverde (2000-2003)

Déborah González Martínez (2001-2003)

Xosé Bestilleiro Bello (2003-2003)

Xesús Mosquera Carregal (2000-2002)

M. Teresa Araújo García (1994-2001)

Sonia Varela Pombo (1998-2001)

Susana Ferreiro García (1998-2001)

Susana García Rodríguez (1997-2000)

Mónica Martínez Baleirón (1998-2000)

Antón Porto Sánchez (1998-1999)

Inés Diz Gamallo (1994-2001)

Pilar Vázquez Grandas (1994-1998)

M. Teresa Monteagudo Cabaleiro (1994-1998)

Membros anteriores do equipo informático

Miguel Ángel Molinero Álvarez (2005-2006)

Jesús Rodríguez Castro (1995-1998)

Publicacións resultantes

  • Listado de frecuencias do Corpus de Referencia do Galego Actual (CORGA), versión 1.7, Guillermo Rojo, Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala. Centro Ramón Piñeiro para a Investigación en Humanidades, <http://corpus.cirp.es/corga/frecuencias.tar.gz>, 2015.
  • Partículas exceptivas: problemas de delimitación e proposta de análise, Eva Domínguez Noya, Cadernos de Lingua, 34, 2012, pp. 5-64.
  • As expresións de futuro de 'ir + infinitivo' na prensa escrita, María Sol López Martínez. Cum corde et in nova grammatica: Estudios ofrecidos a Guillermo Rojo, Tomás Jiménez Juliá, Belén López Meirama, Victoria Vázquez Rozas e Alexandre Veiga (eds.), Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, 2012, pp. 487-500.
  • Corpus lingüísticos estruturados de grandes dimensións: Metodoloxía e sistemas de recuperación de información, TESE DE DOUTORAMENTO, Fco. Mario Barcala Rodríguez. A Coruña, 2010, Universidade da Coruña.
  • O Corpus de Referencia do Galego Actual (CORGA): presente e futuro, Eva Mª Domínguez Noya. A lexicografía galega moderna. Recursos e perspectivas, Ernesto González Seoane, Antón Santamarina e Xavier Varela Barreiro (eds.). Colección Base. Serie Lingüística 6, Santiago de Compostela, 2008, Consello da Cultura Galega / Instituto da Lingua Galega, pp. 139-151.
  • A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language, Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo. Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of 3rd Language & Technology Conference, Zygmunt Vetulani (ed.), Poland, 2007, pp. 359-363.
  • El proyecto Gari-Coter en el seno del proyecto RICOTERM, Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo. Procesamiento del Lenguaje Natural, 39, Víctor J. Díaz Madrigal e Fernando Enríquez de Salamanca (eds.), 2007, pp.295-296.
  • Information Retrieval and Large Text Structured Corpora. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory - EUROCAST 2005, Revised Selected Papers, Lecture Notes in Computer Science, 3643, Springer-Verlag Berlin, Heidelberg, New York, 2005, pp. 91-100.
  • Information Retrieval and Large Text Structured Corpora. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Proc. of Tenth International Conference on Computer Aided Systems Theory - EUROCAST 2005, Extended Abstracts, Alexis Quesada-Arencibia, Roberto Moreno-Díaz jr. and José-Carlos Rodríguez (eds.), Las Palmas de Gran Canaria, Spain, 2005, pp. 55-57.
  • Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Procesamiento del Lenguaje Natural, 34, 2005, pp. 41-48.
  • El 'Corpus de Referencia del Gallego Actual' (CORGA). Problemas de configuración y anotación, María Sol López Martínez, Claus D. Pusch, Johannes Kabatek e Wolfgang Raible (eds.), Romanistische Korpuslinguistik II = Romance Corpus Linguistics II: Korpora und diachrone Sprachwissenschaft = Corpora and Diachornic Linguistics, Tübingen, Gunter Narr, 2005, pp. 281-292.
  • CORGA (Corpus de Referencia del Gallego Actual), María Sol López Martínez. Hizkuntza-corpusak: Oraina eta geroa, 2004.
  • El sistema ERIAL: LEIRA, un entorno para RI basado en PLN, Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo. Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.), Editorial UPV, Valencia, Spain, 2002, pp. 173-174.
  • Una aplicación de RI basada en PLN: el proyecto ERIAL, Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo. Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.), Editorial UPV, Valencia, Spain, 2002, pp. 165-172.
  • Presentación do proxecto CORGA: Corpus de Referencia do Galego Actual, María Sol López Martínez, Francisco García Gondar. Actas da VIII Conferencia Internacional de Linguas Minoritarias, Mª Xesús Bugarín López et al. (eds.), Santiago de Compostela, 2002, pp. 359-343.

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

  • A lexicografía galega no século XXI. Santiago de Compostela, novembro de 2006, Eva Domínguez Noya.
  • VIII Encontros para a Normalización Lingüística. Santiago de Compostela, 20-22 de xaneiro de 2005, María Sol López Martínez e Fco. Mario Barcala Rodríguez.
  • EUROCAST 2005: Workshop on Intelligent Information Systems. Las Palmas, 7-11 de febreiro de 2005, Fco. Mario Barcala Rodríguez.
  • VIII Conferencia Internacional de Linguas Minoritarias, 22-24 de novembro de 2001, María Sol López Martínez e Francisco García Gondar.

Resultados

En outubro de 2001 o CORGA púxose, por primeira vez, dispoñible para consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presentou unha codificación mínima e unha cabeceira sinxela que permitiron a recuperación da información consonte unha serie de parámetros (ano, medio e área temática). A partir de xaneiro de 2003 actualizouse esta versión, incrementando o número de formas ata os 17,5 millóns.

Dende o 2004 está dispoñible un novo sistema que utiliza unha codificación XML dos documentos, que é o que evolucionará no tempo. Dado que no 2003 aínda non se fixera esta conversión para todos os documentos, esta versión non chegaba aos 17,5 millóns de formas, que estaba previsto alcanzar a finais do 2006.

No 2007 púxose dispoñible unha nova versión do sistema que manexa case 20 millóns de formas e que xa inclúe todos os documentos da versión antiga e moitos outros documentos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina, etc. o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que inclúe 23 millóns de formas.

No 2009 publícase a versión 1.4, con 25 millóns de formas e, ademais, a versión 1.0 dun sistema máis avanzado de buscas que traballa con 250.000 formas ortográficas correctamente etiquetadas e lematizadas.

No ano 2010 publícase a versión 1.5, con 25,8 millóns de formas e a versión 2.4 do sistema de buscas do corpus etiquetado que inclúe 360.000 formas ortográficas.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas e a versión 2.5 do sistema de buscas do corpus etiquetado que inclúe 499.000 formas ortográficas.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas e a versión 2.6 do sistema de buscas do corpus etiquetado que inclúe 617.042 formas ortográficas.

Estado actual

Actualmente estase a traballar, por unha banda, na incorporación de novos textos que fagan este corpus cada vez máis representativo, por outra, na mellora de funcionalidades e ampliación da base documental que utiliza o novo sistema de buscas e, ademais, na incorporación de documentos orais ao corpus.

Paralelamente tamén se está a traballar na mellora dun analizador morfolóxico de alta precisión, que xa se está empregando como ferramenta de axuda para anotar e desambiguar os documentos do CORGA. O fin último é o de desenvolver unha segunda xeración de sistemas de consulta sobre o CORGA completo que permitirá utilizar información lingüística (lemas, categorías gramaticais, etc.) para facer diferentes tipos de buscas.

Acceso

O acceso a este recurso é gratuíto e pode facerse, previa solicitude de rexistro como usuario, no enderezo:

http://corpus.cirp.es/corga

Tamén se pode acceder directamente ao sistema de buscas que traballa co subconxunto de 617.042 formas ortográficas etiquetadas e desambiguadas manualmente, no enderezo:

http://corpus.cirp.es/corgaetq

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es