CRPIH

24/10/2017
Logo Corpus de Referencia do Galego Actual (CORGA)

O Centro Ramón Piñeiro para a Investigación en Humanidades inclúe, entre os seus obxectivos fundacionais, o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. Co proxecto CORGA preténdese contribuír a ese obxectivo poñendo á disposición da comunidade científica un recurso accesible a través de Internet que posibilite a obtención de datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos da historia recente da nosa lingua.

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

Ademais do incremento do volume textual coa inclusión de novos documentos pertencentes aos últimos lustros, esta versión enriqueceuse con outras melloras; entre elas sobresaen a etiquetaxe automática de todos os documentos que integran o CORGA, a visualización dos resultados mediante concordancias, a presentación das estatísticas en gráficos ou a incorporación de transcricións ortográficas de programas de radio da década dos 90 nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

Por último, a versión 3.0, á que se accede sen necesidade de rexistro, unifica os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no CORGA etiquetado automaticamente.

Dirección/Coordinación

Director técnico da Área de Lingüística

Guillermo Rojo

Directora

Marisol López Martínez

Director adxunto

Francisco García Gondar

Coordinadora do equipo lingüístico

Eva Domínguez Noya

Coordinador informático

NLPgo Technologies, S.L.

Persoal vinculado

Equipo lingüístico

Iván Enríquez Martínez (2016- )

Outros membros do equipo informático

José Carlos Sánchez Rivas

Membros anteriores do equipo lingüístico

Ana Orol González (2015-2017)

Iria Gael Romay Fernández (2014-2016)

Natividad Otero Ares (2014-2015)

Ana Belén Crespo Bastos (2012-2014)

Marcos García Salido (2012-2013)

Anxo Bea Sampedro (2009-2012)

Laura López Fernández (2009-2012)

Paula Gómez López (2008-2011)

Olalla Márquez Losada (2007-2010)

Isabel Porto Cacheiro (2006-2009)

Diego Bernal Rico (2009)

Iria del Río Gayo (2007-2008)

Bárbara Canziani Kristensen (2007-2008)

Mario Regueira Fernández (2007)

Silvana Castro García (2006-2007)

Susana Vázquez Recarey (2004-2007)

Amparo Cereixo Silva(2003-2006)

Sonia Gómez Castro (2004-2006)

Belén López Gómez (2004-2006)

Sandra Domínguez Carreiro (2005-2006)

Damián Suárez Vázquez (2003-2005)

Luísa Pita Rubido (2001-2004)

Beatriz Fernández Paredes (2001-2004)

Cristina Blanco González (2001-2004)

Ana Ledo Villaverde (2000-2003)

Déborah González Martínez (2001-2003)

Xosé Bestilleiro Bello (2003)

Xesús Mosquera Carregal (2000-2002)

M. Teresa Araújo García (1994-2001)

Sonia Varela Pombo (1998-2001)

Susana Ferreiro García (1998-2001)

Susana García Rodríguez (1997-2000)

Mónica Martínez Baleirón (1998-2000)

Antón Porto Sánchez (1998-1999)

Inés Diz Gamallo (1994-2001)

Pilar Vázquez Grandas (1994-1998)

M. Teresa Monteagudo Cabaleiro (1994-1998)

Membros anteriores do equipo informático

Fernando Magán Muñoz (1994-2016) ✝

Miguel Ángel Molinero Álvarez (2005-2006)

Jesús Rodríguez Castro (1995-1998)

Publicacións resultantes

  • Listaxes de frecuencias do Corpus de Referencia do Galego Actual (CORGA), versión 3.0, Guillermo Rojo, Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala. Centro Ramón Piñeiro para a Investigación en Humanidades, <http://corpus.cirp.es/corga/frecuencias_datos?subcorpus=etiquetado+automaticamente>, 2017.
  • "Tratamento da variación lingüística no CORGA", Eva Mª Domínguez Noya e Marisol López Martínez en Marta Negro Romero, Rosario Álvarez e Eduardo Moscoso Mato (eds.): Gallaecia. Estudos de lingüística portuguesa e galega, Universidade de Santiago de Compostela, 2017, pp. 421-440.
  • "O corpus de referencia do galego actual (CORGA): estado actual e perspectivas", Guillermo Rojo, Marisol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, 2016, pp. 445-473.
  • "O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas", Eva Mª Domínguez Noya en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, 2016, pp. 213-232.
  • "O emprego do presente para falar de futuro na prensa escrita", María Sol López Martínez en Esther Corral Díaz, Elvira Fidalgo Francisco e Pilar Lorenzo Gradín (eds.): Cantares de amigos. Estudos en homenaxe a Mercedes Brea, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, 2016, pp. 533-545.
  • "Etiquetación y desambiguación automáticas en gallego: el sistema XIADA", Eva Mª Domínguez Noya, Procesamiento del Lenguaje Natural, 52, 2014, pp. 93-96.
  • Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA, Eva Mª Domínguez Noya. Tese de doutoramento, Universidade de Santiago de Compostela, 2013. Minerva: Repositorio Institucional da USC <http://hdl.handle.net/10347/9587>.
  • "Partículas exceptivas: problemas de delimitación e proposta de análise", Eva Domínguez Noya, Cadernos de Lingua, 34, 2012, pp. 5-64.
  • "As expresións de futuro de 'ir + infinitivo' na prensa escrita", María Sol López Martínez en Tomás Jiménez Juliá, Belén López Meirama, Victoria Vázquez Rozas e Alexandre Veiga (eds.): Cum corde et in nova grammatica: Estudios ofrecidos a Guillermo Rojo, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, 2012, pp. 487-500.
  • Corpus lingüísticos estruturados de grandes dimensións: Metodoloxía e sistemas de recuperación de información. Fco. Mario Barcala Rodríguez. Tese de doutoramento. Universidade da Coruña, 2010.
  • "O Corpus de Referencia do Galego Actual (CORGA): presente e futuro", Eva Mª Domínguez Noya en Ernesto González Seoane, Antón Santamarina e Xavier Varela Barreiro (eds.): A lexicografía galega moderna. Recursos e perspectivas, Colección Base. Serie Lingüística, 6, Santiago de Compostela, 2008, Consello da Cultura Galega / Instituto da Lingua Galega, pp. 139-151.
  • "A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language", Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo en Zygmunt Vetulani (ed.): Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of 3rd Language & Technology Conference, Poland, 2007, pp. 359-363.
  • "El proyecto Gari-Coter en el seno del proyecto RICOTERM", Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo. Procesamiento del Lenguaje Natural, 39, 2007, pp. 295-296.
  • "Information Retrieval and Large Text Structured Corpora", Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory - EUROCAST 2005, Revised Selected Papers, Lecture Notes in Computer Science, 3643, Springer-Verlag Berlin, Heidelberg, New York, 2005, pp. 91-100.
  • "Information Retrieval and Large Text Structured Corpora", Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez en Alexis Quesada-Arencibia, Roberto Moreno-Díaz jr. and José-Carlos Rodríguez (eds.): Proc. of Tenth International Conference on Computer Aided Systems Theory - EUROCAST 2005, Extended Abstracts, Las Palmas de Gran Canaria, Spain, 2005, pp. 55-57.
  • "Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones", Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Procesamiento del Lenguaje Natural, 34, 2005, pp. 41-48.
  • "El 'Corpus de Referencia del Gallego Actual' (CORGA). Problemas de configuración y anotación", María Sol López Martínez en Claus D. Pusch, Johannes Kabatek e Wolfgang Raible (eds.): Romanistische Korpuslinguistik II = Romance Corpus Linguistics II: Korpora und diachrone Sprachwissenschaft = Corpora and Diachornic Linguistics, Tübingen, Gunter Narr, 2005, pp. 281-292.
  • "CORGA (Corpus de Referencia del Gallego Actual)", María Sol López Martínez. Hizkuntza-corpusak: Oraina eta geroa, 2004.
  • "El sistema ERIAL: LEIRA, un entorno para RI basado en PLN", Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, Spain, 2002, pp. 173-174.
  • "Una aplicación de RI basada en PLN: el proyecto ERIAL", Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, Spain, 2002, pp. 165-172.
  • "Presentación do proxecto CORGA: Corpus de Referencia do Galego Actual", María Sol López Martínez, Francisco García Gondar en Mª Xesús Bugarín López et al. (eds.): Actas da VIII Conferencia Internacional de Linguas Minoritarias, Santiago de Compostela, 2002, pp. 359-343.

Resultados

En outubro de 2001 o CORGA púxose, por primeira vez, dispoñible para consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presentou unha codificación mínima e unha cabeceira sinxela que permitiron a recuperación da información consonte unha serie de parámetros (ano, medio e área temática). A partir de xaneiro de 2003 actualizouse esta versión, incrementando o número de formas ata os 17,5 millóns.

Dende o 2004 está dispoñible un novo sistema que utiliza unha codificación XML dos documentos, que é o que evoluciona no tempo. Dado que no 2003 aínda non se fixera esta conversión para todos os documentos, esta versión non chegaba aos 17,5 millóns de formas, que estaba previsto alcanzar a finais do 2006.

No 2007 púxose dispoñible unha nova versión do sistema que manexa case 20 millóns de formas e que xa inclúe todos os documentos da versión antiga e moitos outros documentos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina etc., o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que contén 23 millóns de formas.

No 2009 publícase a versión 1.4, con 25 millóns de formas e, ademais, a versión 1.0 dun sistema máis avanzado de buscas que traballa con 250.000 formas ortográficas correctamente etiquetadas e lematizadas.

No ano 2010 publícase a versión 1.5, con 25,8 millóns de formas e a versión 2.4 do sistema de buscas do corpus etiquetado que contén 360.000 formas ortográficas.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas e a versión 2.5 do sistema de buscas do corpus etiquetado que contén 499.000 formas ortográficas.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas e a versión 2.6 do sistema de buscas do corpus etiquetado que contén 617.042 formas ortográficas.

No ano 2017 publícase a versión 3.0, con 36,8 millóns de formas, que incorpora melloras significativas. Entre elas destacan as seguintes: etiquetaxe automática de todos os documentos que integran o CORGA, visualización dos resultados mediante concordancias, presentación das estatísticas en gráficos e incorporación de transcricións ortográficas nas que se aliña o texto coa voz.

Cómpre destacar, así mesmo, que a versión 3.0 unifica os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no CORGA etiquetado automaticamente.

Estado actual

Actualmente estase a traballar, por unha banda, na incorporación de novos textos que fagan este corpus cada vez máis representativo e, por outra, na mellora de funcionalidades e ampliación da base documental que utiliza o novo sistema de buscas.

Paralelamente tamén se está a traballar na mellora dun analizador morfolóxico de alta precisión, que xa se está empregando como ferramenta de axuda para anotar e desambiguar os documentos do CORGA. O fin último é desenvolver unha segunda xeración de sistemas de consulta sobre o CORGA completo que permitirá utilizar información lingüística (lemas, hiperlemas, categorías gramaticais etc.) para facer diferentes tipos de buscas.

Acceso

Accédese a este recurso, libre e de balde, sen necesidade de rexistro previo, no enderezo:

http://corpus.cirp.gal/corga

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.gal