CRPIH

11/04/2019
Logo Etiquetador/Lematizador do Galego Actual (XIADA)

O obxectivo deste proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automaticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice información lingüística (etiquetas, lemas, hiperlemas, subcategorías gramaticais etc.).

Dirección/Coordinación

  • Guillermo Rojo
  • Manuel Vilares Ferro

Persoal Vinculado

Equipo lingüístico

  • Eva María Domínguez Noya
  • María Sol López Martínez
  • Francisco García Gondar

Equipo Informático

  • NLPgo Technologies, S.L.
  • Jorge Graña Gil
  • Miguel A. Alonso Pardo
  • Fco. Mario Barcala Rodríguez (2000-2015)
  • Miguel A. Molinero Álvarez (2005-2006)

Resultados

Demostración en rede

Na sección Demostración da páxina web do proxecto pódese probar o etiquetador XIADA.

Recursos

  • Rojo, Guillermo; Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala (2019): Corpus de adestramento do Etiquetador/Lematizador do Galego Actual (XIADA), versión 2.7. Centro Ramón Piñeiro para a investigación en humanidades, http://corpus.cirp.gal/xiada/files/corpus_xiada_2_7.tar.gz.

  • Rojo, Guillermo; Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala (2019): Léxico do Etiquetador/Lematizador do Galego Actual (XIADA), versión 2.7. Centro Ramón Piñeiro para a investigación en humanidades, http://corpus.cirp.gal/xiada/files/lexico_xiada_2_7.tar.gz.

Publicacións resultantes

  • Domínguez Noya, Eva Mª e Fco. Mario Barcala Rodríguez (2018): “Grafías innovadoras na linguaxe non sexista: unha proposta para a súa etiquetaxe automática”, en Marta Díaz, Gael Vaamonde, Ana Varela, Mª Carmen Cabeza, José M. García-Miguel e Fernando Ramallo (eds.): Actas do XIII Congreso Internacional de Lingüística Xeral, Universidade de Vigo, pp. 291-298.

  • Domínguez Noya, Eva Mª; María Caíña Hurtado e Mª Sol López Martínez (2018): “Variación e normativización no galego”, en Marta Díaz, Gael Vaamonde, Ana Varela, Mª Carmen Cabeza, José M. García-Miguel e Fernando Ramallo (eds.): Actas do XIII Congreso Internacional de Lingüística Xeral, Universidade de Vigo, pp. 299-306.

  • Domínguez Noya, Eva Mª (2018): “Ás voltas con cerca de, a valoración aproximativa e os complementos de medida”, Cadernos de Lingua 36, pp. 31-79.

  • Domínguez Noya, Eva Mª e Marisol López Martínez (2017): “Tratamento da variación lingüística no CORGA”, en Marta Negro Romero, Rosario Álvarez e Eduardo Moscoso Mato (eds.): Gallaecia. Estudos de lingüística portuguesa e galega, Universidade de Santiago de Compostela, pp. 421-440.

  • Rojo, Guillermo; Marisol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala (2016): “O corpus de referencia do galego actual (CORGA): estado actual e perspectivas”, en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, pp. 445-473.

  • Domínguez Noya, Eva Mª (2016): “O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas”, en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, pp. 213-232.

  • López Martínez, María Sol (2016): “O emprego do presente para falar de futuro na prensa escrita”, en Esther Corral Díaz, Elvira Fidalgo Francisco e Pilar Lorenzo Gradín (eds.): Cantares de amigos. Estudos en homenaxe a Mercedes Brea, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, pp. 533-545.

  • Domínguez Noya, Eva Mª (2014): “Etiquetación y desambiguación automáticas en gallego: el sistema XIADA”, Procesamiento del Lenguaje Natural 52, pp. 93-96.

  • Domínguez Noya, Eva Mª (2013): Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA. Tese de doutoramento. Universidade de Santiago de Compostela. Minerva: Repositorio Institucional da USC <http://hdl.handle.net/10347/9587>.

  • Domínguez Noya, Eva Mª (2012): “Partículas exceptivas: problemas de delimitación e proposta de análise”, Cadernos de Lingua 34, pp. 5-64.

  • López Martínez, María Sol (2012): “As expresións de futuro de ‘ir + infinitivo’ na prensa escrita”, en Tomás Jiménez Juliá, Belén López Meirama, Victoria Vázquez Rozas e Alexandre Veiga (eds.): Cum corde et in nova grammatica: Estudios ofrecidos a Guillermo Rojo, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, pp. 487-500.

  • Domínguez Noya, Eva e Xesús Manuel Mosquera Carregal (2011): “Corrector ortográfico especializado para o proxecto IANUS”, en Xesús M. Mosquera Carregal (ed.), Lingua e Sanidade: VII Xornadas sobre Lingua e Usos, A Coruña, Universidade da Coruña, Servizo de Normalización Lingüística / Servizo de Publicacións, pp. 91-123.

  • Barcala Rodríguez, Fco. Mario (2010): Corpus lingüísticos estruturados de grandes dimensións: Metodoloxía e sistemas de recuperación de información. Tese de doutoramento. Universidade da Coruña.

  • Domínguez Noya, Eva; Fco. Mario Barcala Rodríguez e Miguel Ángel Molinero Álvarez (2009): “Avaliación dun etiquetador automático estatístico para o galego actual: Xiada”, Cadernos de Lingua 30/31, pp. 151-193.

  • Domínguez Noya, Eva Mª (2008): “O Corpus de Referencia do Galego Actual (CORGA): presente e futuro”, en Ernesto González Seoane, Antón Santamarina e Xavier Varela Barreiro (eds.): A lexicografía galega moderna. Recursos e perspectivas, Colección Base. Serie Lingüística 6, Santiago de Compostela, Consello da Cultura Galega / Instituto da Lingua Galega, pp. 139-151.

  • Barcala, Fco. Mario; Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo (2007): “A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language”, en Zygmunt Vetulani (ed.): Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of 3rd Language & Technology Conference, Poland, pp. 359-363.

  • Barcala, Fco. Mario; Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo (2007): “El proyecto Gari-Coter en el seno del proyecto RICOTERM”, Procesamiento del Lenguaje Natural 39, pp. 295-296.

  • Barcala, Fco. Mario; Miguel A. Molinero, Eva Domínguez (2007): “XML rules for enclitic segmentation”, Computer Aided Systems Theory - EUROCAST 2007, Revised Selected Papers, Lecture Notes in Computer Science, 4739 Springer-Verlag, Berlin-Heidelberg-New York, pp. 273-281.

  • Barcala, Fco. Mario; Miguel A. Molinero, Eva Domínguez (2007): “XML rules for enclitic segmentation”, en Alexis Quesada-Arencibia, José Carlos Rodríguez-Rodríguez, Roberto Moreno-Díaz jr., Roberto Moreno-Díaz (eds.): Proc. of Eleventh Computer Aided Systems Theory - EUROCAST 2007, Extendeds Abstracts, Las Palmas de Gran Canaria, pp. 93-94.

  • Molinero, Miguel A.; Fco. Mario Barcala, Juan Otero, Jorge Graña (2007): “Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging”, Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, pp. 35-40.

  • Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Information Retrieval and Large Text Structured Corpora”. Computer Aided Systems Theory - EUROCAST 2005, Revised Selected Papers, Lecture Notes in Computer Science, 3643, Springer-Verlag Berlin, Heidelberg, New York, pp. 91-100.

  • Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Information Retrieval and Large Text Structured Corpora”, en Alexis Quesada-Arencibia, Roberto Moreno-Díaz jr. and José-Carlos Rodríguez (eds.): Proc. of Tenth International Conference on Computer Aided Systems Theory - EUROCAST 2005, Extended Abstracts, Las Palmas de Gran Canaria, pp. 55-57.

  • Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones”, Procesamiento del Lenguaje Natural 34, pp. 41-48.

  • López Martínez, María Sol (2005): “El ‘Corpus de Referencia del Gallego Actual’ (CORGA). Problemas de configuración y anotación”, en Claus D. Pusch, Johannes Kabatek e Wolfgang Raible (eds.): Romanistische Korpuslinguistik II = Romance Corpus Linguistics II: Korpora und diachrone Sprachwissenschaft = Corpora and Diachornic Linguistics, Tübingen, Gunter Narr, pp. 281-292.

  • López Martínez, María Sol (2004): “CORGA (Corpus de Referencia del Gallego Actual)”, Hizkuntza-corpusak: Oraina eta geroa.

  • Vilares, Manuel; Juan Otero, Fco. Mario Barcala, Eva Domínguez (2004): “Automatic Spelling Correction in Galician”, en José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz e Maximiliano Saiz Noeda (eds.): Advances in Natural Language Processing, volume 3230 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, pp. 51-57.

  • Barcala, Fco. Mario; Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo (2002): “El sistema ERIAL: LEIRA, un entorno para RI basado en PLN”, en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, pp. 173-174.

  • Barcala, Fco. Mario; Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo (2002): “Una aplicación de RI basada en PLN: el proyecto ERIAL”, en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, pp. 165-172.

  • Graña, Jorge; Fco. Mario Barcala e Jesús Vilares (2002): “Formal Methods of Tokenization for Part-of-Speech Tagging”, en Alexander Gelbukh (ed.): Computational Linguistics and Intelligent Text Processing, volume 2276 of Lecture Notes in Computer Science, Springer-Verlag, Berlin-Heidelberg-New York, pp. 240-249.

  • Graña, Jorge; Miguel A. Alonso e Manuel Vilares (2002): “A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches”, en Petr Sojka, Ivan Kopecek e Karel Pala (eds.): Text, Speech and Dialogue, volume 2448 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, pp. 3-10.

  • López Martínez, María Sol e Francisco García Gondar (2002): “Presentación do proxecto CORGA: Corpus de Referencia do Galego Actual”, en Mª Xesús Bugarín López et al. (eds.): Actas da VIII Conferencia Internacional de Linguas Minoritarias, Santiago de Compostela, pp. 359-343.

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

  • La segmentación del discurso hablado: las propuestas de la languague-into-act theory y del grupo VAL.ES.CO. Universidad Complutense de Madrid, Madrid, 22 de febreiro de 2019. Eva Mª Domínguez Noya.

  • Corpus e construcións: perspectivas hispánicas. Santiago de Compostela, 22-23 de novembro de 2018. “O Corpus de Referencia do Galego Actual (CORGA): composición e explotación”: María Sol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.

  • O Centro Ramón Piñeiro e a investigación lingüística. Xornada de conmemoración dos 25 anos do Centro Ramón Piñeiro para a Investigación Lingüística. Santiago de Compostela, 12 de novembro de 2018. “Corpus de referencia do galego actual (Corga)”: María Sol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.

  • XII Congreso da Asociación Internacional de Estudos Galegos. Madrid, 10-15 de setembro de 2018. “As humanidades dixitais no foco da investigación do Centro Ramón Piñeiro para a investigación en humanidades (CRPIH)”: Mercedes Brea López, Ana Blanca Roig Rechou, María Sol López Martínez, Eva Mª Domínguez Noya e Manuel González González.

  • XII Congreso da Asociación Internacional de Estudos Galegos. Madrid, 10-15 de setembro de 2018. “A linguaxe non sexista no CORGA: descrición e reflexión sobre as variantes empregadas”: María Caíña Hurtado, Eva Mª Domínguez Noya e María Sol López Martínez.

  • XIII Congreso Internacional de Lingüística Xeral (CILX 2018). Vigo, 13-15 de xuño de 2018. “Variación e normativización no galego”: Eva Mª Domínguez Noya, María Caíña Hurtado e María Sol López Martínez.

  • XIII Congreso Internacional de Lingüística Xeral (CILX 2018). Vigo, 13-15 de xuño de 2018. “Grafías innovadoras na linguaxe non sexista: unha proposta para a súa etiquetaxe automática”: Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.

  • Xornadas de Fraseoloxía multilingüe na aula. Santiago de Compostela, 4, 5 e 12 de maio de 2018. “Traballar a fraseoloxía cos corpus: o CORGA na aula”: Eva Mª Domínguez Noya e María Sol López Martínez.

  • III Congresso Internacional de Lingüística Histórica - Gallaecia III. Santiago de Compostela, 27-30 de xullo de 2015. “O tratamento da variación lingüística no CORGA”: Eva Mª Domínguez Noya e María Sol López Martínez.

  • Semana cultural de Galicia en el IIFL. México DF, 26-29 de setembro de 2011. “Configuración de corpus en lengua gallega”: María Sol López Martínez.

  • Semana cultural de Galicia en el IIFL. México DF, 26-29 de setembro de 2011. “Elaboración de corpus lingüísticos que reflejen el habla de una comunidad”: María Sol López Martínez.

  • VII Xornadas Lingua e Usos. Lingua e Sanidade. A Coruña, 1-3 de decembro de 2010. “Corrector ortográfico especializado para o proxecto IANUS”: Eva Mª Domínguez Noya e Xesús Manuel Mosquera Carregal.

  • RANLP 2007: Recent Advances in Natural Language Processing. Borovets (Bulgaria), 27-29 de setembro de 2007. “Practical Application of One-Pass Viterbi Algorithm in Tokenization and Part-of-Speech Tagging”: Miguel Molinero Álvarez, Fco. Mario Barcala Rodríguez, Juan Otero Pombo, Jorge Graña Gil.

  • EUROCAST 2007: Eleventh International Conference on Computer Aided Systems Theory. Las Palmas de Gran Canaria, 12-16 de febreiro de 2007. “XML Rules for Enclitic Segmentation”: Fco. Mario Barcala Rodríguez, Miguel A. Molinero Álvarez e Eva Mª Domínguez Noya.

  • A lexicografía galega do século XXI. Santiago de Compostela, 16 de novembro de 2006. “O Corpus de Referencia do Galego Actual (CORGA): presente e futuro”: Eva Mª Domínguez Noya.

  • VIII Encontros para a Normalización Lingüística. Santiago de Compostela, 20-22 de xaneiro de 2005. “Corpus de Referencia do Galego Actual”: María Sol López Martínez.

  • ESTAL 2004: España for Natural Language Processing. Alicante, 20-22 de outubro de 2004. “Automatic Spelling Correction in Galician”: Manuel Vilares, Juan Otero, Francisco Mario Barcala, Eva Domínguez.

  • 2nd Freiburg Workshop on Romance Corpus Linguistics. Corpora and Historical Linguistics. Freiburg im Breisgau (Alemania), 11-13 de setembro de 2003. “El Corpus del Gallego Actual (CORGA). Problemas de configuración y anotación”: María Sol López Martínez.

  • Jornadas sobre Corpus Lingüísticos: Presente y futuro. Donostia, 24-25 de outubro de 2002. “CORGA (Corpus de Referencia do Galego Actual)”: María Sol López Martínez.

  • VIII Conferencia internacional de linguas minoritarias. Santiago de Compostela, 22-24 de novembro de 2001. “Presentación do proxecto CORGA (Corpus de Referencia do Galego Actual)”: María Sol López Martínez e Francisco García Gondar.

Historial de versións

No ano 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Ademais, para obter esta versión foi necesario o desenvolvemento do xogo de etiquetas apropiado (ao redor de 400 etiquetas diferentes), dun lexicón formado por aproximadamente 31.200 lemas e 630.000 elementos gramaticais e dun subcorpus anotado de adestramento dunhas 100.000 formas ortográficas.

No 2005 externalizáronse as regras de funcionamento do mesmo, facilitando así a actualización e/ou modificación das mesmas por parte do equipo desenvolvedor.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados en XML e, polo tanto, cos arquivos da nova codificación dos documentos do CORGA. Tamén neste ano se desenvolveu un sistema xenérico de resolución de ambigüidades segmentais, ampliouse considerablemente o lexicón que utiliza, que ademais inclúe moitas formas non normativas para que poidan ser recoñecidas etc.

No 2007 publicouse o etiquetario utilizado polo proxecto.

No 2009 faise pública unha demostración do funcionamento do etiquetador e libérase a primeira versión do léxico (2.2) e do corpus de adestramento que utiliza (2.3). Este último inclúe 309.505 elementos gramaticais.

No 2010 publícase a versión 2.4, que inclúe a liberación dunha nova versión do léxico, con 718.189 entradas e 53.888 lemas (427 lemas máis que na versión anterior); a do corpus de adestramento, con 426.051 elementos gramaticais e, por último, a da demostración do etiquetador adestrado con estes novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

No 2013 publícase a versión 2.5. O léxico suma 4463 novos lemas con respecto á versión anterior, de xeito que o dicionario posúe nesta altura 730.256 entradas. O corpus de adestramento complétase con texto extraído de coleccións de relato curto e pasa a constar de 594.993 elementos gramaticais.

No 2015 publícase a versión 2.6. O léxico posúe 797.686 entradas engadíndose respecto á versión anterior 4370 novos lemas. Así mesmo, increméntase a sección de fragmentos de coleccións de relato curto do corpus de adestramento, que pasa a constar de 741.833 elementos gramaticais.

No 2017 bifúrcanse o lexicón e o corpus de adestramento. O primeiro permanece inalterado na plataforma XIADA e o segundo intégrase na plataforma de recuperación de información do CORGA, baixo o nome de Corpus etiquetado manualmente. Véxase http://corpus.cirp.gal/corga/etiquetado_manualmente_descricion.

Finalmente, no ano 2019 prodúcense cambios de envergadura:

  1. Libérase o etiquetador xunto cos recursos que este emprega.

  2. Amplíase o etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe non sexista, o que sitúa o tamaño do tagset en 453 etiquetas diferentes. Véxanse ao respecto http://corpus.cirp.gal/xiada/etiquetario/exemplos ou http://corpus.cirp.gal/xiada/etiquetario/taboa.

  3. Actualízase a estrutura do lexicón para que as formas que presentan as grafías anteriores (alumn@, alumn@s, alumno/a, alumna/o, alumna/alumno, alumno/alumna, alumnxs etc.) formen parte do mesmo paradigma que as formas tradicionais (alumna, alumnas, alumno, alumnos), e facilítase deste xeito a súa identificación e caracterización automáticas.

  4. Neutralízase a variación gráfica formal en lemas semellantes relacionándoos a través da implementación do hiperlema. Na súa versión 2.7 o lexicón contén 59.360 hiperlemas.

  5. Introdúcense numerosas entradas no lexicón, tanto de lemas procedentes das formas máis frecuentes do CORGA descoñecidas para o etiquetador, como de desinencias -xerundio ou participios apreciativos (apagandiño, castigadísimos…), pretéritos e futuros rematados en ditongo decrecente acentuado (afirmóu, entréi, demoréi), plurais en -es (animales) e en -s (opciós), contraccións nas que están inmersos dialectalismos (dunhos, niste…)- etc. En total, o lemario consta de 63.802 lemas, o que dá orixe a 1.136.030 elementos gramaticais.

  6. Créanse novas regras para reconstruír a forma do verbo cando esta non está avalada pola normativa e se amalgama con pronomes enclíticos e/ou segunda forma do artigo: adiantáchete, acheguéime, viróuse etc.

Estado actual

A versión dispoñible en liña na sección Demostración emprega todo o corpus de adestramento e, polo tanto, presenta un rendemento aceptable tanto na etiquetaxe de textos do xénero xornalístico como na do narrativo. No futuro esperamos proporcionar perfís específicos para cada un dos diferentes tipos de textos que melloren a etiquetación.

Actualmente estamos traballando nun sistema de regras que poida mellorar, aínda máis, a porcentaxe de acerto do etiquetador cando a estatística non axuda, especialmente para os casos de ambigüidades segmentais complexas.

Acceso

Pode obterse máis información relacionada co proxecto no seguinte enderezo:

http://corpus.cirp.gal/xiada

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.gal