CRPIH

18/06/2015
Logo Etiquetador/Lematizador do Galego Actual (XIADA)

O obxectivo do proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automaticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice información lingüística (etiquetas, lemas, categorías gramaticais, etc.).

O obxectivo deste proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automaticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice esta información lingüística (categorías gramaticais, lemas, etc.).

Dirección/Coordinación

Guillermo Rojo

Manuel Vilares Ferro

Persoal Vinculado

Equipo lingüístico

Eva Domínguez Noya

Marisol López Martínez

Francisco García Gondar

Equipo Informático

Fco. Mario Barcala Rodríguez

Miguel A. Molinero Álvarez (2005-)

Jorge Graña Gil

Miguel A. Alonso Pardo

Publicacións resultantes

  • Corpus de adestramento do Etiquetador/Lematizador do Galego Actual (XIADA), versión 2.6, Guillermo Rojo, Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala. Centro Ramón Piñeiro para a Investigación en Humanidades, <http://corpus.cirp.es/xiada/corpus_xiada_2_6.tar.gz>, 2015.
  • Léxico do Etiquetador/Lematizador do Galego Actual (XIADA), versión 2.6, Guillermo Rojo, Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala. Centro Ramón Piñeiro para a Investigación en Humanidades, <http://corpus.cirp.es/xiada/lexico_xiada_2_6.tar.gz>, 2015.
  • Corrector ortográfico especializado para o proxecto IANUS, Eva Domínguez Noya e Xesús Manuel Mosquera Carregal, en Xesús M. Mosquera Carregal (ed.), Lingua e Sanidade: VII Xornadas sobre Lingua e Usos, A Coruña, 2011, Universidade da Coruña, Servizo de Normalización Lingüística / Servizo de Publicacións, pp. 91-123.
  • Avaliación dun etiquetador automático estatístico para o galego actual: Xiada, Eva Domínguez Noya, Fco. Mario Barcala Rodríguez e Miguel Ángel Molinero Álvarez. Cadernos de Lingua, num. 30/31, A Coruña, 2009, Real Academia Galega, pp. 151-193.
  • Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging, Miguel A. Molinero, Fco. Mario Barcala, Juan Otero, Jorge Graña. Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, 2007, pp. 35-40.
  • XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory - EUROCAST 2007, Revised Selected Papers, Lecture Notes in Computer Science, 4739 Springer-Verlag, Berlin-Heidelberg-New York, 2007, pp. 273-281.
  • XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Alexis Quesada-Arencibia, José Carlos Rodríguez-Rodríguez, Roberto Moreno-Díaz jr., Roberto Moreno-Díaz (eds.). Proc. of Eleventh Computer Aided Systems Theory - EUROCAST 2007, Extendeds Abstracts, Las Palmas de Gran Canaria, España, 2007, pp. 93-94.
  • Automatic Spelling Correction in Galician. Manuel Vilares, Juan Otero, Fco. Mario Barcala, Eva Domínguez. José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz and Maximiliano Saiz Noeda (eds.), Advances in Natural Language Processing, volume 3230 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2004, pp. 51-57.
  • Formal Methods of Tokenization for Part-of-Speech Tagging. Jorge Graña, Fco. Mario Barcala, Jesús Vilares. Alexander Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, volume 2276 of Lecture Notes in Computer Science, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 240-249.
  • A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches, Jorge Graña, Miguel A. Alonso, Manuel Vilares. Petr Sojka, Ivan Kopecek and Karel Pala (eds.), Text, Speech and Dialogue, volume 2448 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 3-10.

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

  • VII Xornadas Lingua e Usos. Lingua e Sanidade. A Coruña, 1-3 de decembro de 2010, Eva Mª Domínguez Noya.
  • RANLP 2007: Recent Advances in Natural Language Processing. Borovets (Bulgaria), 27-29 de setembro de 2007, Miguel A. Molinero Álvarez.
  • EUROCAST 2007: Eleventh International Conference on Computer Aided Systems Theory. Las Palmas de Gran Canaria, 12-16 de febreiro de 2007, Miguel A. Molinero Álvarez.
  • ESTAL 2004: España for Natural Language Processing. Alicante, 20-22 de outubro de 2004, Juan Otero Pombo.

Resultados

No ano 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Ademais, para obter esta versión foi necesario o desenvolvemento do xogo de etiquetas apropiado (conta con ao redor de 400 etiquetas diferentes), dun lexicón formado por aproximadamente 31.200 lemas e 630.000 elementos gramaticais e dun subcorpus anotado de adestramento dunhas 100.000 formas ortográficas.

No 2005 externalizáronse as regras de funcionamento do mesmo, facilitando así a actualización e/ou modificación das mesmas por parte do equipo desenvolvedor.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados en XML e, polo tanto, cos arquivos da nova codificación dos documentos do CORGA. Tamén neste ano se desenvolveu un sistema xenérico de resolución de ambigüidades segmentais, ampliouse o lexicón que utiliza considerablemente, que ademais inclúe moitas formas non normativas para que poidan ser recoñecidas, etc.

No 2007 publicouse o etiquetario utilizado polo proxecto.

No 2009 faise pública unha demostración do funcionamento do etiquetador e libérase a primeira versión do léxico (2.2) e do corpus de adestramento que utiliza (2.3). Este último inclúe 309.505 elementos gramaticais.

No 2010 publícase a versión 2.4, que inclúe a liberación dunha nova versión do léxico, con 718.189 entradas e 53.888 lemas (427 lemas máis que na versión anterior); a do corpus de adestramento, con 426.051 elementos gramaticais e, por último, a da demostración do etiquetador adestrado con estes novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

No 2013 publícase a versión 2.5. O léxico posúe 730.256 entradas, engadíndose respecto á versión anterior 4.463 novos lemas. O corpus de adestramento complétase con texto extraído de coleccións de relato curto e pasa a constar de 594.993 elementos gramaticais.

No 2015 publícase a versión 2.6. O léxico posúe 797.686 entradas, engadíndose respecto á versión anterior 4.370 novos lemas. Increméntase a sección de fragmentos de coleccións de relato curto do corpus de adestramento que pasa a constar de 741.833 elementos gramaticais.

Estado actual

A versión dispoñible en liña na sección Demostración emprega todo o corpus de adestramento e, polo tanto, presenta un rendemento aceptable tanto na etiquetación de textos do xénero xornalístico como na do narrativo. No futuro esperamos proporcionar perfís específicos para cada un dos diferentes tipos de textos que melloren a etiquetación.

Actualmente estamos traballando nun sistema de regras que poida mellorar, aínda máis, a porcentaxe de acerto do etiquetador cando a estatística non axuda, especialmente para os casos de ambigüidades segmentais complexas.

Acceso

Pode obterse máis información relacionada co proxecto no seguinte enderezo:

http://corpus.cirp.es/xiada

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es