CRPIH

14/02/2007
Logo Sintetizador de voz para o galego (CoToVía)

A construción dun sintetizador de voz para o galego, que se está a desenvolver no Centro Ramón Piñeiro para a Investigación en Humanidades, é un proxecto interdisciplinar no que traballa un equipo integrado por enxeñeiros superiores de Telecomunicacións da Universidade de Vigo e lingüistas da Universidade de Santiago de Compostela.

Un sintetizador de voz é unha ferramenta que permite a conversión dun texto escrito nunha cadea oral, de xeito que a transferencia texto-fala poida facerse cun nivel de calidade aceptable.

O conversor que se está a elaborar está baseado na concatenación de unidades pregravadas, que é o sistema máis utilizado hoxe en día debido ao seu bo compromiso entre complexidade e prestacións.

Consta de dous grandes módulos, un lingüístico e outro acústico, dentro dos cales se desenvolven unha serie de tarefas fundamentais.

  • O módulo acústico é o encargado de xerar o sinal de voz sintética. Os dous compoñentes principais dos que consta son: a base de datos das unidades e un sistema de síntese sinusoidal que permite, por un lado, a unión das distintas unidades sen transicións bruscas e, por outro lado, a modificación das características prosódicas desas unidades adaptándoas á prosodia desexada. Para a elaboración da base de datos houbo que seleccionar, en primeiro lugar, a serie de alófonos que cómpre ter en conta e, en segundo lugar, as unidades nas que se integran para a gravación, sendo a maior parte delas difonemas. Feito isto, confecciónase o corpus de onde se extraerán as devanditas unidades. O corpus (despois de utilizar diferentes opcións) está composto por unha serie de logátomos onde as unidades van insertas nun contexto o máis neutro posible. Escolleuse un locutor despois de ter efectuado varias probas de gravación e síntese de diferentes informantes.
  • O módulo lingüístico ten como obxectivos fundamentais proporcionar a información fonética necesaria para o transcritor fonético, así como a información sintáctica que se precisa para a xeración da prosodia. As partes de que consta son:
    1. Un preprocesador lingüístico que prepara o texto para a súa correcta lectura: desenvolve as abreviaturas e as siglas e interpreta e le signos, números, horas, etc.
    2. Un transcritor fonético no que se establece a relación grafía-son. O transcritor ten que resolver problemas como a atribución correcta do timbre das vogais de grao medio, a correcta lectura da grafía {x} e a asignación adecuada do son alveolar ou velar á grafía {n} en certas posicións silábicas. Tamén se atopan neste transcritor unhas regras de silabificación e outras de acentuación.
    3. Un etiquetador morfolóxico que lles asigna categorías ás palabras fornecendo información para a análise sintáctica. Igualmente proporciona nova información fonética (referente ao timbre dos verbos, asignación de acentos...) que se utiliza para realizar axustes no transcritor.
    4. Un analizador sintáctico que reúne a información necesaria para a aplicación dos padróns prosódicos.
    5. Un xerador da prosodia que calcula a curva da frecuencia fundamental e mais as duracións dos sons. Así mesmo, asigna as pausas e a modalidade correspondente a cada oración e, consecuentemente, o padrón entoativo adecuado.

Estado do proxecto

Neste momento, CoToVía posúe dúas voces masculinas e dúas femininas adultas. Estase levando a cabo a recollida de novas voces, entre as que se atoparán outras masculina e feminina adultas, xunto con varias infantís. Contamos con dúas versións de CoToVía, unha construída con unidades extraídas de logátomos, e outra con unidades extraídas dun corpus de fala natural. CoToVía está sometido a un proceso continuado de mellora. Os resultados obtidos esixiron unha revisión no deseño do etiquetador morfolóxico e do analizador sintáctico do módulo lingüístico co fin de acadar unha maior fiabilidade lingüística.

Dirección/Coordinación

Manuel González González (lingüística) e Eduardo Rodríguez Banga (enxeñaría).

Persoal vinculado

Bolseiros actuais: Maruxa Caamaño Varela (lingüista), Gonzalo José Iglesias Iglesias (enxeñeiro de telecomunicacións).

Participaron tamén en anos anteriores:

  • Enxeñeiros de telecomunicacións: Carme García Mateo (coordinadora da Área de Enxeñaría ata o ano 2004), Xavier Fernández Salgado, Leandro Rodríguez Liñares, Camilo Giráldez Ruibal, Francisco Méndez Pazó, Francisco Campillo Díaz.
  • Lingüistas: Elisa Fernández Rei, Rut Losada Soto, Elisa Roca Rodríguez, Lorena Seijo Pereiro, Luís Xuncal Pereira, Ana Martínez Ínsua, Lidia Gómez García, Ana Escourido Pernas, Concepción Diéguez Diéguez.

Publicacións resultantes

Demostracións en rede

Unha demostración en rede de Cotovía pode verse na sección de recursos desta mesma páxina web, ou ben accedendo ao seguinte enderezo: http://www.gts.tsc.uvigo.es/cotovia/cotovia.gl.html

Publicacións

CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2005): "Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía", Procesamiento del Lenguaje Natural, núm. 35, páxs: 5-12.

CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2006): "A method for combining intonation modelling and speech-unit selection in corpus-based speech synthesis systems", Speech Commnunication (Elsevier), núm. 48, pásx: 941-956.

FERNÁNDEZ REI, E.; GONZÁLEZ GONZÁLEZ, M (1998): "Un sintetizador de voz para el gallego", Travaux de linguistique hispanique (sous la direction de Gilles Luquet), 65-76. Paris, Presses de la Sorbonne Nouvelle.

FERNÁNDEZ SALGADO, X.; RODRÍGUEZ BANGA, E. (2000): "Proposición de un marco adecuado para el estudio de contornos de F0 para síntesis de voz", Procesamiento del Lenguaje Natural, núm. 24, páxs. 175-182.

GARCÍA MATEO, C. (2002): "Recursos e actividades necesarias para desenvolver tecnoloxía da fala en galego". En: BUGARÍN LÓPEZ, Mª Xesús e outros (2002): Actas da VIII Conferencia Internacional de linguas minoritarias (Santiago de Compostela, 22, 23, 24 de novembro de 2001). Santiago, Xunta de Galicia, páxs. 151-156.

GARCÍA-MATEO, C. and GONZÁLEZ-GONZÁLEZ, M. (1998): "An Overview of the Existing Language Resources for Galician" LREC Workshop: Language Resources for European Minorities Languages. Granada, 28-30 May 1998.

GONZÁLEZ GONZÁLEZ, M. (2002): "Laverca: diccionario de verbos gallegos con voz sintetizada", en DÍAZ GARCÍA, J. (ed.): Actas del II Congreso de fonética experimental, 209-214. Sevilla, Universidad de Sevilla.

GONZÁLEZ GONZÁLEZ, M. (2004): "A síntese de voz en lingua galega: o proxecto Cotovía", Revista Galega do Ensino, núm. 44, páxs. 199-215.

GONZÁLEZ GONZÁLEZ, M.; LOSADA SOTO, R.; FERNÁNDEZ REI, E. (1999): "O galego e as tecnoloxías da fala: o caso do sintetizador de voz", Actas do V Congreso Internacional de Estudios Galegos, 2, 703-716, Trier, Edicións do Castro/Galicien-Zentrum der Universität Trier.

GONZÁLEZ GONZÁLEZ, M.; GARCÍA MATEO, C.; RODRÍGUEZ BANGA, E.; FERNÁNDEZ REI, E. (2002): Diccionario de verbos galegos. Laverca (Contén CD-ROM co Programa Laverca 1.0.). Vigo, Edicións Xerais de Galicia.

GONZÁLEZ REI, B. (2000): "Diseño de una base de datos tipo SpeechDat para el idioma gallego", Procesamiento del Lenguaje Natural, núm. 24.

LOSADA SOTO, R. Mª (2004): "Unha adaptación do SAMPA para a lingua galega", I Congreso Internacional "A Lingua Galega. Historia e actualidade" (16-20 setembro 1996), en ÁLVAREZ BLANCO, R.; FERNÁNDEZ REI, F. e SANTAMARINA, A. (eds.), vol. 2, páxs: 615-625.

MÉNDEZ PAZÓ, F.; CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E.; FERNÁNDEZ REI, E. (2003): "Análisis morfosintáctico estadístico en lengua gallega", Procesamiento del Lenguaje Natural, núm. 31, páxs: 159-166.

RODRÍGUEZ BANGA, E.; FERNÁNDEZ SALGADO, X.; FERNÁNDEZ REI, E.; GONZÁLEZ GONZÁLEZ, M. (1998): "Análisis lingüístico para un conversor texto-voz en lengua gallega", Novática Revista de la Asociación de Técnicos de Informática, núm. 133. Maio-xuño 1998, páxs. 40-45.

RODRÍGUEZ BANGA, E.; GARCÍA MATEO, C.; FERNÁNDEZ SALGADO, X. (2001): "Concatenative Text-to-Speech Synthesis based on Sinusoidal Modelling" in Improvements in Speech Synthesis. John Wiley and Sons, Ltd., páxs. 39-51.

RODRÍGUEZ BANGA, E.; CAMPILLO DÍAZ, F.; FERNÁNDEZ REI, E.; MÉNDEZ PAZÓ, F. (2002): "Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas", Procesamiento del Lenguaje Natural, núm. 29, páxs: 153-158.

Actividades científicas organizadas e previstas

Organización do COST 258 Workshop. "Speech Synthesis Improvements in Prosody and Signal Generation" do 8 ao 10 de novembro de 1998 na Universidade de Vigo.

Organización da III Xornada Científica do AMPER (Atlas Multimedia Prosódico do Espazo Románico) o 18 de decembro de 2003 levada a cabo no Centro Ramón Piñeiro para a Investigación en Humanidades.

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

Congresos internacionais

5th European Conference on Speech Communication and Technology. EUROSPEECH’97 celebrado en Rodas (Grecia) en setembro de 1997. Presentouse a comunicación: RODRÍGUEZ BANGA; GARCÍA MATEO, C.; FERNÁNDEZ SALGADO, X. (1997): "Shape-Invariant Prosodic Modification Algorithm for Concatenative Synthesis".

6th European Conference on Speech Communication and Technology. EUROSPEECH’99 celebrado en Budapest (Hungría) en setembro de 1999. Presentouse a comunicación: FERNÁNDEZ SALGADO, X.; RODRÍGUEZ BANGA, E. (1999): "Segmental Duration Modelling in a Text-to-Speech System for the Galician Language".

Second International Conference on Language Resources and Evaluation. LREC-2000, celebrado en Atenas (Grecia) en Maio de 2000. Presentouse a comunicación: BAILLY, G.; RODRÍGUEZ BANGA, E.; MONAGHAN, A.; RANK, E. (2000): "The COST258 Signal Generation Test Array".

TSD 2000 (Third International Workshop on Text, Speech and Dialogue), celebrado en setembro de 2000 en Brno (Czech Republic). Presentouse a comunicación: RODRÍGUEZ-LINARES, L.; CARDENAL LOPEZ, A.; GARCÍA MATEO, C.; PEREZ-PIÑAR LOPEZ, D.; RODRÍGUEZ BANGA, E.; FERNÁNDEZ SALGADO, X. (2000): "TelCorreo: A Bilingual E-mail Client over the Telephone"

6th International Conference on Spoken Language Processing. ICSLP-2000, celebrada en outubro de 2000 en Beijing (China). Presentouse a comunicación: FERNÁNDEZ SALGADO, X.; RODRÍGUEZ BANGA, E. (2000): "A hierarchical intonational model for synthesising F0 contours in Galician language".

7th International Conference on Spoken Language Processing. ICSLP-2002, celebrada en setembro de 2002 en Denver (EEUU). Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2002): "Combined Prosody and Candidate Unit Selections for Corpus-Based Text-to-Speech Systems".

8th International Conference on Spoken Language Processing. ICSLP-2003, celebrada en setembro de 2003 en Ginebra (Suíza). Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2003): "On the Design of Cost Functions for Unit Selection Speech Synthesis".

4th International Conference on Language Resources and Evaluation celebrado en Lisboa dende o 26 ao 28 de maio de 2004. Presentouse a comunicación: SEIJO PEREIRO, L., MARTÍNEZ ÍNSUA, A., MÉNDEZ PAZÓ, F., CAMPILLO DÍAZ, F., RODRÍGUEZ BANGA, E. (2004): "A Galician textual Corpus for morphosyntactic tagging with application to text-to-speech synthesis".

INTERSPEECH-2005, celebrado en Lisboa en Setembro de 2005. Presentouse a comunicación: CAMPILLO DÍAZ, F.; ALBA CASTRO, J.L.; RODRÍGUEZ BANGA, E. (2005): "A neutral network approach for the design of the target cost function in unit-selection speech synthesis".

INTERSPEECH-2006, celebrado en Pittsburgh (USA), en Setembro de 2006. Presentouse a comunicación: CAMPILLO DÍAZ, F.; SANTEN, J. van; RODRÍGUEZ BANGA, E. (2006): "A model for th F0 reset in corpus-based intonation approaches".

Congresos nacionais

XII Simposium de la Unión Científica Internacional de Radio. URSI’97, celebrado en Bilbao en setembro de 1997. Presentouse a comunicación: FERNÁNDEZ SALGADO, X.; RODRÍGUEZ LIÑARES, L.; RUIBAL MENDUIÑA, S.; GARCÍA MATEO, C.; RODRÍGUEZ BANGA, E. (1997): "Un sistema de conversión texto-voz en gallego basado en concatenación de unidades del habla".

XIII Simposium de la Unión Científica Internacional de Radio. URSI’98, celebrado en Pamplona en setembro de 1998. Presentouse a comunicación: RODRÍGUEZ BANGA, E.; FERNÁNDEZ SALGADO, X.; BALBOA ANDRES, A.; CHAPELA VILLANUEVA, P. (1998): "Modelado de la entonación en un conversor texto-voz mediante el modelo de Fujisaki".

XIII Simposium de la Unión Científica Internacional de Radio. URSI’98, celebrado en Pamplona en setembro de 1998. Presentouse a comunicación: FERNÁNDEZ SALGADO, X.; RODRÍGUEZ BANGA, E. (1998): "Análisis de duraciones para su aplicación en un Conversor Texto-Voz".

VI Congreso Internacional de Estudios Galegos, celebrado na Habana en abril de 2000. Presentouse a comunicación: FERNÁNDEZ SALGADO, X.; RODRÍGUEZ BANGA, E. (2000): "Consideracións lingüísticas sobre a base temporal da fala para a aplicación na síntese de voz".

I Jornadas de las Tecnologías del Habla, celebradas en Sevilla en novembro de 2000. Presentouse a comunicación: GARCÍA-MATEO, C.; CARDENAL-LÓPEZ, A.; RODRÍGUEZ-LIÑARES, L.; RODRÍGUEZ BANGA, E.; PÉREZ-PIÑAR, D. (2000): "TelCorreo: Cliente bilingüe de correo electrónico a través de la línea telefónica".

XVII Simposium de la Unión Científica Internacional de Radio. URSI’2002, celebrado en Alcalá de Henares en setembro de 2002. Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2002): "Selección combinada de unidades y contornos entonativos para síntesis de voz basada en corpus".

II Jornadas en Tecniología del Habla, celebradas na Universidade de Granada dende o 16 ao 18 de decembro de 2002. Presentouse a comunicación: CAMPILLO DÍAZ, F.; MÉNDEZ PAZÓ, F.; RODRÍGUEZ BANGA, E. (2002): "Estado actual y líneas futuras del sistema de conversión texto-voz gallego-castellano Cotovía"

XVIII Simposium de la Unión Científica Internacional de Radio. URSI’2003, celebrado na Coruña en setembro de 2003. Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2003): "Selección de unidades óptimas para una voz sintética natural".

XVIII Simposium de la Unión Científica Internacional de Radio. URSI’2003, celebrado na Coruña en setembro de 2003. Presentouse a comunicación: MÉNDEZ PAZÓ, F.; CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2003) "Modelado morfológico estadístico aplicado a la síntesis de Voz".

XIX Simposium de la Unión Científica Internacional de Radio. URSI’2004, celebrado en Barcelona do 8 ao 10 de outubro de 2004. Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ BANGA, E. (2004): "Diseño de la función de coste de concatenación en síntesis de voz basada en Corpus".

III Jornadas de las Tecnologías del Habla, celebrado en Valencia en novembro de 2004. Presentouse a comunicación: CAMPILLO DÍAZ, F.; RODRÍGUEZ LIÑARES, L.; RODRÍGUEZ BANGA, E.; IGLESIAS IGLESIAS, G.; MÉNDEZ PAZÓ, F. (2004): "Desarrollo de un sistema de análisis sintáctico para el idioma gallego".