Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla
Por favor, use este identificador para citas ou ligazóns a este ítem:
http://hdl.handle.net/10347/17787
Ficheiros no ítem
Metadatos do ítem
Título: | Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla |
Autor/a: | Piñeiro Martín, Andrés García-Mateo, Carmen Docío Fernández, Laura Regueira, Xosé Luís |
Centro/Departamento: | Universidade de Santiago de Compostela. Instituto da Lingua Galega (ILG) |
Palabras chave: | Galego (lingua) | Gallego (lengua) | Galician (language) | Modelos de linguaxe | Modelos de lenguaje | Language models | Variación lingüística | Linguistic variation | Reconocimiento automático da fala | Reconocimiento automático del habla | Automatic speech recognition | Palabras fóra de vocabulario | Palabras fuera de vocabulario | Out of vocabulary words | |
Data: | 2018 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) |
Cita bibliográfica: | Andrés Piñeiro Martín, Carmen García-Mateo, Laura Docío-Fernández, Xosé Luís Regueira (2018): Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla. Procesamiento del Lenguaje Natural 61, 75-82 |
Descrición: | Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestos |
Versión do editor: | http://dx.doi.org/10.26342/2018-61-8 |
URI: | http://hdl.handle.net/10347/17787 |
DOI: | 10.26342/2018-61-8 |
ISSN: | 1135-5948 |
E-ISSN: | 1989-7553 |
Dereitos: | © 2018 Sociedad Española para el Procesamiento del Lenguaje Natural |
Coleccións
-
- ILG-Artigos [111]
O ítem ten asociados os seguintes ficheiros de licenza: