Segmentador morfológico probabilístico de estado finito para el idioma wixárika (huichol)

En este trabajo, se presenta un segmentador morfológico para la lengua wixárika. La segmentación es fundamental para las lenguas con una rica morfología, característica común de las lenguas originarias de las Américas, para mejorar otras tareas como la traducción automática, los sistemas de diálogo, la generación de resúmenes, etc. Además de la naturaleza aglutinante de la lengua, la escasez de recursos y la falta de un estándar ortográfico entre los dialectos aumentan la dificultad. La propuesta se basa en un enfoque probabilístico de estados finitos que aprovecha los patrones aglutinantes regulares y requiere pocos conocimientos lingüísticos. Se demuestra que este enfoque supera los métodos no supervisados ​​y semi-supervisados ​​en un contexto de pocos recursos. El conjunto de datos utilizado en este trabajo se ha publicado abiertamente para futuras investigaciones por parte de la comunidad.

Descarga y lee artículo completo en inglés aquí.

Español