START Conference Manager    

On the development of the Mexican Languages Parallel Corpus

Cynthia Montaño, Gerardo Sierra Martínez and Gemma Bel-Enguix


Categories

category:  Poster
Session:  5 December Session P3: South and Central American Languages Poster Session

Additional Fields

 
Abstract:   The project we present is called Mexican Languages Parallel Corpus (CPLM) and its main goal is to contribute to development of NLP for low-resources Mexican languages. The CPLM consist of two modules: core module and subcorpus of religious and political texts module. The core module currently comprises 6 linguistics groups from 3 linguistics families; Mayan: Yucatec Maya and Ch’ol; Otomanguean: Mazatec, Zapotec and Otomí; Uto-Aztec: Nahuatl. The STRyP comprises 83 translations of the New Testament and 11 translations of three types of texts. The STRyP comprises a wide range of languages.

 
Resume:   El proyecto que presentamos se llama Corpus Paralelo de Lenguas Mexicanas y su objetivo principal es contribuir al desarrollo de PLN para las lenguas de bajos recursos. El CPLM se compone de dos módulos: el módulo nuclear y el módulo de subcorpus de textos religiosos y políticos (STRyP). El módulo nuclear contiene actualmente seis grupos de tres familias lingüísticas; maya: maya yucateco y ch’ol; otomangue: mazateco, zapoteco y otomí, y yutoazteca: náhuatl. El STRyP se basa en 83 traducciones del nuevo testamento y once traducciones de tres tipos de textos. El STRyP se compone de un amplío rango de lenguas.

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)