START Conference Manager    

Corpora Mandeica: text corpora for Mande languages (West Africa)

Valentin Vydrin


Categories

category:  Poster
Session:  6 December Session P4: African Languages Poster Session

Additional Fields

 
Abstract:   "Corpora Mandeica" is a set of corpora of annotated written texts in languages of the Mande family, openly accessible in the Internet. All the texts in the corpora are provided with POS tags and French (eventually also English and Russian) glosses. The corpora are partly disambiguated; parallel subcorpora are also being developed. So far, there are corpora for four languages available on line: Bambara (more than 11 million words), Guinean Maninka (about 3,5 million words), Eastern Dan (about 460,000 words), Mwan (47,000 words). The corpora are accompanied by electronic dictionaries and electronic libraries. Further language corpora are planned.

 
Resume:   Проект Corpora Mandeica представляет собой совокупность аннотированных корпусов письменных текстов на языках манде, находящихся в открытом доступе в Интернете. Все тексты аннотированы (снабжены частеречными пометами и французскими глоссами; отчасти также английскими и русскими). Для части текстов проведено снятие омонимии. Создаются также параллельные корпуса. К настоящему моменту доступны для поиска корпуса 4 языков: бамана (11 млн. слов), гвинейский манинка (около 3,5 млн.), восточный дан (около 460 тыс. слов), муан (47 тыс. слов). На корпусных сайтах вывешены электронные словари; имеются также электронные библиотеке для 3 языков. Планируется создание корпусов и для других языков семьи.

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)