START Conference Manager    

Building Corpora for Under-Resourced Languages in Indonesia

Totok Suhardijanto and Arawinda Dinakaramani


Categories

category:  Poster
Session:  6 December Session P5: Asian Languages Poster Session

Additional Fields

 
Abstract:   Indonesia has known as the second most linguistically-diverse country, but ironically also known as a country with many under-resourced languages. In this poster, we present our attempt to develop language resources in Indonesian indigenous languages for linguistic research purposes. For the first stage, we developed corpora for Javanese, Sundanese, Malay/Indonesian, and Minangkabau which are chosen because of the number of speakers. This poster discusses the drawbacks and opportunities in our attempt to build Indonesian language corpora that are publicly accessible. The corpus application is still under development, but it is a good step to start compiling language corpora in Indonesia.

 
Resume:   Indonesia dikenal sebagai negara paling kaya kedua dalam hal bahasa, namun ironisnya juga dikenal dengan negara paling sedikit sumber daya bahasanya. Poster ini menyajikan upaya kami dalam membangun korpora untuk bahasa-bahasa di Indonesia untuk kepentingan kajian bahasa. Pada tahap awal, dipilih bahasa Jawa, Sunda, Melayu/Indonesia, dan Minangkabau sebagai konten korpora karena bahasa-bahasa itu mempunyai jumlah penutur banyak. Poster ini akan membahas kendala dan kesempatan dalam menyusun korpora bahasa-bahasa di Indonesia. Aplikasi korpusnya pun masih dalam tahap pengembangan, namun ini merupakan langkah baik untuk mengembangkan korpus untuk bahasa-bahasa di Indonesia.

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)