Abstract: Submission #105

LT Data Free for All

Marko Tadić and Tamás Váradi

Additional Fields

Abstract: Language technology crucially depends on large amounts of texts. Digitally published text is a natural source for fast production of the fundamental language resources – corpora. However, clean, openly and freely available texts are difficult to come by. Even national languages suffer from scarcity of quality language data. We are presenting a project that can serve as a role model for the collection of large monolingual corpora for under-resourced languages. The approach could be applicable to any linguistic community that publishes legislative texts in their own language in digital form, to quickly build very big corpora

Resume: A nyelvtechnológia számára alapvető fontosságú az óriás mennaiségű szövegek elérhetősége. A digitálisan publikált szövegek kézenfekvő forrásai az alapvető nyelvi erőforrások, a korpuszok gyors előállításának. Azonban a tiszta, nyílt és ingyenesen hozzáférhető szövegeket nehéz beszerezni. Még hivatalos nemzeti nyelvek is szenvednek a jó minőségű szövegek hiányától. Bemutatunk egy olyan projektet, amely mintául szolgálhat arra, hogy miképpen lehet nagyméretű egynyelvű korpuszokat építeni erőforráshiányos nyelveken. A módszer minden olyan nyelvi közösség esetében használható, amely digitális alakban teszi közzé a saját nyelvén a jogszabályokat, melyekből hatékonyan lehet nagyon nagyméretű korpuszokat építeni.

File(s)

[Paper (PDF)]

START Conference Manager (V2.61.0 - Rev. 5964)

category:	Poster
Session:	5 December Session P2: European and Arctic Languages Poster Session


Abstract:	Language technology crucially depends on large amounts of texts. Digitally published text is a natural source for fast production of the fundamental language resources – corpora. However, clean, openly and freely available texts are difficult to come by. Even national languages suffer from scarcity of quality language data. We are presenting a project that can serve as a role model for the collection of large monolingual corpora for under-resourced languages. The approach could be applicable to any linguistic community that publishes legislative texts in their own language in digital form, to quickly build very big corpora

Resume:	A nyelvtechnológia számára alapvető fontosságú az óriás mennaiségű szövegek elérhetősége. A digitálisan publikált szövegek kézenfekvő forrásai az alapvető nyelvi erőforrások, a korpuszok gyors előállításának. Azonban a tiszta, nyílt és ingyenesen hozzáférhető szövegeket nehéz beszerezni. Még hivatalos nemzeti nyelvek is szenvednek a jó minőségű szövegek hiányától. Bemutatunk egy olyan projektet, amely mintául szolgálhat arra, hogy miképpen lehet nagyméretű egynyelvű korpuszokat építeni erőforráshiányos nyelveken. A módszer minden olyan nyelvi közösség esetében használható, amely digitális alakban teszi közzé a saját nyelvén a jogszabályokat, melyekből hatékonyan lehet nagyon nagyméretű korpuszokat építeni.

LT Data Free for All

Marko Tadić and Tamás Váradi

Categories

Additional Fields

File(s)