START Conference Manager    

Tooling up a less-resourced language with NLP : the example of Corsican and the "Banque de Données Langue Corse" (BDLC, Corsican Language Database)

Laurent Kevers, Stella Retali-Medori, Florian Guéniot and A. Ghjacumina Tognotti


Categories

category:  Poster
Session:  5 December Session P2: European and Arctic Languages Poster Session

Additional Fields

 
Abstract:   The current situation regarding the existence of Natural Language Processing (NLP) resources and tools for Corsican reveals their virtual non-existence. Our inventory contains only a few rare digital resources, lexical or corpus databases, requiring adaptation work. Our objective is to use the BDLC project to improve the availability of resources and tools for the Corsican language. We have defined a roadmap setting out the actions to be undertaken: collection of corpora and setting up of a consultation interface (concordancer), language detection tool, electronic dictionary and part-of-speech tagger. The first achievements are already available.

 
Resume:   L’état des lieux concernant les ressources et outils de Traitement Automatique du Langage (TAL) pour le corse révèle leur quasi inexistence. Notre inventaire ne contient que quelques rares ressources digitales, bases de données lexicales ou corpus, nécessitant un travail d’adaptation. Nous nous appuyons sur le projet BDLC pour faire avancer l’outillage de la langue corse. Nous avons défini une feuille de route reprenant les actions à entreprendre : collecte de corpus et mise en place d’une interface de consultation (concordancier), outil de détection de langue, dictionnaire électronique et outil d’annotation en parties du discours. Les premières réalisations sont déjà disponibles.

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)