START Conference Manager    

The Pangloss Collection: an open archive of under-documented languages designed with Natural Language Processing in view

Séverine Guillaume, Balthazar Do Nascimento and Alexis MICHAUD


Categories

category:  Poster
Session:  6 December Session P5: Asian Languages Poster Session

Additional Fields

 
Abstract:   The Pangloss Collection was created by the research centre langues et civilisations à tradition orale (LACITO) in the 1990s, as a natural extension of traditional methods in linguistic fieldwork. As of 2019, the Pangloss Collection hosts about 170 languages, with 1900 hours of recordings (about 70% are transcribed and annotated). The resources in the Pangloss Collection benefit from long-term archiving services. Almost all resources are open access, so they are available for a variety of uses, for specialists but also for the general public and, last but not least for research in Natural Language Processing.

 
Resume:   La Collection Pangloss : une archive ouverte de langues peu documentées conçue pour faciliter des emplois en Traitement Automatique des Langues

La Collection Pangloss a été créée par le laboratoire de langues et civilisations à tradition orale (LACITO), dans les années 90, dans le prolongement des méthodes classiques d’enquête et d’analyse de la linguistique de terrain. En 2019, la Collection Pangloss regroupe environ 170 langues, avec 1900h d’enregistrements (dont environ 70% transcrit et annoté). Les ressources de la Collection Pangloss bénéficient de services d’archivage pérenne. La quasi-totalité des ressources est en accès libre, elles sont donc disponibles pour divers usages : découverte, enseignement, recherche. Recherche en linguistique et anthropologie mais aussi, grâce au numérique, recherche dans le traitement automatique des langues.

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)