START Conference Manager    

Analysis of Language Relatedness for the Development of Multilingual Automatic Speech Recognition for Ethiopian Languages

Martha Yifiru Tachbelie, Solomon Teferra Abate and Tanja Schultz


Categories

category:  Poster
Session:  6 December Session P4: African Languages Poster Session

Additional Fields

 
Abstract:   In this poster, we present the analysis of GlobalPhone (GP) and speech corpora of Ethiopian languages (Amharic, Tigrigna, Oromo and Wolaytta). The aim is to select speech data from GP for the development of multilingual Automatic Speech Recognition (ASR) system for the Ethiopian languages. To this end, the phonetic overlaps among GP and Ethiopian languages have been analyzed. Moreover, morphological complexity of the GP and Ethiopian languages, reflected with high out of vocabulary rate and type to token ration, has been analyzed using training transcriptions. We also present baseline ASR performances for each of the GP and four Ethiopian languages.

 
Resume:   በዚህ ፖስተር የምናቀርብላችሁ በግሎባል ፎን እና በአራት የኢትዮጵያ ቋንቋዎች (አማርኛ፣ ትግርኛ፣ ኦሮምኛ እና ወላይትኛ) የድምፅ ዳታ መካከል ያደረግነውን የማነጻጸር ጥናት ነው። የጥናቱ ዋና አላማ ከግሎባል ፎን የድምፅ ዳታ ውስጥ ለብዙ የኢትዮጵያ ቋንቋዎች ንግግርን ወደ ድምፅ የሚቀይር መተግበሪያ ለመስራት ጠቃሚ የሆነ የድምፅ ዳታ መምረጥ ነው። ስለዚህም በግሎባል ፎን እና በአራቱ የኢትዮጵያ ቋንቋዎች መካከል ያለውን የድምፅ መመሳሰል አጥንተናል። በተጨማሪም የቋቋዎቹን ምእላዳዊ ውስብስብነት ለመረዳት እንዲቻል "Out of Vocabulary" እና "Type to Token Ratio" በማስላት ለማየት ሞክረናል። ለእያንዳንዱ የግሎባል ፎን እና የኢትዮጵያ ቋንቋዎች የተዘጋጁ ንግግርን ወደ ድምፅ የሚቀይሩ መተግበሪያዎችንና አፈፃፀማቸውን አሳይተናል።

File(s)

[Paper (PDF)]  

START Conference Manager (V2.61.0 - Rev. 5964)