Føroysk talukenning

Test av føroyskum talukennara frá Dictus, har lisin verður upp ein grein frá KVF. Seinast í videobrotinum vísa vit, hvørjar villur eru í døminum, og sum kunnu væntast at vera í hesi fyrstu útgávu av forritinum.

Tú kanst hjálpa okkum at menna føroyska talukenning! Dugir tú føroyskt, ella kennir tú onkran, sum ger, kunnu tit tosa føroyskt inn her:

Leiðbeining

 

Teksturin er orðaður talgilt og sostatt ikki til lagaður av nøkrum persóni.
Teksterne er dannet automatisk og ikke redigeret af et menneske.

Vit í Dictus tóku í móti avbjóðingini frá verkætlanini Ravni og mentu ein talukennara úr undir 100 tímum av upptøkum+teksti. Upp á mettíð (3 vikur), mentu vit ein serstakliga sannførandi talu-til-tekst motor til føroyskt. Í Tórshavn høvdu vit eina framløgu, har vit við vissum stoltleika, vístu úrslitið av okkara arbeiði, sum eitt framhald av tí framúr góða arbeiðinum, sum verkætlanin Ravnur longu hevur gjørt.

Í filmsbrotinum hava vit gjørt talukenning burtur úr ljóðinum úr einum innslagi úr Degi og viku, sum snýr seg um barsil. Vit hava koyrt tíðarkodur á, soleiðis at talukenningin verður til vanligar undirtekstir.

Vit meta sjálv, at vit kunnu koma til hesa niðurstøðu: Taludátur við 100 tímum av avskrivaðum ljóðdátum eru nokk til at gera ein talukennara til eitt lítið mál, sjálvt um fleiri dátur sjálvsagt høvdu betrað talukennaran til aðra nýtslu, aðrar taluumstøður ella ávis málføri.

Um mann hyggur at øllum málunum í heiminum, hevur meginparturin av teimum sera fáar talarar, og har finst ofta sera lítið av málsligum tilfari til hesi mál. Sostatt er torført at menna talutøkni til hesi mál. Vit vóna, at føroyska verkætlanin Ravnur kann hugkveikja onnur lítil mál, sum t.d. grønlendskt ella sámiskt, til at savna taludátur á sama hátt – Dictus ynskir sjálvandi at menna talukenning til hesi mál eisini.

Dictus – helst tann besta talukenningin í Norðurlondum.

I Dictus tog vi udfordringen fra Ravnur-projektet op og udviklede en talegenkender på under 100 timers lydoptagelse+tekst. På rekordtid (3 kalenderuger) har vi i Dictus udviklet en ekstremt overbevisende tale-til-tekst motor til færøsk. I Torshavn præsenterede vi – med en vis stolthed – resultatet af vores arbejde, der står på skuldrene af det store arbejde der er udført i Ravnur-projektet.

I videoen har vi udført talegenkendelse på lydsiden af et færøsk tv-indslag om barsel. Vi har talegenkendt med tidsstempler, som så kan præsenteres som standard undertekstning. I den første prototype findes der ingen automatisk tegnsætning eller anden tekstformatering. Vi mener dog stadig, at eksemplerne viser gode resultater (og dette på relativt få lyddata), selvom mere data altid vil gøre den bedre til flere use cases, talesituationer og give bedre dialektdækning.

Vi mener selv at kunne konkludere: Sprogdata med 100 timers tekst-transskriberet lyddata er tilstrækkeligt til en talegenkender for et lille sprog, selvom mere data altid vil gøre den bedre til andre use cases, talesituationer og bedre dialekt dækning.

Hovedparten af verdens sprog tales af meget få mennesker og der findes ofte meget få sprogressourcer tilgængelige for det pågældende sprog. Det betyder, at det er svært eller umuligt at udvikle taleteknologi på disse sprog. Vi håber, at færøske Ravnur kan inspirere andre mindre sprog, som fx Grønlandsk eller Samisk, til på tilsvarende vis at indsamle sprogdata – så laver Dictus gerne en talegenkender til dette sprog.

Dictus – sandsynligvis den bedste tale-til-tekst i norden.

Kort om Dictus

Hos Dictus har vi mere end 15-års erfaring med taleteknologi, og vi er eksperter i at udvikle specialiserede professionelle taleassistenter. Vores skræddersyede løsninger gør arbejdsdagen lettere og mere effektiv – især for dig, der bruger hænderne meget i dit arbejde.