Føroysk talukenning | Færøsk talegenkendelse

So lítið av taludátum skal til fyri at gera ein nýggjan talukennara – hygg her!

Verkætlanin Ravnur í Føroyum hevur savnað og ment ein BLARK (Basic LAnguage Resource Kit) til føroyskt mál, sum er frítt atkomiligur á netinum. www.blark.org

Met sjálv/ur um úrslitið í hesum filmsbroti:

NB: Teksturin er orðaður talgilt og sostatt ikki til lagaður av nøkrum persóni.

Så lidt sprogdata skal der til en ny talegenkender – se selv!

Ravnur-projektet på Færøerne har indsamlet og udviklet en BLARK (Basic LAnguage Resource Kit) for det færøske sprog, som er stillet frit tilgængeligt. www.blark.org

Bedøm selv resultatet i denne video:

NB: Teksterne er dannet automatisk og ikke redigeret af et menneske.

Vit í Dictus tóku í móti avbjóðingini frá verkætlanini Ravni og mentu ein talukennara úr undir 100 tímum av upptøkum+teksti. Upp á mettíð (3 vikur), mentu vit ein serstakliga sannførandi talu-til-tekst motor til føroyskt. Í Tórshavn høvdu vit eina framløgu, har vit við vissum stoltleika, vístu úrslitið av okkara arbeiði, sum eitt framhald av tí framúr góða arbeiðinum, sum verkætlanin Ravnur longu hevur gjørt.

Í filmsbrotinum hava vit gjørt talukenning burtur úr ljóðinum úr einum innslagi úr Degi og viku, sum snýr seg um barsil. Vit hava koyrt tíðarkodur á, soleiðis at talukenningin verður til vanligar undirtekstir. Orsakað av stuttari tíðarfreist, hava vit ikki havt stundir til at normalisera tekstin – t.e. at tøl verða stavað við bókstøvum, eins og eingin teknseting er enn.

Vit meta sjálv, at vit kunnu koma til hesa niðurstøðu: Taludátur við 100 tímum av avskrivaðum ljóðdátum eru nokk til at gera ein talukennara til eitt lítið mál, sjálvt um fleiri dátur sjálvsagt høvdu betrað talukennaran til aðra nýtslu, aðrar taluumstøður ella ávis málføri.

Um mann hyggur at øllum málunum í heiminum, hevur meginparturin av teimum sera fáar talarar, og har finst ofta sera lítið av málsligum tilfari til hesi mál. Sostatt er torført at menna talutøkni til hesi mál. Vit vóna, at føroyska verkætlanin Ravnur kann hugkveikja onnur lítil mál, sum t.d. grønlendskt ella sámiskt, til at savna taludátur á sama hátt – Dictus ynskir sjálvandi at menna talukenning til hesi mál eisini.

Dictus – helst tann besta talukenningin í Norðurlondum.

I Dictus tog vi udfordringen fra Ravnur-projektet op og udviklede en talegenkender på under 100 timers lydoptagelse+tekst. På rekordtid (3 kalenderuger) har vi i Dictus udviklet en ekstremt overbevisende tale-til-tekst motor til færøsk. I Torshavn præsenterede vi – med en vis stolthed – resultatet af vores arbejde, der står på skuldrene af det store arbejde der er udført i Ravnur-projektet.

I videoen har vi udført talegenkendelse på lydsiden af et færøsk tv-indslag om barsel. Vi har talegenkendt med tidsstempler, som så kan præsenteres som standard undertekstning.
På grund af den korte tidsfrist, har vi ikke haft tid til at tekstnormalisere – så tal står fx med bogstaver, ligesom vi ikke har nået at lave automatisk tegnsætning for færøsk.
Vi mener selv at kunne konkludere: Sprogdata med 100 timers tekst-transskriberet lyddata er tilstrækkeligt til en talegenkender for et lille sprog, selvom mere data altid vil gøre den bedre til andre use cases, talesituationer og bedre dialekt dækning.

Hovedparten af verdens sprog tales af meget få mennesker og der findes ofte meget få sprogressourcer tilgængelige for det pågældende sprog. Det betyder, at det er svært eller umuligt at udvikle taleteknologi på disse sprog. Vi håber, at færøske Ravnur kan inspirere andre mindre sprog, som fx Grønlandsk eller Samisk, til på tilsvarende vis at indsamle sprogdata – så laver Dictus gerne en talegenkender til dette sprog.

Dictus – sandsynligvis den bedste tale-til-tekst i norden.

Kort om Dictus

Hos Dictus har vi mere end 15-års erfaring med taleteknologi, og vi er eksperter i at udvikle specialiserede professionelle taleassistenter. Vores skræddersyede løsninger gør arbejdsdagen lettere og mere effektiv – især for dig, der bruger hænderne meget i dit arbejde.