Teknologi

Tale til tekst

Med kunstig intelligens har verda endeleg fått sin babelfisk.

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.
Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.
Publisert

Svigerfar snakkar. Eg nikkar. Eg prøver stundom å svara, men det er fåfengt. Han høyrer ingen ting, sjølv om det pip infernalsk i høyreapparatet. Kan samfunnet hjelpa oss? Vel, Nav har ei tolketeneste som tilbyr gårsdagens løysingar på våre akutte problem.

Kvar finn ein så løysinga? Ho ligg klar til gratis nedlasting på internettet: Google-transkribering. Eg snakkar inn i mobilen. Talen min kjem opp i stor skrift som er lett for svigerfar å lesa. No er det ikkje lenger slitsamt å vitja svigerfar på sjukeheimen. Me vart betre kjende dei to siste åra av livet hans enn dei førti føregåande.

Korleis verkar det?

Korleis verkar så tale til tekst? På mangt slags vis. I 1980-åra fann ein ut at såkalla skjulte Markov-kjeder kunne nyttast til å kjenna att fonem basert på små lydklipp. Fonem er atoma i den tala lyden. Metoden for å omsetja tale til tekst inneheld ei rekkje steg. Fyrst må talen digitaliserast. Dinest må talrekkja med digitalisert tale kuttast opp i småbitar. Det gjer ein for å få små bitar med stabil lyd som ein kan finna frekvensen og energiinnhaldet i ved å bruka Fast Fourier Transform.

Desse småbitane med tale hengjer ein på ei snor med tal, så matar me snora inn i ein skjult Markov-modell. Snora kjenner me, men fonema og rekkjefylgja deira kjenner me ikkje. Ved å køyra snora gjennom modellen får ein mange ulike måtar å setja saman fonema på basert på språkmodellen. For å finna den mest sannsynlege rekkjefølgja på fonema brukar modellen ein Viterbi-algoritme som nyttar den tidlegare rekkjefølgja av fonem for å gissa neste. Det gjer han heile tida medan snora med tal sklir forbi, og det er difor me ser at transkriberinga driv og ombestemmer seg medan praten går. Viterbi-algoritmen er rekursiv, det vil seia at han prøver mange ulike vegar til korrekt svar undervegs.

Eksempel på ein skjult Markov-modell.
Eksempel på ein skjult Markov-modell.

Lat oss sjå nærare på korleis den skjulte Markov-modellen verkar når han vert brukt på tale til tekst. For å unngå å sjå skogen for berre tre tek me med berre 5 fonem i figuren i staden for dei 25 me har i norsk. Dei er nummererte frå 1 til 5. Mellom dei er det pilar som seier noko om sannsynet, 1 til 0, for å gå frå eitt fonem til eit anna. Det er språkmodellen vår. Det me kjenner til, er tala på snora. Dei er illustrerte med dei blå symbola. Oppgåva vert å gissa rekkjefølgja på fonem basert på talrekkjefølgja på snora.

Fyrst kjem det arabiskliknande symbolet til venstre. Det kan med ulikt sannsyn ha vorte produsert av fonem 5, 4 eller 3. Dinest kjem ei stjerne. Det kan koma frå fonem 3 eller 1, basert på kva fonem som kom føre. Slik kan ein gå gjennom snora med tal og få tre ulike fonemrekkjefølgjer: 5 3 2 5 3 2, 4 3 2 5 3 2 og 3 1 2 5 3 2. Kva for er så den rette? Viterbi-algoritmen finn den mest sannsynleg tidlegare rekkjefølgja av symbol som gjer at ein sluttar med eit spiralsymbol.

Prinsippskisse av ein tekst til tale-generator.
Med Google Transcribe kan ein snakka med døve og norsk med kven som helst.Skjermdump: Per Thorvaldsen

Kunstig inteligens tek over

Verda går vidare. Skjulte Markov-kjeder har vore til stor hjelp, men no tek kunstig intelligens med nevrale nett over. Eit av problema med å bruka skjulte Markov-kjeder og språkmodellar er at dei treng stort minne og rask prosessering. Det finn ein berre i kraftige datamaskiner. Dei nevrale netta vert trena på all slags tale og byggjer opp eit nettverk som kan gå rett frå tale til tekst utan alle dei stega ein treng med skjulte Markov-kjeder.

Med ein slik forenkla metode vert krava til minne og prosesseringskraft overkomelege. I 2019 kunngjorde Google at dei hadde laga ein rask tekst til tale-generator som berre trong reknekrafta me har lokalt på mobilen. Året etter hadde eg installert transkribering på mobilen, og svigerfar og eg fann saman takk vera Google.

Når ein fyrst har talen som tekst, er det mykje ein kan gjera. Eg vart vidiot i 2020, uvisst av kva grunn. Kan det ha vore pandemien? Så kom det krav om at alle videoane skulle ha universell utforming. Eg måtte teksta dei. Å teksta 300 videoar manuelt er ei keisam og umenneskeleg oppgåve, men eg fann ei teneste, Sonix.ai, der eg kunne lasta opp videoane og få undertekst i retur.

Diktering på bokmål

Når talen er i tekstform, kan han lett omsetjast. Eg har fått ein ny nabo. Me har eit problem. Me kan ikkje kommunisera språkleg. Ho er flyktning frå Ukraina. Ho kan korkje norsk eller engelsk, og eg vantar kunnskapar i ukrainsk. Me helsar, og eg veit at ho heiter Maria. Så treffer eg ho på T-bana. Me finn begge fram Google-omsetjaren, snakkar inn i den og viser omsett tekst til kvarandre. Før me har kome til Jernbanetorget, er me vortne godt kjende. Verda har endeleg fått sin babelfisk.

Lurer du på korleis eg skreiv denne teksten? Eg brukte diktering i Word og las han inn. Diverre verkar diktering berre på bokmål. Me får setja Peder Lofnes Hauge frå Noregs Mållag på saka.