Tale til tekst
Med kunstig intelligens har verda endeleg fått sin babelfisk.
Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.
Kjelde: Per Thorvaldsen med hjelp av DALL-E 3
Samandrag
Oppsummeringa er laga av AI-vertkøyet ChatGTP
Svigerfar snakkar. Eg nikkar. Eg prøver stundom å svara, men det er fåfengt. Han høyrer ingen ting, sjølv om det pip infernalsk i høyreapparatet. Kan samfunnet hjelpa oss? Vel, Nav har ei tolketeneste som tilbyr gårsdagens løysingar på våre akutte problem.
Kvar finn ein så løysinga? Ho ligg klar til gratis nedlasting på internettet: Google-transkribering. Eg snakkar inn i mobilen. Talen min kjem opp i stor skrift som er lett for svigerfar å lesa. No er det ikkje lenger slitsamt å vitja svigerfar på sjukeheimen. Me vart betre kjende dei to siste åra av livet hans enn dei førti føregåande.
Korleis verkar det?
Korleis verkar så tale til tekst? På mangt slags vis. I 1980-åra fann ein ut at såkalla skjulte Markov-kjeder kunne nyttast til å kjenna att fonem basert på små lydklipp. Fonem er atoma i den tala lyden. Metoden for å omsetja tale til tekst inneheld ei rekkje steg. Fyrst må talen digitaliserast. Dinest må talrekkja med digitalisert tale kuttast opp i småbitar. Det gjer ein for å få små bitar med stabil lyd som ein kan finna frekvensen og energiinnhaldet i ved å bruka Fast Fourier Transform.
Desse småbitane med tale hengjer ein på ei snor med tal, så matar me snora inn i ein skjult Markov-modell. Snora kjenner me, men fonema og rekkjefylgja deira kjenner me ikkje. Ved å køyra snora gjennom modellen får ein mange ulike måtar å setja saman fonema på basert på språkmodellen. For å finna den mest sannsynlege rekkjefølgja på fonema brukar modellen ein Viterbi-algoritme som nyttar den tidlegare rekkjefølgja av fonem for å gissa neste. Det gjer han heile tida medan snora med tal sklir forbi, og det er difor me ser at transkriberinga driv og ombestemmer seg medan praten går. Viterbi-algoritmen er rekursiv, det vil seia at han prøver mange ulike vegar til korrekt svar undervegs.
Eksempel på ein skjult Markov-modell.
Kjelde: Hakeem / Wikimedia Commons
Lat oss sjå nærare på korleis den skjulte Markov-modellen verkar når han vert brukt på tale til tekst. For å unngå å sjå skogen for berre tre tek me med berre 5 fonem i figuren i staden for dei 25 me har i norsk. Dei er nummererte frå 1 til 5. Mellom dei er det pilar som seier noko om sannsynet, 1 til 0, for å gå frå eitt fonem til eit anna. Det er språkmodellen vår. Det me kjenner til, er tala på snora. Dei er illustrerte med dei blå symbola. Oppgåva vert å gissa rekkjefølgja på fonem basert på talrekkjefølgja på snora.
Fyrst kjem det arabiskliknande symbolet til venstre. Det kan med ulikt sannsyn ha vorte produsert av fonem 5, 4 eller 3. Dinest kjem ei stjerne. Det kan koma frå fonem 3 eller 1, basert på kva fonem som kom føre. Slik kan ein gå gjennom snora med tal og få tre ulike fonemrekkjefølgjer: 5 3 2 5 3 2, 4 3 2 5 3 2 og 3 1 2 5 3 2. Kva for er så den rette? Viterbi-algoritmen finn den mest sannsynleg tidlegare rekkjefølgja av symbol som gjer at ein sluttar med eit spiralsymbol.
Kunstig inteligens tek over
Verda går vidare. Skjulte Markov-kjeder har vore til stor hjelp, men no tek kunstig intelligens med nevrale nett over. Eit av problema med å bruka skjulte Markov-kjeder og språkmodellar er at dei treng stort minne og rask prosessering. Det finn ein berre i kraftige datamaskiner. Dei nevrale netta vert trena på all slags tale og byggjer opp eit nettverk som kan gå rett frå tale til tekst utan alle dei stega ein treng med skjulte Markov-kjeder.
Med ein slik forenkla metode vert krava til minne og prosesseringskraft overkomelege. I 2019 kunngjorde Google at dei hadde laga ein rask tekst til tale-generator som berre trong reknekrafta me har lokalt på mobilen. Året etter hadde eg installert transkribering på mobilen, og svigerfar og eg fann saman takk vera Google.
Når ein fyrst har talen som tekst, er det mykje ein kan gjera. Eg vart vidiot i 2020, uvisst av kva grunn. Kan det ha vore pandemien? Så kom det krav om at alle videoane skulle ha universell utforming. Eg måtte teksta dei. Å teksta 300 videoar manuelt er ei keisam og umenneskeleg oppgåve, men eg fann ei teneste, Sonix.ai, der eg kunne lasta opp videoane og få undertekst i retur.
Diktering på bokmål
Når talen er i tekstform, kan han lett omsetjast. Eg har fått ein ny nabo. Me har eit problem. Me kan ikkje kommunisera språkleg. Ho er flyktning frå Ukraina. Ho kan korkje norsk eller engelsk, og eg vantar kunnskapar i ukrainsk. Me helsar, og eg veit at ho heiter Maria. Så treffer eg ho på T-bana. Me finn begge fram Google-omsetjaren, snakkar inn i den og viser omsett tekst til kvarandre. Før me har kome til Jernbanetorget, er me vortne godt kjende. Verda har endeleg fått sin babelfisk.
Lurer du på korleis eg skreiv denne teksten? Eg brukte diktering i Word og las han inn. Diverre verkar diktering berre på bokmål. Me får setja Peder Lofnes Hauge frå Noregs Mållag på saka.
Per Thorvaldsen
pth@hvl.no
Fleire artiklar
Foto via Wikipedia Commons
«Ørjasæter var fyrst god ven med diktarbroren sin frå Gudbrandsdalen, men så fekk han høyre ting om Aukrust som skar han 'gjenom hjarte som eit tvieggja sverd'.»
Han heitte John Guillot, men skifta namn til Johnnie Allan og blei pub-rockar.
Arkivet: For tida framstår ikkje USA som det lova landet, men hausten for 50 år sidan var Elvis Presley på hitlistene i USA og England med «Promised Land»
Mogleg trasé for jarnbane mellom Narvik eller Bjørnfjell til Tromsø.
«Tanken om å realisera tog til Tromsø gjennom Sverige er på ingen måte ny.»
Daniel Sommer, Johannes Lundberg og Arve Henriksen.
Foto: Kristin Lidell
Fint nordisk samarbeid
Her er det ikkje spor av langhalm.
Polakkane er skumle bridgespelarar. Her frå avslutningsseremonien under World Bridge Games i Buenos Aires nyleg.
Foto: Poli Zolto / World Bridge Federation
Dąbrowskis masurka
For to veker sidan vann Polen gull i det som uformelt blir kalla bridgens olympiade, i Buenos Aires.