Tale til tekst
Med kunstig intelligens har verda endeleg fått sin babelfisk.
Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.
Kjelde: Per Thorvaldsen med hjelp av DALL-E 3
Samandrag
Oppsummeringa er laga av AI-vertkøyet ChatGTP
Svigerfar snakkar. Eg nikkar. Eg prøver stundom å svara, men det er fåfengt. Han høyrer ingen ting, sjølv om det pip infernalsk i høyreapparatet. Kan samfunnet hjelpa oss? Vel, Nav har ei tolketeneste som tilbyr gårsdagens løysingar på våre akutte problem.
Kvar finn ein så løysinga? Ho ligg klar til gratis nedlasting på internettet: Google-transkribering. Eg snakkar inn i mobilen. Talen min kjem opp i stor skrift som er lett for svigerfar å lesa. No er det ikkje lenger slitsamt å vitja svigerfar på sjukeheimen. Me vart betre kjende dei to siste åra av livet hans enn dei førti føregåande.
Korleis verkar det?
Korleis verkar så tale til tekst? På mangt slags vis. I 1980-åra fann ein ut at såkalla skjulte Markov-kjeder kunne nyttast til å kjenna att fonem basert på små lydklipp. Fonem er atoma i den tala lyden. Metoden for å omsetja tale til tekst inneheld ei rekkje steg. Fyrst må talen digitaliserast. Dinest må talrekkja med digitalisert tale kuttast opp i småbitar. Det gjer ein for å få små bitar med stabil lyd som ein kan finna frekvensen og energiinnhaldet i ved å bruka Fast Fourier Transform.
Desse småbitane med tale hengjer ein på ei snor med tal, så matar me snora inn i ein skjult Markov-modell. Snora kjenner me, men fonema og rekkjefylgja deira kjenner me ikkje. Ved å køyra snora gjennom modellen får ein mange ulike måtar å setja saman fonema på basert på språkmodellen. For å finna den mest sannsynlege rekkjefølgja på fonema brukar modellen ein Viterbi-algoritme som nyttar den tidlegare rekkjefølgja av fonem for å gissa neste. Det gjer han heile tida medan snora med tal sklir forbi, og det er difor me ser at transkriberinga driv og ombestemmer seg medan praten går. Viterbi-algoritmen er rekursiv, det vil seia at han prøver mange ulike vegar til korrekt svar undervegs.
Eksempel på ein skjult Markov-modell.
Kjelde: Hakeem / Wikimedia Commons
Lat oss sjå nærare på korleis den skjulte Markov-modellen verkar når han vert brukt på tale til tekst. For å unngå å sjå skogen for berre tre tek me med berre 5 fonem i figuren i staden for dei 25 me har i norsk. Dei er nummererte frå 1 til 5. Mellom dei er det pilar som seier noko om sannsynet, 1 til 0, for å gå frå eitt fonem til eit anna. Det er språkmodellen vår. Det me kjenner til, er tala på snora. Dei er illustrerte med dei blå symbola. Oppgåva vert å gissa rekkjefølgja på fonem basert på talrekkjefølgja på snora.
Fyrst kjem det arabiskliknande symbolet til venstre. Det kan med ulikt sannsyn ha vorte produsert av fonem 5, 4 eller 3. Dinest kjem ei stjerne. Det kan koma frå fonem 3 eller 1, basert på kva fonem som kom føre. Slik kan ein gå gjennom snora med tal og få tre ulike fonemrekkjefølgjer: 5 3 2 5 3 2, 4 3 2 5 3 2 og 3 1 2 5 3 2. Kva for er så den rette? Viterbi-algoritmen finn den mest sannsynleg tidlegare rekkjefølgja av symbol som gjer at ein sluttar med eit spiralsymbol.
Kunstig inteligens tek over
Verda går vidare. Skjulte Markov-kjeder har vore til stor hjelp, men no tek kunstig intelligens med nevrale nett over. Eit av problema med å bruka skjulte Markov-kjeder og språkmodellar er at dei treng stort minne og rask prosessering. Det finn ein berre i kraftige datamaskiner. Dei nevrale netta vert trena på all slags tale og byggjer opp eit nettverk som kan gå rett frå tale til tekst utan alle dei stega ein treng med skjulte Markov-kjeder.
Med ein slik forenkla metode vert krava til minne og prosesseringskraft overkomelege. I 2019 kunngjorde Google at dei hadde laga ein rask tekst til tale-generator som berre trong reknekrafta me har lokalt på mobilen. Året etter hadde eg installert transkribering på mobilen, og svigerfar og eg fann saman takk vera Google.
Når ein fyrst har talen som tekst, er det mykje ein kan gjera. Eg vart vidiot i 2020, uvisst av kva grunn. Kan det ha vore pandemien? Så kom det krav om at alle videoane skulle ha universell utforming. Eg måtte teksta dei. Å teksta 300 videoar manuelt er ei keisam og umenneskeleg oppgåve, men eg fann ei teneste, Sonix.ai, der eg kunne lasta opp videoane og få undertekst i retur.
Diktering på bokmål
Når talen er i tekstform, kan han lett omsetjast. Eg har fått ein ny nabo. Me har eit problem. Me kan ikkje kommunisera språkleg. Ho er flyktning frå Ukraina. Ho kan korkje norsk eller engelsk, og eg vantar kunnskapar i ukrainsk. Me helsar, og eg veit at ho heiter Maria. Så treffer eg ho på T-bana. Me finn begge fram Google-omsetjaren, snakkar inn i den og viser omsett tekst til kvarandre. Før me har kome til Jernbanetorget, er me vortne godt kjende. Verda har endeleg fått sin babelfisk.
Lurer du på korleis eg skreiv denne teksten? Eg brukte diktering i Word og las han inn. Diverre verkar diktering berre på bokmål. Me får setja Peder Lofnes Hauge frå Noregs Mållag på saka.
Per Thorvaldsen
pth@hvl.no
Fleire artiklar
Lars Elling har skrive eit portrett av venen Stian Carstensen.
Foto: Trond A. Isaksen
Singel og sanatorium
Lars Elling skriv sprudlande, intelligent overskotsprosa
frå sinnets undergrunn.
Oppsettingar og konsertar er ein viktig og synleg del av skolegangen på musikklinjene. Her frå Hakkebakkeskogen ved Stord vidaregåande skule.
Foto: Stord vgs
Kampen om kunstfaga
Om kunstfaglege linjer ved vidaregåande skolar har livets rett, er ein årleg debatt når elevplassar og kroner skal fordelast.
Den norske fiskeflåten er mangfaldig. Her er ringnotfartøy ved kai i Egersund våren 2017.
Foto: Per Anders Todal
Fiskar er fiskar verst
Striden om kvotemeldinga kan få Fiskarlaget til å rivne.
Mannsutvalet saman med kultur- og likestillingsminister Lubna Jaffery under overrekkinga av rapporten.
Foto: Ole Berg-Rusten
Vil avlive likestillingsmytar
Forskar Mari Teigen ønskjer seg ein kjønnsdebatt bygd på kunnskap.
Statsministeren i Storbritannia, Rishi Sunak, har varsla at dei fyrste flya mot Rwanda skal vere i lufta løpet av ti til tolv veker.
Foto: Toby Melville / Reuters / NTB
Vil nytte Rwanda
som asylskremsel
Den som prøver å ta seg til Storbritannia med båt over Den engelske kanalen for å søkje asyl, risikerer i framtida å verte sett på eit fly til Rwanda utan høve til å returnere.