Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Tale til tekst

Med kunstig intelligens har verda endeleg fått sin babelfisk.

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Kjelde: Per Thorvaldsen med hjelp av DALL-E 3

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Kjelde: Per Thorvaldsen med hjelp av DALL-E 3

4810
20240405
4810
20240405

Samandrag

Oppsummeringa er laga av AI-vertkøyet ChatGTP

Vis mer
Vis mindre

Svigerfar snakkar. Eg nikkar. Eg prøver stundom å svara, men det er fåfengt. Han høyrer ingen ting, sjølv om det pip infernalsk i høyreapparatet. Kan samfunnet hjelpa oss? Vel, Nav har ei tolketeneste som tilbyr gårsdagens løysingar på våre akutte problem.

Kvar finn ein så løysinga? Ho ligg klar til gratis nedlasting på internettet: Google-transkribering. Eg snakkar inn i mobilen. Talen min kjem opp i stor skrift som er lett for svigerfar å lesa. No er det ikkje lenger slitsamt å vitja svigerfar på sjukeheimen. Me vart betre kjende dei to siste åra av livet hans enn dei førti føregåande.

Korleis verkar det?

Korleis verkar så tale til tekst? På mangt slags vis. I 1980-åra fann ein ut at såkalla skjulte Markov-kjeder kunne nyttast til å kjenna att fonem basert på små lydklipp. Fonem er atoma i den tala lyden. Metoden for å omsetja tale til tekst inneheld ei rekkje steg. Fyrst må talen digitaliserast. Dinest må talrekkja med digitalisert tale kuttast opp i småbitar. Det gjer ein for å få små bitar med stabil lyd som ein kan finna frekvensen og energiinnhaldet i ved å bruka Fast Fourier Transform.

Desse småbitane med tale hengjer ein på ei snor med tal, så matar me snora inn i ein skjult Markov-modell. Snora kjenner me, men fonema og rekkjefylgja deira kjenner me ikkje. Ved å køyra snora gjennom modellen får ein mange ulike måtar å setja saman fonema på basert på språkmodellen. For å finna den mest sannsynlege rekkjefølgja på fonema brukar modellen ein Viterbi-algoritme som nyttar den tidlegare rekkjefølgja av fonem for å gissa neste. Det gjer han heile tida medan snora med tal sklir forbi, og det er difor me ser at transkriberinga driv og ombestemmer seg medan praten går. Viterbi-algoritmen er rekursiv, det vil seia at han prøver mange ulike vegar til korrekt svar undervegs.   

Eksempel på ein skjult Markov-modell.

Eksempel på ein skjult Markov-modell.

Kjelde: Hakeem / Wikimedia Commons 

Lat oss sjå nærare på korleis den skjulte Markov-modellen verkar når han vert brukt på tale til tekst. For å unngå å sjå skogen for berre tre tek me med berre 5 fonem i figuren i staden for dei 25 me har i norsk. Dei er nummererte frå 1 til 5. Mellom dei er det pilar som seier noko om sannsynet, 1 til 0, for å gå frå eitt fonem til eit anna. Det er språkmodellen vår. Det me kjenner til, er tala på snora. Dei er illustrerte med dei blå symbola. Oppgåva vert å gissa rekkjefølgja på fonem basert på talrekkjefølgja på snora. 

Fyrst kjem det arabiskliknande symbolet til venstre. Det kan med ulikt sannsyn ha vorte produsert av fonem 5, 4 eller 3. Dinest kjem ei stjerne. Det kan koma frå fonem 3 eller 1, basert på kva fonem som kom føre. Slik kan ein gå gjennom snora med tal og få tre ulike fonemrekkjefølgjer: 5 3 2 5 3 2, 4 3 2 5 3 2 og 3 1 2 5 3 2. Kva for er så den rette? Viterbi-algoritmen finn den mest sannsynleg tidlegare rekkjefølgja av symbol som gjer at ein sluttar med eit spiralsymbol.

Kunstig inteligens tek over

Verda går vidare. Skjulte Markov-kjeder har vore til stor hjelp, men no tek kunstig intelligens med nevrale nett over. Eit av problema med å bruka skjulte Markov-kjeder og språkmodellar er at dei treng stort minne og rask prosessering. Det finn ein berre i kraftige datamaskiner. Dei nevrale netta vert trena på all slags tale og byggjer opp eit nettverk som kan gå rett frå tale til tekst utan alle dei stega ein treng med skjulte Markov-kjeder.

Med ein slik forenkla metode vert krava til minne og prosesseringskraft overkomelege. I 2019 kunngjorde Google at dei hadde laga ein rask tekst til tale-generator som berre trong reknekrafta me har lokalt på mobilen. Året etter hadde eg installert transkribering på mobilen, og svigerfar og eg fann saman takk vera Google.

Når ein fyrst har talen som tekst, er det mykje ein kan gjera. Eg vart vidiot i 2020, uvisst av kva grunn. Kan det ha vore pandemien? Så kom det krav om at alle videoane skulle ha universell utforming. Eg måtte teksta dei. Å teksta 300 videoar manuelt er ei keisam og umenneskeleg oppgåve, men eg fann ei teneste, Sonix.ai, der eg kunne lasta opp videoane og få undertekst i retur.

Diktering på bokmål

Når talen er i tekstform, kan han lett omsetjast. Eg har fått ein ny nabo. Me har eit problem. Me kan ikkje kommunisera språkleg. Ho er flyktning frå Ukraina. Ho kan korkje norsk eller engelsk, og eg vantar kunnskapar i ukrainsk. Me helsar, og eg veit at ho heiter Maria. Så treffer eg ho på T-bana. Me finn begge fram Google-omsetjaren, snakkar inn i den og viser omsett tekst til kvarandre. Før me har kome til Jernbanetorget, er me vortne godt kjende. Verda har endeleg fått sin babelfisk.

Lurer du på korleis eg skreiv denne teksten? Eg brukte diktering i Word og las han inn. Diverre verkar diktering berre på bokmål. Me får setja Peder Lofnes Hauge frå Noregs Mållag på saka.

Per Thorvaldsen

pth@hvl.no

Emneknaggar

Fleire artiklar

Gina Tandberg er utdanna litteraturvitar og har no skrive sin første roman.

Gina Tandberg er utdanna litteraturvitar og har no skrive sin første roman.

Foto: Anna-Julia Granberg / Blunderbuss

BokMeldingar

Frisk debut

Litt forenkla kan ein seie at Gina Tandberg bygger opp eit heilt fagfelt, for så å rive det ned.

Ingvild Bræin
Gina Tandberg er utdanna litteraturvitar og har no skrive sin første roman.

Gina Tandberg er utdanna litteraturvitar og har no skrive sin første roman.

Foto: Anna-Julia Granberg / Blunderbuss

BokMeldingar

Frisk debut

Litt forenkla kan ein seie at Gina Tandberg bygger opp eit heilt fagfelt, for så å rive det ned.

Ingvild Bræin
Den tyske fotografen og filmskaparen Leni Riefenstahl saman med blant andre Adolf Hitler.

Den tyske fotografen og filmskaparen Leni Riefenstahl saman med blant andre Adolf Hitler.

Foto: NTB

FilmMeldingar
Brit Aksnes

Portrett av ei kvinne i flammar

Kvart år får eit knippe filmkritikarar presentera ein utvald film på Tromsø Internasjonale Filmfestival. Eg valde ein dokumentar som etter nok eit gjensyn gjer meg usikker og fascinert.

Bollar til alle – alltid: Her er det sjølvaste Slottet som deler ut 3400 bollar i høve eit kongeleg jubileum.

Bollar til alle – alltid: Her er det sjølvaste Slottet som deler ut 3400 bollar i høve eit kongeleg jubileum.

Foto: Lise Åserud / NTB

Frå matfatetKunnskap
Siri Helle

Kor mange syrer må til for å lage ein sjokoladebolle?

Familien Nerdrum ved garden i Stavern.

Familien Nerdrum ved garden i Stavern.

Foto: Agnete Brun / NRK

KunstKultur
Kaj Skagen

Ikkje alt er politikk

Politiseringa av Nerdrum-familien er påfallande i lys av kor upolitisk Nerdrum eigentleg er.

– Viss du vil ha meg til å smile, må du synge kjenningsmelodien til Laurdagsbarnetimen, seier Otto Prytz. Pilar følger med frå sofaen når vi syng: «Nå kommer barnetimen, nå kommer barnetimen, hysj, hysj, vær stille som mus...»

– Viss du vil ha meg til å smile, må du synge kjenningsmelodien til Laurdagsbarnetimen, seier Otto Prytz. Pilar følger med frå sofaen når vi syng: «Nå kommer barnetimen, nå kommer barnetimen, hysj, hysj, vær stille som mus...»

Foto: Hallgeir Opedal

Feature

Berre røre, ikkje sjå

Otto Prytz (81) er fødd blind, men takka vere ein ung franskmann blei han ikkje analfabet. Han blei akademikar.

Hallgeir Opedal
– Viss du vil ha meg til å smile, må du synge kjenningsmelodien til Laurdagsbarnetimen, seier Otto Prytz. Pilar følger med frå sofaen når vi syng: «Nå kommer barnetimen, nå kommer barnetimen, hysj, hysj, vær stille som mus...»

– Viss du vil ha meg til å smile, må du synge kjenningsmelodien til Laurdagsbarnetimen, seier Otto Prytz. Pilar følger med frå sofaen når vi syng: «Nå kommer barnetimen, nå kommer barnetimen, hysj, hysj, vær stille som mus...»

Foto: Hallgeir Opedal

Feature

Berre røre, ikkje sjå

Otto Prytz (81) er fødd blind, men takka vere ein ung franskmann blei han ikkje analfabet. Han blei akademikar.

Hallgeir Opedal

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis