JavaScript is disabled in your web browser or browser is too old to support JavaScript. Today almost all web pages contain JavaScript, a scripting programming language that runs on visitor's web browser. It makes web pages functional for specific purposes and if disabled for some reason, the content or the functionality of the web page can be limited or unavailable.

Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Tale til tekst

Med kunstig intelligens har verda endeleg fått sin babelfisk.

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Kjelde: Per Thorvaldsen med hjelp av DALL-E 3

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Ein babelfisk er liten og gul og kan omsetja all verdas språk om ein puttar han i øyret til eit menneske. Fisken dukka opp i Douglas Adams’ science fiction-serie Haikerens guide til galaksen.

Kjelde: Per Thorvaldsen med hjelp av DALL-E 3

4810
20240405
4810
20240405

Samandrag

Oppsummeringa er laga av AI-vertkøyet ChatGTP

Vis mer
Vis mindre

Svigerfar snakkar. Eg nikkar. Eg prøver stundom å svara, men det er fåfengt. Han høyrer ingen ting, sjølv om det pip infernalsk i høyreapparatet. Kan samfunnet hjelpa oss? Vel, Nav har ei tolketeneste som tilbyr gårsdagens løysingar på våre akutte problem.

Kvar finn ein så løysinga? Ho ligg klar til gratis nedlasting på internettet: Google-transkribering. Eg snakkar inn i mobilen. Talen min kjem opp i stor skrift som er lett for svigerfar å lesa. No er det ikkje lenger slitsamt å vitja svigerfar på sjukeheimen. Me vart betre kjende dei to siste åra av livet hans enn dei førti føregåande.

Korleis verkar det?

Korleis verkar så tale til tekst? På mangt slags vis. I 1980-åra fann ein ut at såkalla skjulte Markov-kjeder kunne nyttast til å kjenna att fonem basert på små lydklipp. Fonem er atoma i den tala lyden. Metoden for å omsetja tale til tekst inneheld ei rekkje steg. Fyrst må talen digitaliserast. Dinest må talrekkja med digitalisert tale kuttast opp i småbitar. Det gjer ein for å få små bitar med stabil lyd som ein kan finna frekvensen og energiinnhaldet i ved å bruka Fast Fourier Transform.

Desse småbitane med tale hengjer ein på ei snor med tal, så matar me snora inn i ein skjult Markov-modell. Snora kjenner me, men fonema og rekkjefylgja deira kjenner me ikkje. Ved å køyra snora gjennom modellen får ein mange ulike måtar å setja saman fonema på basert på språkmodellen. For å finna den mest sannsynlege rekkjefølgja på fonema brukar modellen ein Viterbi-algoritme som nyttar den tidlegare rekkjefølgja av fonem for å gissa neste. Det gjer han heile tida medan snora med tal sklir forbi, og det er difor me ser at transkriberinga driv og ombestemmer seg medan praten går. Viterbi-algoritmen er rekursiv, det vil seia at han prøver mange ulike vegar til korrekt svar undervegs.   

Eksempel på ein skjult Markov-modell.

Eksempel på ein skjult Markov-modell.

Kjelde: Hakeem / Wikimedia Commons 

Lat oss sjå nærare på korleis den skjulte Markov-modellen verkar når han vert brukt på tale til tekst. For å unngå å sjå skogen for berre tre tek me med berre 5 fonem i figuren i staden for dei 25 me har i norsk. Dei er nummererte frå 1 til 5. Mellom dei er det pilar som seier noko om sannsynet, 1 til 0, for å gå frå eitt fonem til eit anna. Det er språkmodellen vår. Det me kjenner til, er tala på snora. Dei er illustrerte med dei blå symbola. Oppgåva vert å gissa rekkjefølgja på fonem basert på talrekkjefølgja på snora. 

Fyrst kjem det arabiskliknande symbolet til venstre. Det kan med ulikt sannsyn ha vorte produsert av fonem 5, 4 eller 3. Dinest kjem ei stjerne. Det kan koma frå fonem 3 eller 1, basert på kva fonem som kom føre. Slik kan ein gå gjennom snora med tal og få tre ulike fonemrekkjefølgjer: 5 3 2 5 3 2, 4 3 2 5 3 2 og 3 1 2 5 3 2. Kva for er så den rette? Viterbi-algoritmen finn den mest sannsynleg tidlegare rekkjefølgja av symbol som gjer at ein sluttar med eit spiralsymbol.

Kunstig inteligens tek over

Verda går vidare. Skjulte Markov-kjeder har vore til stor hjelp, men no tek kunstig intelligens med nevrale nett over. Eit av problema med å bruka skjulte Markov-kjeder og språkmodellar er at dei treng stort minne og rask prosessering. Det finn ein berre i kraftige datamaskiner. Dei nevrale netta vert trena på all slags tale og byggjer opp eit nettverk som kan gå rett frå tale til tekst utan alle dei stega ein treng med skjulte Markov-kjeder.

Med ein slik forenkla metode vert krava til minne og prosesseringskraft overkomelege. I 2019 kunngjorde Google at dei hadde laga ein rask tekst til tale-generator som berre trong reknekrafta me har lokalt på mobilen. Året etter hadde eg installert transkribering på mobilen, og svigerfar og eg fann saman takk vera Google.

Når ein fyrst har talen som tekst, er det mykje ein kan gjera. Eg vart vidiot i 2020, uvisst av kva grunn. Kan det ha vore pandemien? Så kom det krav om at alle videoane skulle ha universell utforming. Eg måtte teksta dei. Å teksta 300 videoar manuelt er ei keisam og umenneskeleg oppgåve, men eg fann ei teneste, Sonix.ai, der eg kunne lasta opp videoane og få undertekst i retur.

Diktering på bokmål

Når talen er i tekstform, kan han lett omsetjast. Eg har fått ein ny nabo. Me har eit problem. Me kan ikkje kommunisera språkleg. Ho er flyktning frå Ukraina. Ho kan korkje norsk eller engelsk, og eg vantar kunnskapar i ukrainsk. Me helsar, og eg veit at ho heiter Maria. Så treffer eg ho på T-bana. Me finn begge fram Google-omsetjaren, snakkar inn i den og viser omsett tekst til kvarandre. Før me har kome til Jernbanetorget, er me vortne godt kjende. Verda har endeleg fått sin babelfisk.

Lurer du på korleis eg skreiv denne teksten? Eg brukte diktering i Word og las han inn. Diverre verkar diktering berre på bokmål. Me får setja Peder Lofnes Hauge frå Noregs Mållag på saka.

Per Thorvaldsen

pth@hvl.no

Emneknaggar

Fleire artiklar

Brukarstyrt personleg assistanse (BPA) er eit viktig likestillingsverkemiddel.

Brukarstyrt personleg assistanse (BPA) er eit viktig likestillingsverkemiddel.

Foto: Gorm Kallestad / NTB

Ordskifte

Grunn til uro

Ikkje berre er leiande norske politikarar og dei største partia lite opptekne av rettane til menneske med nedsett funksjonsevne; også statlege forvaltningsorgan, til dømes Pasientskadenemnda, praktiserer lovverket på diskriminerande vis.

Carl Aasland Jerstad
Brukarstyrt personleg assistanse (BPA) er eit viktig likestillingsverkemiddel.

Brukarstyrt personleg assistanse (BPA) er eit viktig likestillingsverkemiddel.

Foto: Gorm Kallestad / NTB

Ordskifte

Grunn til uro

Ikkje berre er leiande norske politikarar og dei største partia lite opptekne av rettane til menneske med nedsett funksjonsevne; også statlege forvaltningsorgan, til dømes Pasientskadenemnda, praktiserer lovverket på diskriminerande vis.

Carl Aasland Jerstad
Gaute Heivoll har vunne Brageprisen, blant andre prisar, sidan han debuterte i 2002.

Gaute Heivoll har vunne Brageprisen, blant andre prisar, sidan han debuterte i 2002.

Foto: Monika Holand Bøe

BokMeldingar

Eit solid stykke arbeid

Gaute Heivoll skriv storslått om dei små tinga og smålåtent om dei store.

Ingvild Bræin
Gaute Heivoll har vunne Brageprisen, blant andre prisar, sidan han debuterte i 2002.

Gaute Heivoll har vunne Brageprisen, blant andre prisar, sidan han debuterte i 2002.

Foto: Monika Holand Bøe

BokMeldingar

Eit solid stykke arbeid

Gaute Heivoll skriv storslått om dei små tinga og smålåtent om dei store.

Ingvild Bræin

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis