JavaScript is disabled in your web browser or browser is too old to support JavaScript. Today almost all web pages contain JavaScript, a scripting programming language that runs on visitor's web browser. It makes web pages functional for specific purposes and if disabled for some reason, the content or the functionality of the web page can be limited or unavailable.

Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Tekst til tale 

Auga er lukka. Eg ligg flolagd på sofaen og lyttar til eige flogvit. Neste teknologispalte i Dag og Tid vert fantastisk. Er det forfattaren sjølv som les?

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Det er herleg å liggja på sofaen og høyra eigen tekst. Biletet er massert med kunstig intelligens frå Bing kopilot og Picsart.

Det er herleg å liggja på sofaen og høyra eigen tekst. Biletet er massert med kunstig intelligens frå Bing kopilot og Picsart.

Det er herleg å liggja på sofaen og høyra eigen tekst. Biletet er massert med kunstig intelligens frå Bing kopilot og Picsart.

Det er herleg å liggja på sofaen og høyra eigen tekst. Biletet er massert med kunstig intelligens frå Bing kopilot og Picsart.

5229
20240119
5229
20240119

Nei, det er Ken som er putta inn i Word. Han les bokstaveleg talt det eg har skrive, og hjelper meg å finna feil auga ikkje ser. Ein les jo som kjent berre det ein trur ein har meisla ut.

Ken er eit ektefødd barn og ein tru tenar av universell utforming. Han hjelper blinde og dyslektikarar. Eg tilhøyrer gruppa som tenkjer mykje fortare enn eg skriv. Det vert vantande ord og mange trykkleifar undervegs, medan fingrane rasar over tastaturet, men med Ken som kopilot vert resultatet perfekt.

Kvar gøymer Ken seg? I menyen «Se gjennom». Der ser du ein knapp med ein stor a som sender bylgjer ut. Det er berre å plassera markøren i teksten der du ynskjer å starta høgtlesinga, og trykkja på knappen.

Kunne du tenkja deg ei innsmigrande damerøyst i staden? Då er det berre å trykkja på det vetle tannhjulet i menyen som poppar opp i høgre hjørne, og velja Barbie. Dei har ein sjarmerande metallisk klang, men dei vert stendig meir vellydande med kunstig intelligens.

Ingeniørar elskar systemskjema. Det gjer det enklare å bryta systemet ned i modular for lettare å byggja det. Ein talegenerator startar med ein modul for tekstanalyse. Det viktigaste modulen gjer, er å redusera det som er tvitydig. Slikt som tal, datoar, forkortingar og spesielle teikn må formast om til ord.

Ofte er uttalen av til dømes tal avhengig av resten av setninga talet står i. Menneske klarar dette lett, men datamaskinar har ikkje like gode evner. Dei må bruka statistisk sannsyn, typisk skjulte Markov-modellar, eller nevrale nett som i kunstig intelligens.

Slik statistikk gissar kva som er det neste som kjem i teksten, og prosesserer han deretter. Tekstanalysen må også takla homografar. Det er ord som er like, men som kan ha ulik tyding avhengig av samanhengen, og som vert uttala ulikt.  

Systemskjema for tekst-til-tale-generator. Ein slik generator inneheld som regel tre modular. Fyrst analyse av teksten, dinest ein lingvistisk analyse og til slutt syntese av lyd.

Systemskjema for tekst-til-tale-generator. Ein slik generator inneheld som regel tre modular. Fyrst analyse av teksten, dinest ein lingvistisk analyse og til slutt syntese av lyd.

I den lingvistiske analysen vert orda gjorde lydlike. Ord vert gjorde om til lydskrift bygde opp av fonem. Kva er eit fonem? Fonem er atoma i den tala lyden. I norsk har me om lag 25 stykk. Dei kan verta sette saman på ymse vis for å skaffa fram lydlike ord slik me uttalar dei.

Då er vel det berre å fylla opp datamaskinen med ei ordliste med ord og fonem? Problemet er berre intonasjon og lengd. Ei setning kan verta lesen på mange ulike vis basert på meininga med teksten, trykk, tonelag, personen som snakkar, og kjensler. I lingvistikken vert dette kalla prosodi. Den fonetiske transkripsjonen og prosodi-informasjonen vert så send til bylgjeformgeneratoren.

Tidleg i tenåra var eg svært oppteken av elektronisk musikk og science fiction. Eg sneik meg inn på 2001: En romodyssé. Eg vart særs imponert over at datamaskinen HAL9000 kunne tenkja og snakka. Diverre vart han paranoid, slik at astronauten David måtte skru han av. I det vitet forsvann, byrja han å syngja «Daisy Bell», som han hadde lært av konstruktøren Langley. Langley er fiktiv, men maskina IBM704 song «Daisy Bell» i 1961 og inspirerte filmskaparane.

Døme på ord skrivne som samansetjing av fonem. Her «Det internasjonale fonetiske alfabetet» skrive med lydskrift med vestnorsk skarre-r.

Døme på ord skrivne som samansetjing av fonem. Her «Det internasjonale fonetiske alfabetet» skrive med lydskrift med vestnorsk skarre-r.

Kjelde: Store norske leksikon

Så må fonema gjerast om til lyd. Det er tre ulike metodar å gjera det på. Ein kan til dømes bruka innspelt lesing av tekst som vert broten ned. Fyrst skil ein ut dei einskilde orda, så vert fonema henta ut av dei til små lydbitar. Då har ein eit bibliotek av innspelte fonem som kan brukast når ein skal laga lyd av straumen av fonem som kjem ut av den lingvistiske analysen.

Denne teknikken vert kalla konkatinering eller samansetjing på godt norsk. Slike system lagar ei særs naturleg røyst, men vert brukte mest der systemet berre har nokre enkle frasar som vert stendig repeterte. Du kan til dømes møta ho på Bybanen i Bergen, der ho uttalar Florida så feil at dei innfødde ler kvar gong.

Ein kan også sjå på tale som eit lydmønster som varierer i frekvens og volum. For å etterlikna den menneskelege røysta vert tre–fem resonansfrekvensar som taleorganet vårt kan produsera, sette saman ved hjelp av ein synthesizer. Denne teknikken vert kalla formant, for formantar er resonansfrekvensar med mykje energi.

I motsetnad til konkatinering kan ein med syntetisk tale seia kva som helst. Difor er denne metoden eit godt val for datamaskinar. Med syntetisk tale kan ein lett skifta rolle. Dersom ein ynskjer å gå frå mann til dame, er det berre å dobla frekvens. Vil ein gå i barndomen, kan frekvensen tredoblast.

Konkatinering med eit velfylt bibliotek kan konkurrera med formant. Formant har også den ulempa at han høyrast metallisk ut. Den siste teknikken vert kalla artikulær syntese. Då lagar datamaskinen ein modell av stemmeapparatet vårt. Det burde gje den mest naturlege stemma, men er særs vanskeleg å laga.

I filmen «2001: En romodyssé» er det berre datamaskinen som syner kjensler. Når han vert skrudd av, vert han redd.

I filmen «2001: En romodyssé» er det berre datamaskinen som syner kjensler. Når han vert skrudd av, vert han redd.

Kjelde: Metro-Goldwin-Mayer Studios

Kan tekst til tale brukast til anna? Ja, eg smugles alle artiklar i Aftenposten ved å høyra på Barbie, sidan sjølve teksten ligg attom betalingsmur. Enkle former for tekst til tale har vore her lenge. Hugsar du Furby, det hårete dyret frå Tiger Electronics som skvaldra i veg rundt tusenårsskiftet?

Som småbarnsfar gjekk det meg fullstendig på nervane. Ein kveld sat dyret og eg åleine i stova. Eg bøygde meg fram og skreik. Furby såg på meg med vidopne auge og sa: «Me scared.» Då vart eg skremd.

Per Thorvaldsen

pth@hvl.no

Digital tilgang til DAG OG TID – heilt utan binding

Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.

Nei, det er Ken som er putta inn i Word. Han les bokstaveleg talt det eg har skrive, og hjelper meg å finna feil auga ikkje ser. Ein les jo som kjent berre det ein trur ein har meisla ut.

Ken er eit ektefødd barn og ein tru tenar av universell utforming. Han hjelper blinde og dyslektikarar. Eg tilhøyrer gruppa som tenkjer mykje fortare enn eg skriv. Det vert vantande ord og mange trykkleifar undervegs, medan fingrane rasar over tastaturet, men med Ken som kopilot vert resultatet perfekt.

Kvar gøymer Ken seg? I menyen «Se gjennom». Der ser du ein knapp med ein stor a som sender bylgjer ut. Det er berre å plassera markøren i teksten der du ynskjer å starta høgtlesinga, og trykkja på knappen.

Kunne du tenkja deg ei innsmigrande damerøyst i staden? Då er det berre å trykkja på det vetle tannhjulet i menyen som poppar opp i høgre hjørne, og velja Barbie. Dei har ein sjarmerande metallisk klang, men dei vert stendig meir vellydande med kunstig intelligens.

Ingeniørar elskar systemskjema. Det gjer det enklare å bryta systemet ned i modular for lettare å byggja det. Ein talegenerator startar med ein modul for tekstanalyse. Det viktigaste modulen gjer, er å redusera det som er tvitydig. Slikt som tal, datoar, forkortingar og spesielle teikn må formast om til ord.

Ofte er uttalen av til dømes tal avhengig av resten av setninga talet står i. Menneske klarar dette lett, men datamaskinar har ikkje like gode evner. Dei må bruka statistisk sannsyn, typisk skjulte Markov-modellar, eller nevrale nett som i kunstig intelligens.

Slik statistikk gissar kva som er det neste som kjem i teksten, og prosesserer han deretter. Tekstanalysen må også takla homografar. Det er ord som er like, men som kan ha ulik tyding avhengig av samanhengen, og som vert uttala ulikt.  

Systemskjema for tekst-til-tale-generator. Ein slik generator inneheld som regel tre modular. Fyrst analyse av teksten, dinest ein lingvistisk analyse og til slutt syntese av lyd.

Systemskjema for tekst-til-tale-generator. Ein slik generator inneheld som regel tre modular. Fyrst analyse av teksten, dinest ein lingvistisk analyse og til slutt syntese av lyd.

I den lingvistiske analysen vert orda gjorde lydlike. Ord vert gjorde om til lydskrift bygde opp av fonem. Kva er eit fonem? Fonem er atoma i den tala lyden. I norsk har me om lag 25 stykk. Dei kan verta sette saman på ymse vis for å skaffa fram lydlike ord slik me uttalar dei.

Då er vel det berre å fylla opp datamaskinen med ei ordliste med ord og fonem? Problemet er berre intonasjon og lengd. Ei setning kan verta lesen på mange ulike vis basert på meininga med teksten, trykk, tonelag, personen som snakkar, og kjensler. I lingvistikken vert dette kalla prosodi. Den fonetiske transkripsjonen og prosodi-informasjonen vert så send til bylgjeformgeneratoren.

Tidleg i tenåra var eg svært oppteken av elektronisk musikk og science fiction. Eg sneik meg inn på 2001: En romodyssé. Eg vart særs imponert over at datamaskinen HAL9000 kunne tenkja og snakka. Diverre vart han paranoid, slik at astronauten David måtte skru han av. I det vitet forsvann, byrja han å syngja «Daisy Bell», som han hadde lært av konstruktøren Langley. Langley er fiktiv, men maskina IBM704 song «Daisy Bell» i 1961 og inspirerte filmskaparane.

Døme på ord skrivne som samansetjing av fonem. Her «Det internasjonale fonetiske alfabetet» skrive med lydskrift med vestnorsk skarre-r.

Døme på ord skrivne som samansetjing av fonem. Her «Det internasjonale fonetiske alfabetet» skrive med lydskrift med vestnorsk skarre-r.

Kjelde: Store norske leksikon

Så må fonema gjerast om til lyd. Det er tre ulike metodar å gjera det på. Ein kan til dømes bruka innspelt lesing av tekst som vert broten ned. Fyrst skil ein ut dei einskilde orda, så vert fonema henta ut av dei til små lydbitar. Då har ein eit bibliotek av innspelte fonem som kan brukast når ein skal laga lyd av straumen av fonem som kjem ut av den lingvistiske analysen.

Denne teknikken vert kalla konkatinering eller samansetjing på godt norsk. Slike system lagar ei særs naturleg røyst, men vert brukte mest der systemet berre har nokre enkle frasar som vert stendig repeterte. Du kan til dømes møta ho på Bybanen i Bergen, der ho uttalar Florida så feil at dei innfødde ler kvar gong.

Ein kan også sjå på tale som eit lydmønster som varierer i frekvens og volum. For å etterlikna den menneskelege røysta vert tre–fem resonansfrekvensar som taleorganet vårt kan produsera, sette saman ved hjelp av ein synthesizer. Denne teknikken vert kalla formant, for formantar er resonansfrekvensar med mykje energi.

I motsetnad til konkatinering kan ein med syntetisk tale seia kva som helst. Difor er denne metoden eit godt val for datamaskinar. Med syntetisk tale kan ein lett skifta rolle. Dersom ein ynskjer å gå frå mann til dame, er det berre å dobla frekvens. Vil ein gå i barndomen, kan frekvensen tredoblast.

Konkatinering med eit velfylt bibliotek kan konkurrera med formant. Formant har også den ulempa at han høyrast metallisk ut. Den siste teknikken vert kalla artikulær syntese. Då lagar datamaskinen ein modell av stemmeapparatet vårt. Det burde gje den mest naturlege stemma, men er særs vanskeleg å laga.

I filmen «2001: En romodyssé» er det berre datamaskinen som syner kjensler. Når han vert skrudd av, vert han redd.

I filmen «2001: En romodyssé» er det berre datamaskinen som syner kjensler. Når han vert skrudd av, vert han redd.

Kjelde: Metro-Goldwin-Mayer Studios

Kan tekst til tale brukast til anna? Ja, eg smugles alle artiklar i Aftenposten ved å høyra på Barbie, sidan sjølve teksten ligg attom betalingsmur. Enkle former for tekst til tale har vore her lenge. Hugsar du Furby, det hårete dyret frå Tiger Electronics som skvaldra i veg rundt tusenårsskiftet?

Som småbarnsfar gjekk det meg fullstendig på nervane. Ein kveld sat dyret og eg åleine i stova. Eg bøygde meg fram og skreik. Furby såg på meg med vidopne auge og sa: «Me scared.» Då vart eg skremd.

Per Thorvaldsen

pth@hvl.no

Emneknaggar

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis