JavaScript is disabled in your web browser or browser is too old to support JavaScript. Today almost all web pages contain JavaScript, a scripting programming language that runs on visitor's web browser. It makes web pages functional for specific purposes and if disabled for some reason, the content or the functionality of the web page can be limited or unavailable.

Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Samtale med datamaskiner

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

5834
20221021
5834
20221021

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Digital tilgang til DAG OG TID – heilt utan binding

Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.


Eller kjøp eit anna abonnement

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Emneknaggar

Fleire artiklar

Ein brannmann arbeider i eit bustadområde i Odesa, som vart råka av ein sverm av russiske rakettar 17. november i år.

Ein brannmann arbeider i eit bustadområde i Odesa, som vart råka av ein sverm av russiske rakettar 17. november i år.

Foto: Bergingstenesta i Ukraina

KrigSamfunn

Putin og fullmånen

Trump har lova å få slutt på Russlands krigføring 21. januar. Spørsmålet er kor Musk og Orbán står då, og kor sint Putin er.

Andrej Kurkov
Ein brannmann arbeider i eit bustadområde i Odesa, som vart råka av ein sverm av russiske rakettar 17. november i år.

Ein brannmann arbeider i eit bustadområde i Odesa, som vart råka av ein sverm av russiske rakettar 17. november i år.

Foto: Bergingstenesta i Ukraina

KrigSamfunn

Putin og fullmånen

Trump har lova å få slutt på Russlands krigføring 21. januar. Spørsmålet er kor Musk og Orbán står då, og kor sint Putin er.

Andrej Kurkov
Ei lauvtynn silisiumskive foredla til mikrobrikker på laboratoriet til Sintef i Forskingsparken i Oslo.

Ei lauvtynn silisiumskive foredla til mikrobrikker på laboratoriet til Sintef i Forskingsparken i Oslo.

Foto: Sindre Deschington

ReportasjeFeature

Mikrobrikkene som formar framtida

Finst det ein snarveg til å forstå stormaktsspelet og teknologien bak dei viktige databrikkene? Ja, ein kan ta turen til Sintefs laboratorium på Blindern i Oslo.

Christiane Jordheim Larsen
Ei lauvtynn silisiumskive foredla til mikrobrikker på laboratoriet til Sintef i Forskingsparken i Oslo.

Ei lauvtynn silisiumskive foredla til mikrobrikker på laboratoriet til Sintef i Forskingsparken i Oslo.

Foto: Sindre Deschington

ReportasjeFeature

Mikrobrikkene som formar framtida

Finst det ein snarveg til å forstå stormaktsspelet og teknologien bak dei viktige databrikkene? Ja, ein kan ta turen til Sintefs laboratorium på Blindern i Oslo.

Christiane Jordheim Larsen

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis