Databasar
Data kan vere spor etter reinsdyr i snø. Jegeren tolkar dei og gjer med det data til informasjon.
Foto: Jennifer Baldacci / ARCUS
Vi seier at vi i dag lever i informasjonssamfunnet, sidan det har blitt så viktig for levesettet vårt å ha tilgang til informasjon og å kunne spreie den vidare. Men det finst eit omgrep som er meir fundamentalt enn informasjon, nemleg data. Slik informasjonsvitarar ser det, er informasjon og data ikkje det same.
Med ei omskriving av Joh 1,1 kan vi seie: «I opphavet var data, og data var i verda, og data var verda.» Data er noko så fundamentalt som spor etter fysiske prosessar. Data kan til dømes vere spor etter eit reinsdyr i snøen på høgfjellet eller ein magnetisert mikroskopisk partikkel i datamaskina. Informasjon har vi først når det skjer ein prosess som gjev meining til eit datum – ei tolking.
Tenk deg ein jeger som vandrar tolmodig og forsiktig gjennom fjellet, og endeleg ser han eit spor. Han kan lese ut omtrent kor lenge det er sidan reinsdyret var her, og følgje det vidare. Spora har fått meining og er såleis blitt til informasjon for jegeren.
Data og prosessar som gjer dei til informasjon, er fundamentalt for alt liv og skjer i alle organismar. Vi menneske har utvikla ein særleg stor rikdom av tolkingsmåtar for data. Munnleg språk er ein avansert måte å bruke lydbølgjer som data på med det føremålet å formidle informasjon fram og tilbake. Språket er eit datasystem som organiserer informasjon for oss, og det har funnest i minst hundre tusen år.
Seinare utvikla vi kileskrift, hieroglyfar og etter kvart moderne skrift, og desse teikna er òg data. Det munnlege språket vert koda gjennom skriftteikna og slik lagra for ein framtidig lesar som gjennom tolkinga si dekodar teikna. Vi har med meir og meir avanserte teknologiar laga oss eksterne minne i form av bøker, filmar, LP-plater, videoopptak og ikkje minst den nye, meir strukturerte forma som vi kallar databasar. Vi kan seie at det som kjenneteiknar databasar og anna minne, er persistens – at dei er varige. Det betyr at informasjon finst lagra i eit strukturert dataformat med tanke på framtidig bruk.
Datamaskina skaper meining ved at den magnetiserte partikkelen vi nemnde fyrst, kan forståast som ein bit i ein binær representasjon av eit tal, 0 eller 1. Men vi har fleire nivå av data og informasjon, informasjon på eitt nivå kan vere data for neste nivå. Så kva denne biten kan bety, er vidare avhengig av kva talet han er ein del av, skal brukast til. Eksempelvis kan det vere eit element i ein prosess som styrt av ein algoritme reknar ut renta på ein bankkonto. Algoritmen skaper meining av talet.
Databasar stod alt tidleg sentralt i utviklinga av datateknologien. Bankar var blant dei første som visste å utnytte potensialet i databasar til å lagre informasjon om kontoar, med informasjonsskapande prosessar som innskot, uttak og renteutrekning. Men etter kvart vart det tydeleg for mange verksemder at dei òg kunne drive betre ved å bruke smarte måtar å organisere og lagre informasjon på.
Eit viktig gjennombrot i denne teknologiutviklinga var relasjonsdatabasen. Edgar F. Codd var ein britisk dataforskar som arbeidde for IBM. Han meinte at tilgang til data ikkje skulle vere avhengig av spesialistkunnskap om korleis dataa var representerte i den lokale datamaskina. I staden ville han at ein skulle utvikle eit universelt språk for lagring av data basert på logiske formlar.
Ideen hans var at data skulle lagrast som relasjonar, det vil seie tabellar der kvar linje representerer ei eining av data. Det kan for eksempel vere personnummer, namn, adresse og telefonnummer i éin relasjon. I ein annan relasjon kan ein så ha informasjon om kontonummer og personnummer til kontoeigaren.
Med relasjonsdatabasar kan ein elegant unngå duplisering av data. Dersom ein bankkunde har fleire kontoar, treng vi ikkje lagre namn og adresse på kvar av dei, men vi bruker personnummeret som ein nøkkel for alle kontoane. Og om nokon endrar adresse, treng vi ikkje endre data om personen nokon annan plass enn i personrelasjonen.
Relasjonsdatabasar har mange andre fordelar som fort gjorde dei til ein suksess, og dei er i dag standardteknologien for datalagring. Til og med den minste bilverkstaden har ein relasjonsdatabase til å samle informasjon om kundane. Dei bruker gjerne ein kommersielt utvikla standarddatabase med ein styrande applikasjon tilpassa nettopp bilbransjen. Og korleis ville flyselskapa kunne drive utan effektiv lagring av informasjon? Kontobøker og kartotek er ikkje noko alternativ lenger. Codd fikk i 1981 Turing-prisen, nobelprisen for datavitskapane, for arbeidet med relasjonsdatabasar.
IBM sjølv var ikkje så veldig begeistra for ideen til Codd i starten, sidan han konkurrerte med løysingar som dei alt hadde brukt mange pengar på å utvikle. Difor var det Oracle som i 1980 først lanserte eit system for relasjonsdatabasar. Men IBM skjønte fort kvar dette bar, og kom med sitt system DB2 i 1982.
I dag har ein mange andre typar data enn det som var vanleg å lagre i 1980. No vert òg bilete, filmar, musikk og tekster lagra i databasar. Det finst velutvikla spesialteknologiar for å handtere slike ustrukturerte data, men ingen av desse har enno fått same status som relasjonsdatabasen.
Bjørnar Tessem og Lars Nyre
Er du abonnent? Logg på her for å lese vidare.
Digital tilgang til DAG OG TID – heilt utan binding
Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.
Vi seier at vi i dag lever i informasjonssamfunnet, sidan det har blitt så viktig for levesettet vårt å ha tilgang til informasjon og å kunne spreie den vidare. Men det finst eit omgrep som er meir fundamentalt enn informasjon, nemleg data. Slik informasjonsvitarar ser det, er informasjon og data ikkje det same.
Med ei omskriving av Joh 1,1 kan vi seie: «I opphavet var data, og data var i verda, og data var verda.» Data er noko så fundamentalt som spor etter fysiske prosessar. Data kan til dømes vere spor etter eit reinsdyr i snøen på høgfjellet eller ein magnetisert mikroskopisk partikkel i datamaskina. Informasjon har vi først når det skjer ein prosess som gjev meining til eit datum – ei tolking.
Tenk deg ein jeger som vandrar tolmodig og forsiktig gjennom fjellet, og endeleg ser han eit spor. Han kan lese ut omtrent kor lenge det er sidan reinsdyret var her, og følgje det vidare. Spora har fått meining og er såleis blitt til informasjon for jegeren.
Data og prosessar som gjer dei til informasjon, er fundamentalt for alt liv og skjer i alle organismar. Vi menneske har utvikla ein særleg stor rikdom av tolkingsmåtar for data. Munnleg språk er ein avansert måte å bruke lydbølgjer som data på med det føremålet å formidle informasjon fram og tilbake. Språket er eit datasystem som organiserer informasjon for oss, og det har funnest i minst hundre tusen år.
Seinare utvikla vi kileskrift, hieroglyfar og etter kvart moderne skrift, og desse teikna er òg data. Det munnlege språket vert koda gjennom skriftteikna og slik lagra for ein framtidig lesar som gjennom tolkinga si dekodar teikna. Vi har med meir og meir avanserte teknologiar laga oss eksterne minne i form av bøker, filmar, LP-plater, videoopptak og ikkje minst den nye, meir strukturerte forma som vi kallar databasar. Vi kan seie at det som kjenneteiknar databasar og anna minne, er persistens – at dei er varige. Det betyr at informasjon finst lagra i eit strukturert dataformat med tanke på framtidig bruk.
Datamaskina skaper meining ved at den magnetiserte partikkelen vi nemnde fyrst, kan forståast som ein bit i ein binær representasjon av eit tal, 0 eller 1. Men vi har fleire nivå av data og informasjon, informasjon på eitt nivå kan vere data for neste nivå. Så kva denne biten kan bety, er vidare avhengig av kva talet han er ein del av, skal brukast til. Eksempelvis kan det vere eit element i ein prosess som styrt av ein algoritme reknar ut renta på ein bankkonto. Algoritmen skaper meining av talet.
Databasar stod alt tidleg sentralt i utviklinga av datateknologien. Bankar var blant dei første som visste å utnytte potensialet i databasar til å lagre informasjon om kontoar, med informasjonsskapande prosessar som innskot, uttak og renteutrekning. Men etter kvart vart det tydeleg for mange verksemder at dei òg kunne drive betre ved å bruke smarte måtar å organisere og lagre informasjon på.
Eit viktig gjennombrot i denne teknologiutviklinga var relasjonsdatabasen. Edgar F. Codd var ein britisk dataforskar som arbeidde for IBM. Han meinte at tilgang til data ikkje skulle vere avhengig av spesialistkunnskap om korleis dataa var representerte i den lokale datamaskina. I staden ville han at ein skulle utvikle eit universelt språk for lagring av data basert på logiske formlar.
Ideen hans var at data skulle lagrast som relasjonar, det vil seie tabellar der kvar linje representerer ei eining av data. Det kan for eksempel vere personnummer, namn, adresse og telefonnummer i éin relasjon. I ein annan relasjon kan ein så ha informasjon om kontonummer og personnummer til kontoeigaren.
Med relasjonsdatabasar kan ein elegant unngå duplisering av data. Dersom ein bankkunde har fleire kontoar, treng vi ikkje lagre namn og adresse på kvar av dei, men vi bruker personnummeret som ein nøkkel for alle kontoane. Og om nokon endrar adresse, treng vi ikkje endre data om personen nokon annan plass enn i personrelasjonen.
Relasjonsdatabasar har mange andre fordelar som fort gjorde dei til ein suksess, og dei er i dag standardteknologien for datalagring. Til og med den minste bilverkstaden har ein relasjonsdatabase til å samle informasjon om kundane. Dei bruker gjerne ein kommersielt utvikla standarddatabase med ein styrande applikasjon tilpassa nettopp bilbransjen. Og korleis ville flyselskapa kunne drive utan effektiv lagring av informasjon? Kontobøker og kartotek er ikkje noko alternativ lenger. Codd fikk i 1981 Turing-prisen, nobelprisen for datavitskapane, for arbeidet med relasjonsdatabasar.
IBM sjølv var ikkje så veldig begeistra for ideen til Codd i starten, sidan han konkurrerte med løysingar som dei alt hadde brukt mange pengar på å utvikle. Difor var det Oracle som i 1980 først lanserte eit system for relasjonsdatabasar. Men IBM skjønte fort kvar dette bar, og kom med sitt system DB2 i 1982.
I dag har ein mange andre typar data enn det som var vanleg å lagre i 1980. No vert òg bilete, filmar, musikk og tekster lagra i databasar. Det finst velutvikla spesialteknologiar for å handtere slike ustrukturerte data, men ingen av desse har enno fått same status som relasjonsdatabasen.
Bjørnar Tessem og Lars Nyre
Informasjon på eitt nivå kan vere data for neste nivå.
Fleire artiklar
Teikning: May Linn Clement
Krigen er ei ufatteleg ulukke for Ukraina. Men også for Russland er det som skjer, ein katastrofe.
Tusen dagar med russisk katastrofe
KrF-leiar Dag Inge Ulstein får ikkje Stortinget med seg på å endre retningslinjene for kjønnsundervisning i skulen.
Thomas Fure / NTB
Utfordrar kjønnsundervisninga
Norske skulebøker kan gjere elevar usikre på kva kjønn dei har, meiner KrF-leiar Dag Inge Ulstein.
Jens Stoltenberg gjekk av som generalsekretær i Nato 1. oktober. No skal han leie styringsgruppa for Bilderberg-møta.
Foto: Thomas Fure / NTB
Jens Stoltenberg blir partyfiksar for Bilderberg-møta, ein institusjon meir i utakt med samtida enn nokon gong.
Den rumenske forfattaren Mircea Cartarescu har skrive både skjønnlitteratur, lyrikk og litterære essay.
Foto: Solum Bokvennen
Mircea Cărtărescu kastar eit fortrolla lys over barndommen i Melankolien
Taiwanarar feirar nasjonaldagen 10. oktober framfor presidentbygget i Taipei.
Foto: Chiang Ying-ying / AP / NTB
Illusjonen om «eitt Kina»
Kina gjer krav på Taiwan, og Noreg anerkjenner ikkje Taiwan som sjølvstendig stat. Men kor sterkt står argumenta for at Taiwan er ein del av Kina?