414 konglar er meir enn nok
Statistikarar in spe i fri dressur.
Kjelde: Nera Networks
«Bor du på Bønes?» Høgskulen på Vestlandet har elevar frå vidaregåande på vitjing, og eg opnar for spørsmål etter reklamen. Guten som spør, hadde hatt meg som gjest på barneskulen for meir enn ti år sidan. Han hugsar enno store tals lov og normalfordelinga.
«Me skal læra ungane statistikk. Kan du hjelpa oss?» To lærarinner og eg sit og planlegg kva me skal gjera saman under forskingsdagane i 2010. Eg går heim og tenkjer så det knakar. Kva er viktig å skjøna i statistikk, og korleis skal eg gje borna innsikt i emnet?
Eg møter opp på skulen med nokre bytter og ei noggrann vekt. «No, ungar, skal de gå ut i skogen og plukka konglar», seier eg. Dei jublar av glede for å sleppa ut av klasserommet.
Dei fyk vilkårleg rundt i skogen og plukkar konglar hist og her. Umedvite tilfredsstiller dei statistikkens grunnføresetnad, nemleg å plukka eit tilfeldig utval blant alle konglar i skogen. Tek me statistikkbriller på, er alle konglane i skogen den såkalla populasjonen.
Store tals lov fortel oss at dersom noko er tilfeldig fordelt, vil ein få eit godt estimat av populasjonsgjennomsnittet ved å sjå på eit passe stort utval. Til dømes kunne ein brukt valprognose med utval på nokre tusen i staden for ei dyrt stortingsval med same resultat.
Ungane går etter kvart lei. Det passar bra. «Kor mykje trur de ein kongle veg i gjennomsnitt», spør eg. Svara varierer frå 2 til 10 gram. Me byrjar å måla. Ein elev tek ein etter ein kongle og legg på vekta. Ein annan elev les av vekta, og eg puttar talet inn i eit Excel-ark.
På tavla kjem det fram eit plott som viser variasjonen i vekt på konglane og korleis gjennomsnittsvekta stabiliserer seg. Gjennomsnittsvekta er underlagd lova om store tal. Tek vi berre mange nok konglar, så har me med stort sannsyn gjennomsnittsvekta.
No når kurva for gjennomsnittsvekta har flata fullstendig ut, gidd ikkje ungane måla meir, og det er heller ikkje nødvendig. Me ser at å måla vekta på meir enn to hundre konglar ikkje gjev oss meir informasjon. Me måler 414 konglar før me gjev oss. Gjennomsnittleg konglevekt er og vert 4 gram.
Er det meir me kan leika oss med? Ja, me kan sjå på fordelinga av konglevekt. Kor mange lette konglar har me og kor mange tunge? Me ser at fordelinga minner om kyrkjeklokka og kan kallast anten normalfordelinga eller Gauss-kurva.
Mykje i naturen og andre stader er normalfordelt. Dersom du tvilar på det, er det berre å finna fram terningar og kasta og telja auge. Di fleire terningar og kast di nærare kjem summen normalfordelinga.
Dersom me hadde gått ut i skogen igjen og plukka ein tilfeldig kongle, kunne me med 95 prosent sannsyn (konfidens) måla ei vekt på mellom 0,8 og 7,2 gram. Det ville difor vera 5 prosent sannsyn for at vekta var større eller mindre enn det (signifikans).
Éin ting er at konglevekta varierer mykje innanfor utvalet vårt, men korleis ville gjennomsnittsverdien variera dersom me plukka mange tilfeldige utval? Store tals lov vil sørgja for mykje mindre spreiing i gjennomsnittet enn spreiinga i konglevekta. Dersom ein tek mange utval og finn gjennomsnittet av gjennomsnitta, vil det verta likt gjennomsnittet til populasjonen.
Er det mogleg å seia noko statistisk om kor nære me er populasjonsgjennomsnittet? Ja, det kan me ved å bruka slutningsstatistikk. Gjennomsnitta frå mange utval er også normalfordelt dersom ein tek nok konglar med i kvart utval.
Ein populær test er t-testen. Verdien av t er gjeve av avstanden mellom målt gjennomsnitt og populasjonsgjennomsnitt delt på standardfeilen til målinga vår. Standardfeilen er avhengig av standardavviket i konglemålinga og talet på konglar. Når standardavviket er lite og talet på konglar stort, vert standardfeilen liten.
Det er berre å rekna ut kva avstand mellom vårt og det ukjende gjennomsnittet som gjev ein t-verdi mellom –2 og 2. Då kan me med 95 prosent sannsyn seia er at vårt gjennomsnitt på 4 gram er +/–0,15 gram unna populasjonsgjennomsnittet.
Som me ser, fylgjer fordelinga av vekta om lag normalfordelinga. Standardavvik i dette tilfellet er eit mål på spreiinga av konglevekta. Dess mindre det er, dess fleire konglar har omtrent gjennomsnittsvekta. For våre konglar er spreiinga stor.
Kvifor vert t-testen kalla test? Vel, statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera. Dei lagar ein såkalla 0-hypotese, H0, og prøver å falsifisera ho, slik at ein alternative hypotese H1 kan aksepterast. Lat oss ta eit døme. H0: Populasjonens gjennomsnittsvekt for konglar er 3,8 gram. H1: Populasjonens gjennomsnittsvekt er forskjellig frå 3,8 gram. 3,8 gram gjev t = 2,54, som er meir enn to standardavvik unna, så H0 må forkastast og H1 er sannsynleg.
Føreslår me derimot ein H0 der gjennomsnittsvekta for populasjonen er ein stad mellom 3,85 og 4,15 gram, kan me ikkje forkasta H0 og kan akseptera H0 med 95 prosent konfidens.
Meir å læra? Ja, me kan til dømes sjå på samanhengar. Er det nokon samanheng mellom vekta til konglar og lengda? Truleg kan med finna ut det med regresjonsanalyse, men ungane er leie av å måla, så det vert spørjetime i staden. Dei veit eg har studert astronomi, så det haglar spørsmål om svarte hòl og mørk materie. Plutseleg ser eg handa til den stillaste guten i klassen. Eg vert glad, og han spør: «Har du berre eitt par sko?» Ja, utvalet mitt i sko er lite, men eg lovar at det vert meir statistikk.
Per Thorvaldsen
pth@hvl.no
Er du abonnent? Logg på her for å lese vidare.
Digital tilgang til DAG OG TID – heilt utan binding
Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.
«Bor du på Bønes?» Høgskulen på Vestlandet har elevar frå vidaregåande på vitjing, og eg opnar for spørsmål etter reklamen. Guten som spør, hadde hatt meg som gjest på barneskulen for meir enn ti år sidan. Han hugsar enno store tals lov og normalfordelinga.
«Me skal læra ungane statistikk. Kan du hjelpa oss?» To lærarinner og eg sit og planlegg kva me skal gjera saman under forskingsdagane i 2010. Eg går heim og tenkjer så det knakar. Kva er viktig å skjøna i statistikk, og korleis skal eg gje borna innsikt i emnet?
Eg møter opp på skulen med nokre bytter og ei noggrann vekt. «No, ungar, skal de gå ut i skogen og plukka konglar», seier eg. Dei jublar av glede for å sleppa ut av klasserommet.
Dei fyk vilkårleg rundt i skogen og plukkar konglar hist og her. Umedvite tilfredsstiller dei statistikkens grunnføresetnad, nemleg å plukka eit tilfeldig utval blant alle konglar i skogen. Tek me statistikkbriller på, er alle konglane i skogen den såkalla populasjonen.
Store tals lov fortel oss at dersom noko er tilfeldig fordelt, vil ein få eit godt estimat av populasjonsgjennomsnittet ved å sjå på eit passe stort utval. Til dømes kunne ein brukt valprognose med utval på nokre tusen i staden for ei dyrt stortingsval med same resultat.
Ungane går etter kvart lei. Det passar bra. «Kor mykje trur de ein kongle veg i gjennomsnitt», spør eg. Svara varierer frå 2 til 10 gram. Me byrjar å måla. Ein elev tek ein etter ein kongle og legg på vekta. Ein annan elev les av vekta, og eg puttar talet inn i eit Excel-ark.
På tavla kjem det fram eit plott som viser variasjonen i vekt på konglane og korleis gjennomsnittsvekta stabiliserer seg. Gjennomsnittsvekta er underlagd lova om store tal. Tek vi berre mange nok konglar, så har me med stort sannsyn gjennomsnittsvekta.
No når kurva for gjennomsnittsvekta har flata fullstendig ut, gidd ikkje ungane måla meir, og det er heller ikkje nødvendig. Me ser at å måla vekta på meir enn to hundre konglar ikkje gjev oss meir informasjon. Me måler 414 konglar før me gjev oss. Gjennomsnittleg konglevekt er og vert 4 gram.
Er det meir me kan leika oss med? Ja, me kan sjå på fordelinga av konglevekt. Kor mange lette konglar har me og kor mange tunge? Me ser at fordelinga minner om kyrkjeklokka og kan kallast anten normalfordelinga eller Gauss-kurva.
Mykje i naturen og andre stader er normalfordelt. Dersom du tvilar på det, er det berre å finna fram terningar og kasta og telja auge. Di fleire terningar og kast di nærare kjem summen normalfordelinga.
Dersom me hadde gått ut i skogen igjen og plukka ein tilfeldig kongle, kunne me med 95 prosent sannsyn (konfidens) måla ei vekt på mellom 0,8 og 7,2 gram. Det ville difor vera 5 prosent sannsyn for at vekta var større eller mindre enn det (signifikans).
Éin ting er at konglevekta varierer mykje innanfor utvalet vårt, men korleis ville gjennomsnittsverdien variera dersom me plukka mange tilfeldige utval? Store tals lov vil sørgja for mykje mindre spreiing i gjennomsnittet enn spreiinga i konglevekta. Dersom ein tek mange utval og finn gjennomsnittet av gjennomsnitta, vil det verta likt gjennomsnittet til populasjonen.
Er det mogleg å seia noko statistisk om kor nære me er populasjonsgjennomsnittet? Ja, det kan me ved å bruka slutningsstatistikk. Gjennomsnitta frå mange utval er også normalfordelt dersom ein tek nok konglar med i kvart utval.
Ein populær test er t-testen. Verdien av t er gjeve av avstanden mellom målt gjennomsnitt og populasjonsgjennomsnitt delt på standardfeilen til målinga vår. Standardfeilen er avhengig av standardavviket i konglemålinga og talet på konglar. Når standardavviket er lite og talet på konglar stort, vert standardfeilen liten.
Det er berre å rekna ut kva avstand mellom vårt og det ukjende gjennomsnittet som gjev ein t-verdi mellom –2 og 2. Då kan me med 95 prosent sannsyn seia er at vårt gjennomsnitt på 4 gram er +/–0,15 gram unna populasjonsgjennomsnittet.
Som me ser, fylgjer fordelinga av vekta om lag normalfordelinga. Standardavvik i dette tilfellet er eit mål på spreiinga av konglevekta. Dess mindre det er, dess fleire konglar har omtrent gjennomsnittsvekta. For våre konglar er spreiinga stor.
Kvifor vert t-testen kalla test? Vel, statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera. Dei lagar ein såkalla 0-hypotese, H0, og prøver å falsifisera ho, slik at ein alternative hypotese H1 kan aksepterast. Lat oss ta eit døme. H0: Populasjonens gjennomsnittsvekt for konglar er 3,8 gram. H1: Populasjonens gjennomsnittsvekt er forskjellig frå 3,8 gram. 3,8 gram gjev t = 2,54, som er meir enn to standardavvik unna, så H0 må forkastast og H1 er sannsynleg.
Føreslår me derimot ein H0 der gjennomsnittsvekta for populasjonen er ein stad mellom 3,85 og 4,15 gram, kan me ikkje forkasta H0 og kan akseptera H0 med 95 prosent konfidens.
Meir å læra? Ja, me kan til dømes sjå på samanhengar. Er det nokon samanheng mellom vekta til konglar og lengda? Truleg kan med finna ut det med regresjonsanalyse, men ungane er leie av å måla, så det vert spørjetime i staden. Dei veit eg har studert astronomi, så det haglar spørsmål om svarte hòl og mørk materie. Plutseleg ser eg handa til den stillaste guten i klassen. Eg vert glad, og han spør: «Har du berre eitt par sko?» Ja, utvalet mitt i sko er lite, men eg lovar at det vert meir statistikk.
Per Thorvaldsen
pth@hvl.no
Statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera.
Fleire artiklar
Dyrlegen kjem
Joachim Cooder er kjend som perkusjonist frå fleire utgivingar saman med opphavet, Ry Cooder.
Foto: Amanda Charchian
Motellet til drøymaren
Joachim Cooder opnar dørene til sju musikalske rom.
Det kjæraste eg har? Min ser ikkje slik ut, men eg er ganske glad i han, ja.
Foto via Wikimedia Commons
Smørbutten min får du nok aldri
Ei flygande badstove skal få ny heim, sit det nokon inni alt?
Foto: Maren Bø
Badstovene tek av
Det er interessant korleis badstove inne kan vere så ut, mens badstove ute er så in.
Morgonfrisk fersking
«Ein kan kjenna seg frisk og sterk, vera åndsfrisk eller endåtil frisk som ein fisk, friskna til, verta frisk att frå sjukdomen og heilt friskmeld.»