Forskning

Kapittel 7

Statistikk og dataanalyse

7.1 Kurs
7.2 Litteratur
7.3 Dataverktøy
7.4 Hjelp fra statistiker eller epidemiolog
7.5 Lokale tips for foretak i Helse Vest

 

For å kunne vurdere resultater av forskning må dataene analyseres. Kunnskap om og forståelse av databearbeiding må være tilstede i både planleggingen, gjennomføringen og sluttarbeidet av studien. Dette er viktig da statistiske vurderinger for eksempel har betydning for å fastslå om studien er planlagt med nok pasienter, forsøkspersoner eller forsøksdyr.

Antall forsøksindivider eller cellekulturer som er nødvendige (i studien), er avhengig av mange faktorer, og begrepet "minste klinisk relevante forskjell" er essensiell i denne regneprosessen. For å kunne fastsette den "minste klinisk relevante forskjell" må man ha kjennskap til den indre variasjonen i det parameter man måler, - altså den variasjonen som er tilstede før man i det hele tatt har to grupper en setter opp mot hverandre. I planleggingen av en studie kan man bruke "minste klinisk relevante forskjell" lik den forskjell som er påvist på samme effektvariabel i en lignende studie. Ved å beregne nødvendig antall deltagere reduserer en risikoen for å gjennomføre en studie der man ikke har mulighet for å kunne trekke noen konklusjoner når resultatene foreligger (inkonklusiv studie).

I planleggingen av en studie må det settes opp to konkurrerende hypoteser. Den ene hypotesen kalles nullhypotesen (H0) og er vanligvis den hypotesen en ønsker å avkrefte. Den andre hypotesen kalles alternativhypotesen (HA) og er den hypotesen en vil tro er riktig dersom nullhypotesen er feil. Hypotesene må være veldefinerte slik at en kan utføre en statistisk hypotese-test og derved redusere risikoen(e) for å trekke feil konklusjon. I forberedelsen til studien må vi definere hva som skal være nedre grense for relevant forskjell mellom gruppene vi sammenlikner. Vi kan nemlig komme ut med to typer feil: forkastningsfeil (type I feil) gjør vi om vi feilaktig forkaster nullhypotesen (dvs vi tror det er en forskjell mellom gruppene, mens det egentlig ikke er det), og godtakingsfeil (type II feil) om vi feilaktig godtar nullhypotesen (vi godtar nullhypotesen, selv om den faktiske forskjell er større enn den definerte nedre grense, mao vi tror ikke det er en forskjell mellom gruppene, mens det egentlig er det). Vi kan teoretisk beregne risikoene for å gjøre forkastningsfeil eller godtakingsfeil. Det er vanlig å planlegge en studie slik at risikoen for forkastningsfeil (signifikansnivået, α )for eksempel er 5 % og risikoen for godtakingsfeil (β) for eksempel blir 10 %. For å redusere risikoen for feilkonklusjon kan en vanligvis øke antallet observasjoner (pasienter, cellekulturer o.a.). Det nødvendige antallet observasjoner kan beregnes ved en styrkeberegning ("power analyse"), under forutsetning av at en kjent eller antatt variasjon i utfallet foreligger, og at godtakingsnivå er valgt (). Når de nødvendige data er samlet inn, kan en utføre den statistiske hypotesetesten. Dette gjøres vanligvis ved bruk av en statistisk programpakke og resultatet gis i form av en p-verdi (signifikanssannsynlighet, p=probability).  Regelen er da at en ikke forkaster nullhypotesen om p-verdien er større enn signifikansnivået (p > α) og forkaster den hvis ikke p < α , for eksempel om p < 0.05. En annen vanlig måte å uttrykke et slikt svar er at det er <5 % sjanse for at resultatet er tilfeldig.

Når nullhypotesen forkastes, sier vi gjerne at det var en statistisk signifikant forskjell mellom gruppene. Vi kan aldri være 100 % sikre på at konklusjonen er den rette, men vi kan i hvert fall si at vi har gjennomført studien på en slik måte at risikoen for at vi skulle trekke feil konklusjon av den ene eller andre type var liten.

Det finnes forskjellige typer statistiske hypotesetester for forskjellige typer data og problemstillinger. Her er det for eksempel viktig å vite om det skal benyttes parametriske tester (hvis det dreier seg om en Gaussfordelt variabel - også kalt normalfordelt) eller ikke-parametriske tester (hvis det dreier seg om en variabel som ikke har en normalfordeling i undersøkelsespopulasjonen).

Det er viktig å ha et kritisk blikk for hva som er en klinisk eller biologisk betydningsfull forskjell mellom gruppene. Ikke sjelden kan man finne en statistisk signifikant forskjell mellom to grupper som ikke er av biologisk betydning. Dersom svært mange individer eller forsøksobjekter inkluderes, kan en liten og ubetydelig biologisk forskjell påvises med statistisk signifikans. Tilsvarende kan det oppnås statistisk signifikante relasjoner eller forskjeller dersom det testes på mange variabler etter at studien er gjennomført, nettopp på grunn av det høye antallet parametere som blir analysert. Kravet til statistisk signifikans blir større ved testing av mange variabler (kfr. Bonferronis korreksjon). Hvis en ønsker å teste mange hypoteser, bør en tenke gjennom dette ved planleggingen av studien og ta hensyn til det ved bestemmelse av signifikansnivå og størrelse på studien.

De fleste biomedisinske publikasjoner inneholder et avsnitt om statistikkbruk, og dette beskriver nettopp de forhold som er nevnt ovenfor. Et slikt avsnitt bør omtale valg av forsøksplan (for eksempel randomisert, kontrollert, blind, åpen – se Kap. 9), metoder for å analysere dataene (for eksempel t-test, ikke-parametriske tester, anova), dataverktøy (for eksempel SPSS, Excel, SAS, EpiData, NCSS), valg av signifikansnivå (α) og hvordan utvalgsstørrelsen er beregnet (basert på styrkeberegning). Denne kunnskapen er nødvendig før starten av en studie. En del av denne informasjonen bør forskeren beherske selv. Men i planleggingen av større undersøkelser er det viktig å ha kontakt med statistiker eller epidemiolog som kan bistå med viktige valg. Nedenfor er det ført opp noen punkter som kan bidra til å lette dette arbeidet.
 

7.1 Kurs
Universitetene arrangerer kurs for sine doktorgradskandidater, ofte i et samarbeid mellom sykehusene. Mange av de nyopprettede forskerskolene vil også bidra med forskerkurs av mer spesifikk karakter. Den norske lægeforening arrangerer kurs i spesialistutdanningen, men annonserer også enkelte forskerkurs.

Kursene er tildels rene statistikk-kurs som også inkluderer opplæring i datahåndtering. Andre kurs gir mer helhetlig forståelse med blant annet planlegging av studier. Noen av kursene gir tellende studiepoeng og er obligatoriske i doktorgradsprogrammet.

7.2 Litteratur
Det finnes flere bøker på markedet, og disse spenner over hele spektret av vanskelighetsgrad og detaljer. Bøker kan dels brukes som oppslagsverk, dels kan de også leses for å lære og forstå statistiske metoder og begreper. Følgende bøker er hyppig brukt av biomedisinske forskere:

Douglas G. Altman: Practical statistics for medical research (Chapman & Hall 1991)

Odd Aalen: Innføring i statistikk med medisinske eksempler (ad Notam Gyldendal 1998)

Göran Ejlertsson: Grundläggande statistik med tillämpingar inom sjukvården (Studentlitteratur 1992)

Kenneth Rothman: Introduction to epidemiology. Oxford University Press 2002

7.3 Dataprogrammer og etablering av database og analyse av resultater
En rekke programvarer er tilgjengelige for å lagre og bearbeide dataene som opparbeides. Hva som brukes, er avhengig av tilgjengelighet ved institusjonen forskeren er tilknyttet, dels er det avhengig av personlig preferanse og av studiens karakter.

Microsoft Excel er tilgjengelig for de fleste ved ulike institusjoner. Programmet er lett å lære, det er enkelt å legge inn data og det arrangeres hyppige Microsoft Excel kurs. Programmet er ikke velegnet til avanserte statistiske analyser, og tegneprogrammet er ikke optimalt.

SPSS (Statistical Packages for the Social Sciences) – er en integrert enhet av flere dataprogrammer som opprinnelig ble utviklet for samfunnsvitenskaplig forskning. Programpakken er brukervennlig, har god kvalitet med egnede manualer. Det arrangeres regelmessig kurs i SPSS. Det finnes Web-sider hvor en kan få hjelp blant annet denne nettsiden.

SAS (Statistical Analysis Software) er også et meget godt og omfattende dataverktøy i utarbeidelsen av en database og i dataanalyse.

EpiData er WHO sin anbefaling som database. Gratis tilgjengelighet og meget velegnet for de fleste avgrensede kliniske studier

EPI Info 2002 er et annet godt program spesielt egnet i epidemiologiske studier for utforming av spørreskjema, databasebygging og enkelte statistiske analyser. Programmet kan lastes ned gratis fra internett.

Medcalc, NCSS, S-plus, R og Stata er andre statistikkpakker som også er gode til sine formål.

En del statistikkprogrammer kan ha gode innebygde grafikkprogram. Det finnes imidlertid egne vitenskapelige grafikkprogram som kan kjøpes; Sigmaplot og Graphpad Prism er gode eksempler på det.
 

7.4 Hjelp fra statistiker eller epidemiolog
Ved universitetssykehus og tilsvarende forskningsinstitusjoner finnes det kvalifiserte statistikere/epidemiologer med medisinsk innsikt. Det anbefales å ta kontakt med dem på et tidlig tidspunkt og ha med statistikeren både i planleggingen av og underveis i studien. Det er viktig å bli enige på forhånd hvorvidt statistikeren skal være medforfatter, få betaling, eller inngå i et "acknowledgement" i planlagte publikasjoner.

Ved universitetssykehusene og andre forskningsinstitusjoner finnes det kvalifiserte statistikere/ epidemiologer med medisinsk innsikt. Det anbefales å kontakte disse på et tidligst mulig tidspunkt i planleggingen og deretter få råd av statistikeren underveis. Bli enige på forhånd om statistikeren skal være medforfatter, få betaling, eller inngå i et "acknowledgement" i den planlagte publikasjonen.

Websider:
Det finnes websider med tilgjengelig litteratur og bakgrunn for statistiske metoder samt ulike programpakker der det også er enkle regler for utregninger av nødvendig antall pasienter (forsøksdyr/ personer) til studien (styrkeberegning

1) Interactive Statistical Calculation Pages
2) Statistical Computing Resources (UCLA)

 

7.5 Lokale tips for foretak i Helse Vest
Regionalt kompetansesenter for klinisk forskning ved Haukeland universitetssykehus tilbyr rådgivning i forsøksplanlegging, datainnsamling, databearbeiding og statistisk analyse. Tilbudet gjelder alle forskere i helseforetak i Helse Vest, men forskere i Helse Stavanger kan fortrinnsvis kontakte Kontor for klinisk forskning ved Stavanger universitetssykehus.

For avtale om statistisk rådgivning ved kompetansesenteret send prosjektbeskrivelse samt beskrivelse av hva det søkes veiledning til på e-post til kkf@helse-bergen.no.

 


 Utskriftsvennlig side

Sist oppdatert: 14.02.2006 av Reidar Christian Thorstensen

Helse Bergen logo

Helse Bergen HF
Haukeland universitetssjukehus, Jonas Liesvei 65, 5021 Bergen | Tlf 05300
Org. nr: 983 974 724 postmottak@helse-bergen.no

Ansv. redaktør: Kommunikasjonsdirektør Mona Høgli
Nettredaktør: Kommunikasjonsrådgiver Geir Andre Bakke
Om nettjenesten