Statistisk signifikans redder ikke dagen i evalueringer

Når vi skal undersøge, om vi kan stole på resultaterne af en undersøgelse eller evaluering tyer vi ofte til begrebet ’signifikans’. Ofte bruges test af statistisk signifikans dog forkert i evalueringer, og udfaldet fortolkes forkert. Det gør os ofte blinde for andre forhold, som er (mere) relevante for resultaternes validitet.

Af Frederik Petersen & Asger Dalsgaard Pedersen
Opdateret oktober 2024

Statistisk signifikans redder ikke dagen i evalueringer

(Mis)brugen af statistisk signifikans – kort fortalt

I evalueringer har vi sjældent adgang til den samlede population. I praksis må vi derfor anvende stikprøver. Brugen af stikprøver medfører dog en usikkerhed om, hvorvidt vores resultater med rimelig sikkerhed kan antages også at gælde for den samlede population. Værktøjet til at adressere denne usikkerhed har i mange år været statistiske signifikanstests.

Konstateringen af statistisk signifikante effekter bliver ofte fejlagtigt fortolket sådan, at den fundne effekt af en indsats sandsynligvis er sand. Fejlen består i, at mange ignorerer den præmis, som signifikanstesten bygger på. Man skal nemlig være opmærksom på, at der er tale om en såkaldt ’betinget sandsynlighed’.

Hvordan skal man så forstå, at en effekt er statistisk signifikant? Jo, givet at der faktisk ikke er nogen effekt af indsatsen, er sandsynligheden for at finde effekten i vores stikprøve meget lille. Første del er altså vores betingelse, som i signifikanstests typisk er en antagelse om, at ’nul-hypotesen’ er sand (se mere nedenfor).

Nørde-pause: Signifikanstest og p-værdier

Signifikanstesten baseres på den såkaldte p–værdi, men hvordan udregnes p-værdien?

Først opstilles en hypotese om, at der ikke er nogen effekt (kaldet nulhypotesen). Forestil dig nu, at man foretager sin evaluering uendeligt mange gange (praktisk er det naturligvis umuligt, men statistisk er det muligt at udregne scenariet). Under en række antagelser – bl.a. at stikprøven er tilfældigt udtrukket fra populationen – vil det uendelige antal hypotetiske effekter være normalfordelt omkring nulhypotesen.

Når effekterne er normalfordelt, kan man udregne sandsynligheden for at observere en bestemt effekt i fordelingen. Hvis den reelt observerede effekt ligger langt ude i normalfordelingens hale, er effekten således usandsynlig, hvis nulhypotesen er sand. P-værdien udtrykker netop denne (u)sandsynlighed.

En statistisk signifikant effekt har derfor en lav p-værdi, som indikerer, at det er usandsynligt, at vi har observeret effekten i vores stikprøve, givet at der i virkeligheden ikke er en effekt (nulhypotesen er sand). Omvendt har statistisk insignifikante effekter en høj p-værdi, som indikerer at det er sandsynligt, at vi har observeret effekten i vores stikprøve, givet at der i virkeligheden ikke er en effekt (nulhypotesen er sand).

Hvordan skelner man lav og høj?

Per konvention er tærsklen (som ofte kaldes signifikansniveauet) blevet fastsat ved p = 5 %. Derfor fortolkes en effekt med p = 4,9 % som statistisk signifikant, og p = 5,1 % som statistisk insignifikant. Tærskelniveauet er i princippet fuldstændig vilkårligt (i forskellige sammenhænge benyttes eksempelvis signifikansniveauer på 0,1 %, 1 % og 10 %).

Signifikanstesten siger dog desværre ikke noget om det modsatte – nemlig sandsynligheden for at vores effekt er sand eller forkert, givet at vi har fundet den i vores stikprøve – hvilket paradoksalt er det behov, vi ofte bruger signifikanstesten til at adressere.

Signifikans er ikke en objektiv størrelse

’Statistisk signifikante resultater’ er omgivet af en særlig aura, og det er let at lade sig lokke til at tro, at signifikans betyder to streger under resultatet. Men lad dig ikke forføre: Resultaterne af signifikanstest er ikke objektive og uafhængige af vores øvrige metodiske valg. Signifikanstesten påvirkes nemlig af en række valg, som træffes af menneskerne bag undersøgelsen: For eksempel stikprøvestørrelse, effektstørrelse, antallet af hypoteser, valg af statistisk model, variation i data eller valg af nulhypotese.

Det bliver for eksempel mere sandsynligt at få statistisk signifikante effekter, jo større effekter man finder, og jo større stikprøver evalueringen bygger på. Det sidste betyder, at man ved at anvende store stikprøver kan finde statistisk signifikante sammenhænge mellem alle forhold – også forhold som al sund fornuft siger ikke hænger sammen. Og selv de mindste og mest ubetydelige effekter kan blive statistisk signifikante.

Statistisk signifikans siger altså ikke noget om, hvorvidt effekten af en indsats har substantiel betydning. Her er vi nødt til at sammenligne effektstørrelsen med omkostningerne ved at gennemføre indsatsen. Dette skyldes, at en anden indsats potentielt kunne have været mere omkostningseffektiv. Således er statistisk signifikans og substantiel signifikans ikke det samme.

Mindre fokus på signifikans, mere fokus på…

Formålet med at teste for statistisk signifikans i evalueringer begrænser sig altså til at vurdere den statistiske usikkerhed i stikprøveudtrækningen. Det må ikke forveksles med en generel vurdering af, om en evaluerings resultater er til at stole på. Derfor er det også særligt problematisk, at brugen af statistiske signifikanstest ofte gør os blinde for andre forhold, som er (mere) relevante for, om vores resultater er til at stole på.

Vi vil derfor opfordre til en mere nuanceret tilgang til vurdering af evalueringers resultater, som generelt lægger mindre vægt på signifikanstest og mere vægt på især følgende forhold:

Evalueringsdesign: Et godt evalueringsdesign er den eneste sikre måde at undgå selektionsbias og dermed styrke tiltroen til evalueringens resultater. Ideelt set bygger et evalueringsdesign på eksperimentelle logikker, men i praksis er vi ofte nødt til at finde mere pragmatiske løsninger.

Ærlighed om usikkerheden: Pragmatiske løsninger nødvendiggør, at vi er ærlige om, at resultater altid baseres på troværdigheden af en række antagelser. Disse antagelser skal ekspliciteres, da de har afgørende betydning for at kunne lave en kritisk vurdering af resultaterne.

Effektstørrelser: For at kunne vurdere en effekts substantielle betydning, er det vigtigt at forholde sig konkret til effektstørrelserne. Dette kan ikke baseres på p-værdiens vilkårlige tærskelværdi, men må i stedet bero på en mere nuanceret effektforståelse, hvor spørgsmål om effekt ikke gøres sort/hvide.

Analytisk generaliserbarhed: Evalueringer som alene baserer generaliserbarheden af deres resultater på signifikanstest, tager ikke højde for, at indsatser altid gennemføres med forskellige forudsætninger. Ambitioner om at generalisere sine resultater kræver derimod en dybdegående kontekstuel forståelse.

Målingsvaliditet: Mange af de forhold, som i evalueringssammenhænge er interessante at måle, er ofte komplekse og sammensatte størrelser. Derfor er det ofte svært at vide, om vi reelt måler det, vi ønsker. Denne usikkerhed kan håndteres gennem en række kvantitative og kvalitative tests.

Således kendetegnes en god evaluering hverken ved brugen eller udfaldet af signifikanstest, men af evaluators evne til at adressere andre centrale forhold. Dermed kan en evaluator – eller Kritisk Ven (læs mere via linket) – der gør sig umage med at forstå en indsats og dens kontekst, og på den baggrund laver et godt evalueringsdesign, altså udtale sig mere troværdigt om resultaternes gyldighed end en test af resultaternes statistiske signifikans.

Er du enig eller uenig i vores vurdering? Hvilke forhold lægger du vægt på i den gode evaluering i forhold til statistisk signifikans i evalueringer? Skriv en kommentar til indlægget nedenfor eller tag kontakt til os.

Vil du kontaktes

Andre læser …

Indflettet evaluering – en værdifuld evalueringsmodel

’Indflettet evaluering’ er et nyere fænomen, hvor projektmedarbejdere deltager i projektevalueringen sammen med eksterne evaluatorer. Formålet er i mindre grad kontrol og i højere grad udvikling, læring og innovation.

Hvorfor udbredes gode løsninger og andre projekterfaringer ikke?

Hvorfor udbredes gode løsninger og andre projekterfaringer ikke? Hvorfor [...]

En Kritisk Vens bekendelser

Kritisk Ven-tilgangen vinder frem som en værdifuld evalueringstilgang. Men roser har også torne. Her deler vi nogle af udfordringerne i et forsøg på at skabe en åben dialog, som kan bidrage til at forbedre evalueringstilgangen.

Se flere indlæg

Statistisk signifikans redder ikke dagen i evalueringer

(Mis)brugen af statistisk signifikans – kort fortalt

Signifikanstesten baseres på den såkaldte p–værdi, men hvordan udregnes p-værdien?

Hvordan skelner man lav og høj?

Signifikans er ikke en objektiv størrelse

Mindre fokus på signifikans, mere fokus på…

Vil du kontaktes

Andre læser …

Indflettet evaluering – en værdifuld evalueringsmodel

Hvorfor udbredes gode løsninger og andre projekterfaringer ikke?

En Kritisk Vens bekendelser

Kontakt

Aarhus

København

Cookie

Statistisk signifikans redder ikke dagen i evalueringer

(Mis)brugen af statistisk signifikans – kort fortalt

Signifikanstesten baseres på den såkaldte p–værdi, men hvordan udregnes p-værdien?

Hvordan skelner man lav og høj?

Signifikans er ikke en objektiv størrelse

Mindre fokus på signifikans, mere fokus på…

Del artikel

Vil du kontaktes

Andre læser …

Indflettet evaluering – en værdifuld evalueringsmodel

Hvorfor udbredes gode løsninger og andre projekterfaringer ikke?

En Kritisk Vens bekendelser

Kontakt

Aarhus

København

Cookie