Når man læser statistiske undersøgelser, og særligt undersøgelser af spørgeskemadata og sundhedsstudier, er de fleste tilbøjelige til at tro, at jo større den er, jo bedre er den også. Det er en god tommelfingerregel i nogle tilfælde, men kan være meget misvisende i andre. Pointen med dagens post er derfor at illustrere de problemer med såkaldt sampling- og selektionsproblemer, som kan føre til at undersøgelser af bl.a. danskernes holdninger og af sygdomsforhold kan være så stærkt problematiske, at de er værre end ingen undersøgelser.
Vi stiller derfor et hypotetisk eksempel op, hvor man gerne vil vide noget om, hvor udbredt en bestemt ekstrem holdning er – det kunne være, om alle homoseksuelle skal have tæsk – eller hvor udbredt en sygdom er – i dagens eksempel corona. I vores hypotetiske eksempel er der 1 % af alle borgere, der har en bestemt holdning eller er smittede. Spørger man således 9000 borgere i en korrekt gennemført undersøgelse, vil de 90 erklære sig enige med det bestemte spørgsmål, eller være smittede. Spørgsmålet er så, hvordan store studier kan komme til helt andre konklusioner.
I vores virkelige befolkning vil der være 90 ekstremister / smittede – det kalder vi A – og 8910 almindelige / usmittede – det kalder vi B. Den korrekte sandsynlighed er derfor A / (A+B), eller 90 / 9000 = 1 %. Hvis man fanger et stort, repræsentativt udsnit af befolkningen – en såkaldt korrekt random sample – får man den samme sandsynlighed, omgivet af en kendt statistisk usikkerhed.
Samplingproblemet kan her opstå ved at man enten spørger / tester for mange i A-gruppen eller for få i B-gruppen. Man kan for eksempel forestille sig, at man primært spørger på Københavns vestegn, hvor flere hader homoseksuelle / er smittede end i resten af landet. Problemet bliver, at man måler for mange A’er og for få B’er fordi området ikke er repræsentativt for hele befolkningen. Det siger sig selv, at hvis holdningen / smitten er dobbelt så sandsynlig på vestegnen, ender man på en sandsynlighed på 2 %. Dette problem er ekstremt velkendt blandt meningsmålere og løses ofte ved at man vægter folks svar. Det kan lade sig gøre, fordi man kender sit samplingproblem og derfor kan give dem, der er overrepræsenterede en vægt lavere end 1, og dem der er underrepræsenterede en vægt over 1. Hvis man derimod ikke kender strukturen af sit samplingproblem, er der ikke nogen let løsning.
Et lignende problem kan opstå, hvis det er lettere at komme i kontakt med folk, der har mere ekstreme holdninger / er mere smittede. Det kan for eksempel være et praktisk problem, hvis de er mere arbejdsløse og derfor mere tilbøjelige til at tage telefonen, når man ringer med et spørgeskema om eftermiddagen. Hvis man på denne måde får dobbelt så mange A’er end man burde, men stadig det korrekte antal B’er – man har løst det ene af de to samplingproblemer – ender man stadig på en målt sandsynlighed på 180 / (180+8910) = 1,98 %.
Et værre problem, som ofte også plager eksperimentelle studier, er selektionsproblemet. Hvis folk selv aktivt kan søge at være med i en undersøgelse, er problemet at det næsten aldrig er tilfældigt, hvem der vælger at være med – det tekniske udtryk er, hvem der ’selv-selekterer’. Fænomenet kan nogle gange ses i meningsmålinger hos Ekstrabladet, hvor det typisk er stærkt indignerede læsere, det vælger at svare på de to spørgsmål, der popper op. Hvis de indignerede er dobbelt så tilbøjelige til at svare, ender man dermed med en målt sandsynlighed for et ekstremt svar på 180 / (180+4455) = 3,88 %. Et selektionsproblem med en faktor 2 ender således med en måling, der er næsten en faktor 4 for stor.
Det samme gælder sygdomsundersøgelser, hvor man indtil nu (teststrategien ændres disse dage) for eksempel kun har kunnet blive coronatestet, hvor man udviste symptomer – så kunne ens læge henvise en til test – eller tilhørte en særligt udsat gruppe som sundhedspersonale. Her får man mindst to selektionsproblemer. For det første er det langt fra alle smittede, der udviser symptomer. Forskellige studier har fundet, at mellem 50 og 80 % af alle smittede er asymptomatiske. Rundt regnet betyder det, at hvis man skal udvise symptomer der er konsistente med virussen, sender man kun 1/3 af de faktisk smittede til test. Det ’A’ man måler, bliver således undervurderet med en faktor 3. Medmindre andre lidelser, der kan give samme symptomer, har samme eller større risiko for at være asymptomatiske, giver det således et for småt ’A’ og et for stort ’B’. Det giver således en potentielt markant ’downward bias’, dvs. en målt sandsynlighed der er for lille.
Den anden kilde til selektionsproblemet er, at det ikke er tilfældigt hvem der vælger at gå til læge. Et eksempel vil være, hvis folk der er mere opmærksomme på deres helbred, eller vægter helbred højere end andre, også er mere tilbøjelige til at gå til læge. Dette problem kan også formuleres som, at dem der er mest sjuskede i deres sundhedsadfærd, er mindst tilbøjelige til at gå til læge. Denne type selvselektion har konsekvenser, der er helt parallelle til samplingproblemet ovenfor: Man kommer til at måle smitterisiko i en gruppe borgere, der qua deres adfærd ikke er særligt udsatte for smitte.
Et sidste problem kendes fra undersøgelser, der forsøger at måle omfanget af et akut problem. Umiddelbart efter terrorangrebene i London-tuben i 2005 viste meningsmålinger, at londonernes bekymringer var steget markant. Men da en undersøgelse allerede var i gang, da angrebene skete, kunne man også følge udviklingen i bekymringerne. Den længere undersøgelse viste, at de ekstra bekymringer var ganske kortvarige og at londonerne efter få uger var cirka tilbage til samme risikovurdering som før.
Lad mig illustrere problemet på følgende måde. Vi undersøger et holdningsspørgsmål over seks uger, hvor 50 % har holdningen i uge 1, 40 % i uge 2, 30 % i uge 3 osv. så ingen har holdningen i uge 6. Spørger man det samme antal borgere i alle uger, får man et gennemsnit på 25 % over perioden. Hvis man derimod ændrer sin teststrategi og -omfang, så man f.eks. fordobler antallet af adspurgte hver uge, ender man pga. udviklingen i folks holdninger med et mål på blot 9 %. Sagt lidt teknisk kan den temporale fordeling af undersøgelsen give et markant samplingproblem.
Disse problemer er af meget væsentlig betydning for tiden, da de også plager langt de fleste forsøg på at vurdere coronavirussens smitteudbredelse, og dermed også dens faktiske dødelighed. På præcist samme måde kan sampling- og selektionsproblemer helt åbenlyst skævvride vurderinger af f.eks. holdningsændringer og politiske præferencer – hvor det er et kendt problem, at populistiske partiers vælgere er noget mindre tilbøjelige til at svare på meningsmålinger, og man derfor undervurderer deres vælgertal. Vi mener at punditokraternes ellers velinformerede vælgere også bør være klar over, hvor store disse ellers lidt tekniske og kedelige problemer kan være. Uden en vis skepsis overfor alle undersøgelser af denne art, lader man sig hurtigt forlede til at tro, at problemer er større eller mindre end de faktisk er.
Vildt interessant artikel. Nu kan du jo ikke dække et helt cand.polit pensum i en kort blog, men du giver et ganske godt billede af, hvor kompliceret det er.
Men din konklusion – betyder det, at du trækker dine påstande fra dine forrige to blogs tilbage?
Nej, på ingen måde. Det er netop denne type problemer, som de fleste coronaopgørelser lider af. Lad mig give et ret klart eksempel på, hvad en opmærksomhed om disse problemer kan bidrage med.
Seruminstittuet oplyser at man foretog 56113 influenzatests i 2017-18-sæsonen, hvoraf 32186 var positive og at der døde 1644 borgere. 1666 er 5,1 % af de testede individer – den såkaldte CFR. De tilsvarende tal for corona lige nu er 4,9 %. Når man forstår de statistiske problemer, kan man også se implikationen for en vurdering af corona versus influenza: Hvis man skal få corona til at være markant mere dødelig end influenzaen for to år siden, skal man have et langt større mørketal – et større samplingproblem – for influenza end for corona. Jeg mener ikke, at det er en rimelig antagelse, at mørketallet for en velkendt sygdom vi har haft i 100 år skal være meget større end mørketallet for en helt ny sygdom, som man stort set ikke har antistoftestet endnu. Gør du?
“Hvis man skal få corona til at være markant mere dødelig end influenzaen for to år siden, skal man have et langt større mørketal – et større samplingproblem – for influenza end for corona.”
Er det ikke ret oplagt, at mørketallet for influenza er højere end mørketallet for corona? Af de tal du beskriver, kan man regne sig frem til, at 57 % af de influenza-testede i 2017-18-sæsonen var positive. Blandt de coronatestede er 3 % positive. Man har testet 300.000 flere for corona end for influenza i 2017-18. Hvordan skulle man ikke have misset langt flere influenzatilfælde end coronatilfælde?
Jeg forstår (tror jeg).
Genlæste lige det sidste afsnit. Det forekommer mig altså stadig, af du med mange ord bekræfter en af de mange lovmæssigheder, der tilskrives Murphy: »Tilstrækkelig forskning bekræfter enhver teori.«
Det er jo ganske alvorligt, at der ikke synes at være nogen ydre autoritet, der er kan bruges til at fastlægge “den rigtige” måling (altså den måling, der giver et sandt billede af verden i og for sig).
For Homo economicus må det være yderst angstprovokerende ikke at kunne basere sine rationelle beslutninger på fyldestgørende og sikker viden.
Et sandt epistemisk dilemma.
Du behøver ikke at svare, det var blot en reflektion.