For at min bog, ”Prisen værd”, ikke skulle blive for lang og for tung at læse, valgte jeg at pille nogle af de mere tekniske kapitler ud. Et af dem kan du – i lettere omskrevet form – læse herunder.
Du kan købe bogen her eller låne den på biblioteket.
Syntetiske kontrolstudier og “cherry picking”
Da vi skrev protokollen til vores metastudie, så vi en risiko for, at en del forskning reelt ville være baseret på ”cherry-picking”. Ikke nødvendigvis fordi forskere havde slette intentioner og bevidst forsøgte at manipulere resultaterne, men fordi der var en risiko for, at forskerne ville fokusere på de samme ekstreme tilfælde. Det er jo mere interessant at undersøge, hvorfor det gik så galt i Lombardiet, Sverige og New York, end det er at undersøge hvorfor North Carolina og South Carolina begge havde relativt få døde, selvom deres nedlukninger i et amerikansk perspektiv var relativt begrænsede. Men det giver en skævvridning i resultaterne, hvis udvalgte lande/områder optræder meget mere hyppigt end andre. Derfor indskrev vi et krav om, at studierne i vores metastudie skulle være baseret på tilstrækkelig mange observationer – det vil sige være baseret på et tilpas stort datagrundlag. I praksis betød det, at vi udelukkede 20 studier, hvor kontrolgruppen kun var ét land (og altså i et eller andet omfang svarede lidt til omtalte opslag på sociale medier).
Kravet om et tilpas stort datagrundlag viste sig at være særdeles velbegrundet, for 17 af de 20 udelukkede studier viste sig at dække blot fire cases – Sverige (syv studier), Italien (otte studier), New York (et studie) og Spanien (et studie).
Disse fire cases er markeret med rødt i figur 1 nedenfor (jeg vender snart tilbage til de resterende tre markeret med hvidt). Figuren viser forholdet mellem hvor hurtigt pandemien i et land/en amerikansk delstat udviklede sig tidligt i pandemien (målt om datoen hvor landet/delstaten nåede 20 døde pr. million indbyggere) i forhold til den samlede COVID-19-dødelighed pr. million indbyggere under første smittebølge. Den lodrette linje illustrerer den omtrentlige dato, hvor en evt. effekt af nedlukningerne ville være slået tydeligt igennem (mediandatoen for skolelukninger i henholdsvis Europa og USA plus tre uger). Figuren viser to interessante ting.
Figur 1: Undersøgelser med ringe jurisdiktionsvarians fokuserede på lande og stater, der blev ramt tidligt af pandemien og derfor oplevede højere COVID-19-dødelighed

Note: Figuren viser sammenhængen mellem tidlig pandemistyrke og samlet COVID-19-dødelighed under første bølge. På X-aksen er “Dato hvor man når 20 COVID-19-dødsfald pr. million”. Y-aksen viser dødelighed (dødsfald pr. million) pr. 30. juni 2020. Figuren er inspireret af Ylli m.fl. (2020).
Kilde: Rapporterede COVID-19-dødsfald og OxCGRT stringency index for europæiske lande og amerikanske stater med mere end en million borgere. Data fra Our World in Data (2022).
For det første er der en tæt sammenhæng mellem hvor hurtigt pandemien udviklede sig i et land og hvor mange der døde i første bølge. De lande, der tidligt nåede 20 døde pr. million indbyggere, endte alle med at have markant højere dødstal under første smittebølge, end de lande, hvor det tog længere tid at nå 20 døde pr. million indbyggere. Ingen af de lande, der nåede 20 døde pr. million indbyggere senere end tidspunktet markeret ved den lodrette streg, havde således høje dødstal under første bølge.
For det andet viser figuren, at det ikke umiddelbart havde noget med nedlukningerne at gøre. Fordi der går noget tid fra infektion med SARS-CoV-2 til man dør af COVID-19, tager det omtrent tre uger, før man kan se en evt. effekt af nedlukningen. Det er dette tidspunkt, den lodrette streg illustrerer. Den lodrette streg markerer nemlig den dato, der ligger tre uger efter at mindst halvdelen af alle lande eller delstater havde lukket skolerne. Figuren viser altså, at en række lande og delstater – alle dem, der oplevede meget høje dødstal under første bølge – nåede 20 døde pr. million indbyggere før nedlukningerne ville have haft en effekt.
Så selvom Sverige havde lukket ned samtidig med Danmark (som var ca. det tidspunkt, man blev opmærksom på, at pandemien for alvor var nået til de nordiske lande) – og under antagelse af at nedlukninger virker – ville Sverige stadig have nået 20 døde pr. million indbyggere tidligt i pandemien og (sandsynligvis) have set mange dødsfald under første bølge. Det sidste ved vi, fordi 20 døde pr. million meget tidligt i pandemien tyder på, at smitten tidligt var vidt udbredt i samfundet. Det var ganske enkelt for sent at gøre noget, da man først blev opmærksom på problemet. Baseret på figur 1 tyder det altså på, at smitten i Sverige var langt mere udbredt i end i fx Danmark, Norge og Finland, selvom smitte- og dødstal for de fire lande i midten af marts ikke var så.
Lad os nu vende tilbage til de 17 studier, markeret med røde prikker i figur 1, som vi så bort fra i vores metastudie, fordi de var baseret på for få observationer. De 17 studier er kendetegnet ved at undersøge lande/delstater, som blev ramt meget tidligt at pandemien. Og dermed er der en betydelig risiko for, at det, de finder, ikke er konsekvensen af manglende nedlukninger, men snarere konsekvensen af en pandemi, der spreder sig i samfundet, uden at nogen ved det.
Figur 1 fortæller altså en vigtig historie om gyldigheden af vores kriterie. Hvis de lande og delstater, der blev undersøgt i studierne med få observationer, var tilfældigt udvalgt blandt alle lande (dvs. de røde prikker i figur 1 lå i hele spektret i figuren), kunne vi blot have samlet resultaterne fra disse studier for – samlet set – at få en bred geografisk dækning med mange observationer. Men da de 17 studier fokuserer på helt særlige tilfælde – lande og delstater, der blev ramt hårdt i pandemiens start – var dette ikke muligt. Og det viser, at vores kriterie om at studierne skulle være basere på mange observationer faktisk var nødvendigt for at få retvisende resultater, der ikke var domineret af særtilfælde, hvor resultaterne potentielt er drevet af andre forhold end nedlukninger.
Noget der undrer mig er, at ingen af studierne baseret på et lille datagrundlag fokuserede på Belgien. Belgien er ellers et ret interessant tilfælde, da landet lukkede ned stort set samtidig med Danmark. Belgiens nedlukning blev annonceret d. 12. marts, og skoler, diskoteker, caféer og restauranter, osv. blev lukket ned fra fredag den 13. marts ved midnat og frem, og en form for udgangsforbud trådte i kraft d. 18. marts – samme dag som restauranter lukkede i Danmark.[1] Alligevel døde der i starten af april dagligt 5-9 gange flere mennesker i Belgien end i Danmark. Hvorfor er der tilsyneladende ingen, der har sammenlignet Belgien med fx nabolandene eller lande, der lukkede ned samtidig med Belgien, og på den baggrund konstateret, at tidlige og hårde nedlukninger ikke virkede? Hvorfor blev Sverige holdt frem som eksemplet på, hvad der sker, når man ikke lukker ned, uden at nogen holdt Belgien frem som eksemplet på, hvad sker, når man lukker ned?
Jeg har ikke svaret. Måske var analyserne derude, men nåede bare aldrig frem til avisernes forside, der i stedet var præget af Lone Simonsens og Seth Flaxmans fantasital.
En lidt bedre protokol?
Lad os nu vende tilbage til de tre hvide prikker i figur 1. Disse prikker repræsenterer tre studier, der undersøger effekten af nedlukninger i Illinois, Wisconsin og Californien, og som vi sorterede fra på baggrund af kravet om et tilpas stort datagrundlag. Reinbold (2021) undersøger effekten af skolelukninger i Illinois, Dave m.fl. (2020) undersøger effekten af udgangsforbud i Wisconsin, og Friedson m.fl. (2021) undersøger effekten af udgangsforbud i Californien.
Særligt Dave m.fl. (2020) er interessant, fordi de ikke valgte Wisconsin, fordi de var et særligt interessant tilfælde, men fordi det var her, forskerne så muligheden for at lave god empirisk forskning. Dave m.fl. (2020) udnytter, at Wisconsins højesteret finder udgangsforbuddet forfatningsstridigt. Det er en interessant case, fordi det er en form for naturligt eksperiment, hvor udgangsforbuddet blev ophævet imod politikernes ønske og uden skelen til den aktuelle pandemi-situation. Dermed kommer det til at ligne et randomiseret forsøg, som normalt anses for at være ”state-of-the-art”, når man laver forskning (jeg har tidligere omtalt Dave m.fl. her).
Forskerne valgte altså ikke Wisconsin, fordi det var et særligt interessant tilfælde, men ganske enkelt fordi det var her, eksperimentet ”blev udført”. Dave m.fl. (2020) “finder ingen evidens for, at Wisconsins højesteretsafgørelse påvirkede udviklingen i COVID-19 op til en måned efter ophævelsen [af udgangsforbuddet]”. Med andre ord havde udgangsforbuddet – et af de allermest indgribende restriktioner under COVID-19-pandemien – ifølge disse forskere ingen effekt på pandemien forløb.
Det er mindre klart, hvorfor Reinbold (2021) valgte at se på Illinois. I den periode, de undersøger (24. august 2020 til 13. september 2020), var antallet af COVID-19-dødsfald relativt stabilt i Illinois og USA som helhed, og der er ikke umiddelbart noget, der indikerer en potentiel kilde til bias med hensyn til den geografiske dækning. Reinbold (2021) finder “ingen signifikante forskelle i […] dødsfald mellem de 3 amtsgrupper” (hybrid-undervisning, online-undervisning og undervisning ved personligt fremmøde.
Det sidste studie, Friedson m.fl. (2021), havde valgt Californien, fordi Californien var den første delstat, der indførte et udgangsforbud. Friedson m.fl. (2021) finder en negativ effekt af udgangsforbuddet på COVID-19-dødeligheden (så færre døde), men effekten er ikke statistisk signifikant, hvilket forskere normalt vil fortolke som at der ikke var en effekt, fordi effekten kan være en tilfældighed. Friedson m.fl. (2021) er derudover interessant, fordi studiet understreger problemerne med at bruge den syntetiske kontrolmetode til at evaluere effekten af nedlukninger, jf. næste afsnit.
Den syntetiske kontrolmetode er en måde at analysere virkningen af en hændelse, som f.eks. en regerings indgreb i COVID-19 pandemien. I et studie[2] estimerer forskerne fx en kunstig dobbeltgænger af Sverige ved at blande dele af Danmark, Finland, Holland, Norge og Spanien mv., kaldet donorlandene. Idéen er, at hvis dobbeltgængeren ligner Sverige før hændelsen (valget om ikke at lukke ned), så ville dobbeltgængeren også ligne Sverige efter hændelsen, hvis Sverige havde gjort som donorlandene. Så ved at sammenligne, hvad der reelt skete i Sverige med, hvad der skete i dobbeltgængeren, kan man vurdere effekten af Sveriges beslutning om ikke at lukke ned i marts 2020.
Men der er et grundlæggende problem ved den syntetiske kontrolmetode i forhold til at evaluere effekten af nedlukninger. For at lave en nøjagtig dobbeltgænger for Sverige, skal man nemlig fitte dobbeltgængeren på baggrund af en lang periode før den hændelse, man studerer, som i dette tilfælde er COVID-19 og nedlukningerne.[3] Men eftersom COVID-19 startede forholdsvis pludseligt, har man ikke en lang periode med data til at lave dobbeltgængeren på – ofte har man kun relativt få dage. I forhold til det omtalte studie, har Christian Bjørnskov vist, at dobbeltgængeren for Sverige faktisk slet ikke ligner det ægte Sverige før COVID-19, fordi det ægte Sverige havde meget lavere dødelighed end dobbeltgængeren forud for pandemien. Og det gør desværre resultaterne mindre troværdige.
Kan man overhovedet bruge den syntetiske kontrolmetode til at evaluere effekten af nedlukningerne?
Som jeg tidligere har beskrevet, så viser mit studie publiceret i Nationaløkonomisk Tidsskrift, at der er store problemer med at bruge den syntetiske kontrolmetode til at evaluere effekten af nedlukningerne.
Men det burde mange af forskerne bag ovennævnte studier have indset af sig selv for længst. For mange af studierne har ret åbenlyse problemer.
Friedson m.fl. (2021) illustrerer problemerne med den syntetiske kontrolmetode på glimrende vis. På den baggrund af blot seks dages data (i alt 793 COVID-19-tilfælde, svarende til 20 tilfælde pr. million i Californien) laver de en dobbeltgænger for Californien baseret på Nevada, Colorado, Maryland og South Dakota.
Figuren nedenfor viser de seks dage, som deres data er fra, markeret med rød. Figuren viser derudover COVID-19-dødeligheden for Californien, donorstaterne samt det syntetiske Californien.
Efter 7 (14) dage har det rigtige Californien 23% (49%) færre dødsfald sammenlignet med det syntetiske Californien. Men da der går ca. tre uger fra man bliver smittet med COVID-19 og til man evt. dør af sygdommen, er det usandsynligt, at denne forskel skyldes udgangsforbuddet i Californien, selv hvis et udgangsforbud var meget effektivt til at stoppe smittespredningen. Det tyder altså på, at resultaterne er drevet af et dårligt ”fit” for dobbeltgængeren – på grund af den begrænsede datamængde – snarere end at de er drevet af en reel effekt af udgangsforbuddet.
Det er i øvrigt interessant, at South Dakota (vist med sort stiplet linje i figuren) matcher Californien næsten 1:1 igennem hele perioden, selvom de første indførte udgangsforbud omkring tre uger senere d. 7. april 2020. South Dakota havde også næsten den samme totale COVID-19-dødelighed som Californien den 30. juni 2020.
Figur 2: COVID-19-dødeligheden i Californien, Californiens dobbeltgænger og donorstaterne

Note: Figure er baseret på vægte fra model 1 (Table A1, Panel II(1)) i Friedson m.fl. (2021).
Kilde: Egne beregninger baseret på Our World in Data (2022) og Friedson m.fl. (2021).
Ét studie, vi helt klart burde have haft med
Og det bringer mig til ét studie, som jeg ville ønske, vi kunne have inkluderet i vores metastudie. I vores protokol ekskluderer vi nemlig studier baseret på den syntetiske kontrolmetode, fordi de altid kun har en observation i kontrolgruppen (fx Sverige eller Californien). Næsten. For da vi skrev protokollen, glemte vi, at der er et alternativ til den syntetiske kontrolmetode – nemlig den generaliserede syntetiske kontrolmetode (GSCM), som gør det muligt at undersøge effekten af nedlukninger med flere lande i behandlings- og kontrolgrupperne og over en længere periode. Og i forbindelse med vores litteratursøgning stødte vi faktisk på ét studie, der anvendte GSCM.
Med udgangspunkt i GSCM undersøger Mader og Rüttenauer (2022) effekten af en lang række restriktioner i 169 lande. De finder ingen effekt på dødeligheden af udgangsforbud, lukning af butikker, skolelukninger, rejserestriktioner, mundbind, lukning af offentlig transport og begrænsninger af interne rejser. I mange tilfælde er deres estimater endda positive (så nedlukninger øger dødeligheden), men dog ikke signifikante. Det er i mine øjne en fejl, at vi i protokollen fik ekskluderet Mader og Rüttenauer (2022), men protokollen var skrevet, og vi syntes ikke at argumenterne for at ændre på protokollen relativt sent i processen var tilstrækkelige til at ændre den, så studiet kunne komme med i metastudiet. Heldigvis ville det på ingen måde ændre vores konklusioner, hvis vi havde inkluderet studiet – tværtimod.
Referencer
Abadie, Alberto. 2021. “Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects”. Journal of Economic Literature 59 (2):391–425. https://doi.org/10.1257/jel.20191450.
Born, Benjamin, Alexander M. Dietrich, og Gernot J. Müller. 2021. “The Lockdown Effect: A Counterfactual for Sweden”. PLOS ONE 16 (4). Public Library of Science:e0249732. https://doi.org/10.1371/journal.pone.0249732.
Dave, Dhaval, Andrew I. Friedson, Kyutaro Matsuzawa, Drew McNichols, og Joseph J. Sabia. 2020. “Are the Effects of Adoption and Termination of Shelter-in-Place Orders Symmetric? Evidence from a Natural Experiment”, Working Paper Series, , juni. https://doi.org/10.3386/w27322.
Friedson, Andrew I., Drew McNichols, Joseph J. Sabia, og Dhaval Dave. 2021. “Shelter-in-Place Orders and Public Health: Evidence from California During the Covid-19 Pandemic”. Journal of Policy Analysis and Management 40 (1):258–83. https://doi.org/10.1002/pam.22267.
Mader, Sebastian, og Tobias Rüttenauer. 2022. “The Effects of Non-pharmaceutical Interventions on COVID-19 Mortality: A Generalized Synthetic Control Approach Across 169 Countries”. Frontiers in Public Health 10 (april):820642. https://doi.org/10.3389/fpubh.2022.820642.
Our World in Data. 2022. “COVID-19 Data Explorer”. Our World in Data. 2022. https://ourworldindata.org/coronavirus-data-explorer.
Reinbold, Gary W. 2021. “Effect of Fall 2020 K-12 Instruction Types on COVID-19 Cases, Hospital Admissions, and Deaths in Illinois Counties”. American Journal of Infection Control 0 (0). Elsevier. https://doi.org/10.1016/j.ajic.2021.05.011.
Ylli, Alban, Yan Yan Wu, Genc Burazeri, Catherine Pirkle, og Tetine Sentell. 2020. “The Lower COVID-19 Related Mortality and Incidence Rates in Eastern European Countries Are Associated with Delayed Start of Community Circulation”. Redigeret af Yury E. Khudyakov. PLOS ONE 15 (12):e0243411. https://doi.org/10.1371/journal.pone.0243411.
[1] Se https://web.archive.org/web/20200408115928/https://www.info-coronavirus.be/en/news/phase-2-maintained-transition-to-the-federal-phase-and-additional-measures/ og https://www.reuters.com/article/health-coronavirus-belgium-lockdown-idUKB5N28S003
[2] Born m.fl. (2021)
[3] Abadie (2021)
