Smittestigning – en opdatering

Af Christian Bjørnskov, den 19. august 2020. 24 svar

Forleden skrev vi om, hvordan Seruminstituttets data ikke indikerede, at der var en klar smittestigning. Problemet var, at instituttet og medierne primært bragte absolutte tal i stedet for at rapportere andele af de testede. Efterfølgende klagede flere læsere over, at der måtte være fejl i tallene. Når det sker, checker vi naturligvis vores data – når vores almindelige job giver os tid til det – og det viste sig, at læserne havde ret. Vi skylder derfor en særlig tak til Theis Dekkers Gjedsted for selv at have taget et kig på overvågningsfilen fra SSI. Hvor datafejlen er opstået, ved jeg ikke, men de korrekte data er interessante i sig selv.

Den opdaterede figur i dag starter den 20. april – den første dag, det nye og langt bredere testregime implementeredes – og rækker 119 dage frem til 16. august. Smittelinjen angiver andelen af nytestede, der viser sig at teste positiv for SARS-CoV-2, og er farvekodet: Den første, røde periode er den lange periode til 1. juni, hvor smittetrykket falder jævnt, den sorte er sommerperioden indtil 15. juli, og den blå er den sidste måned. Som vores læsere påpegede, udviser den tredje periode en stigning i den målte smitteandel, omend der også er et synligt fald de sidste ti dage.

Det særlige ved datacheck er, at man ofte også ser andre forhold, når man ser på data en anden gang. Som figuren viser, var der ikke noget galt med vores oprindelige observation, at antallet af testede er steget ganske kraftigt siden midten af juli. Det er der intet galt i, så længe det er blot er flere mennesker fra den samme befolkningsmasse, man tester. Derimod er det et statistisk problem, hvis de ekstra mennesker, man tester, ikke repræsenterer den samme befolkningsmasse som dem, der ellers er testet.

Dette problem dukkede op og blev synligt, da jeg valgte at estimere sammenhængen mellem antal testede og antal positive på en måde, der er almindelig blandt økonomer: I en log-log-specifikation. Fordelen ved metoden er, at når man estimerer sammenhængen mellem logaritmen til antallet af testede og logaritmen til antallet af positivt testede, kan man fortolke resultatet som en elasticitet. Med andre ord viser det estimat, man får ud, hvor mange procent antallet af det ene stiger, når antallet af det andet for eksempel stiger med ti procent. Når man estimerer elasticiteten af positivtestede til antallet af testede skal man derfor helst se et tal tæt på 1. Gør man det, kan man være sikker på at de ekstra mennesker man tester stadig repræsenterer den samme befolkningsmasse som de andre, og at man derfor kan sammenligne tallene over tid, selvom man tester et forskelligt antal mennesker.

Det er derfor vældigt beroligende – og godt for en statistiknørd – at se, at resultatet i den første (røde) periode er en elasticitet på 0,91, omgivet af et 95% konfidensinterval på [0,63;1,18]. Estimaterne giver også en fin elasticitet på 0,92 [0,41;1,44] i den anden (sorte) periode, så man kan være sikker på, at der er sammenlignelighed fra starten af testregimet til midten af juli.

Og det er derfra, de statistiske problemer dukker op. Fra midten af juli har myndighederne intensiveret testindsatsen og er begyndt at teste væsentligt flere. Fra at have testet 12315 borgere per dag i første periode og 14329 i anden periode, har man siden midten af juli testet et gennemsnit på 20659 borgere per dag. Som figuren viser, er andelen af positivtestede steget med 66 % fra anden til tredje periode – fra 2,3 til 3,8 promille af de testede. Skal man kunne konkludere, at der er sket en signifikant smittestigning i den danske befolkning, må man derfor blive nødt til at være sikker på, at de ekstra testede ikke er anderledes – dvs. repræsenterer et andet segment af det danske samfund – end dem, man ellers tester.

Problemet er, at statistikken klart indikerer at de er anderledes. Den estimerede elasticitet i den seneste måned – den tredje (sorte) periode – er 1,83 [1,49; 2,15]. Med andre ord har det været tilfældet siden midten af juli, at når man en dag tester 10 procent flere mennesker end tidligere dage, finder man 18 procent flere smittede. Det er vel at mærke ikke på grund af, at der i gennemsnit er flere positive test – den forskel er fanget på anden måde i statistikken (ved at estimere en logaritmisk trend) – men er en konsekvens af, at antallet af testede påvirker andelen af positive. Det er med andre ord en meget klar indikation på, at de ekstra testede i den intensiverede testindsats ikke kommer fra samme befolkningssegment som tidligere.

Hvad kan man da konkludere? Figuren viser, at der faktisk er sket en stigning i det målte smittetal, men strukturen i dataene fra Seruminstituttet indikerer, at i det mindste en væsentlig del af stigningen skyldes, at man simpelthen tester nogle andre mennesker end tidligere. Om det så er en konsekvens af, at folk holder ferie som ikke lod sig teste tidligere, om man i højere grad har testet folk med anden etnisk baggrund den seneste måned, eller at man måske har testet langt flere unge, må stå hen i det uvisse. Tager man hensyn til den statistisk uheldige ændring i strukturen af de testede, er det dog ret sikkert, at noget – og måske hele – den målte stigning er et statistisk artefakt af et skred i ens ’sample composition’ – den befolkningsmasse, man tester. Uden vedholdende læsere, havde vi aldrig opdaget dette interessante problem.

24 thoughts on “Smittestigning – en opdatering”

Peter Krogsten 19. august 2020 kl. 11:49

Hvordan man man bortforklare Sundhedsstyrelsens tabel 2.2 og 5.2 og 5.3 ? https://www.sst.dk/da/corona/tal-og-overvaagning

Svar ↓
1. Christian Bjørnskov 19. august 2020 kl. 15:41
  
  Hvad mener du med at bortforklare? Der er ingen bortforklaring her, men indsigt i hvad der ligger bag tallene – og bag figurerne.
  
  Svar ↓
Christina Petersen 20. august 2020 kl. 09:56

Nu ser den mere realistisk ud. Og du har nu tal med, der minder om 0,001-0,002 med fra juni og juli. Men i august nåede den flere gange op på mellem 0,0078-0,0097. Hvorfor er de tal ikke med? Hvilket datasæt har du brugt? SSI opgiver det på flere måder, så vi kan have brugt forskelligt datasæt.
Men den 7/8 har jeg fx. 0,0086, 8/8 er det 0,0095, 9/8 er det 0,0078 og 11/8 er det 0,0097, og derefter begynder det at gå ned.

Svar ↓
1. Christian Bjørnskov 20. august 2020 kl. 10:17
  
  Kære Christina. Det er stadig tallene fra SSIs overvågningsfil, og det er stadig tal på positivtestede i forhold til nytestede.
  
  Svar ↓
  1. Torsten Brinch 21. august 2020 kl. 16:56
    
    Christian Bjørnskov skriver:”det er stadig tal på positivtestede i forhold til nytestede”
    
    Så vidt jeg kan se er det tal på antal positivtestede nytestede _personer_ i forhold til antal _prøver_ fra nytestede personer, som du bruger. = kolonnen “PosPct” i SSIs overvågningsfil.
    
    Tallene, som Christina Pedersen refererer til derimod, er de rapporterede daglige ændringer af antal positivtestede personer i forhold til ændringerne af antal testede personer. Dvs det er _hendes_ tal der er på (ny)positivtestede i forhold til nytestede..
    
    Svar ↓
    1. Christina Petersen 21. august 2020 kl. 21:48
      
      Torben Brinch så hvilken af de to metoder ville du mene, man skal bruge?
      
      De daglige kan jo i princippet blive justeret løbende.
      
      Svar ↓
      1. Torsten Brinch 22. august 2020 kl. 10:18
        
        Christina Petersen, jeg foretrækker den metode, som du bruger. Dels fordi den er det nærmeste vi kan komme til at ‘have fingeren på pulsen’ på ‘dagens tal’, dels fordi den jo netop sætter et antal positivtestede _personer_ i forhold til et antal testede _personer_. Hvilket nok er smartest, hvis det vi er ude efter er en art mål for ‘poitivprocenten’ ved testningen.
        
        Den anden metode kan levere tal kun med nogle dages forsinkelse, og den sætter et antal positivtestede _personer_ i forhold til et antal analyserede _prøver_ fra testede personer. Det giver jo et lidt tricky mål for positivprocenten, når antallet af prøver fra de testede personer er en eller anden og over tid variabel faktor større end antallet af testede personer.
        
        Svar ↓
Theis Dekkers Gjedsted 20. august 2020 kl. 16:08

Tak for at opdatere figuren, Christian. Tallene ser helt rigtige ud nu (og jeg kan med tilfredshed se, at du ser ud til at anvende “antal test” i nævneren og ikke “antal nye unikke testede”).

Jeg kan ikke helt følge din argumentation om, at stigningen i positivandelen kan være et artefakt af samplingen. Den helt oplagte hypotese er vel, at når man øger antallet af test, så har man mulighed for at teste mere marginalt sandsynlige tilfælde end i starten, hvor testmængden var mere begrænset. Hvis man i starten kun tester folk med symptomer (det er vist det, der bliver kaldt sundhedssporet), så vil positivandelen vel alt andet lige være højere, end når man senere også begynder at teste personer uden symptomer (i det der hedder samfundssporet). Nu tester man jo mange, der egentlig ikke forventer, at de har COVID-19, men som skal til faster Odas runde fødselsdag og vil betrygge ældre familiemedlemmer.

Det er særligt antallet af test i samfundssporet, der er steget siden 1. juli:

Uge 26: 70.030 test i sundhedssporet; 44.478 test i samfundssporet
Uge 32: 72.778 test i sundhedssporet; 97.778 test i samfundssporet

Youyang Gu, der har lavet nogle af de mest præcise forudsigelser for coronaudviklingen i USA, har skrevet et interessant indlæg, hvor han forsøger at estimere det faktiske antal smittede vha. de bekræftede smittede og positivprocenten (https://covid19-projections.com/estimating-true-infections/) Det ser ud til at virke rimelig godt. Hans formel er følgende: true-new-daily-infections = daily-confirmed-cases * (16 * (positivity-rate)^(0.5) + 2.5)

Peter A. Løhmann har på twitter ved hjælp af denne metode beregnet det faktiske antal smittede i Danmark til 80.211 personer pr. 10/8-20. Det passer nogenlunde med resultaterne af de to første antistoftest i Danmark fra maj og juni, der viste, at henholdsvis 1,1 og 1,2 % havde været smittede. Det bliver interessant at se, hvad næste runde af antistoftest viser. [Jeg har i dag selv været inde og få taget en antistoftest, da jeg blev tilfældigt udvalgt til at deltage, og man må jo gøre sit til at få deltagelsesprocenten op].

Svar ↓
1. Christian Bjørnskov 20. august 2020 kl. 16:14
  
  Grunden til at jeg regner med, at stigningen er en statistisk artefakt af, at samplingen har ændret sig, er ret simpel, Hvis man testede mere marginalt sandsynlige når man udvidede testindsatsen, som du skriver, ville elasticiteten falde. Hvis det var samme befolkningsmasse, ville den forblive omkring 1. Men det vi ser er, at elasticiteten den seneste måned har været meget langt over 1. Det er derfor usandsynligt, at de ekstra man tester er repræsentative for de tidligere – at de er trukket fra samme sample.
  
  Svar ↓
  1. Torsten Brinch 23. august 2020 kl. 17:34
    
    Christian Bjørnskov, er der en mulighed for at du kunne lave et take3 på disse data? Din analyse og konklusioner hviler på den forudsætning, at du i SSIs overvågningsrapport opererer på data om antallet af testede PERSONER pr dag. Men det gør du faktisk ikke. Og så må din analyse i denne artikel, og da muligt også dine konklusioner, naturligvis blive forkerte.
    
    I SSI overvågningsfiler er det KUN kolonnen NewPositive som indeholder data om antal personer. Kolonnerne NotPrevPos, PrevPos, og Tested indeholder data om antallet af testede PRØVER pr.dag. Hvor NotPrevPos er antal testede prøver fra personer der ikke tidligere er testet positive, PrevPos er antal prøver fra personer der tidligere er testet positive, og Tested er de to antal tilsammen, altså antal testede prøver ialt.
    
    Tænk en gang på hvilke nye og andre forhold, du kunne få at se, hvis du gav disse data en tredje gang. Lokke, lokke. Og be be. 🙂
    
    Svar ↓
    1. Christian Bjørnskov 23. august 2020 kl. 18:07
      
      Kære Torsten.
      Hvis du faktisk har ret, så må man først konkludere, at SSIs variabelnavne er direkte misvisende. For det andet må man også konkludere, at SSI ikke offentliggør data i deres overvågningsrapport, der tillader at man undersøger hvor stor en andel, der er positivtestede. I og for sig ville det ikke være overraskende, omend det ville være ekstremt kritisabelt. Men det betyder altså, at hvis du har ret, er det umuligt at får noget som helst overblik over emnet på basis af de overvågningstal, der burde tillade det.
      
      Svar ↓
      1. Torsten Brinch 23. august 2020 kl. 19:49
        
        Jeg er helt enig,. SSIs variabelnavne er misvisende, og ja, du kan ikke tage en af deres overvågningsrpporter og lave den analyse, som du gerne ville. Hvilke man jo umiddelbart skulle tro og mene, at det burde man kunne, Hvilket altsammen er slemt kritisabelt, af de grunde du nævner.
        
        Der er dog et svagt lys i mørket i bunden af af hver overvågningsrapport, den allernederste linje, hvor der i de to første talkolonner oplyses hvor mange nysmittede ialt, der _nu_ er fundet, og hvor mange personer, der _nu_ er testet.
        
        Man kan så tage den foregående overvågningsrapport, og sammenligne med tallene dér, og regne differencerne ud, fra dén til i dag. De tal vil så repræsentere antal fundne nysmittede siden den foregående overvågningsrapport, hhv antal personer testet siden foregående overvågningsrapport.
        
        Overvågningsrapporterne udkommer desværre ikke i weekenderne eller på helligdage, så i nogle tilfælde vil de beregnede differencer være fra fx. fredag til mandag, men i de fleste tilfælde dvs i løbet af ugen, vil de være fra igår til idag. De opståede huller i dataserien kan nu til dels fyldes ud, i den sidste del af perioden begyndte SSI nemlig at offentliggøre summariske data _hver_ dag, også i weekenderne, hvori bla indgår netop tal for ændringen siden i går i antal testede personer, og antal bekræftede tilfælde.
        
        Svar ↓
Kim Varming 20. august 2020 kl. 23:06

Vi ved hvor mange der testes og hvilken fraktion der findes positive, men vi mangler oplysning om fordelingen at test blandt de forskellige testgrupper: 1. personer med symptomer, 2. personer der indgår i opsporing og 3. Tilfældige personer uden symptomer.
Hvis man i DK hver dag tester 4.800 tilfældige personer uden symptomer vil man formentlig finde 0,1-0,3 % med positiv test (med ukendt fraktion af falsk positive test) svarende til 5-15 personer, som man kan vælge at isolere. Problemet er, at der i DK vil være 1000 gange så mange der ikke er testet med 5-15.000 uopdagede positive test. Min konklusion er derfor, at man skal stoppe med at spilde ressourcer på at teste tilfældige personer uden symptomer.

Svar ↓
Kim Varming 20. august 2020 kl. 23:19

Et væsentligt problem ligger i begrebet “antal smittede” Hver dag opgør vi antallet af smittede – men det er ikke korrekt. Vi opgør antallet af personer der er testet positivt. Sagen er at vi ikke kender antallet af personer, der er eller har været smittet og dermed sansynligvis er immune i en kortere eller længere periode. Grunden til at vi ikke kender dette antal er, at vi aktuelt ikke har en test-metode der kan give svaret. Folk taler om 2, 5, 10, 20, 50, 80 %. Min fornemmelse er at det er tættere på 80 % end på 20 %

Svar ↓
1. Morten Behr Skjelborg 21. august 2020 kl. 02:50
  
  Jeg vil gerne se datasættet bag grafen. Som jeg umiddelbart ser det , er grafen stadig ukorrekt.
  Nedenfor mit svar til dig fra den tidligere artikel , som anskueliggøre hvorfor jeg mener du håndterer tallene helt forkert.
  
  “Christian , det er igen noget vås. De 2 nederste linier i SSI filerne angiver henholdsvis antal tests/tested og nedenunder antal personer . Man kan selvfølgelig ikke udføre en test uden en person (med mindre det er Mink:) Tallene fra seneste fil er 2.022.136 test ( men også tested) og 1.482.614 personer. Dagens tal : 45591 prøver og 27597 testede. Så der er altså ca 18000 flere prøver end testede.
  Den kvikke og årvågne vil have observeret at denne forskel på prøver og testede er steget markant igennem den sidste tid, samt at man i smittesporings testregimet gentester negative tests 4 dage senere. Så hvis du inkluderer disse i dit datasæt udvander det jo smittestigningen. Og er vel enten en eklatant brøler eller direkte uredeligt. Man kan dog næppe betragte dit skriv som videnskab eller forskning…. nok heldigt nok. “
  
  Svar ↓
  1. Torsten Brinch 21. august 2020 kl. 15:19
    
    Enig. Så vidt jeg kan se, plotter Christian Bjørnskov dag for dag forholdet mellem antallet af ny-positiv testede _personer_ og antallet af undersøgte _prøver_ (fra ikke tidligere positivt testede personer). Idet han (fejlagtigt) opfatter dette tal, som den reellle positivprocent, dvs som andelen af de testede (ikke tidligere positivt testede) personer som er blevet testet positive. Fejlen er forståelig, da SSI jo faktisk præsenterer disse tal i deres datafiler, under kolonnehovedet “PosPct”
    
    Fejlen vil naturligt systematisk underestimere positivprocenten, og, som du peger på, vil det i den seneste periode, hvor forskellen på antal prøver og antal testede personer er steget, udvande smittestigningen.
    
    Svar ↓
    1. Torsten Brinch 21. august 2020 kl. 15:37
      
      Som SSIs datafiler er, er den eneste vej udenom fejlen, som jeg har kunnet finde på, at beregne forholdet mellem _ændringerne_ ift til den foregående datafil i tallene den sidste linje af datafilen, for hhv antal positivt testede personer, og antal testede personer.
      
      Løsningen er ikke perfekt, fordi disse ændringer jo ikke kan fixeres til een bestemt prøvetagningsdag, men i stedet vedrører prøvetagningerne for, typisk, de seneste ca 3-4 dage.
      
      Svar ↓
2. Morten Behr Skjelborg 21. august 2020 kl. 03:49
  
  Seriøst?
  Mener du at op til 80% af befolkningen har været smittede? Så fatter du ikke matematikken bag – det er jo umuligt. Hvis din “fornemmelse” skulle være korrekt , vil mørketallet være 279x og IFR på 0,0138%! For du er vel med på at IFR er en invers på mørketallet?
  Iøvrigt betryggende at en ledende overlæge i klinisk immunologi forholder sig til fornemmelser og totalt ignorere eller ikke fatter den forskning der har været på området.
  
  Må jeg anbefale at du læser nedenstående links/artikler – Facebook linket er en analyse af myndighedernes første udmelding om mørketallets størrelse 30-80x . Analysen viste sig senere at være ret spot on. Analysen er postet dagen efter mørketals rapporten.
  
  https://www.facebook.com/oliver.skjelborg/posts/10163269596495301
  
  Nedenstående artikel fra Forskerzonen – der igen forklarer lidt om mærketallet . Godt nok lidt lang , hvis man normalt læser horoskoper…..
  
  https://videnskab.dk/naturvidenskab/forskere-myndighedernes-model-for-genaabningen-er-fyldt-med-usikkerheder-og-fejl
  
  Denne podcast med gode folk fra samme gruppe samt Mikkel Andersson bør du også udvide din horisont med.
  
  https://www.lukketland.dk/e/researchgruppe-om-d%c3%b8delighed-effektiviteten-af-nedlukning-og-myndighedernes%c2%a0modeller/
  
  Disclaimer . Oliver Alexander er min søn og gruppens talknuser.
  
  Svar ↓
3. Theis Dekkers Gjedsted 21. august 2020 kl. 10:35
  
  Hvilke data gør, at du formoder, at op mod 80 % har været smittet med COVID19 i Danmark?
  
  De første antistofundersøgelser i Danmark i maj og juni viste henholdsvis 1,1 og 1,2 % med antistoffer. I UK har de lige offentliggjort et kæmpe studie, hvor mere end 100.000 blev testet. Resultatet: 6 % havde antistoffer ved udgangen af juni. Og det er i et land, hvor antallet af døde med COVID19 pr. indbygger er næsten 6 gange højere end i Danmark.
  
  Christian bortforklarede i en tidligere tråd, de lave danske antistoftal med statistisk usikkerhed pga. lav forekomst af positive i stikprøven. Men i UK har man altså testet over 100.000.
  Resultatet fra UK er i øvrigt også relevant for en anden diskussion, der har været her på siden – spørgsmålet om, hvad dødeligheden af COVID19 er. I UK-studiet estimerer de IFR til 0,9, men skriver samtidig: “Sensitivity analyses indicate an IFR as high as 1.58% (1.51%, 1.65%) if excess rather than COVID-specific deaths are used and care home deaths are included”
  
  Det engelske studie kan læses her: https://www.imperial.ac.uk/news/201893/largest-study-home-coronavirus-antibody-testing/
  
  Svar ↓
  1. Ramon Harud (@ScorkCrew) 21. august 2020 kl. 10:58
    
    Man kan også skele til tal fra New York, hvor der blandt et meget højt antal testede er fundet antistoffer hos mere end hver fjerde – og lokalt mere end 50%. Medmindre antistofferne stammer fra en tidligere, nært beslægtet virus, betyder det, at resultater fra seroprevalensstudier i hvert fald ikke er størrelsesordener ved siden af den egentlige udvikling af epidemien. Selvfølgelig forudsat fornuftig sampling.
    
    https://www.nytimes.com/2020/08/19/nyregion/new-york-city-antibody-test.html
    https://www1.nyc.gov/site/doh/covid/covid-19-data-testing.page
    
    Svar ↓
    1. Christina Petersen 21. august 2020 kl. 21:59
      
      Ramob Harud den undersøgelse er for det første ikke repræsentativ. “The New Yorkers who were included sought out testing themselves, so the participants were not from a random sample.”
      Men den er ca. 15-17% i Stockholm, så giver ok mening, at den skulle være 27% i NY – nok lidt lavere pga den manglende repræsentative måling.
      
      Svar ↓
      1. Ramon Harud (@ScorkCrew) 21. august 2020 kl. 23:27
        
        Christina Petersen, du har ret. Sammenholdt med tallene fra Stockholm og England er jeg dog tryg ved pointen om, at positivandelen i repræsentative antistofscreeninger ikke rammer en faktor 10 ved siden af andelen af hidtil smittede. Det er meget svært at forestille sig, at Kim Varmings påstand ovenfor (og hans tilsvarende tweet) har noget på sig.
        
        Svar ↓
Torsten Brinch 21. august 2020 kl. 20:59

Christian Bjørnskov skriver “Forleden skrev vi om, hvordan Seruminstituttets data ikke indikerede, at der var en klar smittestigning. [..]Efterfølgende klagede flere læsere over, at der måtte være fejl i tallene. ..det viste sig, at læserne havde ret. ..Hvor datafejlen er opstået, ved jeg ikke”

Men datafejlen kan jeg så forklare. I tog udgangspunkt i SSIs datafil Test_pos_over_time.csv, og dag for dag beregnede i forholdet mellem tallet i kolonnen ‘PrevPos’ og tallet i kolonnen ‘Tested’. Det ved jeg, fordi denne beregning præcis reproducerer de data i plottede i jeres artikel. 🙂

Dermed fik I, for hver dag, beregnet forholdet mellem ‘PrevPos’ antallet af testede personer –>som tidligere havde været testet positive<– og 'Tested' antallet af testede prøver _ialt_ fra den pågældende dag (dvs uanset om prøverne var udtaget fra en person der tidligere havde været testet positiv eller ej)..

Så er det jo ikk underligt , at I ikke kunne få øje på stigningen i nysmitten.. 🙂

Svar ↓
1. Torsten Brinch 21. august 2020 kl. 21:16
  
  Korrektion til ovenstående: PrevPos angiver antallet af _prøver_ fra personer der tidligere har været testet positive.
  
  (Jeres beregnede data viste således, at en faldende andel af de prøver, der er blevet undersøgt, er fra personer der tidligere har været testet positive, men, at denne andel over de sidste par måneder er fladet ud og har ligget og svinget tæt omkring 0.4%.) 🙂
  
  Svar ↓