Tag-arkiv: sjov med statistik

Sjov med statistik: Nicolas Cage og drukneulykker

I vores serie om sjov med statistik er vi kommet til en af de mest absurde sammenhænge, som jeg kender: Den positive relation mellem hvor mange film, Nicolas Cage har lavet i et år, og hvor mange mennesker i USA, der er faldet i en pool og druknet. Vi afbilder sammenhængen i det nedenstående, hvor figuren klart viser hvordan antallet af film med Nicolas Cage og antallet af druknedøde samvarierer mellem 1999 og 2010.

Skal man være nørdet – og urimelig – kan man hurtigt sige, at der ikke kan være tale om omvendt kausalitet. Det er således ikke fordi Nicolas Cage vælger at lave flere film i år, hvor flere falder i pools. Da man normalt skriver kontrakt på en film lang tid i forvejen, ville det kræve at Cage kan forudse, hvor mange der dør på denne måde – man skulle antage, at han er en gud. Så tager man sammenhængen for gode varer, må det være Nicolas Cage og/eller hans film, der forårsager druknedødsfaldene. Og sådan kan man selvfølgelig hygge sig med at overveje absurde scenarier for årsagssammenhængene (læs f.eks. Hamilton Chang her).

Sammenhængen mellem Nicolas Cage og dødsfald ved at folk falder i pools og drukner er absurd, men et ganske godt udtryk for en sandsynlighedsteoretisk regularitet, som folk alt for ofte overser: Store Tals Love. Mange mennesker, og givetvis mange af vores læsere, kender til en af konsekvenserne af Store Tals Love, nemlig at jo flere udfald man får, jo tættere kommer man på det virkelige gennemsnit. Kaster man med 24 terninger, kan man få mange eller få seksere, men kaster man med 2400, vil man relativt præcist få en sjettedel af kastene, der bliver en sekser. Derfor ved de fleste af os også, at man skal være påpasselig med at generalisere fra enkelte eksempler, selvom mange journalister gør netop det.

En anden og lige så vigtig konsekvens af Store Tals Love, som der er langt mindre opmærksom om, er at jo flere eksempler man får på noget – om det er terningkast, bilture gennem Tyskland eller kupforsøg – jo mere sandsynligt bliver det, at man får eksempler der er helt udenfor skiven. Gælder det for eksempel kupforsøg, indeholder Bjørnskov-Rode datasættet 539 kupforsøg, der i langt de fleste tilfælde har klare fællestræk. Men med det antal forsøg, får man også mærkelige eksempler som kupforsøget i juni 1967 fra Anguilla mod koloniregeringen på Saint Kitts (beskrevet i The Night of the Rambler).

Problemet kommer således fordi jo større et antal eksempler man har på et fænomen, jo mere præcist kan man karakterisere det – gennemsnitlig fatalitet, hvordan folk stemmer, hvor stor den økonomiske gevinst ved handel er – men jo nemmere bliver det også at finde ekstreme eksempler, der er tilfældige og milevidt fra at være repræsentative. Et stort antal eksempler på noget gør det derfor, paradoksalt nok, langt lettere for særinteresser og dovne journalister at finde eksempler, der ser ud til at ’vise’ det modsatte af det generelle billede. Kender man til Store Tals Love og logikken i dem, bliver den slags manipulation og sensationalisme langt sværere at acceptere – og måske bare sjov.

Stiger antallet af døde COVID-19-patienter i Sverige eksponentielt?

Forleden havde jeg en diskussion i en kommentartråd til et opslag på Facebook om udviklingen i antal døde i Sverige. Jeg mente, der ikke var tale om en eksponentiel stigning, men det var der enkelte, der var uenige i. Fælles for os alle var, at vi prøvede at vurdere det ud fra en figur, men ikke ud fra analyser af data.

Men den slags diskussioner er heldigvis ret enkle at afgøre i Excel, så det har jeg gjort. Data er taget fra Our World in Data (som er et ret fedt sted at tjekke data) og viser antallet af døde pr. 1 mio. indbyggere pr. dag, siden der var mere end 0,1 døde pr. 1 mio. indbyggere pr. dag. Data er hentet 18. april 2020 kl. 20:30. Nedenfor ses figuren fra Our World in Data på en logaritmisk skala for de nordiske lande. Bemærk, at der er tale om 7-dages glidende gennemsnit (bemærk i øvrigt også, at Danmark ikke ligger særligt godt ift. de øvrige nordiske lande).

Spørgsmålet er nu, om udviklingen for Sverige er eksponentiel eller lineær. Jeg har på Facebook argumenteret for, at udviklingen ikke ville være eksponentiel. Otto Brøns-Petersen har tidligere forklaret, hvorfor udviklingen ikke er eksponentiel med konstant R0, men jeg vil derudover mene, at R0 ændrer sig over tid. Det er der mindst to grunde til:

  • Adfærd. Folk bliver mere forsigtige, når de ved(/tror), der er en farlig virus i omløb. Hvis ikke man ved, der er en virus, passer man ikke på. Hvis man ved, at meget få er smittede (i starten og slutningen af epidemien), behøver man kun være lidt forsigtig. Er rigtig mange smittede (fx i peak), er der stor gevinst ved at være forsigtig. Derfor vil den grundlæggende smittespredning (R0) ændre sig over tid.
  • Selection bias: Superspredere (folk der af forskellige grunde – fx fordi de bare er mere social og giver flere krammere – smitter rigtig mange) har størst sandsynlighed for at blive smittet i starten af en epidemi. Efterhånden som smitten bredes til “almindelige” borgere, vil R0 (som er gennemsnittet af smittetrykket) falde, selvom ingen ændrer adfærd.

Begge dele vil føre til, at smitten ikke vil udvikle sig efter de normale klokkeformer (den røde kurve, som ligner en eksponentiel kurve i starten) i et samfund af mennesker, mens kurverne sikkert passer bedre til at beskrive smitten i en dyreflok (hvor der dog også kan være superspredere). Dette er i øvrigt ikke en kritik af de modeller for smittespredningen, der bliver lavet fra forskellige sider, da jeg ikke har undersøgt, hvordan de mere avancerede modeller medregner adfærdseffekter.

En interessant ting ved selection bias er i øvrigt, at flokimmuniteten vil indtræde tidligere, end man normalt regner med, fordi andelen af immune sociale kontakter vil stige hurtigere end andelen af immune personer, alene fordi folk med mange sociale kontakter har større risiko for at blive smittet og immune. Hvis flokimmunitet indtræder ved 60% af kontakterne, kan andelen af smittede personer altså godt være lavere (jeg har ikke set nogen simuleringer af smittespredningen, der har dette med – heller ikke i denne video, som ellers er fremragende).

Anyway. Det er jo blot mine teorier, men lad os se, hvordan de passer på Sveriges data. Hvis min teori er rigtig, betyder det, at man vil se en eksponentiel vækst i starten, hvorefter den vil aftage og som minimum bliver mindre eksponentiel. Men nu gik diskussionen på Facebook jo på, om den var lineær eller eksponentiel. Figuren nedenfor viser, at selv hvis man ser på hele perioden, er R^2 faktisk højere med en lineær model (hvilket faktisk overrasker mig lidt, men reelt set er der vel også tale om uafgjort).

Men hvad hvis man deler data op i forskellige periode. Nedenstående figur viser, hvordan modellerne passer, hvis vi opdeler data i tre perioder (jeg har valgt en eksponentiel model i starten og taget den tidsperiode, der maksimerer R^2, mens de to lineære perioder er lavet på øjemål). Denne fremgang giver faktisk ret god evidens for, at der ikke er tale om eksponentiel vækst.

Vi kan selvfølgelig ikke vide, om det er de (begrænsede) restriktioner, den svenske regering har lagt på det svenske samfund, der har knækket kurven, om det er fordi en stor andel af befolkningen er immune (jf. Ottos indlæg), eller om det er adfærd. Men når man tager i betragtning, at det især er ældre og syge, der dør af COVID-19, er der ingen tvivl om, at de i hvert fald har et kraftigt incitament til at passe på ikke at blive smittet.

Hvorom alting er, tyder meget på, at det var mig, der havde ret. Udviklingen i antal døde er ikke eksponentiel i Sverige.