Tag-arkiv: sjov med statistik

Sjov med Statistik: Svin og Lykke

Vi har haft en række mærkelige forhold i vores tilbagevendende serie om Sjov med Statistik, men vist aldrig dyr. Det råder vi bod på i dag med en kort post om sammenhængen mellem folks subjektive tilfredshed (deres ’lykke’) og omfanget af landets svineproduktion. Sammenhængen på tværs af verden i 2018 kan ses i nedenstående figur, hvor vi som sædvanligt skiller de tidligere kommunistiske lande (de røde markører) ud fra resten (de blå markører).

Mens der reelt ingen sammenhæng er mellem svineproduktion og lykke i tidligere kommunistiske lande (korrelationen er 0,13), findes der en relativt klar og synlig positiv sammenhæng mellem svin og lykke på tværs af resten af verden (en korrelation på 0,48). Ser man på dagens første figur, indikerer den at svineproduktion – eller noget forbundet med den – er en nødvendig, men ikke tilstrækkeligt betingelse for en lykkelig befolkning. Denne slags fortolkning kommer fra det synlige faktum, at mens der er lande med utilfredse befolkninger og relativt stor svineproduktion, er der ingen eksempler på lande med meget tilfredse befolkninger uden en betragtelig svineproduktion.

Selvfølgelig er pointen i dag, af gris gør ikke glad: Der er i virkeligheden ingen sammenhæng mellem svineproduktion og lykke. Det vi i stedet har, er et meget klart eksempel på såkaldt ’omitted variable bias’ (OVB). OVB er præcist situationen, hvor man får en tilfældig sammenhæng mellem to forhold, fordi man glemmer (eller bevidst lader være med) at korrigere for en tredje faktor, som er den egentligt vigtige. Vi illustrerer dette i dagens anden figur, hvor vi helt simpelt laver det samme plot som i den første, men bryder den blå gruppe ned i fire grupper: Latinamerika og Caribien, Asien og Stillehavet, Afrika og Mellemøsten, og de vestlige lande.

Som figuren ganske klart illustrerer, forsvinder sammenhængen mellem svineproduktion og lykke, når man sammenligner lande internt i hver af de fem grupper lande. Det umiddelbare indtryk af en sammenhæng kommer fra, at de latinamerikanske og caribiske lande er en tand rigere end andre, og de vestlige lande er markant rigere end andre. Det er rigdommen, der rykker på lykken og ikke grisene. Og af rent historiske grunde er det primært i de vestlige lande, og i de lande, vestlige befolkninger udvandrede til, at man finder svineproduktionen. Den omittede variabel er derfor rigdom eller ’vestlighed’. Der er intet mærkeligt i det, men eksemplet er alligevel vigtigt at huske, fordi OVB-problemet ses så ofte i både dårlig videnskab og uærlig politik.

Sjov med statistik: Hjemmeboende voksne og tilfredshed med livet

Min gode ven og kollega Niclas Berggren bidrager regelmæssigt med inspiration til denne blog. Det skete igen forleden, da Niclas tweetede om hvor mange 25-34-årige i Europa, der stadig bor hjemme hos deres forældre. Som bekendt er der store forskelle på familiestrukturer rundt omkring i den vestlige verden, men tallet varierer stadig voldsomt fra et minimum på 1,8 % af danskerne i aldersgruppen til hele 56,6 % af slovakkerne.

Det morsomme og rent ud sagt forbløffende er, at der er en meget tydelig sammenhæng mellem, hvor mange voksne mellem 25 og 34, der er ’hjemmeboende’, og hvor tilfredse folk er med deres liv (fra Gallups World Poll). Korrelationen er -0,79 og som figuren nedenfor tydeligvis viser, er den ikke drevet af enkeltobservationer. Så hvad i alverden foregår der? Det er det spørgsmål, Sjov med Statistik stiller i dag.

Hvis man leder efter direkte forklaringer, er en af de mest åbenlyse nok næppe, at folk ikke kan lide deres forældre og de derfor er mindre tilfredse når de bor sammen med dem. I stedet kunne man forestille sig, at folk føler at de har mindre kontrol og mindre personlig frihed i de omstændigheder, hvor de er tvunget eller presset til at bo med deres forældre langt ind i deres voksenliv. Det kan testes, og her ser landeforskellene ikke ud til at være konsistente med forklaringen. Der er nemlig stort set ingen sammenhæng mellem folks opfattelse af personlig frihed og andelen af hjemmeboende på tværs af Europa. Mens de virker teoretisk attraktive, er den type forklaring derfor langt fra stærk nok til at forklare den mærkelige sammenhæng mellem andelen af hjemmeboende og tilfredshed.

I stedet er en mindst lige så mærkværdig – og morsom – sammenhæng et hint til, hvor forklaringen skal findes. Som man kan se i den anden figur i dag, er sammenhængen mellem andelen af hjemmeboende og samfundets sociale tillid lige så stærk: Korrelationen er -0,82, er ikke drevet af de nordiske landes ekstreme tillidsniveauer, og er lige så klar på tværs af de tidligere kommunistiske lande (de røde markører) som i resten af Europa. Den viser sig også at forklare, hvorfor andelen af hjemmeboende er så klart korreleret med tilfredshed. Fedter man lidt med dataene viser det sig, at den partielle korrelation når man har kontrolleret for social tillid – dvs. ’resten’ af sammenhængen – er -0,24 og udelukkende drevet af, at bulgarernes tilfredshed er så lav.

Det sjove er, at det blot skifter behovet for en forklaring til spørgsmålet, hvorfor i alverden andelen af hjemmeboende hænger så tydeligt sammen med den sociale tillid. Vi kan i sagens natur kun spekulere på hvad der ligger bag – det er ofte en af præmisserne bag Sjov med Statistik – men blandt andet forskning af Alberto Alesina og Paola Guilano kan give et par hint. De konkluderede i en artikel i 2011 på italienske data, at ”strong family ties appear to be a substitute for generalized trust, rather than a complement to it.” Hintet her er, at en høj andel af hjemmeboende på den måde kommer til at reflektere en kultur med lav social tillid og det, Edward Banfield i sin banebrydende Moral Basis of a Backward Society kaldte ”amoralsk familisme.”

Banfields beskrivelse af et lille, syditaliensk samfund er en af de klassiske fortællinger om, hvordan dual moral – dvs. at der gælder et sæt regler for ens familie og nære venner, og et andet for alle andre – kan ødelægge et samfund. Om det netop er dét, man ser i den mærkelige sammenhæng vi afsøger i dag, må være et åbent spørgsmål. Men det er netop den slags interessante overvejelser, man kan komme ud i med lidt sjov med statistik.

Sjov med Statistik: Laktoseintolerans og korruption

En af de tilbagevendende serier her på stedet er Sjov med Statistik, hvor vi ser på overraskende, mærkelige og decideret umulige sammenhænge i data. Vi har tidligere skrevet om både sammenhængen mellem social tillid og vintertemperaturer, og sammenfaldet mellem hvor mange film, Nicolas Cage laver på et år og hvor mange amerikanere der drukner i pools. Men dagens sammenhæng er virkeligt underlig.

Afsøger man mønstre på tværs af verden, viser der sig et generelt mønster som vi illustrerer i figuren nedenfor: Jo flere laktoseintolerante mennesker, der er i befolkningen, jo større er landets problemer med korruption. Dette mønster er ganske tydeligt i dataene, som figuren nedenfor illustrerer. Vil man genskabe figuren, er tallene for laktoseintolerans her, mens korruptionsvurderingen (på en skala fra 0=endemisk korruption til 10=ingen korruption) er fra Transparency International. Korrelationen der kan ses i figuren er hele -0,67, og dermed mindst lige så stærk som f.eks. sammenhængen mellem indkomst og uddannelse.

Så hvad i alverden foregår der? Hvordan kan der være en sammenhæng mellem hvor mange voksne mennesker, der ikke kan fordøje mælk, og hvor store korruptionsproblemerne er? Min umiddelbare idé var, at korruption er klart korreleret med både social tillid, generel institutionel kvalitet, og nationalindkomst: Mere tillidsfulde, velfungerende og rigere lande har mindre korruption. Og man kan fortælle rimeligt overbevisende historier om, hvordan laktoseintolerans hænger sammen med alle tre faktorer.

Men undersøger man sammenhængen mellem laktoseintolerans og social tillid er der ikke rigtigt nogen sammenhæng. Mens ingen lande med tillidsniveau over 50 % (de nordiske lande, Holland og New Zealand) har flere end 20 % laktoseintolerante i befolkningen, er der derudover ingen sammenhæng. På samme måde er sammenhængen mellem laktoseintolerans og nationalindkomst også noget svagere end sammenhængen med korruption, og der er i al praksis ingen sammenhæng mellem laktoseintolerans og hvor nordligt eller sydligt, er land ligger.

Den klare sammenhæng mellem laktoseintolerans og korruption er heller ikke drevet af nogen enkeltgruppe af lande. De blå lande er demokratier, og mens de generelt har mindre korruption, er de ikke strukturelt anderledes and autokratierne (de røde og gule markører). Ligeledes er sammenhængen ikke tydeligt drevet af lande med en kommunistisk fortid (de lyseblå og gule) relativt til dem uden (de mørkeblå og røde). Forskelle mellem demokratier og autokratier kan ofte give en indikation af, hvilken mekanisme der er på spil, men figuren viser ikke nogen som helst klare forskelle.

Sammenhængen skyldes heller ikke outliers, dvs. mærkelige observationer. Den eneste virkeligt tydelige outlier er Niger, som faktisk kan forklares. De tilgængelige data viser, at kun 13 % af befolkningen i Niger er intolerante – muligvis på grund af at nomadefolket Tuaregerne, der bor i blandt andet Niger, sjældent er laktoseintolerante. Samtidig har Niger en korruptionsrating på 31, der placerer landet i den værste fjerdedel af verden, hvilket måske ikke er overraskende givet hvor fattigt det er (1225 dollars ifølge the CIA World Factbook), og at det er omgivet af andre ekstremt fattige og korrupte lande.

Så hvad i alverden foregår der? Er vi simpelthen snublet over en sammenhæng, der er overraskende klar, men helt tilfældig? Eller er der andre forklaringer, så mønstrene i laktoseintolerans på tværs af lande følger noget andet, der er vigtigt for korruption? Vi har faktisk ikke noget svar i dag, men vil lade det være op til læserne af hygge sig henover weekenden med denne lille bid sjov med statistik.

Sjov med statistik: Nicolas Cage og drukneulykker

I vores serie om sjov med statistik er vi kommet til en af de mest absurde sammenhænge, som jeg kender: Den positive relation mellem hvor mange film, Nicolas Cage har lavet i et år, og hvor mange mennesker i USA, der er faldet i en pool og druknet. Vi afbilder sammenhængen i det nedenstående, hvor figuren klart viser hvordan antallet af film med Nicolas Cage og antallet af druknedøde samvarierer mellem 1999 og 2010.

Skal man være nørdet – og urimelig – kan man hurtigt sige, at der ikke kan være tale om omvendt kausalitet. Det er således ikke fordi Nicolas Cage vælger at lave flere film i år, hvor flere falder i pools. Da man normalt skriver kontrakt på en film lang tid i forvejen, ville det kræve at Cage kan forudse, hvor mange der dør på denne måde – man skulle antage, at han er en gud. Så tager man sammenhængen for gode varer, må det være Nicolas Cage og/eller hans film, der forårsager druknedødsfaldene. Og sådan kan man selvfølgelig hygge sig med at overveje absurde scenarier for årsagssammenhængene (læs f.eks. Hamilton Chang her).

Sammenhængen mellem Nicolas Cage og dødsfald ved at folk falder i pools og drukner er absurd, men et ganske godt udtryk for en sandsynlighedsteoretisk regularitet, som folk alt for ofte overser: Store Tals Love. Mange mennesker, og givetvis mange af vores læsere, kender til en af konsekvenserne af Store Tals Love, nemlig at jo flere udfald man får, jo tættere kommer man på det virkelige gennemsnit. Kaster man med 24 terninger, kan man få mange eller få seksere, men kaster man med 2400, vil man relativt præcist få en sjettedel af kastene, der bliver en sekser. Derfor ved de fleste af os også, at man skal være påpasselig med at generalisere fra enkelte eksempler, selvom mange journalister gør netop det.

En anden og lige så vigtig konsekvens af Store Tals Love, som der er langt mindre opmærksom om, er at jo flere eksempler man får på noget – om det er terningkast, bilture gennem Tyskland eller kupforsøg – jo mere sandsynligt bliver det, at man får eksempler der er helt udenfor skiven. Gælder det for eksempel kupforsøg, indeholder Bjørnskov-Rode datasættet 539 kupforsøg, der i langt de fleste tilfælde har klare fællestræk. Men med det antal forsøg, får man også mærkelige eksempler som kupforsøget i juni 1967 fra Anguilla mod koloniregeringen på Saint Kitts (beskrevet i The Night of the Rambler).

Problemet kommer således fordi jo større et antal eksempler man har på et fænomen, jo mere præcist kan man karakterisere det – gennemsnitlig fatalitet, hvordan folk stemmer, hvor stor den økonomiske gevinst ved handel er – men jo nemmere bliver det også at finde ekstreme eksempler, der er tilfældige og milevidt fra at være repræsentative. Et stort antal eksempler på noget gør det derfor, paradoksalt nok, langt lettere for særinteresser og dovne journalister at finde eksempler, der ser ud til at ’vise’ det modsatte af det generelle billede. Kender man til Store Tals Love og logikken i dem, bliver den slags manipulation og sensationalisme langt sværere at acceptere – og måske bare sjov.

Stiger antallet af døde COVID-19-patienter i Sverige eksponentielt?

Forleden havde jeg en diskussion i en kommentartråd til et opslag på Facebook om udviklingen i antal døde i Sverige. Jeg mente, der ikke var tale om en eksponentiel stigning, men det var der enkelte, der var uenige i. Fælles for os alle var, at vi prøvede at vurdere det ud fra en figur, men ikke ud fra analyser af data.

Men den slags diskussioner er heldigvis ret enkle at afgøre i Excel, så det har jeg gjort. Data er taget fra Our World in Data (som er et ret fedt sted at tjekke data) og viser antallet af døde pr. 1 mio. indbyggere pr. dag, siden der var mere end 0,1 døde pr. 1 mio. indbyggere pr. dag. Data er hentet 18. april 2020 kl. 20:30. Nedenfor ses figuren fra Our World in Data på en logaritmisk skala for de nordiske lande. Bemærk, at der er tale om 7-dages glidende gennemsnit (bemærk i øvrigt også, at Danmark ikke ligger særligt godt ift. de øvrige nordiske lande).

Spørgsmålet er nu, om udviklingen for Sverige er eksponentiel eller lineær. Jeg har på Facebook argumenteret for, at udviklingen ikke ville være eksponentiel. Otto Brøns-Petersen har tidligere forklaret, hvorfor udviklingen ikke er eksponentiel med konstant R0, men jeg vil derudover mene, at R0 ændrer sig over tid. Det er der mindst to grunde til:

  • Adfærd. Folk bliver mere forsigtige, når de ved(/tror), der er en farlig virus i omløb. Hvis ikke man ved, der er en virus, passer man ikke på. Hvis man ved, at meget få er smittede (i starten og slutningen af epidemien), behøver man kun være lidt forsigtig. Er rigtig mange smittede (fx i peak), er der stor gevinst ved at være forsigtig. Derfor vil den grundlæggende smittespredning (R0) ændre sig over tid.
  • Selection bias: Superspredere (folk der af forskellige grunde – fx fordi de bare er mere social og giver flere krammere – smitter rigtig mange) har størst sandsynlighed for at blive smittet i starten af en epidemi. Efterhånden som smitten bredes til “almindelige” borgere, vil R0 (som er gennemsnittet af smittetrykket) falde, selvom ingen ændrer adfærd.

Begge dele vil føre til, at smitten ikke vil udvikle sig efter de normale klokkeformer (den røde kurve, som ligner en eksponentiel kurve i starten) i et samfund af mennesker, mens kurverne sikkert passer bedre til at beskrive smitten i en dyreflok (hvor der dog også kan være superspredere). Dette er i øvrigt ikke en kritik af de modeller for smittespredningen, der bliver lavet fra forskellige sider, da jeg ikke har undersøgt, hvordan de mere avancerede modeller medregner adfærdseffekter.

En interessant ting ved selection bias er i øvrigt, at flokimmuniteten vil indtræde tidligere, end man normalt regner med, fordi andelen af immune sociale kontakter vil stige hurtigere end andelen af immune personer, alene fordi folk med mange sociale kontakter har større risiko for at blive smittet og immune. Hvis flokimmunitet indtræder ved 60% af kontakterne, kan andelen af smittede personer altså godt være lavere (jeg har ikke set nogen simuleringer af smittespredningen, der har dette med – heller ikke i denne video, som ellers er fremragende).

Anyway. Det er jo blot mine teorier, men lad os se, hvordan de passer på Sveriges data. Hvis min teori er rigtig, betyder det, at man vil se en eksponentiel vækst i starten, hvorefter den vil aftage og som minimum bliver mindre eksponentiel. Men nu gik diskussionen på Facebook jo på, om den var lineær eller eksponentiel. Figuren nedenfor viser, at selv hvis man ser på hele perioden, er R^2 faktisk højere med en lineær model (hvilket faktisk overrasker mig lidt, men reelt set er der vel også tale om uafgjort).

Men hvad hvis man deler data op i forskellige periode. Nedenstående figur viser, hvordan modellerne passer, hvis vi opdeler data i tre perioder (jeg har valgt en eksponentiel model i starten og taget den tidsperiode, der maksimerer R^2, mens de to lineære perioder er lavet på øjemål). Denne fremgang giver faktisk ret god evidens for, at der ikke er tale om eksponentiel vækst.

Vi kan selvfølgelig ikke vide, om det er de (begrænsede) restriktioner, den svenske regering har lagt på det svenske samfund, der har knækket kurven, om det er fordi en stor andel af befolkningen er immune (jf. Ottos indlæg), eller om det er adfærd. Men når man tager i betragtning, at det især er ældre og syge, der dør af COVID-19, er der ingen tvivl om, at de i hvert fald har et kraftigt incitament til at passe på ikke at blive smittet.

Hvorom alting er, tyder meget på, at det var mig, der havde ret. Udviklingen i antal døde er ikke eksponentiel i Sverige.