Tag-arkiv: statistik

Sjov med statistik: Nicolas Cage og drukneulykker

I vores serie om sjov med statistik er vi kommet til en af de mest absurde sammenhænge, som jeg kender: Den positive relation mellem hvor mange film, Nicolas Cage har lavet i et år, og hvor mange mennesker i USA, der er faldet i en pool og druknet. Vi afbilder sammenhængen i det nedenstående, hvor figuren klart viser hvordan antallet af film med Nicolas Cage og antallet af druknedøde samvarierer mellem 1999 og 2010.

Skal man være nørdet – og urimelig – kan man hurtigt sige, at der ikke kan være tale om omvendt kausalitet. Det er således ikke fordi Nicolas Cage vælger at lave flere film i år, hvor flere falder i pools. Da man normalt skriver kontrakt på en film lang tid i forvejen, ville det kræve at Cage kan forudse, hvor mange der dør på denne måde – man skulle antage, at han er en gud. Så tager man sammenhængen for gode varer, må det være Nicolas Cage og/eller hans film, der forårsager druknedødsfaldene. Og sådan kan man selvfølgelig hygge sig med at overveje absurde scenarier for årsagssammenhængene (læs f.eks. Hamilton Chang her).

Sammenhængen mellem Nicolas Cage og dødsfald ved at folk falder i pools og drukner er absurd, men et ganske godt udtryk for en sandsynlighedsteoretisk regularitet, som folk alt for ofte overser: Store Tals Love. Mange mennesker, og givetvis mange af vores læsere, kender til en af konsekvenserne af Store Tals Love, nemlig at jo flere udfald man får, jo tættere kommer man på det virkelige gennemsnit. Kaster man med 24 terninger, kan man få mange eller få seksere, men kaster man med 2400, vil man relativt præcist få en sjettedel af kastene, der bliver en sekser. Derfor ved de fleste af os også, at man skal være påpasselig med at generalisere fra enkelte eksempler, selvom mange journalister gør netop det.

En anden og lige så vigtig konsekvens af Store Tals Love, som der er langt mindre opmærksom om, er at jo flere eksempler man får på noget – om det er terningkast, bilture gennem Tyskland eller kupforsøg – jo mere sandsynligt bliver det, at man får eksempler der er helt udenfor skiven. Gælder det for eksempel kupforsøg, indeholder Bjørnskov-Rode datasættet 539 kupforsøg, der i langt de fleste tilfælde har klare fællestræk. Men med det antal forsøg, får man også mærkelige eksempler som kupforsøget i juni 1967 fra Anguilla mod koloniregeringen på Saint Kitts (beskrevet i The Night of the Rambler).

Problemet kommer således fordi jo større et antal eksempler man har på et fænomen, jo mere præcist kan man karakterisere det – gennemsnitlig fatalitet, hvordan folk stemmer, hvor stor den økonomiske gevinst ved handel er – men jo nemmere bliver det også at finde ekstreme eksempler, der er tilfældige og milevidt fra at være repræsentative. Et stort antal eksempler på noget gør det derfor, paradoksalt nok, langt lettere for særinteresser og dovne journalister at finde eksempler, der ser ud til at ’vise’ det modsatte af det generelle billede. Kender man til Store Tals Love og logikken i dem, bliver den slags manipulation og sensationalisme langt sværere at acceptere – og måske bare sjov.

Seruminstituttets 1,1 % må være forkert

Forleden udgav Seruminstituttet det første studie af en random sample af faktisk coronasmitte i Danmark. Man havde testet cirka 1000 personer og fandt, at 1,1 % havde været smittede. Seruminstituttet konkluderede derfor, at med en vis usikkerhed var der cirka 60.000 danskere, der havde været smittede. Mens instituttet fremhævede, at det indebar at Danmark er meget langt fra flokimmunitet, var den vigtigste implikation måske, at det gav en dødelighedsrate på lidt under 1 %. Studiet så vigtigt ud, men der er blot ét problem: Seruminstituttets fund kan simpelthen ikke være retvisende, da de er helt inkonsistente med andre ting vi ved. Lad mig illustrere problemet med nogle eksempelberegninger.

Allerførst skal man holde sig for øje, at de 1,1 % ikke er det nuværende antal danskere, der har været smittede, men antallet omtrent 2-3 uger før testen. Grunden er, at det tager tid før kroppen har dannet antistoffer og man derfor overhovedet kan finde dem. Undersøgelsen er således retvisende for antallet af smittede i cirka sidst i april. Det kan man derfor sammenholde med de tests af aktiv smitte, som man har lavet siden slutningen af februar, og den ændring i teststrategi, som man implementerede fra omkring den 20-21 april (se figuren).

Læs resten

Dødelighed i Danmark – en update

Hver gang man skriver, at coronavirus ikke er nær så dødelig som statsministeren og de fleste medier synes at mene, står der en hær af modstandere klar. Med jævnlige beskyldninger om at være Trump-apologet, Bolsonaro-elsker, eller blot en kynisk og menneskefjendsk person, er det blevet ganske ubehageligt at holde fast i fakta for tiden. En insisteren på fakta er dog en af vores fremmeste opgaver her på stedet, og det gælder i lige så høj grad coronavirussen som økonomiske og politiske forhold. Med risiko for endnu en gang at blive udskreget på de sociale medier (jeg heldigvis ikke deltager i), handler dagens post om hvordan den faktisk dødelighed ser ud i Danmark.

Vi formidler fakta gennem to figurer: Den ene viser de ugentlige dødstal for danskere under 60 år, mens den anden viser de samme tal for danskere der er 60 år eller ældre. For begge serier viser vi tallene for uge 38-22 i 2016-17, gennemsnittet for 2017-18 og 2018-19, og for den nuværende sæson 2019-20 (hvor data for uge 20-22 ikke er tilgængelige endnu). Dataene følger således hvad man normalt betragter som influenzasæsonen. De danske data er interessante på mindst to måder: For det første kan de tydeligt vise over- og underdødelighed uge for uge og totalt set, og for det andet kaster de ekstra lys over timingen af forskellene.

Læs resten

Sampling- og selektionsproblemer

Når man læser statistiske undersøgelser, og særligt undersøgelser af spørgeskemadata og sundhedsstudier, er de fleste tilbøjelige til at tro, at jo større den er, jo bedre er den også. Det er en god tommelfingerregel i nogle tilfælde, men kan være meget misvisende i andre. Pointen med dagens post er derfor at illustrere de problemer med såkaldt sampling- og selektionsproblemer, som kan føre til at undersøgelser af bl.a. danskernes holdninger og af sygdomsforhold kan være så stærkt problematiske, at de er værre end ingen undersøgelser.

Vi stiller derfor et hypotetisk eksempel op, hvor man gerne vil vide noget om, hvor udbredt en bestemt ekstrem holdning er – det kunne være, om alle homoseksuelle skal have tæsk – eller hvor udbredt en sygdom er – i dagens eksempel corona. I vores hypotetiske eksempel er der 1 % af alle borgere, der har en bestemt holdning eller er smittede. Spørger man således 9000 borgere i en korrekt gennemført undersøgelse, vil de 90 erklære sig enige med det bestemte spørgsmål, eller være smittede. Spørgsmålet er så, hvordan store studier kan komme til helt andre konklusioner.

Læs resten

Corona versus influenza

Det sker med jævne mellemrum, at folk sammenligner Covid-19 med influenza. Jeg har selv gjort det, og bliver som andre ramt af en veritabel shitstorm. Formaster man sig til at mene, at den nuværende coronaepidemi kan sammenlignes med en svær influenzaepidemi, reagerer mange øjeblikkeligt: Jeg kan åbenbart kun mene det, fordi jeg er et hjerteløst (neoliberalt) monster, det har Trump også sagt så jeg må støtte Trump, og hvad i alverden ved en – underforstået ideologisk – økonom om det?

Det er stadig min statistisk underbyggede mening, at den faktiske dødelighed af corona (den såkaldte Infection Fatality Rate, IFR) er ganske begrænset, og sandsynligvis af størrelsesordenen 1-2 ‰. Men hvordan ser den ellers ud i forhold til influenza? Det ser vi på i det følgende ved at sammenligne det nuværende coronaudbrud med den svære influenzasæson 2017-18.

I influenzasæsonen for to år siden blev 7667 danskere indlagt med influenza, hvoraf 549 endte på en intensivafdeling. I alt 603 af de indlagte døde med influenza i 2017-18-sæsonen, og det samlede antal døde med influenza endte på 1644 borgere. Influenzaepidemien, der bl.a. blev særlig pga. den store forekomst af Influenza B, der også kendes som Yamagata, udviste en klar aldersgradient. Medianalderen for alle indlagte var 69 år, og 68 for de intensivindlagte. Sammenligninger af Case Fatality Rates (CFR), dvs. andelen af positivtestede der er døde, for danskere over 65 år versus dem under 65, viste at de ældre havde 26 gange større dødelighed end folk i den arbejdsdygtige alder (118 / 4,5).

Når man vender sig mod coronaepidemien er der i skrivende stund 2134, der er eller har været indlagt med Covid-19. Selv hvis man regner med tre ugers fortsat epidemi med 10-15 nyindlæggelser per dag (som er det nuværende niveau), ender man under en total på 2400 indlæggelser. 320 af disse har været på intensiv, mens totalt set 527 er døde. Vores estimat (se figuren nedenfor) er, at dødsfaldene vil fortsætte cirka to uger endnu, så vi stadig vil se omtrent 25-30 ekstra døde. Det vil sige, at det totale antal døde når et niveau på cirka 550-560, og en meget stor andel af disse er ældre. Blandt de indlagte er medianalderen sidst i 60erne, og over 80 år for dødsfaldene. Sammenligner man CFR’erne for danskere under og over 70, peger det på en dødelighed der er 29 gange større hvis man er over 70 (243,1 / 8,4).

Nogle læsere vil sikkert mene, at det er koldt og måske endda kynisk, at sammenligne sygdomme på denne måde. Fakta er dog fakta, og intet – siger og skriver intet – rimeligt sundhedsrespons på en sygdom kan give mening uden fakta. Disse fakta demonstrerer, at coronaepidemien i Danmark på alle parametre har været sammenlignelig eller lettere end influenzasæsonen 2017-18. Om det så skyldes regeringens respons og nedlukningen af det danske samfund, eller det har været helt ligegyldigt, er en helt anden diskussion. Den vender vi givetvis tilbage til relativt snart, men læg blot mærke til et enkelt forhold på figuren her: Den første fase genoplukning fra 15. april, som politikere og sundhedsmyndigheder sagde ville give et højere smittetal, og nogen decideret advarede imod, har ikke givet nogen som helst effekter, der kan aflæses i indlæggelses- eller dødstal.

Sjov med statistik: Øl, tilfredshed og tolerance

De fleste af os kender fornemmelsen af, at sætte sig med et par venner ved åen i Aarhus, Nyhavn i København, eller bare ude i haven, og få en kold øl eller to. Man bliver ikke bare afslappet og lidt mere social, men også en tand mere tolerant. Er den fornemmelse permanent, og er den udtryk for et mere generelt fænomen? Det er det spørgsmål, vi i dag stiller i vores tilbagevendende serie om sjov med statistik.

For at undersøge, om der er noget om sagen at øl gør os mere tolerante, ser vi i dag på sammenhængen på tværs af lande mellem ølforbrug per indbygger og to forhold: Hvor tilfredse er bøsser med deres liv i forskellige lande, og i hvilken grad folk opfatter deres by / land som et godt sted at bo for homoseksuelle. På denne måde fanger vi begge dele af et potentielt problem – hvordan oplever homoseksuelle deres liv, og oplever andre mennesker at de har problemer.

Vi viser disse sammenhænge i to figurer. På x-aksen er der ølforbrug per indbygger, mens vi har placeret bøssers tilfredshed (fra the Gay Happiness Index) på y-aksen i den første figur, og andelen af respondenter i the Gallup World Poll, der vurderer at deres by er et godt sted at bo for bøsser og lesbiske i den anden.

I den første figur er det tydeligt, at den generelle sammenhæng er positiv, selvom figuren også illustrerer den velkendt lavere tilfredshed i postkommunistiske samfund. Korrelationen mellem ølforbrug og tilfredshed er 0,70 i samfund med en ’almindelig’ historie og 0,79 i tidligere kommunistiske lande. Man fristes til at sige, at øl gør folk mere tilfredse overalt.

I anden figur dukker det en smule forskel op. Som figuren meget tydeligt illustrerer, opfatter mere øldrikkende befolkninger også deres lande som bedre steder for homoseksuelle. Med andre ord er der en statistisk ganske klar sammenhæng – korrelation er 0,71 – mellem ølforbrug og tolerance overfor homoseksuelle i de fleste lande, mens sammenhængen (r = 0,55) er en smule svagere i tidligere kommunistiske lande. Som en kollega bemærkede forleden, er den svagere sammenhæng i Østeuropa muligvis skabt af, at folk i højere grad drikker vodka end øl!

Nu hedder denne tilbagevendende serie indlæg ”Sjov med statistik” og alt, vi skriver i serien, skal naturligvis tages med et solidt gran salt. Gør øl virkeligt homoseksuelle borgeres liv så meget bedre? Er øldrikkende befolkninger rarere mennesker? Man kan næppe tage sammenhængen som evidens for en direkte virkning, men det er ofte sjovt at tænke over, hvad der kunne være bag. For denne type sammenhæng er ofte udtryk for, at ølforbrug reflekterer noget andet, der i dette tilfælde gør folks, og i særlig grad homoseksuelles, liv bedre. Hvad det så end er kan i dette tilfælde mest umiddelbart opfattes som en refleksion af et eller andet, der er forbundet med tolerance.

Det gælder for eksempel det forhold, at øldrikkere ofte er forbundet med en tradition for uformel social kontakt. Med nogle enkelte lande som undtagelser, sætter folk sig sjældent ned med et enkelt, hurtigt glas vin og får en snak. Fraværet af forhold som en øldrikkende tradition kan også skyldes, at der er en tradition for stærk social kontrol og en lav accept af fejl. Og som vi alle har oplevet, er folk, der opfatter sig selv som ufejlbarlige, sjældent særligt tolerante. Hvad end det er, vi faktisk ser i figurerne, er det værd (og meget sjovt ) at tænke over og at tage en snak om – måske over en øl…

Sjov med statistik: Skilsmisser hos IKEA

I dag indleder vi en feature, der kommer til at vende tilbage til bloggen med mellemrum: Sjov med Statistik. Formålet med den nye feature er, at vise hvordan statistik både kan underholde med f.eks. den klassiske sammenhæng mellem antallet af storke og antallet af fødsler, men også at de ofte absurde resultater – ligesom IgNobel-prisen – kan få en til at tænke en ekstra gang over ting.

En af de klassiske situationer, som mange opdager i forbindelse med parforhold, er at tage på indkøb i IKEA. Det kan ofte være en reel test at parforholdet, når den ene part vil bruge tid på at ose og kigge på de mange forskellige ting, IKEA har at tilbyde, mens den anden part oplever en nærmest dødelig kedsommelighed. Som vi talte om til frokost i går (en i øvrigt hyggelig frokost med kolleger fra Pamplona), kan man derfor fristes til at tro, at der er en sammenhæng mellem IKEA-besøg og skilsmisser.

Spørgsmålet i dag er, om den sammenhæng findes. Vi trækker derfor data på skilsmissefrekvens og antallet af IKEA-butikker fra Wikipedia, befolkningstal fra FN og indkomstdata fra CIA for at teste det statistisk. Og et hurtigt første blik på dataene afslører allerede en indikation af, at hypotesen er korrekt: Skilsmisseraten – defineret som antallet af skilsmisser i forhold til antallet af ægteskaber – er således 26,3 i lande uden IKEA-forretninger, men 30,2 i lande med mindst en forretning. Denne forskel er statistisk signifikant, endda ved 1%-niveauet i en two-tailed t-test.

Hvordan ser det større billede da ud? Det illustrerer vi i figuren nedenfor, der viser skilsmissefrekvensen i lande uden IKEA – de blå prikker til venstre – og skilsmissefrekvensen i resten, plottet mod antallet af IKEAer per million indbyggere. For det meste af vores sample er der en tydelig positiv sammenhæng, med et par synlige outliers: Den meget lavt placerede orange prik er Bahrain (hvor det er ganske svært at blive skilt), mens de to orange prikker ude til højre er det lillebitte Island og Sverige, hvor IKEA startede. Man kan derfor med god grund ignorere de tre outliers.

Går man videre til egentlig regressionsanalyse, bekræfter den mere avancerede metode det overordnede billede: Estimerer man logaritmen til skilsmisseraten som en funktion af logaritmen til den købekraftsjusterede gennemsnitsindkomst, til befolkningens størrelse og antallet af IKEA-forretninger, får man nogle ganske klare resultater. Med en såkaldt log-log-specifikation – hvor ens variable er i logaritmer på begge sider – er gevinsten af man får en såkaldt ’elasticitet’ ud af analysen: Et mål for hvor mange procent y stiger, hvis x stiger én procent. Og i dette tilfælde finder man, at 10% flere IKEA-forretninger får skilsmisseraten til at stige 1,6% på tværs af de 109 lande, vi har data for. Hvis man i stedet fokuserer på de steder, hvor der faktisk er mindst en forretning, er elasticiteten 0,3 – 10% flere IKEAer er forbundet med 3% højere skilsmisserate!

En erfaren empirisk økonom eller statskundskaber kan nu sige, at det er slet ikke kausalt – det er ikke IKEAerne, der skaber den højere skilsmisserate. Det er et godt argument, især fordi man vil regne med, at hvis IKEA giver flere skilsmisser, vil effekten først komme over nogen tid – den slags sociale ændringer kommer ikke med det samme. En statistisk enkel måde at håndtere det problem på, er at se på hvor mange år, et land har haft IKEA. Man må nemlig regne med, at jo længere tid, IKEA har været i landet, jo større en påvirkning har den haft. Og her viser det sig sørme også, at der er en stærk sammenhæng mellem, hvor lang tid et land har haft en IKEA og skilsmisseraten! Den simple korrelation er 0,41 og mere analyse peger i samme retning. IKEA er ond, fordi kæden øger folks skilsmisserisiko.

Men husk hvad titlen er på vores serie: Den hedder Sjov med Statistisk. Selvfølgelig er det en helt absurd påstand, at IKEA skulle ødelægge ægteskaber. Det gør folk såmænd selv. Et godt bud på, hvorfor man alligevel finder denne slags sammenhæng er, at IKEA startede i Sverige – et land hvor skilsmissefrekvensen er relativt høj og hvor skilsmisse ikke er tabu – og bredte sig først til andre lande tæt på, der socialt ligner Sverige ganske meget. Antallet af IKEA-butikker og hvor tidligt, IKEA kom til landet, er derfor forbundet med hvor moderne folks normer omkring skilsmisse og mange andre forhold er. IKEA reflekterer denne slags forskelle, men skaber dem ikke. Empiriske økonomer og statskundskabere kalder den slags forhold for reflection effects, og de findes mange steder. For informerede læsere kan det måske være nyttigt at vide, at den slags findes, før næste gang de læser rapporter eller andet, der påstår at noget er skabt af noget andet…

Hvem vinder VM – James Vreelands absurde forudsigelser

Hvem vil ikke gerne vinde penge, og forudsige hvem der vinder kampene ved fodbold-VM? Dagens indlæg stiller spørgsmålet om, hvordan man forudsiger den slags, men med tungen lige i munden. Grunden er nemlig, at min ven og kollega James Vreeland (Georgetown University, som pt. besøger os i mit eksil i Göttingen) har stillet en meget personlig og helt absurd model op for, hvem han bør holde med. Og den virker forbløffende godt.

Tag et kig på bloggen The Vreelander for at læse, hvordan han gør. Hint: Beslutningsreglen handler primært om at holde med det land, der har givet ham flest penge. Når man har tænkt lidt over, hvilke lande, der inviterer eller funder en af de førende forskere i MF-forhold, er det ikke helt så dumt som det lyder.

Politisk aritmetik

Min fhv. studerende og nu fagfælle og kollaboratør Martin Ejnar Hansen fra Aarhus Universitet har gjort os opmærksom på en interessant ny blog i den seriøse ende af skalaen: Political Arithmetik, “where numbers and politics meet”, skrevet af professor Charles Franklin fra University of Wisconsin-Madison.  Den er “lav” på politisk polemik/kommentar men “høj” på dagsaktuelle, statistisk-baserede analyser af igangværende debatter–faktisk et rigtigt godt eksempel på fagligt baseret “formidling” af en samfundsforsker.

Et par eksempler:

Spændende læsning–ihvertfald for “Igor”, “Stanislaw” og undertegnede.