I vores serie om sjov med statistik er vi kommet til en af de mest absurde sammenhænge, som jeg kender: Den positive relation mellem hvor mange film, Nicolas Cage har lavet i et år, og hvor mange mennesker i USA, der er faldet i en pool og druknet. Vi afbilder sammenhængen i det nedenstående, hvor figuren klart viser hvordan antallet af film med Nicolas Cage og antallet af druknedøde samvarierer mellem 1999 og 2010.
Skal man være nørdet – og urimelig – kan man hurtigt sige, at der ikke kan være tale om omvendt kausalitet. Det er således ikke fordi Nicolas Cage vælger at lave flere film i år, hvor flere falder i pools. Da man normalt skriver kontrakt på en film lang tid i forvejen, ville det kræve at Cage kan forudse, hvor mange der dør på denne måde – man skulle antage, at han er en gud. Så tager man sammenhængen for gode varer, må det være Nicolas Cage og/eller hans film, der forårsager druknedødsfaldene. Og sådan kan man selvfølgelig hygge sig med at overveje absurde scenarier for årsagssammenhængene (læs f.eks. Hamilton Chang her).
Sammenhængen mellem Nicolas Cage og dødsfald ved at folk falder i pools og drukner er absurd, men et ganske godt udtryk for en sandsynlighedsteoretisk regularitet, som folk alt for ofte overser: Store Tals Love. Mange mennesker, og givetvis mange af vores læsere, kender til en af konsekvenserne af Store Tals Love, nemlig at jo flere udfald man får, jo tættere kommer man på det virkelige gennemsnit. Kaster man med 24 terninger, kan man få mange eller få seksere, men kaster man med 2400, vil man relativt præcist få en sjettedel af kastene, der bliver en sekser. Derfor ved de fleste af os også, at man skal være påpasselig med at generalisere fra enkelte eksempler, selvom mange journalister gør netop det.
En anden og lige så vigtig konsekvens af Store Tals Love, som der er langt mindre opmærksom om, er at jo flere eksempler man får på noget – om det er terningkast, bilture gennem Tyskland eller kupforsøg – jo mere sandsynligt bliver det, at man får eksempler der er helt udenfor skiven. Gælder det for eksempel kupforsøg, indeholder Bjørnskov-Rode datasættet 539 kupforsøg, der i langt de fleste tilfælde har klare fællestræk. Men med det antal forsøg, får man også mærkelige eksempler som kupforsøget i juni 1967 fra Anguilla mod koloniregeringen på Saint Kitts (beskrevet i The Night of the Rambler).
Problemet kommer således fordi jo større et antal eksempler man har på et fænomen, jo mere præcist kan man karakterisere det – gennemsnitlig fatalitet, hvordan folk stemmer, hvor stor den økonomiske gevinst ved handel er – men jo nemmere bliver det også at finde ekstreme eksempler, der er tilfældige og milevidt fra at være repræsentative. Et stort antal eksempler på noget gør det derfor, paradoksalt nok, langt lettere for særinteresser og dovne journalister at finde eksempler, der ser ud til at ’vise’ det modsatte af det generelle billede. Kender man til Store Tals Love og logikken i dem, bliver den slags manipulation og sensationalisme langt sværere at acceptere – og måske bare sjov.
Minder lidt om alle de absurde ting man hører fra USA. Der sker alt ekstremt, eller også er det blot fordi der er et stort datasæt at plukke fra.
Man skylder måske lige at sige, at det jo er Tyler Vigen, der har fundet denne sammenhæng på sin hjemmeside, tylervigen.com.
Først gang jeg så den var faktisk ikke hos Tyler Vigen. Det ser ud til at være en af de sammenhænge, som man ikke kan sætte en konkret ophavsmand på, da ingen synes at vide hvem der kom på den først – lidt ligesom ‘Folk Theorems’ i spilteori, der også blev opdaget omkring samme tid af adskillige mennesker.