O drakovi s těžkým chvostem

/JAKUB DOSTÁL, TOMÁŠ FÜRST a HALINA ŠIMKOVÁ/

Byl jednou jeden drak s těžkým chvostem, který po generace sužoval obyvatele Kamenistánu – žral jim ovce. Občané i král věděli, že s drakem nic nezmůžou a jednou za čas se budou muset s dračí ovcicidou nějak vyrovnat. Obyvatelé Kamenistánu tedy přešli od aktivního odporu k damage control módu.

Král nařídil svému statistickému úřadu, aby z historických sčítání stavů ovcí odhadli budoucí dopad dračího řádění na populaci dobytka napříč královstvím. Statistici se tedy chopili všech dostupných dat a v prastarém programovacím jazyce R se pustili do analýzy. Již zpočátku zjistili, že drak povětšinou nemá takový hlad a stačí mu jen pár ovcí. Jednou za čas (asi po  jarní očistě střev) však začne drak řádit a  zhltne ovcí šílené množství. Distribuce počtu požraných ovcí vypadá jako na grafu níže – na vodorovné ose je počet sežraných ovcí a na svislé počet takových incidentů.

Obrázek draka s těžkým chvostem ve tvaru grafu distribuce s těžkým chvostem
Drak s těžkým chvostem.

Statistikům se taková distribuce vůbec nelíbila, a tak ji pojmenovali po drakovi – “fat-tailed distribution” neboli  rozdělení s těžkým chvostem. Se jménem přišla i formulka

která říká, že pravděpodobnost ovcicidy rozsahu většího než x je úměrná číslu 1/x^a Pokud je tedy například a=2, je alespoň třikrát větší hostina devětkrát méně pravděpodobná a tak dále.

Po těchto přelomových zjištěních (za které si předseda vše-kamenné statistické společnosti jistě vyslouží profesůru) se král zeptal: “Kolik teda můžu očekávat, že nám drak příště sežere ovcí?”. Statistici na tuto učebnicovou otázku odpověděli velmi pohotově aritmetickým průměrem rozdělení (kterému se anglicky ne nadarmo říká expectation): “Pane králi, střední (a tedy očekávaný) počet sežraných ovcí je 967,2.”. Král byl sice zarmoucen, ale aspoň věděl, co čekat při příštím dračím  řádění.

O několik měsíců později drak skutečně přiletěl, navštívil všechny župy království a ve většině (na 90 procentech království) sežral pouze 50 ovcí nebo méně. Ve třech župách ovšem sežral ovcí tisíce a ve Štěrkové Lhotě rozkousal i chlév. Král byl naštvaný, protože ani v jedné župě se rozsah dračího řádění neblížil statistiky předpovězené hodnotě. Král  se opakovaně do médií vyjádřil, že než tohle, bude raději zemi řídit podle power-pointových presentací od homeopatů. Všechny členy vše-kamenné statistické společnosti nechal vsadit do vězení a předsedu navíc degradoval na ubohého odborného asistenta.

Týden na to povolal nový tým výzkumníků. Ti však byli  tak vystrašeni strašlivým osudem svých předchůdců, že  králi odmítli sdělit jednočíselný (bodový) odhad budoucích ovčích obětí. Místo toho mu řekli, že v 90 procentech království drak zhltne 5 až 50 ovcí, ale že je 90 procentní pravděpodobnost, že alespoň ve dvou župách to bude víc než pět tisíc ovcí. Když opět za několik měsíců přiletěl drak, předpověď se potvrdila.

A tak se před dávnými dobami v dalekém Kamenistánu zrodila oblast pravděpodobnostního forecastingu. Bodové odhady nejsou ani na draka.