Obrázky ze stejného datasetu? – DISKUZNÍ ŽURNÁL

/TOMÁŠ OPATRNÝ/

V doplněném podání děkana k Etické komisi ve věci článku v Nature Communications se zmiňuje nápadná podoba mezi obrázky předloženými jeho prvním autorem (A) a korespondenčním autorem (B) po žádosti o hrubá data. Rozložení datových bodů vypadá stejně, ale obrázky mají odlišný rozsah na svislé ose. Zatímco podle obrázků od autora A dopadlo do detektoru v každém detekčním kanále kolem 39,9 milionů gama fotonů, podle obrázků od autora B to bylo kolem 42,6 milionů. Vzhledem k tomu, že dva různé experimenty nemohou dát totožné rozložení datových bodů, děkan z toho vyvodil, že oba obrázky pocházejí ze stejného datasetu a muselo tedy dojít k manipulaci s hodnotami. Děkan to popisuje ve svém vyjádření zde.

Může za to průběžné sledování…

Na vyjádření děkana zareagovali dr. Navařík a dr. Malina ve svém textu „Stane se stokrát vyřčená lež pravdou?“, který zveřejnili a rozeslali na hromadné adresy vedení univerzity, fakult a další. Věc vysvětlují takto:

„Lze si snadno všimnout, že nejde o tentýž dataset, jak tvrdí pan děkan. Jeho název se liší dodatečným číslem 2 v případě dat zaslaných prof. [B] a číslem 3 v případě doc. [A]. Je také možné si všimnout, že poloha bodů není identická a z přiloženého vyhodnocení je také snadno viditelné, že hyperjemné parametry se u obou grafů nepatrně liší. Tvrzení pana děkana je tedy zcela prokazatelně nepravdivé. Jedná se totiž zcela jistě o spektra téhož vzorku lišící se pouze dobou sběru dat. Doc. [A] dodal komisi data s o něco kratší kratší dobou měření (nicméně s téměř totožnou vypovídací hodnotou). Prof. [B] dodal spektrum s vyšším počtem countů, jednoduše řečeno stejné spektrum měřené o něco delší dobu. Protože měření často trvá řadu dní, průběžné sledování a interpretace měřeného spektra jsou naprosto běžné. Po použití filtrační procedury jsou obě spektra dostatečné statistické kvality a mají stejnou vypovídací hodnotu z hlediska hyperjemných parametrů i kvantifikace jednotlivých spektrálních komponent. Nejedná se tedy o žádnou manipulaci. Doc. [A] zjevně prof. [B] poskytl data s maximální statistickou kvalitou (tedy data ke spektru přímo v uvedeném v článku) a ten je předal panu děkanovi. Komise obdržela de facto totožné spektrum, pouze měřené kratší dobu, a tudíž s o něco nižší statistikou. Tato skutečnost je pro nás jasný důkaz, že doc. [A] spektra skutečně a nezpochybnitelně měřil a průběžně je zkoumal.“

Vzhledem k tomu, že je tento text ve veřejném prostoru, reaguji na něj touto formou.

Překryv obrázků

Rozhodl jsem se na oba obrázky podrobněji podívat a udělat si na věc vlastní názor. Zkusil jsem předpokládat, že data s nižším počtem countů (od A) jsou skutečně mezivýsledkem a data s vyšším počtem countů (od B) konečným výsledkem experimentu, který pak byl publikován. V takovém případě lze očekávat dva charakteristické rysy:

V obou obrázcích by měla být stejná velikost efektu. Jelikož se jedná o tentýž vzorek, měla by být relativní velikost struktur ve spektru stejná (měřeno v promile počtu countů pozadí).
Dodatečná data by měla typickým způsobem fluktuovat. To by se mělo projevit tím, že pokud se pokusíme oba obrázky přes sebe překrýt, budou od sebe datové body náhodně „odskakovat“ nahoru a dolů o typickou vzdálenost úměrnou odmocnině počtu dodatečných countů.

Výsledek přeložení obrázků s tzv. „filtrovanými“ daty je v příloze, obrázky 1 až 3. Je vidět, že jak datové body tak fitovací křivky sedí přesně na sobě, třebaže jsou měřítka odlišná.

Rozdílný efekt

Odečteme-li polohu bodů v grafu (využil jsem k tomu aplikaci), zjistíme, že v případě A je v nejhlubším místě grafu o cca 76,2 tisíc countů méně než na pozadí s 39,9 miliony countů. Tato hodnota se dá stanovit s přesností na cca 500 countů. Efekt má tedy velikost (1,91 ± 0,01) promile. V případě B je v nejhlubším místě grafu o cca 76,5 tisíc countů méně než na pozadí s 42,6 miliony countů a efekt má tedy velikost (1,80 ± 0,01) promile. Rozdíl mezi efekty 0,1 promile odpovídá 4000 countů, přičemž průměr datového „puntíku“ v grafech je asi 700 countů. Rozdílu mezi oba efekty tedy odpovídá asi 6 datových puntíků, což by bylo v obrázcích jasně rozeznatelné. V rámci dané přesnosti lze tedy říci, že křivka B vznikla prostým posunutím křivky A o 2649 tisíc countů nahoru.

Dodatečný šum

Velikost „odskakování“ nových datových bodů od starých lze zjistit na základě toho, že načítání gama fotonů je proces s poissonovskou statistikou: směrodatná odchylka je rovna odmocnině průměrné hodnoty počtu detekovaných fotonů. Na pozadí s průměrným počtem cca 40 milionů countů by směrodatná odchylka fluktuací měla činit odmocninu z této hodnoty, tedy cca 6,3 tisíce countů. Pokud měření doplníme o 2,6 milionu nových countů, bude každá doplněná hodnota fluktuovat se směrodatnou odchylkou rovnou odmocnině z této hodnoty, tedy cca 1,6 tisíce countů. Poměr dodatečných fluktuací k původním je tak cca 0,25: nová data by měla „odskakovat“ od starých o cca čtvrtinu původní hodnoty směrodatné odchylky fluktuací (vidět je to na výsledku simulací v příloze NoteMoesb6.pdf , obr. 4). Tento poměr by měl zůstat zachován i když provedeme filtraci – a měl by tedy být rozeznatelný i v příslušných obrázcích. Žádné takovéto náhodné odskakování však viditelné není, nové i staré datové puntíky sedí po přeložení grafů velmi přesně na sobě.

Obě tato zjištění tedy svědčí ve prospěch děkanovy teze, že oba obrázky pocházejí ze stejného datasetu.

Co s odchylkami?

Navařík a Malina však argumentují tím, že na obrázcích s tzv. raw daty není poloha jednotlivých bodů zcela identická. Dr. Navařík pak v hromadném mailu rozeslal obrázek, kde je několik takovýchto odchylek vyznačeno. Podle něj jde o důkaz, že data pocházejí ze skutečného měření.

Třebaže jsem původně považoval tento argument za plauzibilní, vysvětlení těchto odchylek je nakonec velmi jednoduché. Jedná se o zachycení monitoru s výstupem z programu MossWinn. Spektrum je zde znázorněno v podobě množiny čtverečků s diskrétními polohami, přičemž velikost čtverečku závisí na zvoleném rozlišení. V daném případě jeden čtvereček pokrývá dva datové kanály – což vede k tomu, že v zobrazeném spektru jsou typicky vždy dva čtverečky nad sebou. Díky diskrétním polohám čtverečků se navíc může stát, že dvě hodnoty s podobným počtem countů spadnou do různých, byť sousedních čtverečků. Pokud se pak ke všem datům přičte konstanta, většina čtverečků se přemístí o stejný počet diskrétních poloh. Neplatí to však vždy – data se mohou nacházet poblíž hranice mezi čtverečky a přičtení konstanty může vést k jejímu překročení na jednu či druhou stranu, což se projeví jako posunutí čtverečku o jednu polohu nahoru či dolů oproti ostatním. Ověřil jsem to numerickým experimentem: vygeneroval jsem data odpovídající spektru danému fitovací křivce jako ve článku. Pak jsem ke všem těmto datům přičetl stejnou konstantu odpovídající 2 648 849 dodatečným countům. Požádal jsem pak kolegu, který pracuje s programem MossWinn, aby mi tato data vykreslil ve stejném rozlišení, jako jsou obrázky s „raw“ daty od autorů A a B. Výsledky jsou na obrázku pro původní data a na obrázku pro data posunutá o konstantu. Grafy vypadají velmi podobně, přesto se však na některých místech liší, jak je vyznačeno na obrázku analogicky jako na „důkazním“ obrázku J. Navříka.

Simulace dodatečného měření

Pro srovnání jsem navíc nasimuloval data, která by odpovídala dodatečnému doměření vzorku. K hodnotám z datasetu jsem přičetl nová data se střední hodnotou 2 648 849 countů fluktuující se směrodatnou odchylkou rovnou odmocnině této hodnoty. Výsledkem je dataset zobrazený jednak modrými body na obr. 4 v příloze a jednak v MossWinnu na obrázku. Jak je vidět, změny ve vzájemných polohách čtverečků jsou mnohem výraznější než když šlo o pouhé přičtení konstanty. Objevují se častěji, posun je možný i o více než jednu polohu čtverečku a směrodatná odchylka těchto posunů je přibližně rovna čtvrtině směrodatné odchylky původních fluktuací.

Kdo měl pravdu?

Všechna tato zjištění svědčí ve prospěch děkanova tvrzení, že obrázky dodané spoluautory A a B pocházejí ze stejného datasetu, a nikoliv že obrázky dodané A pocházejí z mezivýsledku a obrázky od B z konečného výsledku provedeného měření, jak tvrdí dr. Navařík a dr. Malina. Vzhledem k tomu, že stejné polohy datových bodů odpovídají i obrázku Fig. 2a z článku v Nature Communications se zcela odlišnou procentní škálou (efekt navýšený na čtyřnásobek, místo 1,8 promile je ve článku 7 promile, více zde), považuji za nepravděpodobné, že by šlo o jednorázový omyl. Pravděpodobnější je manipulace s datovými hodnotami.