Na figurze 40000
Wiadomości są naprawdę rewelacyjne, ale gazeta jest naprawdę dobrze uzasadniona. Przez wiele dni w moim laboratorium toczyły się dyskusje, w sumie naprawdę niezbędna krytyka, która zmusza badaczy do introspekcji ich pracy. Polecam lekturę następującego komentarza Thomasa Nicholsa , jednego z autorów „Cluster Failure: Dlaczego wnioskowania fMRI dla zasięgu przestrzennego zawyżają wskaźniki fałszywie dodatnich” (przepraszam za długi cytat).
Jest jednak jedna liczba, której żałuję: 40 000. Próbując odnieść się do znaczenia dyscypliny fMRI, wykorzystaliśmy oszacowanie całej literatury fMRI jako liczbę badań, na które wpłynęły nasze ustalenia. W naszej obronie znaleźliśmy problemy z wnioskowaniem wielkości klastra ogólnie (ciężkie dla P = 0,01 CDT, tendencyjne dla P = 0,001), dominująca metoda wnioskowania, co sugeruje, że wpłynęła na to większość literatury. Liczba w oświadczeniu dotyczącym wpływu została jednak zebrana przez popularną prasę i wywołana małą burzę twitter. Dlatego uważam, że moim obowiązkiem jest przynajmniej oszacować „Ile artykułów wpływa na naszą pracę?”. Nie jestem bibliometrikiem, a to naprawdę zgrubne i gotowe ćwiczenie, ale mam nadzieję, że daje poczucie wielkości problemu.
Kod analizy (w Matlabie) jest przedstawiony poniżej, ale tutaj jest chudy: na podstawie pewnych rozsądnych obliczeń probabilistycznych, ale być może kruchych próbek literatury, szacuję, że około 15 000 artykułów korzysta z wnioskowania o wielkości klastra z poprawką do wielokrotnych testów; spośród nich około 3500 używa CDT o wartości P = 0,01. 3500 to około 9% całej literatury, a może bardziej przydatne, 11% artykułów zawierających oryginalne dane. (Oczywiście niektóre z tych 15 000 lub 3 500 mogą korzystać z wnioskowania nieparametrycznego, ale niestety jest to rzadkie w przypadku fMRI - przeciwnie, jest to domyślne narzędzie wnioskowania dla strukturalnych analiz VBM / DTI w FSL).
Szczerze mówiąc, myślałem, że ta liczba będzie wyższa, ale nie zdawałem sobie sprawy z dużej części badań, w których nigdy nie stosowano żadnej korekty wielokrotnego testowania. (Nie możesz zawyżać skorygowanych znaczeń, jeśli nie poprawisz!) . Obliczenia te sugerują, że 13 000 artykułów nie wykorzystało wielokrotnej korekty testowej. Oczywiście niektóre z nich mogą wykorzystywać obszary zainteresowania lub analizy podobjętościowe, ale jest ich niewiele (tj. Wynik w stylu badania klinicznego), które nie mają absolutnie żadnej krotności. Nasz artykuł nie dotyczy bezpośrednio tej grupy, ale w publikacjach, w których stosowano korektę wielokrotnych testów ludowych, P <0,001 & k> 10, nasz artykuł pokazuje, że w tym podejściu odsetek błędów rodzinnych przekracza 50%.
Czy mówimy, że 3500 artykułów jest „nie tak”? To zależy. Nasze wyniki sugerują, że CDT P = 0,01 zawyżało wartości P, ale każde badanie musi zostać zbadane… jeśli efekty są naprawdę silne, prawdopodobnie nie ma znaczenia, czy wartości P są stronnicze, a wnioskowanie naukowe pozostanie niezmienione. Ale jeśli efekty są naprawdę słabe, wówczas wyniki mogą rzeczywiście być spójne z hałasem . A co z tymi 13 000 artykułami bez korekty, szczególnie powszechnymi we wcześniejszej literaturze? Nie, nie należy ich również wyrzucać z ręki, ale do tych prac potrzebne jest szczególnie zmęczone oko, zwłaszcza w porównaniu z nowymi odniesieniami o ulepszonych standardach metodologicznych.
Na końcu dołącza również tę tabelę:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Zasadniczo SPM (statystyczne parametryczne mapowanie, zestaw narzędzi dla Matlaba) jest najczęściej stosowanym narzędziem do badań neuronauki fMRI. Jeśli sprawdzisz papier, zobaczysz, że użycie CDT o wartości P = 0,001 (standard) dla klastrów w SPM daje prawie oczekiwany rodzinny współczynnik błędów.
Autorzy wypełnili nawet erratę ze względu na brzmienie artykułu:
Biorąc pod uwagę powszechną błędną interpretację naszego artykułu, Eklund i wsp., Cluster Failure: Dlaczego wnioski fMRI dla zasięgu przestrzennego zawyżają wskaźniki fałszywie dodatnie, złożyliśmy błąd w biurze redakcyjnym PNAS:
Errata dla Eklund i wsp., Awaria klastra: Dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost wskaźników fałszywie dodatnich. Eklund, Anders; Nichols, Thomas E.; Knutsson, Hans
Dwa zdania były źle sformułowane i można je łatwo zrozumieć, ponieważ zawyżają nasze wyniki.
Ostatnie zdanie oświadczenia o znaczeniu powinno brzmieć: „Te wyniki kwestionują ważność wielu badań fMRI i mogą mieć duży wpływ na interpretację słabo istotnych wyników neuroobrazowania”.
Pierwsze zdanie po tytule „Przyszłość fMRI” powinno brzmieć: „Ze względu na godne ubolewania praktyki archiwizacji i udostępniania danych jest mało prawdopodobne, aby problematyczne analizy mogły zostać powtórzone”.
Zastępują one dwa zdania, które błędnie sugerują, że nasza praca wpłynęła na wszystkie 40 000 publikacji (patrz Bibliometrics of Cluster Inference, aby zapoznać się z potencjalnym wpływem literatury).
Po początkowym odrzuceniu erraty, na tej podstawie, że poprawiała ona interpretację, a nie fakt, PNAS zgodziła się opublikować ją tak, jak ją przedłożyliśmy powyżej.
Na tzw. Bug
Niektóre wiadomości wspominały również o błędzie jako przyczynie nieważności badań. Rzeczywiście, jednym z narzędzi AFNI było niedokładne wnioskowanie , które zostało rozwiązane po opublikowaniu preprint w arXiv .
Wnioskowanie statystyczne stosowane w funkcjonalnym neuroobrazowaniu
≈5%
Za pomocą uogólnionego modelu liniowego (GLM) identyfikujesz, które szeregi czasowe sygnału wokseli są skorelowane z projektem paradygmatu eksperymentu (zwykle boolowskie szeregi czasowe splecione z kanoniczną funkcją odpowiedzi hemodynamicznej, ale istnieją odmiany).
Tak więc ten GLM dał ci informacje, jak bardzo każda seria czasowa wokseli przypomina to zadanie. Powiedzmy, że masz dwie grupy osób: zwykle pacjentów i kontroli. Porównanie wyników GLM między grupami może być wykorzystane do wykazania, w jaki sposób stan grup moduluje wzór ich „aktywacji” w mózgu.
Porównywanie wokselowe między grupami jest wykonalne, ale ze względu na funkcję punktowego rozproszenia właściwą dla urządzenia oraz etap wygładzania wstępnego przetwarzania nie jest uzasadnione oczekiwanie, że woksele niosą ze sobą wszystkie informacje. Różnica w wokselach między grupami powinna być w rzeczywistości rozłożona na woksele sąsiednie.
Tak, klaster mądry porównanie jest wykonywana, czyli jedyne różnice między grupami, które tworzą się skupiska są uznawane. Ten próg zasięgu klastra jest najpopularniejszą techniką wielokrotnej korekty porównania w badaniach fMRI. Problem leży tutaj.
SPM i FSL zależą od Gaussowskiej teorii pola losowego (RFT) dla wnioskowania wokselowego i klastrowego z poprawką FWE. Wnioskowanie klastrowe RFT zależy jednak od dwóch dodatkowych założeń. Pierwsze założenie jest takie, że gładkość przestrzenna sygnału fMRI jest stała w mózgu, a drugie założenie jest takie, że funkcja autokorelacji przestrzennej ma określony kształt (kwadrat wykładniczy) (30)
W SPM musisz przynajmniej ustawić nominalną szybkość FWE, a także próg definiujący klaster (CDT). Zasadniczo SPM stwierdza, że woksele są wysoce skorelowane z zadaniem, a po progowaniu z CDT sąsiednie są agregowane w klastry. Te rozmiary klastrów są porównywane z oczekiwanym zakresem klastrów z teorii losowych pól (RFT), biorąc pod uwagę zbiór FWER [ 1 ].
Teoria pól losowych wymaga, aby mapa aktywności była gładka, aby była dobrym przybliżeniem sieci do pól losowych. Jest to związane z ilością wygładzania zastosowaną do objętości. Wygładzanie wpływa również na założenie, że reszty są normalnie rozłożone, ponieważ wygładzenie według centralnego twierdzenia granicznego spowoduje, że dane będą bardziej Gaussowskie.
Autorzy wykazali w [ 1 ], że oczekiwane rozmiary skupień z RFT są naprawdę małe w porównaniu z progami zasięgu skupienia uzyskanymi z losowych testów permutacyjnych (RPT).
α=0.05
@amoeba podniósł w komentarzach te dwa bardzo istotne pytania:
(1) The Eklund i in. Artykuł PNAS mówi o „nominalnym poziomie 5%” wszystkich testów (patrz np. Pozioma czarna linia na ryc. 1). Jednak CDT na tej samej figurze jest różny i może wynosić np. 0,01 i 0,001. W jaki sposób próg CDT odnosi się do nominalnego poziomu błędu typu I? Jestem tym zmieszany. (2) Czy widziałeś odpowiedź Karla Fristona
http://arxiv.org/abs/1606.08199 ? Przeczytałem to, ale nie jestem całkiem pewien, co mówią: czy widzę poprawnie, że zgadzają się z Eklundem i in. ale powiedz, że to „dobrze znany” problem?
(1) Dobre pytanie. Właściwie sprawdziłem moje referencje, zobaczmy, czy mogę to teraz wyjaśnić. Wnioskowanie klastrowe opiera się na zakresie klastrów, które tworzą się po zastosowaniu pierwotnego progu ( CDT, który jest arbitralny ). W analizie wtórnej zastosowano próg liczby wokseli na klaster . Próg ten opiera się na oczekiwanym rozkładzie zerowych zakresów skupień, które można oszacować na podstawie teorii (np. RFT), i określa nominalny FWER. Dobrym odniesieniem jest [ 2 ].
(2) Dzięki za ten odnośnik, nie widziałem go wcześniej. Flandin i Friston twierdzą, że Eklund i in. potwierdził wnioskowanie RFT, ponieważ w zasadzie wykazało, że przestrzegając jego założeń (dotyczących CDT i wygładzania) wyniki są obiektywne. W tym świetle nowe wyniki pokazują, że różne praktyki w literaturze mają tendencję do odchylania wnioskowania, ponieważ podważa ono założenia RFT.
Na wiele porównań
Jest również dobrze znane, że wiele badań w dziedzinie neuronauki nie koryguje wielokrotnych porównań, szacunki sięgają od 10% do 40% literatury. Ale nie są one uwzględnione w tym twierdzeniu, wszyscy wiedzą, że te dokumenty mają kruchą ważność i być może ogromne fałszywie dodatnie wskaźniki.
Na FWER powyżej 70%
Autorzy zgłosili również procedurę, w której FWER przekracza 70%. Ta „ludowa” procedura polega na zastosowaniu CDT w celu utrzymania tylko bardzo znaczących klastrów, a następnie zastosowaniu innego arbitralnie wybranego progu zasięgu skupienia (w liczbie wokseli). To, czasem nazywane „wnioskowaniem zestawu”, ma słabe podstawy statystyczne i może generować najmniej wiarygodne wyniki.
Poprzednie raporty
Ci sami autorzy informowali już o problemach z prawidłowością SPM [ 1 ] w poszczególnych analizach. Istnieją również inne cytowane prace w tej dziedzinie.
Co ciekawe, w kilku raportach dotyczących analizy na poziomie grupy i osoby na podstawie danych symulowanych stwierdzono, że próg RFT był w rzeczywistości konserwatywny. Dzięki najnowszym osiągnięciom w zakresie mocy obliczeniowej RPT można znacznie łatwiej wykonywać na rzeczywistych danych, wykazując duże rozbieżności z RFT.
AKTUALIZACJA: 18 października 2017 r
W czerwcu ukazał się komentarz do „Awarii klastra” [ 3 ]. Tam Mueller i in. argumentują, że wyniki przedstawione w Eklund i wsp. mogą wynikać z określonej techniki wstępnego przetwarzania obrazu zastosowanej w ich badaniu. Zasadniczo dokonali ponownego próbkowania obrazów funkcjonalnych do wyższej rozdzielczości przed wygładzeniem (choć prawdopodobnie nie jest to wykonywane przez każdego badacza, jest to rutynowa procedura w większości programów do analizy fMRI). Zauważają również, że Flandin i Friston nie. Właściwie widziałem Eklunda przemawiającego w tym samym miesiącu na dorocznym spotkaniu Organizacji ds. Mapowania Mózgu Ludzkiego (OHBM) w Vancouver, ale nie pamiętam żadnych komentarzy na ten temat, ale wydaje się to kluczowe.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., i Knutsson, H. (2012). Czy parametryczna analiza fMRI z SPM daje prawidłowe wyniki? - Badanie empiryczne 1484 zestawów danych spoczynkowych. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. i Wager, TD (2014). Progi oparte na zasięgu klastra w analizach fMRI: pułapki i zalecenia. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE, i Lohmann, G. (2017). Komentarz: Awaria klastra: dlaczego wnioski fMRI dla zasięgu przestrzennego spowodowały wzrost współczynników fałszywie dodatnich. Frontiers in Human Neuroscience, 11.