Stosowność analizy ANOVA po analizie skupień k-średnich

Powiadomienie po tabeli ANOVA po analizie K-średnich wskazuje, że poziomy istotności nie powinny być traktowane jako test równych średnich, ponieważ rozwiązanie klastrowe zostało wyprowadzone na podstawie odległości euklidesowej w celu maksymalizacji odległości. Jakiego testu należy użyć, aby pokazać, czy średnie zmiennych klastrowych różnią się między klastrami? Widziałem to ostrzeżenie w tabeli ANOVA podanej w wynikach k-średnich, ale w niektórych źródłach widzę, że przeprowadzane są testy ANOVA post-hoc. Czy powinienem zignorować dane wyjściowe ANOVA typu k-mean i uruchomić jednokierunkową analizę ANOVA z testami post-hoc i interpretować je w tradycyjny sposób? Czy mogę jedynie sugerować wielkość F i które zmienne przyczyniły się bardziej do różnicy? Innym nieporozumieniem jest to, że zmienne grupujące nie są zwykle dystrybuowane, co narusza założenie ANOVA, wtedy mógłbym zastosować test nieparametryczny Kruskala-Wallisa, ale ma on założenie o tych samych rozkładach. Rozkłady międzyklastrowe dla określonych zmiennych nie wydają się takie same, niektóre są dodatnio wypaczone, niektóre są negatywne ... Mam 1275 dużych próbek, 5 klastrów, 10 zmiennych klastrowych mierzonych w wynikach PCA.

anova k-means

— Inga
źródło

Dlaczego musisz sprawdzić równość środków? Nie możesz po prostu przetestować, jak Twój model działa na próbce?

— James

Chciałem ustalić, które zmienne oznaczają, że różnią się między klastrami, tj. Czy średnia v1 w klastrze jest inna niż średnia v1 w klastrze, 2, 3, 4, 5. Oczywiście mogę to zobaczyć, tworząc wykres, ale robi to nie mówić o różnicy statystycznej. Test różnicy statystycznej wprawił mnie w zakłopotanie, ponieważ w przypadku ANOVA moje dane nie spełniały założeń rozkładu normalnego, ale w przypadku testu Kruskala Wallisa założenie takiego samego rozkładu kształtu między grupami klastrów.

— Inga

Jak wskazał @James w swojej odpowiedzi, „węszysz”. Co może być powodem do testowania istotności między grupami, które Ty (Twój klastrów) wstępnie różnią się tak bardzo, jak to możliwe? Nie ma tu żadnego śladu losowego lub proporcjonalnego pobierania próbek z populacji, które są odrębne na podstawie pewnych zewnętrznych cech tła.

— ttnphns

Dziękuję za odpowiedzi! Moje zamieszanie pojawiło się, ponieważ w niektórych źródłach widzę, że porównania średnich statystycznych nie są odpowiednie w tej sytuacji, jak również wskazałeś, ale np. Cytat z rozdziału 1 książki wskazuje odwrotnie: „zwykle analizujemy średnie dla każdego skupienia w każdym wymiarze za pomocą ANOVA aby ocenić, jak różne są nasze klastry. Idealnie uzyskalibyśmy znacznie różne średnie dla większości, jeśli nie wszystkich wymiarów, zastosowanych w analizie. Wielkość wartości F wykonanych dla każdego wymiaru jest wskaźnikiem tego, jak dobrze odpowiedni wymiar rozróżnia między klastry ”

— Inga

Masz prawo do oceny różnic między klastrami według cech użytych do klastrowania - w celu znalezienia najbardziej dyskryminujących. Robiąc to, możesz obliczyć różnice względne, wartości F, a nawet wartości p. Jako wskaźniki wielkości efektu. Nie jako wskaźniki o znaczeniu statystycznym (które odnoszą się do populacji).

— ttnphns

Odpowiedzi:

Nie!

Nie wolno używać tych samych danych do 1) przeprowadzania grupowania i 2) poszukiwania znaczących różnic między punktami w klastrach. Nawet jeśli w danych nie ma faktycznej struktury, grupowanie narzuci ją, grupując punkty znajdujące się w pobliżu. Zmniejsza to wariancję wewnątrz grupy i zwiększa wariancję między grupami, co powoduje tendencję do fałszywych trafień.

$k$

Wyniki symulacji pokazujące równomierny rozkład wartości p dla losowych przypisań i bardzo przekrzywiony (prawie wszystkie 0,05 lub mniej) rozkład wartości p po grupowaniu

W ANOVA nie ma nic specjalnego - można by zobaczyć podobne efekty przy użyciu testów nieparametrycznych, regresji logistycznej, czegokolwiek. Zasadniczo sprawdzanie poprawności działania algorytmu klastrowania jest trudne, szczególnie jeśli dane nie są oznaczone. Istnieje jednak kilka podejść do „wewnętrznej weryfikacji” lub pomiaru jakości klastrów bez korzystania z zewnętrznych źródeł danych. Zazwyczaj koncentrują się na zwartości i możliwości rozdzielania klastrów. Ta recenzja autorstwa Lui i in. (2010) może być dobrym miejscem do rozpoczęcia.

— Matt Krause
źródło

Twoim prawdziwym problemem jest szpiegowanie danych. Nie można zastosować ANOVA lub KW, jeśli obserwacje zostały przypisane do grup (klastrów) na podstawie samego zestawu danych wejściowych. Możesz użyć czegoś takiego jak statystyka szczelin, aby oszacować liczbę klastrów.

Z drugiej strony, snoopedowane wartości p są tendencyjne w dół, więc jeśli wynik testu ANOVA lub KW jest nieznaczny, wówczas „prawdziwa” wartość p jest jeszcze większa i możesz zdecydować o połączeniu klastrów.

— James
źródło

Myślę, że możesz zastosować takie podejście (tj. Używając statystyk, takich jak statystyka F lub statystyka t lub cokolwiek innego), jeśli wyrzucisz zwykłe rozkłady zerowe .

To, co musisz zrobić, to zasymulować sytuację, w której wartość null jest prawdziwa, zastosować całą procedurę (grupowanie itp.), A następnie obliczyć dowolną statystykę za każdym razem. Zastosowany w wielu symulacjach, uzyskasz rozkład statystyki poniżej zera, z którym można porównać wartość twojej próbki. Włączając szpiegowanie danych do obliczeń, bierzesz pod uwagę jego efekt.

[Alternatywnie można opracować test oparty na ponownym próbkowaniu (oparty na permutacji / randomizacji lub ładowaniu początkowym).]

— Glen_b - Przywróć Monikę
źródło

Właśnie, to jest idea statystyki Gap.

— James