Czy potrzebna jest normalizacja średnia i skalowanie funkcji dla grupowania k-średnich?


Odpowiedzi:


63

Jeśli twoje zmienne mają nieporównywalne jednostki (np. Wzrost w cm i ciężar w kg), powinieneś oczywiście ujednolicić zmienne. Nawet jeśli zmienne mają te same jednostki, ale wykazują całkiem różne wariancje, nadal dobrym pomysłem jest ustandaryzowanie przed średnimi. Widzisz, K-oznacza, że ​​skupianie jest „izotropowe” we wszystkich kierunkach przestrzeni, a zatem ma tendencję do tworzenia mniej więcej okrągłych (a nie wydłużonych) skupień. W tej sytuacji pozostawienie nierówności nierównych jest równoznaczne z przypisaniem większej wagi zmiennym o mniejszej wariancji, więc klastry będą miały tendencję do rozdzielania się wzdłuż zmiennych o większej wariancji.

wprowadź opis zdjęcia tutaj

1

Oto kilka ogólnych argumentów na temat kwestii standaryzacji funkcji w analizie skupień lub innych analizach wielowymiarowych.


1


2
Losowanie, ponowne uruchomienie, uśrednianie i końcowy przebieg to bardzo dobra rada. Dzięki
pedrosaurio,

1
W jaki sposób k-średnie byłoby wrażliwe na zamawianie?
SmallChess

1
@StudentT, dodałem do tego przypis. Dziękuję Ci.
ttnphns

1
@ttnphns jak ustalić ilościowo, że zmienne mają „całkiem różne wariancje”?
Herman Toothrot

1
@camillejr, zacznij od sprawdzenia tego Q: stats.stackexchange.com/q/418427/3277 .
ttnphns

4

To chyba zależy od twoich danych. Jeśli chcesz, aby trendy w twoich danych były grupowane niezależnie od wielkości, powinieneś wyśrodkować. na przykład. powiedzmy, że masz jakiś profil ekspresji genów i chcesz zobaczyć trendy w ekspresji genów, a następnie bez średniego centrowania, geny o niskiej ekspresji zgrupują się razem z dala od genów o wysokiej ekspresji, niezależnie od trendów. Centrowanie sprawia, że ​​geny (zarówno o wysokiej, jak i niskiej ekspresji) z podobnymi wzorcami ekspresyjnymi skupiają się razem.


W rzeczywistości porównuję różne funkcje, które mają własną skalę. Na przykład porównuję zawartość GC, która ma zakres od około 0,3 do 0,5, co może wydawać się małe, ale różnica jest dość ważna; niektóre inne funkcje mają szersze zakresy, niektóre inne w bardzo małych skalach.
pedrosaurio

Czy grupujesz różne czynniki? Przydałoby się trochę wagi lub transformacji wartości.
Nightwriter

Nie, porównuję wszystkie zmienne ciągłe
pedrosaurio,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.