Przypisz wagi do zmiennych w analizie skupień

Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie.

Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Zastanawiam się, czy jedno z następujących dwóch podejść rzeczywiście by załatwiło sprawę:

Najpierw standaryzuję wszystkie zmienne (np. Według ich zakresu). Następnie mnożę każdą znormalizowaną zmienną przez ich wagę. Następnie wykonaj analizę skupień.
Mnożę wszystkie zmienne przez ich wagę, a następnie standaryzuję je. Następnie wykonaj analizę skupień.

Czy oba pomysły są kompletnymi bzdurami?

[EDYCJA] Algorytmy grupowania (próbuję 3 różne), których chcę użyć, to k-średnie, średnie ważone połączenie i średnie połączenie. Planuję użyć powiązania średniej ważonej, aby wyznaczyć dobrą liczbę klastrów, które potem podłączam do k-średnich.

clustering stata

— SPi
źródło

Oba sposoby są na ogół nieprawidłowe. Mnożenie wartości zmiennych nie jest równoważne ważeniu wartości zmiennej dla grupowania. Jeśli program nie ma opcji ważenia, możesz to zrobić czasami z danymi, jak chcesz - ale zależy to od dokładnej natury klastrowania. Opisz więc (w pytaniu) szczegóły swojego klastrowania: jakiego algorytmu i metody zamierzasz użyć.

— ttnphns

Zauważ, że najłatwiejszym i uniwersalnym sposobem ważenia zmiennych (a wagi są liczbami całkowitymi lub mogą być liczbami całkowitymi) byłoby po prostu propagowanie zmiennych razy te wagi. W twoim przykładzie możesz wziąć 50 As, 25 Bs, 10 Cs, 15 Ds w swojej grupie.

— ttnphns

Lub alternatywa: jeśli używasz grupowania na podstawie miary euklidesowej lub używasz k-średnich, pomnóż każdą zmienną przez pierwiastek kwadratowy jej wagi. Mnożenie to powinno oczywiście odbywać się po jakimkolwiek przetwarzaniu wstępnym (takim jak standaryzacja), które możesz chcieć zrobić przed klastrowaniem.

— ttnphns

Jednym ze sposobów przypisania wagi do zmiennej jest zmiana jej skali. Sztuczka działa w przypadku algorytmów klastrowania, o których wspominasz, mianowicie. średnie k, średnie ważone sprzężenie i średnie sprzężenie.

Kaufman, Leonard i Peter J. Rousseeuw. „ Znajdowanie grup w danych: wprowadzenie do analizy skupień ”. (2005) - strona 11:

Wybór jednostek miary powoduje wzrost względnych wag zmiennych. Wyrażenie zmiennej w mniejszych jednostkach doprowadzi do większego zakresu dla tej zmiennej, co będzie miało duży wpływ na wynikową strukturę. Z drugiej strony, poprzez standaryzację jednej próby nadania wszystkim zmiennym jednakowej wagi, w nadziei na osiągnięcie obiektywności. Jako taki może być stosowany przez praktyka, który nie posiada wcześniejszej wiedzy. Jednak może się zdarzyć, że niektóre zmienne są z natury ważniejsze niż inne w konkretnym zastosowaniu, a następnie przyporządkowanie wag powinno opierać się na wiedzy przedmiotowej (patrz np. Abrahamowicz, 1985).

Z drugiej strony podjęto próby opracowania technik klastrowania, które są niezależne od skali zmiennych (Friedman i Rubin, 1967). Propozycja Hardy'ego i Rassona (1982) polega na poszukiwaniu partycji, która minimalizuje całkowitą objętość wypukłych kadłubów klastrów. Zasadniczo taka metoda jest niezmienna w odniesieniu do transformacji liniowych danych, ale niestety nie istnieje algorytm do jej realizacji (z wyjątkiem przybliżenia ograniczonego do dwóch wymiarów). Dlatego dylemat standaryzacji wydaje się obecnie nieunikniony, a programy opisane w tej książce pozostawiają wybór użytkownikowi

Abrahamowicz, M. (1985), Wykorzystanie nieliczbowej informacji „pnon” do pomiaru różnic, artykuł zaprezentowany na Czwartym Europejskim Spotkaniu Towarzystwa Psychometrycznego i Towarzystw Klasyfikacyjnych, 2–5 lipca, Cambridge (Wielka Brytania).

Friedman, HP i Rubin, J. (1967), O niektórych niezmiennych kryteriach grupowania danych. J. Amer. Statystyk. ASSOC6., 2, 1159-1178.

Hardy, A., i Rasson, JP (1982), Une nouvelle approche des problemes de klasyfikation automique, Statist. Analny. Donnies, 7, 41–56.

— Franck Dernoncourt
źródło

Twoje pierwsze odniesienie jest w jakiś sposób zniekształcone: Leonard Kaufman i Peter J. Rousseeuw są autorami książki, do której linkujesz.

— Nick Cox

Och, dziękuję za zwrócenie na to uwagi ... Przykręcił mnie Lavoisier, który popełnił błąd na ich stronie „Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.”, co z kolei spieprzyło Gscholara, którego użyłem do uzyskania referencji.

— Franck Dernoncourt

Dzięki @FranckDernoncourt! Jeśli skala (a więc i zakres) zmiennej determinuje jej wagę, czy nie zbliżyłaby się do 1.) w moim początkowym pytaniu byłoby w jakiś sposób poprawnym rozwiązaniem?

— SPi

Tak, podejście 1 jest właściwe i odpowiada temu, co mówią Kaufman, Leonard i Peter J. Rousseeuw w akapitach cytowanych w odpowiedzi. Podejście 2 byłoby bezużyteczne, ponieważ normalizacja usuwa ciężary :)

— Franck Dernoncourt