Kilka pomysłów, odniesień i wykresów wyjaśniających, dlaczego normalizacja danych wejściowych może być użyteczna dla ANN i k-średnich:
K oznacza :
Grupowanie w kształcie litery K jest „izotropowe” we wszystkich kierunkach przestrzeni, a zatem ma tendencję do tworzenia mniej lub bardziej okrągłych (a nie wydłużonych) gromad. W tej sytuacji pozostawienie nierówności nierównych jest równoznaczne z przypisaniem większej wagi zmiennym o mniejszej wariancji.
Przykład w Matlabie:
X = [randn(100,2)+ones(100,2);...
randn(100,2)-ones(100,2)];
% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;
opts = statset('Display','final');
[idx,ctrs] = kmeans(X,2,...
'Distance','city',...
'Replicates',5,...
'Options',opts);
plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
'Location','NW')
title('K-means with normalization')
(FYI: Jak mogę wykryć, czy mój zestaw danych jest klastrowany czy nieklastrowany (tj. Tworzy jeden klaster )
Klaster rozproszony :
Analiza porównawcza pokazuje, że wyniki rozproszonego grupowania zależą od rodzaju procedury normalizacyjnej.
Sztuczna sieć neuronowa (wejścia) :
Jeśli zmienne wejściowe są łączone liniowo, jak w MLP, rzadko jest absolutnie konieczna standaryzacja danych wejściowych, przynajmniej teoretycznie. Powodem jest to, że dowolne przeskalowanie wektora wejściowego można skutecznie cofnąć, zmieniając odpowiednie wagi i odchylenia, pozostawiając ci dokładnie takie same wyniki jak wcześniej. Istnieje jednak wiele praktycznych powodów, dla których ujednolicenie danych wejściowych może przyspieszyć trening i zmniejszyć ryzyko utknięcia w lokalnych optymach. Ponadto rozkład masy i oszacowanie bayesowskie można wykonać wygodniej dzięki znormalizowanym wejściom.
Sztuczna sieć neuronowa (wejścia / wyjścia)
Czy powinieneś zrobić coś z tych danych? Odpowiedź brzmi: to zależy.
Standaryzacja zmiennych wejściowych lub docelowych ma tendencję do usprawnienia procesu szkolenia poprzez poprawę warunku liczbowego (patrz
ftp://ftp.sas.com/pub/neural/illcond/illcond.html ) problemu optymalizacji i zapewnienie różnych domyślnych wartości zaangażowane w inicjalizację i zakończenie są odpowiednie. Standaryzacja celów może również wpływać na funkcję celu.
Do standaryzacji spraw należy podchodzić ostrożnie, ponieważ odrzuca ona informacje. Jeśli informacje te są nieistotne, standaryzacja przypadków może być bardzo pomocna. Jeśli te informacje są ważne, standaryzacja przypadków może być katastrofalna.
Co ciekawe, zmiana jednostek miary może nawet doprowadzić do powstania zupełnie innej struktury klastrowania: Kaufman, Leonard i Peter J. Rousseeuw .. „Znajdowanie grup w danych: wprowadzenie do analizy skupień”. (2005).
W niektórych zastosowaniach zmiana jednostek miary może nawet doprowadzić do uzyskania zupełnie innej struktury klastrowania. Na przykład wiek (w latach) i wzrost (w centymetrach) czterech wyimaginowanych osób podano w tabeli 3 i wykreślono na rycinie 3. Wygląda na to, że {A, B) i {C, 0) są dwoma dobrze oddzielonymi grupami . Z drugiej strony, gdy wysokość wyrażona jest w stopach, otrzymuje się Tabelę 4 i Rycinę 4, gdzie oczywistymi skupieniami są teraz {A, C} i {B, D}. Ta partycja jest zupełnie inna niż pierwsza, ponieważ każdy temat otrzymał innego towarzysza. (Rycina 4 zostałaby spłaszczona nawet bardziej, gdyby wiek mierzono w dniach).
Aby uniknąć tej zależności od wyboru jednostek miary, istnieje możliwość standaryzacji danych. Konwertuje to oryginalne pomiary na zmienne bezjednostkowe.
Kaufman i in. kontynuuje kilka interesujących uwag (strona 11):
Z filozoficznego punktu widzenia normalizacja tak naprawdę nie rozwiązuje problemu. Rzeczywiście, wybór jednostek miary powoduje powstanie względnych wag zmiennych. Wyrażenie zmiennej w mniejszych jednostkach doprowadzi do większego zakresu dla tej zmiennej, co będzie miało duży wpływ na wynikową strukturę. Z drugiej strony, poprzez ujednolicenie jednej próby nadania wszystkim zmiennym jednakowej wagi, w nadziei na osiągnięcie obiektywności. Jako taki może być stosowany przez praktyka, który nie posiada wcześniejszej wiedzy. Jednak może się zdarzyć, że niektóre zmienne są z natury ważniejsze niż inne w konkretnym zastosowaniu, a następnie przyporządkowanie wag powinno opierać się na wiedzy przedmiotowej (patrz np. Abrahamowicz, 1985). Z drugiej strony, podjęto próby opracowania technik klastrowania, które są niezależne od skali zmiennych (Friedman i Rubin, 1967). Propozycja Hardy'ego i Rassona (1982) polega na poszukiwaniu partycji, która minimalizuje całkowitą objętość wypukłych kadłubów klastrów. Zasadniczo taka metoda jest niezmienna w odniesieniu do transformacji liniowych danych, ale niestety nie istnieje algorytm do jej realizacji (z wyjątkiem aproksymacji ograniczonej do dwóch wymiarów). Dlatego dylemat standaryzacji wydaje się obecnie nieunikniony, a programy opisane w tej książce pozostawiają wybór użytkownikowi. Propozycja Hardy'ego i Rassona (1982) polega na poszukiwaniu partycji, która minimalizuje całkowitą objętość wypukłych kadłubów klastrów. Zasadniczo taka metoda jest niezmienna w odniesieniu do transformacji liniowych danych, ale niestety nie istnieje algorytm do jej realizacji (z wyjątkiem aproksymacji ograniczonej do dwóch wymiarów). Dlatego dylemat standaryzacji wydaje się obecnie nieunikniony, a programy opisane w tej książce pozostawiają wybór użytkownikowi. Propozycja Hardy'ego i Rassona (1982) polega na poszukiwaniu partycji, która minimalizuje całkowitą objętość wypukłych kadłubów klastrów. Zasadniczo taka metoda jest niezmienna w odniesieniu do transformacji liniowych danych, ale niestety nie istnieje algorytm do jej realizacji (z wyjątkiem aproksymacji ograniczonej do dwóch wymiarów). Dlatego dylemat standaryzacji wydaje się obecnie nieunikniony, a programy opisane w tej książce pozostawiają wybór użytkownikowi.