Normalizacja a skalowanie


45

Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale nie skalowania i odwrotnie?

Proszę podać przykład.


6
Normalizacja zwykle oznacza przekształcenie twoich obserwacji w (gdzie jest mierzalną, zazwyczaj ciągłą funkcją) tak, że wyglądają one normalnie rozłożone . Niektóre przykłady transformacji normalizujących dane to transformacje mocy . Skalowanie oznacza po prostu , , to znaczy pomnożenie obserwacji przez stałą która zmienia skalę (na przykład z nanometrów na kilometry) . f ( x ) fxf(x)f c R cf(x)=cxcRc


normalizacja jest również metodą skalowania, podobnie jak standaryzacja

Nie mam wystarczającej reputacji statystyk, aby odpowiedzieć. Myślę, że tytuł twojego pytania powinien brzmieć Normalizacja vs. Standaryzacja, ponieważ są to różne podejścia do przeskalowywania. Normalizacja przeskalowuje wartości do zakresu 0 i 1, podczas gdy normalizacja przesuwa rozkład, tak aby miał 0 jako średnią, a 1 jako odchylenie standardowe.
Hamid Heydarian

Odpowiedzi:


23

Nie znam „oficjalnej” definicji i nawet jeśli istnieje, nie powinieneś jej ufać, ponieważ zobaczysz, że jest ona niekonsekwentnie stosowana w praktyce.

To powiedziawszy, skalowanie w statystyce zwykle oznacza liniową transformację postaci .f(x)=ax+b

Normalizacja może oznaczać zastosowanie transformacji, tak aby przekształcone dane były z grubsza normalnie rozłożone, ale może również oznaczać po prostu umieszczenie różnych zmiennych na wspólnej skali. Standaryzacja, która oznacza odjęcie średniej i podzielenie przez odchylenie standardowe, jest przykładem późniejszego użycia. Jak widać, jest to również przykład skalowania. Przykładem może być zapisanie logarytmicznie rozproszonych danych.

Ale powinieneś zabrać to, że kiedy ją czytasz, powinieneś poszukać dokładniejszego opisu tego, co zrobił autor. Czasami można to uzyskać z kontekstu.


14

Skalowanie to osobisty wybór, aby liczby były poprawne, np. Od zera do jednego lub od jednego do stu. Na przykład konwertuje dane podane w milimetrach na metry, ponieważ jest to wygodniejsze lub imperialne na metryczne.

Podczas gdy normalizacja polega na skalowaniu do zewnętrznego „standardu” - normy lokalnej - takiej jak usunięcie wartości średniej i podzielenie przez przykładowe odchylenie standardowe, np. W celu porównania posortowanych danych z kumulatywną normą lub kumulatywnym Poissonem lub cokolwiek.

Jeśli więc wykładowca lub menedżer chce, aby dane zostały „znormalizowane”, oznacza to „przeskalować to na swój sposób ” ;-)


9

Nie wiem, czy masz na myśli dokładnie to, ale widzę, że wiele osób odnoszących się do Normalizacji oznacza Standaryzację danych. Standaryzacja przekształca dane, więc ma średnią 0 i odchylenie standardowe 1:

x <- (x - mean(x)) / sd(x)

Widzę także osoby używające terminu Normalizacja do skalowania danych, jak w przypadku przekształcania danych do zakresu 0-1:

x <- (x - min(x)) / (max(x) - min(x))

To może być mylące!

Obie techniki mają swoje zalety i wady. Podczas skalowania zestawu danych ze zbyt wieloma wartościami odstającymi, dane nie będące wartościami odstającymi mogą skończyć się w bardzo krótkim odstępie czasu. Więc jeśli twój zestaw danych ma zbyt wiele wartości odstających, możesz rozważyć standaryzację. Niemniej jednak, kiedy to zrobisz, skończysz z danymi negatywnymi (czasami tego nie chcesz) i danymi niezwiązanymi (możesz również tego nie chcieć).


3

Centrowanie oznacza odjęcie średniej zmiennej losowej od zmiennych. Tj. X-xi

Skalowanie oznacza dzielenie zmiennej przez jej odchylenie standardowe. Tj. Xi / s

Połączenie tych dwóch nazywa się normalizacją lub standaryzacją. Tj. X-xi / s


Pytanie jest duplikatem.
Michael Chernick
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.