Jaka jest różnica między normalizacją a normalizacją?

118

W pracy rozmawialiśmy o tym, ponieważ mój szef nigdy nie słyszał o normalizacji. W algebrze liniowej normalizacja wydaje się odnosić do podziału wektora przez jego długość. A w statystykach normalizacja wydaje się odnosić do odejmowania średniej, a następnie dzielonej przez jej SD. Ale wydają się one również zamienne z innymi możliwościami.

Tworząc jakąś uniwersalną partyturę, która składa się z różnych wskaźników, które mają różne środki i różne SD, czy byś Normalizował, Standaryzował czy coś innego? Jedna osoba powiedziała mi, że to tylko kwestia wzięcia każdej metryki i podzielenia ich przez SD, indywidualnie. Następnie sumując dwa. Dzięki temu uzyskasz uniwersalny wynik, którego można użyć do oceny obu wskaźników. $2$

Załóżmy na przykład, że masz liczbę osób, które jadą metrem do pracy (w Nowym Jorku) oraz liczbę osób, które pojechały do pracy (w Nowym Jorku).

Train ⟶ x

$\text{Train} \longrightarrow x$

Car ⟶ y

$\text{Car} \longrightarrow y$

Jeśli chcesz stworzyć uniwersalny wynik, aby szybko zgłosić fluktuacje ruchu, nie możesz po prostu dodać i ponieważ będzie o wiele więcej osób jeździ pociągiem. W Nowym Jorku mieszka 8 milionów ludzi i turyści. To miliony ludzi jadących pociągiem codziennie werset setki tysięcy ludzi w samochodach. Dlatego muszą zostać przekształcone w podobną skalę, aby można je było porównać. $\text{mean}(x)$ $\text{mean}(y)$

Jeśli $\text{mean}(x) = 8,000,000$

a $\text{mean}(y) = 800,000$

$x$ $y$ $x$ $y$

Każdy artykuł lub rozdziały książek w celach informacyjnych będą mile widziane. DZIĘKI!

Oto kolejny przykład tego, co próbuję zrobić.

Wyobraź sobie, że jesteś dziekanem college'u i omawiasz wymagania wstępne. Możesz chcieć studentów z przynajmniej pewnym GPA i pewnym wynikiem testu. Byłoby miło, gdyby oba były w tej samej skali, ponieważ wtedy można po prostu dodać je razem i powiedzieć: „Każdy, kto ma co najmniej 7.0, może zostać przyjęty”. W ten sposób, jeśli przyszły student ma GPA 4.0, może uzyskać wynik testowy 3.0 i nadal zostać przyjęty. I odwrotnie, jeśli ktoś miał 3.0 GPA, nadal mógł zostać przyjęty z wynikiem 4.0 testu.

Ale tak nie jest. ACT ma skalę 36 punktów, a większość GPA jest w wersji 4.0 (niektóre są 4.3, tak irytujące). Ponieważ nie mogę po prostu dodać ACT i GPA, aby uzyskać jakiś uniwersalny wynik, jak mogę go przekształcić, aby można je było dodać, tworząc w ten sposób uniwersalny wynik wstępu. A jako dziekan mogłem automatycznie zaakceptować każdego, kto uzyska wynik powyżej pewnego progu. Lub nawet automatycznie akceptuje wszystkich, których wynik mieści się w 95% najlepszych ... tego typu rzeczy.

Czy to byłaby normalizacja? normalizacja? czy po prostu dzielenie każdego przez SD, a następnie sumowanie?

descriptive-statistics normalization standardization

— Chris
źródło

4

Ostatnia część pytania brzmi, jakbyś próbował utworzyć wycenę z wielu atrybutów. Więcej informacji na ten temat można znaleźć w pytaniu i odpowiedziach na stronie stats.stackexchange.com/q/9137 i stats.stackexchange.com/q/9358 . W szczególności należy zauważyć, że ani normalizacja, ani normalizacja nie mają bezpośredniego związku z problemem dziekana.

— whuber

65

Normalizacja przeskalowuje wartości w zakresie [0,1]. Może to być przydatne w niektórych przypadkach, w których wszystkie parametry muszą mieć tę samą skalę dodatnią. Jednak wartości odstające z zestawu danych zostaną utracone.

X_{c h a n g e d} = \frac{X - X_{m i n}}{X_{m a x} - X_{m i n}}

$X_{changed} = \frac{X - X_{min}}{X_{max}-X_{min}}$

$\mu$ $\sigma$

X_{c h a n g e d} = \frac{X - μ}{σ}

$X_{changed} = \frac{X - \mu}{\sigma}$

W przypadku większości aplikacji zaleca się standaryzację.

— Vivek Kumar
źródło

7

Czy mógłbyś wyjaśnić, dlaczego „wartości odstające od zbioru danych są tracone” po normalizacji danych?

— uczeń

3

wartości odstające w tym przypadku ponownego skalowania wpłynęłyby na wynik i nie zostały zgubione.

— Feras

@learner Wyobraź sobie, że masz [1 2 3 4 5 1000 2 4 5 2000 ...]. Znormalizowana wartość 1000 punktów danych stałaby się mniejsza, ponieważ mamy 2000

— COLD ICE

3

@COLDICE Myślę, że to zależy od używanego algorytmu normalizacji. Na przykład, jeśli podzielisz każdą liczbę w zestawie danych przez maksymalną wartość (np. 2000), będą one mieścić się w przedziale od 0 do 1 i nie wpłynie to na wartości odstające.

— Alisson

3

Myślę, że to wcale nie wpływa na wartości odstające, w przeciwnym razie nie byłoby to zrobione w oprogramowaniu do wykrywania anomalii.

— Alisson

44

W świecie biznesu „normalizacja” zazwyczaj oznacza, że zakres wartości jest „znormalizowany w zakresie od 0,0 do 1,0”. „Standaryzacja” zazwyczaj oznacza, że zakres wartości jest „standaryzowany”, aby zmierzyć, ile standardowych odchyleń jest wartością od jego średniej. Jednak nie wszyscy się z tym zgodzą. Najlepiej wyjaśnij swoje definicje przed ich użyciem.

W każdym razie twoja transformacja musi dostarczyć czegoś pożytecznego.

Czy w przykładzie z pociągu / samochodu zyskujesz coś, wiedząc, ile standardowych odchyleń od ich średniej leży każda wartość? Jeśli wykreślisz te „znormalizowane” miary jako wykres xy, możesz zobaczyć korelację (patrz pierwszy wykres po prawej):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Jeśli tak, czy to coś dla ciebie znaczy?

Jeśli chodzi o twój drugi przykład, jeśli chcesz „zrównać” GPA z jednej skali do drugiej, co te skale mają ze sobą wspólnego? Innymi słowy, w jaki sposób można przekształcić te wartości minimalne w równoważne, a maksymalne w równoważne?

Oto przykład „normalizacji”:

Link normalizacyjny

Czy po uzyskaniu wyników GPA i ACT w formie wymiennej sensowne jest ważenie wyników ACT i GPA w inny sposób? Jeśli tak, jakie znaczenie ma dla Ciebie znaczenie?

Edycja 1 (05/03/2011) ========================================= =

Najpierw sprawdzę linki sugerowane przez whucera powyżej. Najważniejsze jest to, że w obu problemach dwóch zmiennych będziesz musiał wymyślić „równoważność” jednej zmiennej względem drugiej. I sposób na odróżnienie jednej zmiennej od drugiej. Innymi słowy, nawet jeśli możesz to uprościć do prostej relacji liniowej, będziesz potrzebować „wag”, aby odróżnić jedną zmienną od drugiej.

Oto przykład problemu dwóch zmiennych:

Narzędzia z wieloma atrybutami

Z ostatniej strony, jeśli można powiedzieć, że znormalizowany ruch pociągów w U1(x)porównaniu ze znormalizowanym ruchem samochodowym U2(y)jest „dodatnio niezależny”, być może uda się uciec od prostego równania, takiego jak:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Gdzie k1 = 0,5 oznacza, że jesteś obojętny na znormalizowany ruch samochodów / pociągów. Wyższe k1 oznaczałoby, że ruch pociągów U1(x)jest ważniejszy.

Jeśli jednak te dwie zmienne nie są „addytywnie niezależne”, będziesz musiał zastosować bardziej skomplikowane równanie. Jedną z możliwości przedstawiono na stronie 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

W obu przypadkach będziesz musiał wymyślić narzędzie, U(x, y)które ma sens.

Te same ogólne zasady ważenia / porównywania dotyczą twojego problemu GPA / ACT. Nawet jeśli są „znormalizowane”, a nie „znormalizowane”.

Ostatni problem. Wiem, że ci się to nie spodoba, ale definicja terminu „dodatnio niezależny” znajduje się na stronie 4 poniższego linku. Szukałem mniej naukowej definicji, ale nie mogłem jej znaleźć. Możesz się rozejrzeć, aby znaleźć coś lepszego.

Dodatkowo niezależny

Cytując link:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Jak zasugerowano na początku tej odpowiedzi, jeśli wykreślisz znormalizowany ruch pociągów w porównaniu ze znormalizowanym ruchem samochodowym na wykresie xy, możesz zobaczyć korelację. Jeśli tak, to utkniesz z powyższym nieliniowym równaniem użyteczności lub czymś podobnym.

— rachunek_80
źródło

Dobrze. Masz rację. Najlepiej wyjaśnij moje definicje. I myśląc o tym ponownie, nie potrzebuję definicji. Potrzebuję odpowiedniej metody do stworzenia 1 uniwersalnej partytury. Czy będzie to wynik wstępu, czy wynik ruchu. Jak przejść do stworzenia uniwersalnej metryki, która jest funkcją innych zmiennych, które zostały przekształcone, aby umieścić je w podobnej skali? I nie martw się o ciężary. Rozumiem, że nawet zwykłe sumowanie ma wagę 1/1. Ale teraz to mnie nie martwi.

— Chris

@Chris, dodałem swoją odpowiedź jako zmianę powyżej.

— bill_080

2

(+1) Dobra edycja. @Chris: może być zainteresowany w uwagach do krótkiego zestaw slajdy PowerPoint tutaj : jest to prezentacja na temat dałem osób nietechnicznych. Wspominam o tym, ponieważ zawiera kilka ilustracji i wskazówek, jak „stworzyć uniwersalny wskaźnik”.

— whuber

Link do narzędzia Multi-Attribute Utilities nie działa, artykuł można znaleźć tutaj web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…

— mgilbert

6

Odpowiedź jest prosta, ale ci się nie spodoba: to zależy. Jeśli cenisz 1 odchylenie standardowe od obu punktów równo, następnie normalizacja jest droga (uwaga: w rzeczywistości, jesteś studentizing , bo jesteś podzielenie przez szacunek do SD populacji).

Jeśli nie, prawdopodobne jest, że standaryzacja będzie dobrym pierwszym krokiem, po którym możesz przypisać większą wagę jednemu z wyników, mnożąc przez dobrze wybrany czynnik.

— Nick Sabbe
źródło

Mówisz więc, że przynajmniej zacznij od tego, co opisałem jako Standaryzacja (uczenie się), a następnie dostosuj wagi, aby najlepiej pasowały do danych / scenariusza? To ma sens. Po prostu nie rozumiem, dlaczego miałbym dzielić przez SD. Podczas badań znalazłem coś, co nazywa się znormalizowaną różnicą średnią .... i właśnie się pomyliłem. Wygląda na to, że powinno być proste. Albo umieścisz je obie w Skali A, albo jedną w tej samej skali co druga, a następnie zsumujesz. Ale nie. Zamiast tego jestem zdezorientowany i cała Wiki na razie wyszła.

— Chris

0

Aby rozwiązać problem GPA / ACT lub problemu pociągu / samochodu, dlaczego nie użyć średniej geometrycznej ?

n√ (a1 × a2 × ... × an)

Gdzie a*jest wartość z rozkładu i njest indeksem rozkładu.

Ta średnia geometryczna upewnia się, że każda wartość wykracza poza jej skalę, w równym stopniu przyczynia się do wartości średniej. Zobacz więcej w Geometric Mean

— LingxB
źródło

3

Nie widzę, aby średnia geometryczna była odpowiednia dla sytuacji opisanych w OP.

— gung

1

Zgadzam się z Gungiem. Średnia geometryczna nie jest rozwiązaniem tego problemu.

— Ferdi

Średnia geometryczna zapobiegnie zmniejszeniu udziału mniejszych liczb. Dlatego może być alternatywą dla standaryzacji lub normalizacji, gdy trzeba połączyć nierówne skale.

— rnso

0

W mojej dziedzinie, nauce o danych, normalizacja to transformacja danych, która pozwala na łatwe porównanie danych w dalszej części procesu. Istnieje wiele rodzajów normalizacji. Skalowanie jest jednym z nich. Możesz także rejestrować dane lub robić wszystko, co chcesz. Rodzaj zastosowanej normalizacji zależy od oczekiwanego wyniku, ponieważ wszystkie normalizacje przekształcają dane w coś innego.

Oto niektóre z przykładów, które uważam za przykłady normalizacji. Skalowanie normalizacji Normalizacja kwantowa

— yevishere
źródło