Pomysł tworzenia danych ma wartość zero

12

Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji zrozumieć dane?

data-mining dataset

— Jack Twain
źródło

9

To podejście nazywa się centrowaniem . Jedną z jego aplikacji jest przekształcenie przechwytywania modelu regresji w „przewidywane y, gdy x wynosi średnio”, dzięki czemu przechwycenie jest nieco bardziej zrozumiałe.

— Penguin_Knight

Wyśrodkowany obiekt / zestaw danych można również uznać za dobrze uwarunkowany . Zobacz tutaj objaśnienie wizualne. Operacja normalizacji wejścia znacznie ułatwia obniżanie gradientu.

— dostrojony

12

Niektóre przypadki, w których przydatne jest „wyśrodkowanie danych na ich średniej” (dalej po prostu „usunięcie znaczeń”):

1) Wizualne wykrycie, czy rozkład jest „taki sam” jak inny rozkład, tyle że został przesunięty na linii rzeczywistej. Ustawienie obu rozkładów na zero oznacza, że ta kontrola wizualna jest znacznie łatwiejsza. Czasami, jeśli średnia wartość różni się znacznie, przeglądanie ich na tym samym wykresie jest niepraktyczne. Pomyśl o dwóch normalnych wartościach RV, powiedzmy i . Te kształty z wykresami gęstości są identyczne, tylko ich pozycja różni się od rzeczywistego liniowych. Teraz wyobraź sobie, że masz wykresy ich funkcji gęstości, ale nie znasz ich wariancji. Usunięcie znaczenia spowoduje nałożenie jednego wykresu na drugi. $N(10,4)$ $N(100,4)$

2) Uprość obliczenia wyższych momentów: chociaż dodanie stałej do zmiennej losowej nie zmienia jej wariancji ani kowariancji z inną zmienną losową, jednak jeśli masz średnią różną od zera i musisz zapisać szczegółowe obliczenia, Ci mają napisać wszystkie warunki i pokazać, że znoszą się. Jeśli zmienne są pozbawione znaczenia, zapisujesz wiele niepotrzebnych obliczeń.

3) Zmienne losowe wyśrodkowane na ich średniej są przedmiotem centralnego twierdzenia granicznego

4) Odchylenia od „wartości średniej” są w wielu przypadkach przedmiotem zainteresowania i tego, czy mają tendencję do „powyżej lub poniżej średniej”, a nie rzeczywiste wartości zmiennych losowych. „Translacja” (wizualnie i / lub obliczeniowo) odchyleń poniżej średniej jako wartości ujemnych i odchyleń powyżej średniej jako wartości dodatnich, sprawia, że przekaz jest wyraźniejszy i silniejszy.

Aby uzyskać bardziej szczegółowe dyskusje, zobacz także

Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?

Centrowanie danych w regresji wielokrotnej

Jeśli przeszukujesz „wyśrodkowane dane” w CV, znajdziesz także inne interesujące posty.

— Alecos Papadopoulos
źródło

@OP: Myślę, że ta odpowiedź powinna zostać zaakceptowana.

— rottweiler

4

Również ze względów praktycznych korzystne jest centrowanie danych, na przykład podczas szkolenia sieci neuronowych.

Chodzi o to, że aby wyszkolić sieć neuronową, należy rozwiązać problem niewypukłej optymalizacji, stosując podejście oparte na gradiencie. Gradienty są obliczane za pomocą propagacji wstecznej. Teraz te gradienty zależą od danych wejściowych, a centrowanie danych usuwa ewentualne odchylenie gradientów.

Konkretnie, niezerowa średnia znajduje odzwierciedlenie w dużej wartości własnej, co oznacza, że gradienty wydają się być większe w jednym kierunku niż w innych (odchylenie), co spowalnia proces konwergencji, co ostatecznie prowadzi do gorszych rozwiązań.

— jpmuc
źródło

1

Aby dodać do tego, co powiedział Alecos, co jest bardzo dobre, centrowanie danych na zero jest niezwykle ważne podczas korzystania z statystyki bayesowskiej lub regularyzacji, ponieważ w przeciwnym razie dane mogą być skorelowane z przechwytywaniem, co sprawia, że normalizacja nie robi tego, co zwykle chcesz.

Uczynienie danych zerową średnią może zmniejszyć wiele nie-diagonalnych składników macierzy kowariancji, dzięki czemu dane są łatwiejsze do interpretacji, a współczynniki bardziej bezpośrednio znaczące, ponieważ każdy współczynnik dotyczy przede wszystkim tego współczynnika i działa mniej poprzez korelację z inne czynniki.

— Joe
źródło