Pytanie o kompromis wariancji odchylenia i sposoby optymalizacji


7

Zastanawiałem się więc, w jaki sposób można na przykład zoptymalizować model, który próbują zbudować, gdy napotykają problemy wynikające z dużej stronniczości lub dużej wariancji. Teraz oczywiście możesz grać z parametrem regularyzacyjnym, aby osiągnąć satysfakcjonujący koniec, ale zastanawiałem się, czy można to zrobić bez polegania na regularyzacji.

Jeśli b jest estymatorem odchylenia modelu i v jego wariancji, czy nie ma sensu próbować minimalizować b * v?

Odpowiedzi:


8

Istnieje wiele sposobów na zminimalizowanie uprzedzeń i wariancji i pomimo popularnego powiedzenia, że ​​nie zawsze jest to kompromis.

Dwoma głównymi przyczynami wysokiego odchylenianiewystarczająca pojemność modelu i niedostateczne dopasowanie, ponieważ faza szkolenia nie została ukończona. Na przykład, jeśli masz bardzo skomplikowany problem do rozwiązania (np. Rozpoznawanie obrazu) i używasz modelu o niskiej pojemności (np. Regresja liniowa), model ten miałby duże odchylenie w wyniku tego, że model nie byłby w stanie zrozumieć złożoności problem.

Głównym powodem dużej wariancji jest nadmierne dopasowanie do zestawu treningowego.

Biorąc to pod uwagę, istnieją sposoby zmniejszenia zarówno błędu systematycznego, jak i wariancji w modelu ML. Na przykład najłatwiejszym sposobem osiągnięcia tego jest uzyskanie większej ilości danych (w niektórych przypadkach nawet pomoc danych syntetycznych).

W praktyce robimy to:

  • Po pierwsze, zwiększamy pojemność modelu, aby maksymalnie ograniczyć wariancję zestawu treningowego. Innymi słowy, chcemy sprawić, by model się dopasował (nawet osiągnąć utratę 0 na zestawie treningowym). Odbywa się to, ponieważ chcemy upewnić się, że model ma zdolność wystarczającego zrozumienia danych.

  • Następnie staramy się zmniejszyć stronniczość . Odbywa się to poprzez regularyzację ( wcześniejsze zatrzymanie , kary normalne , rezygnacja itp.)


1
Żeby było jasne, więcej danych nie oznacza wyłącznie więcej przykładów, ale może być więcej funkcji dla bieżących przykładów, prawda?
Zer0k

4
Właściwie miałem na myśli więcej przykładów, ale masz rację, jeśli możesz zmierzyć więcej (znaczących) funkcji dla bieżących przykładów, z pewnością poprawiłbyś wydajność swojego modelu.
Djib2011
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.