Elastyczne i nieelastyczne modele uczenia maszynowego


10

Natknąłem się na proste pytanie o porównanie modeli elastycznych (tj. Splajnów) z modelami nieelastycznymi (np. Regresja liniowa) w różnych scenariuszach. Pytanie brzmi:

Ogólnie rzecz biorąc, czy oczekujemy, że działanie elastycznej metody uczenia statystycznego będzie lepsze lub gorsze niż metody nieelastycznej, gdy:

  1. Liczba predyktorów jest niezwykle duża, a liczba obserwacji jest niewielka? pn
  2. Wariacja składników błędu, tj. σ2)=Var(mi) , jest wyjątkowo wysoka?

Myślę, że dla (1), gdy n jest małe, modele nieelastyczne są lepsze (nie jestem pewien). W przypadku (2) nie wiem, który model jest (względnie) lepszy.


Błąd uogólnienia nie jest trywialny. Niestety zasady praktyczne nie pomagają w tym względzie.
Marc Claesen,

8
Wygląda na to, że pochodzi z Jamesa, Witten, Hastie, Tibshirani's Wprowadzenie do statystycznego uczenia się
Noel Evans

1. Elastyczna metoda przewyższyłaby niewielką liczbę obserwacji. 2. Elastyczne metody pasują do szumu pod względem błędów i zwiększają wariancję.
Zanark,

Odpowiedzi:


3

W tych 2 sytuacjach porównawczy model elastyczności i elastyczności zależy również od:

  • jest prawdziwą relacją y = f (x) bliską liniowej lub bardzo nieliniowej;
  • dostosowujesz / ograniczasz stopień elastyczności modelu „elastycznego” podczas jego dopasowywania.

Jeśli relacja jest zbliżona do liniowej i nie ogranicza się elastyczności, wówczas model liniowy powinien dawać lepszy błąd testowy w obu przypadkach, ponieważ model elastyczny może się w obu przypadkach przeregulować.

Możesz na to spojrzeć w ten sposób:

  • W obu przypadkach dane nie zawierają wystarczającej ilości informacji o prawdziwej relacji (w pierwszym przypadku relacja jest wielowymiarowa i nie ma wystarczającej ilości danych, w drugim przypadku jest uszkodzona przez hałas), ale
    • model liniowy zawiera pewne wcześniejsze informacje zewnętrzne o prawdziwej relacji (ogranicz klasę dopasowanych relacji do relacji liniowych) i
    • te wcześniejsze informacje okazują się słuszne (prawdziwa relacja jest bliska liniowej).
  • Podczas gdy model elastyczny nie zawiera wcześniejszych informacji (może zmieścić wszystko), więc pasuje do hałasu.

Jeśli jednak prawdziwa relacja jest bardzo nieliniowa, trudno powiedzieć, kto wygra (obie przegrają :)).

Jeśli dostroisz / ograniczysz stopień elastyczności i zrobisz to we właściwy sposób (powiedzmy przez krzyżową weryfikację), wówczas model elastyczny powinien wygrać we wszystkich przypadkach.


4

Oczywiście zależy to od podstawowych danych, które należy zawsze zbadać, aby poznać niektóre z jego cech przed próbą dopasowania modelu, ale nauczyłem się ogólnych zasad:

  • Elastyczny model pozwala w pełni wykorzystać duży rozmiar próbki (duży n).
  • Aby znaleźć efekt nieliniowy, niezbędny będzie model elastyczny.
  • Elastyczny model spowoduje, że zmieścisz zbyt dużo hałasu w problemie (gdy wariancja warunków błędu jest wysoka).

1

Cóż, w drugiej części uważam, że bardziej elastyczny model będzie się mocno dopasowywał do modelu, a dane treningowe zawierają wysoki poziom hałasu, więc model elastyczny będzie również próbował nauczyć się tego hałasu i spowoduje więcej błędów testowych. Znam źródło tego pytania, ponieważ czytam również tę samą książkę :)


1

W pierwszej części oczekiwałbym, że nieelastyczny model będzie działał lepiej przy ograniczonej liczbie obserwacji. Gdy n jest bardzo małe, oba modele (zarówno elastyczny, jak i nieelastyczny) nie dają wystarczająco dobrych prognoz. Jednak elastyczny model miałby tendencję do przewyższania danych i działałby gorzej, jeśli chodzi o nowy zestaw testowy.

Idealnie byłoby zebrać więcej obserwacji, aby poprawić dopasowanie, ale jeśli tak nie jest, to użyłbym modelu nieelastycznego, próbując zminimalizować błąd testowy za pomocą nowego zestawu testowego.



0

Dla każdej części od (a) do (d) wskazać, czy lub ii. jest poprawny i wyjaśnij swoją odpowiedź. Ogólnie rzecz biorąc, czy oczekujemy, że działanie elastycznej metody uczenia statystycznego będzie lepsze lub gorsze niż metody nieelastycznej, gdy:

Wielkość próby n jest bardzo duża, a liczba predyktorów p jest niewielka?

Lepszy. Elastyczna metoda będzie pasować do danych bliżej, a przy dużej wielkości próby będzie skuteczniejsza niż podejście nieelastyczne.

Liczba predyktorów p jest niezwykle duża, a liczba obserwacji n jest niewielka?

Gorzej. Elastyczna metoda przewyższyłaby niewielką liczbę obserwacji.

Związek między predyktorami a odpowiedzią jest wysoce nieliniowy?

Lepszy. Przy większej liczbie stopni swobody metoda elastyczna byłaby lepsza niż metoda nieelastyczna.

Wariacja składników błędu, tj. Σ2 = Var (ε), jest wyjątkowo wysoka?

Gorzej. Elastyczna metoda pasowałaby do szumu pod względem błędów i zwiększyłaby wariancję.

Zabrano stąd .

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.