Zamieszanie związane z elastyczną siatką


10

Czytałem ten artykuł dotyczący elastycznej siatki. Mówią, że używają elastycznej siatki, ponieważ jeśli użyjemy tylko Lasso, zwykle wybierany jest tylko jeden predyktor spośród predyktorów, które są wysoce skorelowane. Ale czy nie tego chcemy? Mam na myśli, że ratuje nas przed problemem wielokoliniowości, prawda?

Wszelkie sugestie / wyjaśnienia?

Odpowiedzi:


11

Załóżmy, że dwa predyktory mają silny wpływ na odpowiedź, ale są silnie skorelowane w próbce, z której budujesz model. Jeśli usuniesz jeden z modelu, nie będzie on dobrze przewidywał próbek z podobnych populacji, w których predyktory nie są silnie skorelowane.

Jeśli chcesz poprawić precyzję swoich oszacowań współczynnika w obecności wielokoliniowości, musisz wprowadzić trochę uprzedzenia, kompensując go większym zmniejszeniem wariancji. Jednym ze sposobów jest całkowite usunięcie predyktorów - za pomocą LASSO lub, w dawnych czasach, metodami krokowymi - co ustawia ich oszacowania współczynnika na zero. Innym jest trochę odchylenie wszystkich szacunków - z regresją grzbietu lub, w dawnych czasach, regresją pierwszych kilku głównych składników. Wadą tego pierwszego jest to, że bardzo niebezpieczne jest, jeśli model będzie używany do przewidywania odpowiedzi na wzorce predykcyjne z dala od tych, które wystąpiły w oryginalnej próbce, ponieważ predyktory są zwykle wykluczane tylko dlatego, że nie są zbyt często używane razem z innymi, prawie kolinearne, predyktory. (Nie to, że ekstrapolacja jest zawsze całkowicie bezpieczna.) Elastyczna siatka jest mieszanką tych dwóch, jak wyjaśnia @ user12436, i ma tendencję do utrzymywania grup skorelowanych predyktorów w modelu.


Dlaczego nie da się dobrze przewidzieć w tej nowej próbce?
user31820,

1
Ponieważ w modelu brakuje ważnego predyktora.
Scortchi - Przywróć Monikę

2
Jeśli dwa predyktory są skorelowane w jednej reprezentatywnej próbie z populacji, czy nie powinny być skorelowane w innej próbie? jeśli użyjesz modelu na danych, który jest „oddalony od tych, które wystąpiły w oryginalnej próbce”, czy nie jest to nieprawidłowe użycie jakiegokolwiek modelu na granicy?
Matthew Drury

@MatthewDrury: Cóż, jeśli „prawo” modelu - jeśli nie ma niezauważonych czynników zakłócających, o które warto zawracać sobie głowę, a jeśli forma funkcjonalna jest możliwa do ekstrapolacji - to rozkład predyktorów w próbce nie ma znaczenia (choć oczywiście determinuje precyzję szacunki i prognozy). Tak więc z jednej strony możesz mieć model mechanistyczny zbudowany na danych z dobrze kontrolowanego eksperymentalnego badania czynników przyczynowych; z drugiej - model empiryczny oparty na danych zebranych z badania obserwacyjnego dotyczącego szeregu zmiennych, które były po prostu łatwe do zmierzenia.
Scortchi - Przywróć Monikę

Wyrażenie: „ w dawnych czasach metody krokowe
wywoływały

4

Ale czy nie tego chcemy? Chodzi mi o to, że ratuje nas przed problemem wielokoliniowości, prawda?

Tak! i nie. Siatka elastyczna to połączenie dwóch technik regularyzacji, regularyzacji L2 (stosowanej w regresji grzbietu) i regularyzacji L1 (stosowanej w LASSO).

Lasso tworzy naturalnie rzadkie modele, tj. Większość zmiennych współczynników zostanie zmniejszona do 0 i skutecznie wykluczona z modelu. Tak więc najmniej znaczące zmienne są zmniejszane, zanim kurczą się inne, w przeciwieństwie do grzbietu, gdzie wszystkie zmienne są zmniejszane, podczas gdy żadna z nich tak naprawdę nie jest zmniejszana do zera.

Elastyczna siatka wykorzystuje liniową kombinację obu tych podejść. Konkretny przypadek wspomniany przez Hastie podczas omawiania metody był w przypadku dużego p, małego n. Co oznacza: dane o dużych wymiarach przy stosunkowo niewielu obserwacjach. W tym przypadku LASSO wybrałby (podobno) tylko co najwyżej n zmiennych, eliminując resztę, patrz artykuł Hastie .

Zawsze będzie zależeć od rzeczywistego zestawu danych, ale możesz sobie wyobrazić, że nie zawsze chcesz, aby górny limit liczby zmiennych w modelach był równy lub niższy niż liczba twoich obserwacji.


Ale co z wielokoliniowością. Elastyczna siatka pozwala na wybranie wielu elementów współliniowych, co nie jest dobre, prawda?
user31820,

Nie sądzę, że wiele prawdziwych zestawów danych ma doskonale wielokoliniowe zmienne. Wysoce skorelowane zmienne mogą być prawie współliniowe, co nadal stanowi problem, ale możesz chcieć je zaakceptować, na wypadek gdyby oba były ważne dla twojego modelu.
oznacza-znaczący

Link dodany powyżej prowadzi do yahoo.com. Ponadto [artykuł] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… ) jest autorstwa Zou i Hastie (elastyczna siatka).
KarthikS,

2

Zarówno Lasso, jak i Elastic Net to wydajne metody przeprowadzania selekcji zmiennych lub cech w ustawieniach danych wielowymiarowych (znacznie więcej zmiennych niż pacjenci lub próbki; np. 20 000 genów i 500 próbek nowotworów).

(Hastie i inni) wykazali, że Elastyczna Sieć może przewyższyć Lasso, gdy dane są wysoce skorelowane. Lasso może po prostu wybrać jedną ze skorelowanych zmiennych i nie dba o to, która z nich zostanie wybrana. Może to stanowić problem, gdy chce się sprawdzić wybrane zmienne w niezależnym zbiorze danych. Zmienna wybrana przez Lasso może nie być najlepszym predyktorem wśród wszystkich skorelowanych zmiennych. Sieć elastyczna rozwiązuje ten problem, uśredniając wysoce skorelowane zmienne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.