Powielanie tabeli 18.1 z „Elementów uczenia statystycznego”

Tabela 18.1 w Elementy uczenia statystycznego podsumowuje wydajność kilku klasyfikatorów w zestawie danych 14 klas. Porównuję nowy algorytm z lasso i elastyczną siecią dla takich problemów z klasyfikacją wieloklasową.

Korzystając z glmnetwersji 1.5.3 (R 2.13.0), nie jestem w stanie odtworzyć punktu 7. ( wielomianowy L_1) w tabeli, w której podano liczbę użytych genów wynoszącą 269, a błąd testu wynosi 13 z 54. Wykorzystane dane to ten zestaw danych z 14-rakowymi mikromacierzami . Cokolwiek próbowałem, otrzymuję najlepiej działający model wykorzystujący w sąsiedztwie 170-180 genów z błędem testowym 16 na 54. $L_1$

Należy zauważyć, że na początku rozdziału 18.3 na stronie 654 opisano pewne wstępne przetwarzanie danych.

Skontaktowałem się z autorami - jak dotąd bez odpowiedzi - i pytam, czy ktokolwiek może potwierdzić problem z odtworzeniem tabeli lub podać rozwiązanie dotyczące sposobu jej odtworzenia.

classification lasso glmnet

— NRH
źródło

glmnet przeszedł ostatnio sporo zmian i w przeszłości miał pewne problemy z cyframi. Czy to możliwe? Jak długo kontaktowałeś się z autorami? Widzę, że bieżąca wersja to 1.7 i została przesłana do CRAN zaledwie tydzień temu.

— kardynał

@ cardinal, minęły około cztery tygodnie, odkąd przeprowadziłem ostatnie eksperymenty z glmnet, ale mamy też inną implementację, która daje podobne wyniki niezgodne z tabelą w ESL. Stół jest zdecydowanie starszy, więc domyślam się, że stół jest niepoprawny, ale dobrze byłoby wiedzieć.

— NRH

Bardzo krótko przejrzałem te sekcje i jedno pytanie, które przyszło mi do głowy, dotyczyło tego, w jaki sposób przeprowadzono walidację krzyżową, aby wybrać parametr skurczu w (18.19) na stronie 661 (trzeci wydruk). Dowolny pomysł? Może mi tego brakowało lub zostało to opisane gdzie indziej? Wydaje się, że jest to prawdopodobne miejsce, w którym próby odtworzenia ich analizy mogą być wrażliwe na różnice w podejściu.

— kardynał

@cardinal, pierwsze dzięki za zainteresowanie się tym. Prawdą jest, że CV może mieć znaczenie, ale autorzy faktycznie posiadają podzestawy (indeksy) używane do CV na stronie internetowej wraz z danymi. W każdym razie CV służy tylko do wyboru optymalnego parametru kary lambda, następnie cały zestaw danych treningowych jest wykorzystywany do dopasowania do modelu, który jest następnie oceniany na podstawie danych testowych. Dlatego nawet jeśli krok CV wybiera inną lambdę, ta lambda znajduje się na ścieżce rozwiązania dla danych treningowych i nie możemy jej znaleźć ...

— NRH

czy sprawdziłeś pakiet R książki? zawiera wszystkie zestawy danych, funkcje i większość używanych tam skryptów ...

— użytkownik603
źródło

Niezła próba. Tak, sprawdziłem pakiet, ale twierdzenie, że zawiera wszystkie dane, funkcje i większość skryptów, jest przesadą. Nie jest kompletny i nie zawiera omawianego zestawu danych.

— NRH