Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych).
Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące pytania
Po co ci ten ranking ważności o zmiennej wartości? Czego możesz się z tego nauczyć? Jakie decyzje chciałbyś podjąć, korzystając z niego?
Odpowiedzi, które otrzymuję, prawie zawsze należą do jednej z dwóch kategorii
- Chciałbym poznać znaczenie różnych zmiennych w moim modelu w przewidywaniu odpowiedzi.
- Chciałbym go użyć do wyboru funkcji, usuwając zmienne o niskim znaczeniu.
Pierwsza odpowiedź jest tautologiczna (chciałbym rankingu o zmiennym znaczeniu, ponieważ chciałbym rankingu o zmiennym znaczeniu). Muszę założyć, że te rankingi wypełniają potrzebę psychologiczną, kiedy konsumujemy wyniki modelu wielowymiarowego. Trudno mi to zrozumieć, ponieważ indywidualne uszeregowanie zmiennych „ważność” wydaje się domyślnie odrzucać wielowymiarowy charakter danego modelu.
Druga odpowiedź zasadniczo ogranicza się do nieformalnej wersji selekcji wstecznej , której grzechy statystyczne są dobrze udokumentowane w innych częściach CrossValidated.
Walczę także ze źle zdefiniowaną naturą rankingów ważności. Wydaje się, że nie ma zgody co do tego, jaka koncepcja leżąca u podstaw rankingu powinna być mierzona, co nadaje im bardzo ad hoc smak. Istnieje wiele sposobów przypisywania oceny ważności lub rangi i na ogół mają one wady i zastrzeżenia:
- Mogą być wysoce zależne od algorytmu, jak w rankingach ważności w losowych lasach i gbms.
- Mogą mieć bardzo dużą wariancję, zmieniając się drastycznie wraz z zaburzeniami w podstawowych danych.
- Mogą bardzo cierpieć z powodu korelacji w predyktorach wejściowych.
Tak więc, po wszystkim, co powiedziałem, moje pytanie brzmi: jakie są statystycznie uzasadnione zastosowania w rankingach o różnym znaczeniu lub, co jest przekonującym argumentem (dla statystyki lub dla laika) na temat daremności takiego pragnienia? Interesują mnie zarówno ogólne argumenty teoretyczne, jak i studia przypadków, w zależności od tego, które z nich byłyby bardziej efektywne w przedstawianiu sprawy.
glmnet
jest ona dostępna?