Jakiego wyboru zmiennych / cech preferujesz do klasyfikacji binarnej, gdy w zestawie do nauki jest o wiele więcej zmiennych / cech niż obserwacji? Celem jest omówienie procedury wyboru funkcji, która najlepiej redukuje błąd klasyfikacji.
Możemy poprawić notacje dla spójności: dla , niech będą zestawem uczącym się obserwacji z grupy . Zatem jest rozmiarem zestawu do nauki. Ustawiamy jako liczbę cech (tj. Wymiar przestrzeni cech). Niech oznacza -tą współrzędną .{ x i 1 , … , x i n i } i n 0 + n 1 =p x [ i ]x ∈ R p
Podaj pełne referencje, jeśli nie możesz podać szczegółów.
EDYCJA (stale aktualizowana): Procedury zaproponowane w odpowiedziach poniżej
- Chciwy wybór do przodu Zmienna procedura wyboru do klasyfikacji binarnej
- Eliminacja wsteczna Zmienna procedura selekcji do klasyfikacji binarnej
- Skanowanie Metropolis / MCMC Zmienna procedura wyboru do klasyfikacji binarnej
- karana regresja logistyczna Zmienna procedura selekcji do klasyfikacji binarnej
Ponieważ jest to wiki społeczności, może być więcej dyskusji i aktualizacji
Mam jedną uwagę: w pewnym sensie wszyscy poddajecie się procedurze, która pozwala na uporządkowanie zmiennych, ale nie na selekcję zmiennych (jesteś dość wymijający, jak wybrać liczbę funkcji, myślę, że wszyscy używacie weryfikacji krzyżowej?) Czy możesz poprawić odpowiedzi w tym kierunku? (ponieważ jest to wiki społeczności, nie musisz być pisarzem odpowiedzi, aby dodać informacje o tym, jak wybrać liczbę zmiennych? Otworzyłem tutaj pytanie w tym kierunku Krzyżowanie weryfikacji w bardzo dużym wymiarze (aby wybrać liczbę zastosowane zmienne w bardzo wysokiej klasyfikacji wymiarowej) )