Pytania otagowane jako feature-selection

Metody i zasady wyboru podzbioru atrybutów do wykorzystania w dalszym modelowaniu

2
Wykrywanie anomalii: jakiego algorytmu użyć?
Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami. Co do tej pory zrobiłem: Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw …

1
W jakich implementacjach wymagane jest skalowanie zmiennych (cech) i normalizacja (strojenie) zmiennych (cech)
W wielu algorytmach uczenia maszynowego skalowanie funkcji (inaczej skalowanie zmiennych, normalizacja) jest częstym krokiem wstępnego przetwarzania Wikipedia - Skalowanie funkcji - to pytanie było blisko Pytanie nr 41704 - Jak i dlaczego działa normalizacja i skalowanie funkcji? Mam dwa pytania dotyczące drzew decyzyjnych: Czy są jakieś implementacje drzewa decyzyjnego, które …

3
Czy wyboru funkcji należy dokonywać tylko na danych treningowych (lub wszystkich danych)?
Czy wybór funkcji powinien być wykonywany tylko na danych treningowych (lub wszystkich danych)? Przeszedłem kilka dyskusji i artykułów, takich jak Guyon (2003) i Singhi i Liu (2006) , ale wciąż nie jestem pewien, czy odpowiedź jest prawidłowa. Moja konfiguracja eksperymentu wygląda następująco: Zestaw danych: 50 zdrowych kontroli i 50 pacjentów …



4
Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …

4
Poprawa klasyfikacji cukrzycy SVM
Używam SVM do przewidywania cukrzycy. Używam do tego zestawu danych BRFSS . Zestaw danych ma wymiary i jest przekrzywiony. Procent s w zmiennej docelowej wynosi 11 %, podczas gdy s stanowią pozostałe 89 % .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Korzystam tylko 15z 136niezależnych zmiennych z zestawu danych. Jednym …


1
Jak obliczyć redundancję funkcji?
Mam trzy funkcje, których używam do rozwiązania problemu klasyfikacji. Początkowo te funkcje generowały wartości logiczne, więc mogłem ocenić ich redundancję, sprawdzając, w jakim stopniu zestawy klasyfikacji dodatnich i ujemnych pokrywają się. Teraz rozszerzyłem funkcje o rzeczywiste wartości (wyniki) i chciałbym jeszcze raz przeanalizować ich redundancję, ale zupełnie nie wiem, jak …

3
Wybór modelu Bayesa i wiarygodny przedział
Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCyyyx1x1x_1x2x2x_2rjags Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem dwa modeley×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 W modelu 1 wielkość efektu każdego …

3
Identyfikacja przefiltrowanych funkcji po wybraniu funkcji za pomocą scikit learn
Oto mój kod metody wyboru funkcji w Pythonie: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ale po uzyskaniu nowego X (zmienna zależna - X_new), skąd mam wiedzieć, które zmienne …


3
Jak zmniejszyć predyktory we właściwy sposób dla modelu regresji logistycznej
Czytałem więc kilka książek (lub ich części) na temat modelowania (między innymi „Strategie modelowania regresji” F. Harrella, ponieważ moja obecna sytuacja jest taka, że ​​muszę zrobić model logistyczny oparty na danych binarnych odpowiedzi. W moim zestawie danych mam zarówno dane ciągłe, jakościowe, jak i binarne (predyktory). Zasadniczo mam teraz około …

3
Wybór funkcji za pomocą głębokiego uczenia się?
Chcę obliczyć ważność każdej funkcji wejściowej przy użyciu modelu głębokiego. Ale znalazłem tylko jeden artykuł na temat wyboru funkcji za pomocą głębokiego uczenia się - głęboki wybór funkcji . Wstawiają warstwę węzłów połączonych bezpośrednio z każdą operacją przed pierwszą ukrytą warstwą. Słyszałem, że do tego rodzaju pracy można również wykorzystać …

2
Czy rzeczywiście dobrze jest dokonywać wyboru funkcji bez nadzoru przed weryfikacją krzyżową?
W The Elements of Statistics Learning znalazłem następujące stwierdzenie: Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem walidacji krzyżowej. Ponieważ to filtrowanie nie obejmuje etykiet klas, nie zapewnia nieuczciwej przewagi predyktorom. …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.