Statystyki i duże zbiory danych feature-selection

2

Wykrywanie anomalii: jakiego algorytmu użyć?

Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami. Co do tej pory zrobiłem: Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw …

10 machine-learning multivariate-analysis feature-selection algorithms outliers

1

W jakich implementacjach wymagane jest skalowanie zmiennych (cech) i normalizacja (strojenie) zmiennych (cech)

W wielu algorytmach uczenia maszynowego skalowanie funkcji (inaczej skalowanie zmiennych, normalizacja) jest częstym krokiem wstępnego przetwarzania Wikipedia - Skalowanie funkcji - to pytanie było blisko Pytanie nr 41704 - Jak i dlaczego działa normalizacja i skalowanie funkcji? Mam dwa pytania dotyczące drzew decyzyjnych: Czy są jakieś implementacje drzewa decyzyjnego, które …

10 machine-learning feature-selection cart

3

Czy wyboru funkcji należy dokonywać tylko na danych treningowych (lub wszystkich danych)?

Czy wybór funkcji powinien być wykonywany tylko na danych treningowych (lub wszystkich danych)? Przeszedłem kilka dyskusji i artykułów, takich jak Guyon (2003) i Singhi i Liu (2006) , ale wciąż nie jestem pewien, czy odpowiedź jest prawidłowa. Moja konfiguracja eksperymentu wygląda następująco: Zestaw danych: 50 zdrowych kontroli i 50 pacjentów …

10 dataset cross-validation experiment-design feature-selection

3

Wybór funkcji za pomocą wzajemnej informacji w Matlabie

Próbuję zastosować ideę wzajemnej informacji do wyboru funkcji, jak opisano w tych uwagach do wykładu (na stronie 5). Moja platforma to Matlab. Jednym z problemów, które spotykam przy obliczaniu wzajemnej informacji z danych empirycznych, jest to, że liczba jest zawsze tendencyjna w górę. Znalazłem około 3 ~ 4 różnych plików …

10 matlab feature-selection information-theory mutual-information

1

Radzenie sobie z bardzo dużymi zestawami danych szeregów czasowych

Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów MEG Każdy …

10 machine-learning feature-selection large-data feature-construction

4

Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?

Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …

10 r cross-validation feature-selection random-forest stepwise-regression

4

Poprawa klasyfikacji cukrzycy SVM

Używam SVM do przewidywania cukrzycy. Używam do tego zestawu danych BRFSS . Zestaw danych ma wymiary i jest przekrzywiony. Procent s w zmiennej docelowej wynosi 11 %, podczas gdy s stanowią pozostałe 89 % .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Korzystam tylko 15z 136niezależnych zmiennych z zestawu danych. Jednym …

10 r classification svm feature-selection e1071

2

Najlepsze metody wyboru cech dla regresji nieparametrycznej

Pytanie dla początkujących tutaj. Obecnie wykonuję regresję nieparametryczną przy użyciu pakietu np w R. Mam 7 funkcji i stosując metodę brutalnej siły zidentyfikowałem najlepszy 3. Ale wkrótce będę miał więcej niż 7 funkcji! Moje pytanie brzmi: jakie są obecnie najlepsze metody wyboru cech dla regresji nieparametrycznej. I które, jeśli jakieś …

10 r machine-learning nonparametric feature-selection

1

Jak obliczyć redundancję funkcji?

Mam trzy funkcje, których używam do rozwiązania problemu klasyfikacji. Początkowo te funkcje generowały wartości logiczne, więc mogłem ocenić ich redundancję, sprawdzając, w jakim stopniu zestawy klasyfikacji dodatnich i ujemnych pokrywają się. Teraz rozszerzyłem funkcje o rzeczywiste wartości (wyniki) i chciałbym jeszcze raz przeanalizować ich redundancję, ale zupełnie nie wiem, jak …

10 correlation feature-selection

3

Wybór modelu Bayesa i wiarygodny przedział

Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCyyyx1x1x_1x2x2x_2rjags Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem dwa modeley×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 W modelu 1 wielkość efektu każdego …

10 bayesian feature-selection model-selection model credible-interval

3

Identyfikacja przefiltrowanych funkcji po wybraniu funkcji za pomocą scikit learn

Oto mój kod metody wyboru funkcji w Pythonie: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ale po uzyskaniu nowego X (zmienna zależna - X_new), skąd mam wiedzieć, które zmienne …

10 feature-selection python scikit-learn

2

Zmienne znaczenie losowe Najmniejsze wartości ujemne

Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?

10 machine-learning feature-selection random-forest importance

3

Jak zmniejszyć predyktory we właściwy sposób dla modelu regresji logistycznej

Czytałem więc kilka książek (lub ich części) na temat modelowania (między innymi „Strategie modelowania regresji” F. Harrella, ponieważ moja obecna sytuacja jest taka, że muszę zrobić model logistyczny oparty na danych binarnych odpowiedzi. W moim zestawie danych mam zarówno dane ciągłe, jakościowe, jak i binarne (predyktory). Zasadniczo mam teraz około …

9 logistic predictive-models feature-selection regression-strategies

3

Wybór funkcji za pomocą głębokiego uczenia się?

Chcę obliczyć ważność każdej funkcji wejściowej przy użyciu modelu głębokiego. Ale znalazłem tylko jeden artykuł na temat wyboru funkcji za pomocą głębokiego uczenia się - głęboki wybór funkcji . Wstawiają warstwę węzłów połączonych bezpośrednio z każdą operacją przed pierwszą ukrytą warstwą. Słyszałem, że do tego rodzaju pracy można również wykorzystać …

9 feature-selection deep-learning deep-belief-networks rbm

2

Czy rzeczywiście dobrze jest dokonywać wyboru funkcji bez nadzoru przed weryfikacją krzyżową?

W The Elements of Statistics Learning znalazłem następujące stwierdzenie: Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem walidacji krzyżowej. Ponieważ to filtrowanie nie obejmuje etykiet klas, nie zapewnia nieuczciwej przewagi predyktorom. …

9 machine-learning cross-validation feature-selection

Pytania otagowane jako feature-selection