Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami. Co do tej pory zrobiłem: Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw …
W wielu algorytmach uczenia maszynowego skalowanie funkcji (inaczej skalowanie zmiennych, normalizacja) jest częstym krokiem wstępnego przetwarzania Wikipedia - Skalowanie funkcji - to pytanie było blisko Pytanie nr 41704 - Jak i dlaczego działa normalizacja i skalowanie funkcji? Mam dwa pytania dotyczące drzew decyzyjnych: Czy są jakieś implementacje drzewa decyzyjnego, które …
Czy wybór funkcji powinien być wykonywany tylko na danych treningowych (lub wszystkich danych)? Przeszedłem kilka dyskusji i artykułów, takich jak Guyon (2003) i Singhi i Liu (2006) , ale wciąż nie jestem pewien, czy odpowiedź jest prawidłowa. Moja konfiguracja eksperymentu wygląda następująco: Zestaw danych: 50 zdrowych kontroli i 50 pacjentów …
Próbuję zastosować ideę wzajemnej informacji do wyboru funkcji, jak opisano w tych uwagach do wykładu (na stronie 5). Moja platforma to Matlab. Jednym z problemów, które spotykam przy obliczaniu wzajemnej informacji z danych empirycznych, jest to, że liczba jest zawsze tendencyjna w górę. Znalazłem około 3 ~ 4 różnych plików …
Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów MEG Każdy …
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …
Używam SVM do przewidywania cukrzycy. Używam do tego zestawu danych BRFSS . Zestaw danych ma wymiary i jest przekrzywiony. Procent s w zmiennej docelowej wynosi 11 %, podczas gdy s stanowią pozostałe 89 % .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Korzystam tylko 15z 136niezależnych zmiennych z zestawu danych. Jednym …
Pytanie dla początkujących tutaj. Obecnie wykonuję regresję nieparametryczną przy użyciu pakietu np w R. Mam 7 funkcji i stosując metodę brutalnej siły zidentyfikowałem najlepszy 3. Ale wkrótce będę miał więcej niż 7 funkcji! Moje pytanie brzmi: jakie są obecnie najlepsze metody wyboru cech dla regresji nieparametrycznej. I które, jeśli jakieś …
Mam trzy funkcje, których używam do rozwiązania problemu klasyfikacji. Początkowo te funkcje generowały wartości logiczne, więc mogłem ocenić ich redundancję, sprawdzając, w jakim stopniu zestawy klasyfikacji dodatnich i ujemnych pokrywają się. Teraz rozszerzyłem funkcje o rzeczywiste wartości (wyniki) i chciałbym jeszcze raz przeanalizować ich redundancję, ale zupełnie nie wiem, jak …
Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCyyyx1x1x_1x2x2x_2rjags Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem dwa modeley×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 W modelu 1 wielkość efektu każdego …
Oto mój kod metody wyboru funkcji w Pythonie: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ale po uzyskaniu nowego X (zmienna zależna - X_new), skąd mam wiedzieć, które zmienne …
Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?
Czytałem więc kilka książek (lub ich części) na temat modelowania (między innymi „Strategie modelowania regresji” F. Harrella, ponieważ moja obecna sytuacja jest taka, że muszę zrobić model logistyczny oparty na danych binarnych odpowiedzi. W moim zestawie danych mam zarówno dane ciągłe, jakościowe, jak i binarne (predyktory). Zasadniczo mam teraz około …
Chcę obliczyć ważność każdej funkcji wejściowej przy użyciu modelu głębokiego. Ale znalazłem tylko jeden artykuł na temat wyboru funkcji za pomocą głębokiego uczenia się - głęboki wybór funkcji . Wstawiają warstwę węzłów połączonych bezpośrednio z każdą operacją przed pierwszą ukrytą warstwą. Słyszałem, że do tego rodzaju pracy można również wykorzystać …
W The Elements of Statistics Learning znalazłem następujące stwierdzenie: Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem walidacji krzyżowej. Ponieważ to filtrowanie nie obejmuje etykiet klas, nie zapewnia nieuczciwej przewagi predyktorom. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.