Pytania otagowane jako model-selection

Wybór modelu to problem polegający na ocenie, który model z jakiegoś zestawu działa najlepiej. Popularne metody obejmują kryteria , AIC i BIC, zestawy testów i walidację krzyżową. W pewnym stopniu wybór funkcji jest podproblemem wyboru modelu. R2)



3
Jak się dowiedzieć, że problem uczenia maszynowego jest beznadziejny?
Wyobraź sobie standardowy scenariusz uczenia maszynowego: Masz do czynienia z dużym, wielowymiarowym zestawem danych i rozumiesz go dość niewyraźnie. To, co musisz zrobić, to przewidzieć jakąś zmienną na podstawie tego, co masz. Jak zwykle czyścisz dane, przeglądasz statystyki opisowe, uruchamiasz niektóre modele, weryfikujesz je krzyżowo itp., Ale po kilku próbach, …

8
Algorytmy automatycznego wyboru modelu
Chciałbym zaimplementować algorytm automatycznego wyboru modelu. Zastanawiam się nad regresją stopniową, ale wszystko się uda (musi to być jednak regresja liniowa). Mój problem polega na tym, że nie jestem w stanie znaleźć metodologii ani implementacji typu open source (budzę się w java). Metodologia, którą mam na myśli, mogłaby wyglądać następująco: …

6
Jak wybrać model predykcyjny po k-krotnej walidacji krzyżowej?
Zastanawiam się, jak wybrać model predykcyjny po przeprowadzeniu krzyżowej weryfikacji K-fold. Może to być niezręcznie sformułowane, więc pozwól mi wyjaśnić bardziej szczegółowo: za każdym razem, gdy uruchamiam K-krotnie weryfikację krzyżową, używam K podzbiorów danych treningowych i kończę na K różnych modelach. Chciałbym wiedzieć, jak wybrać jeden z modeli K, aby …


2
Ile wiemy o hakowaniu p „na wolności”?
Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi: analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec; niedostosowanie się do …

3
Zagnieżdżone sprawdzanie poprawności wyboru modelu
Jak wykorzystać zagnieżdżoną weryfikację krzyżową do wyboru modelu ? Z tego, co czytam online, zagnieżdżone CV działa w następujący sposób: Istnieje wewnętrzna pętla CV, w której możemy przeprowadzić wyszukiwanie siatki (np. Uruchomienie K-fold dla każdego dostępnego modelu, np. Kombinacja hiperparametrów / funkcji) Istnieje zewnętrzna pętla CV, w której mierzymy wydajność …

14
Dlaczego solidne (i odporne) statystyki nie zastąpiły klasycznych technik?
Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo. Na przykład, że tak wiele typowych wskaźników internetowych jest …

5
Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej?
Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną. Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny . Jakie nowoczesne metody wyboru modelu należy zastosować w …

6
Zmienny wybór do modelowania predykcyjnego naprawdę potrzebny w 2016 roku?
To pytanie zostało zadane w CV kilka lat temu, wydaje się, że warto je przesłać w świetle 1) lepszej technologii obliczeniowej rzędu wielkości (np. Obliczenia równoległe, HPC itp.) I 2) nowszych technik, np. [3]. Po pierwsze, jakiś kontekst. Załóżmy, że celem nie jest testowanie hipotez, nie szacowanie efektów, ale przewidywanie …

2
Dlaczego tylko trzy partycje? (szkolenie, walidacja, test)
Gdy próbujesz dopasować modele do dużego zestawu danych, powszechną wskazówką jest podzielenie danych na trzy części: szkolenie, sprawdzanie poprawności i testowanie zestawu danych. Wynika to z faktu, że modele zwykle mają trzy „poziomy” parametrów: pierwszy „parametr” to klasa modelu (np. SVM, sieć neuronowa, losowy las), drugi zestaw parametrów to parametry …

2
Bardziej ostateczne omówienie wyboru zmiennych
tło Prowadzę badania kliniczne w medycynie i odbyłem kilka kursów statystycznych. Nigdy nie publikowałem pracy z wykorzystaniem regresji liniowej / logistycznej i chciałbym prawidłowo dokonywać wyboru zmiennych. Interpretowalność jest ważna, więc nie ma wymyślnych technik uczenia maszynowego. Podsumowałem moje rozumienie wyboru zmiennych - czy ktoś mógłby rzucić światło na jakieś …


3
Model liniowy z odpowiedzią przekształconą logarytmicznie a uogólniony model liniowy z łączem logarytmicznym
W artykule zatytułowanym „WYBÓR WŚRÓD OGÓLNYCH MODELI LINIOWYCH STOSOWANYCH DO DANYCH MEDYCZNYCH” autorzy piszą: W uogólnionym modelu liniowym średnia jest przekształcana przez funkcję link, zamiast przekształcać samą odpowiedź. Dwie metody transformacji mogą prowadzić do zupełnie różnych wyników; na przykład średnia odpowiedzi transformowanych logarytmicznie nie jest taka sama jak logarytm średniej …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.