Podczas podziału moich oznaczonych danych na zestawy szkoleniowe, walidacyjne i testowe słyszałem wszystko od 50/25/25 do 85/5/10. Jestem pewien, że zależy to od tego, w jaki sposób zamierzasz używać swojego modelu i od tego, jak podatna jest na nadmierne dopasowanie algorytmu uczenia się. Czy istnieje sposób, aby zdecydować, czy to …
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
Biorąc pod uwagę wielokrotne sprawdzanie poprawności krzyżowej regresji logistycznej i wynikające z niej wielokrotne oszacowania każdego współczynnika regresji, w jaki sposób należy zmierzyć, czy predyktor (lub zestaw predyktorów) jest / są stabilne i znaczące na podstawie współczynników regresji ? Czy jest inaczej w przypadku regresji liniowej?
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …
Funkcja R cv.glm (biblioteka: boot) oblicza szacowany błąd prognozy krotności K-krotności dla uogólnionych modeli liniowych i zwraca deltę. Czy warto używać tej funkcji do regresji lasso (biblioteka: glmnet), a jeśli tak, to w jaki sposób można ją przeprowadzić? Biblioteka glmnet używa weryfikacji krzyżowej, aby uzyskać najlepszy parametr zwrotny, ale nie …
Często widzę ludzi mówiących o walidacji krzyżowej 5x2 jako szczególnym przypadku walidacji krzyżowej zagnieżdżonej . Zakładam, że pierwsza liczba (tutaj: 5) odnosi się do liczby fałd w wewnętrznej pętli, a druga liczba (tutaj: 2) odnosi się do liczby fałd w zewnętrznej pętli? Czym zatem różni się to od „tradycyjnego” podejścia …
Próbuję dowiedzieć się, czy moje rozumienie zagnieżdżonej weryfikacji krzyżowej jest prawidłowe, dlatego napisałem ten zabawkowy przykład, aby sprawdzić, czy mam rację: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …
Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …
Moje pytania dotyczą GAM w pakiecie mgcv R. Ze względu na niewielki rozmiar próbki chcę określić błąd prognozy za pomocą weryfikacji krzyżowej z pominięciem jednego z nich. Czy to rozsądne? Czy istnieje pakiet lub kod, jak to zrobić? errorest()Funkcja w IPRED pakietu nie działa. Prosty testowy zestaw danych to: library(mgcv) …
Czy szacunkowe odchylenia standardowe są obliczane za pomocą: sN.=1N.∑N.i = 1(xja-x¯¯¯)2)-------------√.sN.=1N.∑ja=1N.(xja-x¯)2). s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) dla dokładności prognoz z 10-krotnej walidacji krzyżowej? Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne). Wszelkie …
W większości sytuacji mamy do czynienia tylko z jedną zmienną wynik / odpowiedź, taką jak y= a + b x + ϵy=a+bx+ϵy = a + bx +\epsilon. Jednak w niektórych scenariuszach, szczególnie w danych klinicznych, zmienne wynikowe mogą być wielowymiarowe / wielowymiarowe. Jak na przykładY=βx+ϵY=βx+ϵ\mathsf{Y} = \beta{x} + \mathsf{\epsilon}, gdzie …
Używam 2 rodzajów regresji logistycznej - jeden jest typem prostym do klasyfikacji binarnej, a drugi to porządkowa regresja logistyczna. Do obliczenia dokładności pierwszego użyłem walidacji krzyżowej, w której obliczyłem AUC dla każdego krotności, a następnie obliczyłem średnią AUC. Jak mogę to zrobić dla porządkowej regresji logistycznej? Słyszałem o uogólnionym ROC …
Podczas przeprowadzania 5-krotnej walidacji krzyżowej (na przykład) typowe jest obliczanie osobnej krzywej ROC dla każdej z 5 krotności i często pomnożenie średniej krzywej ROC ze std. dev. pokazane jako grubość krzywej. Jednak w przypadku walidacji krzyżowej LOO, w której w każdym folderze jest tylko jeden testowy punkt danych, obliczenie „krzywej” …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.