Pytania otagowane jako validation

Proces oceniania, czy wyniki analizy mogą się utrzymywać poza pierwotnym otoczeniem badawczym. NIE używaj tego znacznika do omawiania „ważności” pomiaru lub instrumentu (na przykład tego, że mierzy to, do czego ma on służyć), zamiast tego użyj tagu [poprawność].

1
logloss vs gini / auc
Przeszkoliłem dwa modele (klasyfikatory binarne przy użyciu h2o AutoML) i chcę wybrać jeden do użycia. Mam następujące wyniki: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auci loglosskolumny są metryki cross-validation (tylko krzyż walidacja wykorzystuje dane szkolenie). …

1
Czy podczas budowania modelu regresji przy użyciu oddzielnych zestawów modelowania / sprawdzania poprawności należy „ponownie wprowadzić do obiegu” dane sprawdzania poprawności?
Załóżmy, że mam podział 80/20 między obserwacjami modelowania / walidacji. Dopasowałem model do zestawu danych modelowania i czuję się dobrze z błędem, który widzę w zestawie danych sprawdzania poprawności. Przed wdrożeniem mojego modelu do oceny przyszłych obserwacji, czy właściwe jest połączenie weryfikacji z powrotem z danymi modelowania, aby uzyskać zaktualizowane …

3
Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?
W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?

1
Nazwa średniego błędu bezwzględnego analogicznego do wyniku Briera?
Wczorajsze pytanie Określ dokładność modelu, który szacuje prawdopodobieństwo zdarzenia, zainteresowało mnie do oceny prawdopodobieństwa. Wynik Briera jest średnią kwadratową miarą błędu. Czy analogiczna średnia miara błędu bezwzględnego masz też imię?1N.∑i = 1N.( p r e di c t i O Nja- r e fe r e n c eja)2)1N.∑ja=1N.(prmirejadotjaonja-rmifamirmindomija)2)\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i …

3
Dzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji
Jaki jest najlepszy sposób na podzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji, gdzie zestaw walidacji byłby wykorzystywany do strojenia hiperparametrów? Mamy 3-letnie dzienne dane dotyczące sprzedaży, a naszym planem jest wykorzystanie danych szkoleniowych 2015-2016, a następnie losowe próbkowanie 10 tygodni z danych z 2017 r., Które …

2
Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

1
Jaka intuicja kryje się za metryką zmienności informacji (VI) do walidacji klastra?
Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam wielu warunków klastrowania. Poniżej znajduje się MWE i chciałbym wiedzieć, co …

1
Metryka oceny prognozy dla danych panelowych / podłużnych
Chciałbym ocenić kilka różnych modeli, które przewidują zachowanie na poziomie miesięcznym. Dane są zbilansowane, a 100 000, a 12. Rezultatem jest udział w koncercie w danym miesiącu, więc wynosi około 80% ludzi w dowolnym miesiącu, ale długi ogon dużych użytkowników jest długi. Przewidywane przeze mnie przewidywania wydają się nie szanować …

3
Co to jest kontrola spójności?
Zadano mi takie pytanie, jak „Czy sprawdzałeś spójność w swojej codziennej pracy?” podczas rozmowy telefonicznej na stanowisko biostatystyczne. Nie wiem co odpowiedzieć. Wszelkie informacje są mile widziane.
11 validation 


2
Błąd nastawienia optymistycznego - szacunki błędu prognozowania
Książka Elements of Statistics Learning (dostępna w PDF online) omawia stronniczość optymisim (7.21, strona 229). Stwierdza, że ​​nastawienie optymistyczne stanowi różnicę między błędem treningu a błędem w próbie (błąd zaobserwowany, jeśli próbkujemy nowe wartości wyników w każdym z oryginalnych punktów szkolenia) (poniżej). Następnie stwierdza, że ​​to uprzedzenie optymistyczne ( ) …

4
Obliczanie stosunku przykładowych danych wykorzystywanych do dopasowania / szkolenia modelu i walidacji
Podano wielkość próby „N”, której planuję użyć do prognozowania danych. Jakie są niektóre sposoby podziału danych, aby wykorzystać niektóre z nich do ustanowienia modelu, a pozostałe dane do zweryfikowania modelu? Wiem, że nie ma czarno-białej odpowiedzi na to pytanie, ale byłoby interesujące znać pewne „ogólne zasady” lub zwykle używane proporcje. …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.