Statystyki i duże zbiory danych validation

1

Przeszkoliłem dwa modele (klasyfikatory binarne przy użyciu h2o AutoML) i chcę wybrać jeden do użycia. Mam następujące wyniki: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auci loglosskolumny są metryki cross-validation (tylko krzyż walidacja wykorzystuje dane szkolenie). …

15 model-selection validation auc gini log-loss

1

Czy podczas budowania modelu regresji przy użyciu oddzielnych zestawów modelowania / sprawdzania poprawności należy „ponownie wprowadzić do obiegu” dane sprawdzania poprawności?

Załóżmy, że mam podział 80/20 między obserwacjami modelowania / walidacji. Dopasowałem model do zestawu danych modelowania i czuję się dobrze z błędem, który widzę w zestawie danych sprawdzania poprawności. Przed wdrożeniem mojego modelu do oceny przyszłych obserwacji, czy właściwe jest połączenie weryfikacji z powrotem z danymi modelowania, aby uzyskać zaktualizowane …

13 regression predictive-models validation

3

Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?

W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?

12 regression validation model-evaluation out-of-sample

1

Nazwa średniego błędu bezwzględnego analogicznego do wyniku Briera?

Wczorajsze pytanie Określ dokładność modelu, który szacuje prawdopodobieństwo zdarzenia, zainteresowało mnie do oceny prawdopodobieństwa. Wynik Briera jest średnią kwadratową miarą błędu. Czy analogiczna średnia miara błędu bezwzględnego masz też imię?1N.∑i = 1N.( p r e di c t i O Nja- r e fe r e n c eja)2)1N.∑ja=1N.(prmirejadotjaonja-rmifamirmindomija)2)\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i …

12 classification error validation scoring-rules brier-score

3

Dzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji

Jaki jest najlepszy sposób na podzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji, gdzie zestaw walidacji byłby wykorzystywany do strojenia hiperparametrów? Mamy 3-letnie dzienne dane dotyczące sprzedaży, a naszym planem jest wykorzystanie danych szkoleniowych 2015-2016, a następnie losowe próbkowanie 10 tygodni z danych z 2017 r., Które …

12 time-series cross-validation validation

2

Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?

Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

11 cross-validation error regularization validation optimization

1

Jaka intuicja kryje się za metryką zmienności informacji (VI) do walidacji klastra?

Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam wielu warunków klastrowania. Poniżej znajduje się MWE i chciałbym wiedzieć, co …

11 r clustering validation intuition

1

Metryka oceny prognozy dla danych panelowych / podłużnych

Chciałbym ocenić kilka różnych modeli, które przewidują zachowanie na poziomie miesięcznym. Dane są zbilansowane, a 100 000, a 12. Rezultatem jest udział w koncercie w danym miesiącu, więc wynosi około 80% ludzi w dowolnym miesiącu, ale długi ogon dużych użytkowników jest długi. Przewidywane przeze mnie przewidywania wydają się nie szanować …

11 repeated-measures predictive-models stata panel-data validation

3

Co to jest kontrola spójności?

Zadano mi takie pytanie, jak „Czy sprawdzałeś spójność w swojej codziennej pracy?” podczas rozmowy telefonicznej na stanowisko biostatystyczne. Nie wiem co odpowiedzieć. Wszelkie informacje są mile widziane.

11 validation

2

Jak zrobić reprezentatywny zestaw próbek z dużego ogólnego zestawu danych?

Jakie są techniki statystyczne, aby utworzyć zestaw próbek, który jest reprezentatywny dla całej populacji (o znanym poziomie ufności)? Również, Jak sprawdzić poprawność, jeśli próbka pasuje do całego zestawu danych? Czy jest to możliwe bez analizowania całego zestawu danych (co może być miliardami rekordów)?

10 sampling sample-size validation

2

Błąd nastawienia optymistycznego - szacunki błędu prognozowania

Książka Elements of Statistics Learning (dostępna w PDF online) omawia stronniczość optymisim (7.21, strona 229). Stwierdza, że nastawienie optymistyczne stanowi różnicę między błędem treningu a błędem w próbie (błąd zaobserwowany, jeśli próbkujemy nowe wartości wyników w każdym z oryginalnych punktów szkolenia) (poniżej). Następnie stwierdza, że to uprzedzenie optymistyczne ( ) …

9 error bias validation

4

Obliczanie stosunku przykładowych danych wykorzystywanych do dopasowania / szkolenia modelu i walidacji

Podano wielkość próby „N”, której planuję użyć do prognozowania danych. Jakie są niektóre sposoby podziału danych, aby wykorzystać niektóre z nich do ustanowienia modelu, a pozostałe dane do zweryfikowania modelu? Wiem, że nie ma czarno-białej odpowiedzi na to pytanie, ale byłoby interesujące znać pewne „ogólne zasady” lub zwykle używane proporcje. …

9 machine-learning modeling sample validation

Pytania otagowane jako validation