Statystyki i duże zbiory danych overfitting

1

Matematyczna / algorytmiczna definicja nadmiernego dopasowania

Czy istnieje matematyczna lub algorytmiczna definicja nadmiernego dopasowania? Często podawanymi definicjami są klasyczny dwuwymiarowy wykres punktów z linią przechodzącą przez każdy punkt, a krzywa utraty walidacji nagle rośnie. Ale czy istnieje matematycznie rygorystyczna definicja?

18 mathematical-statistics optimization overfitting

3

Czy walidacja krzyżowa wystarcza, aby zapobiec nadmiernemu dopasowaniu?

Jeśli mam dane i prowadzę klasyfikację (powiedzmy losowy las na tych danych) z walidacją krzyżową (powiedzmy 5-krotnie), czy mogę dojść do wniosku, że w mojej metodzie nie ma nadmiernego dopasowania?

17 cross-validation overfitting

1

Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?

Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego? Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki …

16 model-selection overfitting out-of-sample

1

Czy w statystycznej teorii uczenia się nie występuje problem przeregulowania zestawu testowego?

Rozważmy problem związany z klasyfikacją zestawu danych MNIST. Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional. Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę, którą uzyskali przy użyciu jako , oraz ich …

16 machine-learning classification overfitting probability-inequalities

2

Jaką miarę błędu szkolenia zgłosić w Losowych lasach?

Obecnie dopasowuję losowe lasy pod kątem problemu z klasyfikacją za pomocą randomForestpakietu w R i nie jestem pewien, jak zgłosić błąd szkolenia dla tych modeli. Mój błąd szkolenia jest bliski 0%, kiedy go obliczam, używając prognoz, które otrzymuję za pomocą polecenia: predict(model, data=X_train) gdzie X_trainsą dane treningowe. W odpowiedzi na …

16 r machine-learning classification random-forest overfitting

2

Radzenie sobie z pojedynczym dopasowaniem w modelach mieszanych

Powiedzmy, że mamy model mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects …

16 mixed-model lme4-nlme overfitting singular

2

Błąd braku torby sprawia, że CV w Losowych lasach nie jest konieczne?

Jestem całkiem nowy w losowych lasach. W przeszłości zawsze porównywałem dokładność dopasowania vs test z dopasowaniem vs pociągiem, aby wykryć przeregulowanie. Ale właśnie przeczytałem tutaj, że: „W losowych lasach nie ma potrzeby weryfikacji krzyżowej ani oddzielnego zestawu testowego, aby uzyskać obiektywne oszacowanie błędu zestawu testowego. Jest ono szacowane wewnętrznie podczas …

15 cross-validation random-forest overfitting

2

Optymalizacja: źródło wszelkiego zła w statystykach?

Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …

14 cross-validation optimization overfitting

3

Jak wykryć nadmierne dopasowanie modelu regresji?

Kiedy jesteś tym, który wykonuje tę pracę, mając świadomość tego, co robisz, masz poczucie, że nadmiernie dopasowujesz się do modelu. Po pierwsze, możesz śledzić trend lub pogorszenie w skorygowanym kwadracie R. modelu. Można również śledzić podobne pogorszenie wartości p współczynników regresji głównych zmiennych. Ale kiedy właśnie czytasz kogoś innego i …

14 regression multivariate-analysis overfitting

1

Luka między błędami „pociąg a test” i jej związek z nadmiernym wyposażeniem: pogodzenie sprzecznych porad

Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub zrozumieć, czego tu brakuje). …

14 cross-validation overfitting

2

Jak pasuje k-krotnie walidacja krzyżowa w kontekście zestawów szkoleniowych / walidacyjnych / testowych?

Moje główne pytanie dotyczy prób zrozumienia, w jaki sposób k-krotna walidacja krzyżowa pasuje w kontekście posiadania zestawów szkoleniowych / walidacyjnych / testowych (jeśli w ogóle pasuje w takim kontekście). Zwykle ludzie mówią o podziale danych na zestaw treningowy, walidacyjny i testowy - powiedzmy w stosunku 60/20/20 na kurs Andrew Ng …

14 cross-validation dataset overfitting

2

Czy skorelowane dane wejściowe prowadzą do nadmiernego dopasowania do sieci neuronowych?

Moim zdaniem skorelowane dane wejściowe muszą prowadzić do nadmiernego dopasowania w sieciach neuronowych, ponieważ sieć uczy się korelacji, np. Szumu w danych. Czy to jest poprawne?

13 correlation neural-networks overfitting

1

Zapobieganie przeuczeniu LSTM w małym zestawie danych

Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …

13 deep-learning regularization overfitting lstm

3

Bayesian vs MLE, problem przeuczenia

W książce Bishopa PRML mówi, że nadmierne dopasowanie jest problemem związanym z oszacowaniem maksymalnej wiarygodności (MLE), a Bayesian może tego uniknąć. Ale myślę, że nadmierne dopasowanie to problem bardziej związany z wyborem modelu, a nie z metodą stosowaną do oszacowania parametrów. To znaczy, załóżmy, że mam zestaw danych , który …

13 bayesian model-selection overfitting

3

Czy lepiej wybrać rozkłady na podstawie teorii, dopasowania czy czegoś innego?

Graniczy to z filozoficznym pytaniem, ale interesuje mnie, jak inni z większym doświadczeniem myślą o wyborze dystrybucji. W niektórych przypadkach wydaje się jasne, że teoria może działać najlepiej (długość ogona myszy jest prawdopodobnie zwykle rozkładana). W wielu przypadkach prawdopodobnie nie ma teorii do opisania zestawu danych, więc po prostu używasz …

12 distributions overfitting heuristic

Pytania otagowane jako overfitting