Statystyki i duże zbiory danych non-independent

5

Na temat znaczenia założenia iid w uczeniu statystycznym

W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy D={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \} składa się z NNN krotek wejściowych / odpowiedzi (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) które są niezależne od tego samego rozkładu połączeń P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) z p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) oraz p(y|X)p(y|X)p( …

54 machine-learning cross-validation non-independent iid

5

Jak przetestować powiązanie nieliniowe?

W przypadku wykresu 1 mogę przetestować powiązanie między xiy, wykonując prostą korelację. W przypadku wykresu 2, w którym związek jest nieliniowy, ale istnieje wyraźny związek między xiy, w jaki sposób mogę przetestować powiązanie i oznaczyć jego naturę?

37 nonlinear-regression non-independent association-measure

5

Znaczenie „dodatniej zależności” jako warunek zastosowania zwykłej metody kontroli FDR

Benjamini i Hochberg opracowali pierwszą (i nadal chyba najczęściej stosowaną) metodę kontrolowania wskaźnika fałszywych odkryć (FDR). Chcę zacząć od szeregu wartości P, z których każda służy do innego porównania, i zdecydować, które są wystarczająco niskie, aby nazwać je „odkryciem”, kontrolując FDR do określonej wartości (powiedzmy 10%). Jednym z założeń zwykłej …

36 multiple-comparisons non-independent false-discovery-rate

7

Czy korelacja jest równoważna asocjacji?

Mój profesor statystyki twierdzi, że słowo „korelacja” odnosi się ściśle do relacji liniowych między zmiennymi, podczas gdy słowo „powiązanie” odnosi się szeroko do każdego rodzaju relacji. Innymi słowy, twierdzi, że termin „korelacja nieliniowa” jest oksymoronem. Z tego, co mogę zrobić z tego rozdziału w artykule w Wikipedii na temat „ …

27 correlation terminology non-independent

1

Właściwości PCA dla obserwacji zależnych

Zwykle używamy PCA jako techniki redukcji wymiarów dla danych, w których zakłada się, że przypadki są identyczne Pytanie: Jakie są typowe niuanse w stosowaniu PCA w odniesieniu do zależnych danych innych niż iid? Jakie miłe / użyteczne właściwości PCA, które przechowują dane ID, są zagrożone (lub całkowicie utracone)? Na przykład …

23 time-series pca non-independent iid

1

Prosty język oznaczeń „zależnych” i „niezależnych” testów w literaturze z wieloma porównaniami?

Zarówno w literaturze dotyczącej wskaźnika błędu rodzinnego (FWER), jak i wskaźnika fałszywego wykrywania (FDR), określone metody kontrolowania FWER lub FDR są odpowiednie do testów zależnych lub niezależnych. Na przykład w artykule z 1979 r. „Prosta sekwencyjnie wielokrotna procedura testowa wielokrotnego testu” Holm napisał, aby skontrastować swoją metodę podwyższania Šidáka z …

18 multiple-comparisons independence non-independent familywise-error false-discovery-rate

3

Dla intuicji, jakie są przykłady rzeczywistych nieskorelowanych, ale zależnych zmiennych losowych?

Wyjaśniając, dlaczego nieskorelowane nie oznacza niezależności, istnieje kilka przykładów, które dotyczą szeregu zmiennych losowych, ale wszystkie wydają się tak abstrakcyjne: 1 2 3 4 . Ta odpowiedź wydaje się mieć sens. Moja interpretacja: Zmienna losowa i jej kwadrat mogą być nieskorelowane (ponieważ pozornie brak korelacji jest czymś w rodzaju niezależności …

14 correlation independence non-independent garch intuition

1

Dlaczego modele efektów mieszanych rozwiązują zależność?

Powiedzmy, że interesuje nas, w jaki sposób na oceny egzaminów studenckich wpływa liczba godzin, które studenci studiują. Aby zbadać tę relację, możemy uruchomić następującą regresję liniową: egzamin. ocenyja= a + β1× godziny. Badaneja+ ejaegzamin. ocenyja=za+β1×godziny. badaneja+mija \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i Ale jeśli próbkujemy uczniów z …

14 regression mixed-model random-effects-model non-independent

1

Liniowe modelowanie efektów mieszanych z danymi z badań bliźniaczych

Załóżmy, że mam jakąś zmienną odpowiedzi która została zmierzona od j- tego rodzeństwa w i- tej rodzinie. Ponadto niektóre dane behawioralne x i j zebrano w tym samym czasie od każdego pacjenta. Próbuję przeanalizować sytuację za pomocą następującego liniowego modelu mieszanych efektów:yI jyijy_{ij}jotjjjaiixI jxijx_{ij} yI j= α0+ α1xI j+ δ1 …

14 mixed-model lme4-nlme covariance-matrix non-independent

1

Jaka jest wariancja długoterminowa?

Jak definiuje się wariancję długookresową w dziedzinie analizy szeregów czasowych? Rozumiem, że jest wykorzystywany w przypadku, gdy w danych występuje struktura korelacji. Więc nasz proces stochastyczny nie byłby rodziną i losowych zmiennych, a raczej tylko identycznie rozmieszczonymi?X1,X2…X1,X2…X_1, X_2 \dots Czy mogę podać standardowe odniesienie jako wprowadzenie do koncepcji i trudności …

13 time-series variance references kernel-smoothing non-independent

2

Jak dodać dwie zależne zmienne losowe?

Wiem, że nie mogę użyć splotu. Mam dwie losowe zmienne A i B i są one zależne. Potrzebuję funkcji dystrybucyjnej A + B

13 random-variable non-independent

2

Jak znaleźć średnią sumy zmiennych zależnych?

Wiem, że średnia sumy zmiennych niezależnych jest sumą średnich każdej zmiennej niezależnej. Czy dotyczy to również zmiennych zależnych?

13 mean non-independent

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

Jaka jest różnica między zależnością liniową a korelacją liniową?

Wyjaśnij, jaka jest różnica między dwiema zmiennymi zależnymi liniowo lub skorelowanymi liniowo . Przejrzałem artykuł na Wikipedii, ale nie znalazłem odpowiedniego przykładu. Wyjaśnij to na przykładzie.

12 correlation non-independent

6

Jak problematyczne jest kontrolowanie nie-niezależnych zmiennych towarzyszących w badaniu obserwacyjnym (tj. Bez randomizacji)?

Miller i Chapman (2001) twierdzą, że absolutnie niewłaściwe jest kontrolowanie zmiennych niezależnych, które są powiązane zarówno ze zmiennymi niezależnymi, jak i zależnymi w badaniu obserwacyjnym (nierandomizowanym) - mimo że jest to rutynowo wykonywane w naukach społecznych. Jak problematyczne jest to zrobić? Jak najlepiej poradzić sobie z tym problemem? Jeśli rutynowo …

11 non-independent

Pytania otagowane jako non-independent