Statystyki i duże zbiory danych correlation

5

Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)

Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

9

Korelacja nie oznacza związku przyczynowego; ale co, gdy jedną ze zmiennych jest czas?

Wiem, że pytanie zostało zadane miliard razy, więc po zapoznaniu się z Internetem jestem w pełni przekonany, że korelacja między 2 zmiennymi nie oznacza związku przyczynowego. W jednym z moich dzisiejszych wykładów statystycznych mieliśmy wykład gościnny z fizykiem na temat znaczenia metod statystycznych w fizyce. Powiedział zdumiewające oświadczenie: korelacja nie …

41 correlation mathematical-statistics causality

4

Dlaczego zerowa korelacja niekoniecznie oznacza niezależność

Jeśli dwie zmienne mają korelację 0, to dlaczego niekoniecznie są one niezależne? Czy zmienne skorelowane z zerami są niezależne w szczególnych okolicznościach? Jeśli to możliwe, szukam intuicyjnego wyjaśnienia, a nie wysoce technicznego.

41 correlation independence

5

Powiązania pomiędzy

Powiedzmy, że mam dwie tablice 1-wymiarowe, za1a1a_1 i za2)a2a_2 . Każdy zawiera 100 punktów danych. 1 jest rzeczywiste dane i 2 jest przewidywania modelu. W tym przypadku, R 2 wartość będzie: R 2 = 1 - S S r e sza1a1a_1za2)a2a_2R2)R2R^2R2)= 1 - S.S.r e sS.S.t o t ( 1 …

39 correlation r-squared

9

Jaki jest związek między

Jaki jest związek między i na poniższym wykresie? Moim zdaniem istnieje ujemny związek liniowy, ale ponieważ mamy wiele wartości odstających, związek jest bardzo słaby. Czy mam rację? Chcę się dowiedzieć, jak wyjaśnić wykresy rozrzutu.XYYYXXX

38 self-study correlation scatterplot

3

Różnica między losowym lasem a wyjątkowo losowymi drzewami

Zrozumiałem, że losowy las i skrajnie losowe drzewa różnią się tym, że podziały drzew w losowym lesie są deterministyczne, podczas gdy są losowe w przypadku ekstremalnie losowych drzew (dokładniej, następny podział jest najlepszym podziałem wśród losowych jednolitych podziałów w wybranych zmiennych dla bieżącego drzewa). Ale nie do końca rozumiem wpływ …

38 machine-learning correlation references random-forest

1

Ręcznie obliczone

Wiem, że jest to dość specyficzne Rpytanie, ale mogę myśleć o wariancji proporcji wyjaśnionej, , niepoprawnie. Tutaj idzie.R2R2R^2 Próbuję użyć Rpakietu randomForest. Mam trochę danych treningowych i danych testowych. Po dopasowaniu losowego modelu lasu randomForestfunkcja umożliwia wprowadzenie nowych danych testowych do przetestowania. Następnie podaje procent wariancji wyjaśniony w tych nowych …

38 r correlation predictive-models random-forest r-squared

1

Dlaczego test Mantela jest lepszy od testu Morana?

Test Mantela jest szeroko stosowany w badaniach biologicznych w celu zbadania korelacji między rozkładem przestrzennym zwierząt (pozycja w przestrzeni) z, na przykład, ich genetycznym spokrewnieniem, szybkością agresji lub innymi atrybutami. Korzysta z niego wiele dobrych czasopism ( PNAS, Animal Behavior, Molecular Ecology ... ). Sfabrykowałem kilka wzorów, które mogą występować …

37 r correlation spatial pattern-recognition

2

Co to jest symetria złożona w języku angielskim?

I ostatnio sobie sprawę , że model mieszany tylko z przedmiotu jako przypadkowy czynnik i inne czynniki, jak czynniki stałe po ustawieniu korelacyjnej struktury mieszanego modelu do związku symetrii równoważna ANOVA. Dlatego chciałbym wiedzieć, co oznacza symetria złożona w kontekście mieszanej (tj. Podzielonej fabuły) analizy wariancji, najlepiej wyjaśnionej prostym językiem …

35 correlation anova mixed-model lme4-nlme

4

X i Y nie są skorelowane, ale X jest znaczącym predyktorem Y w regresji wielokrotnej. Co to znaczy?

X i Y nie są skorelowane (-.01); jednak gdy umieszczam X w regresji wielokrotnej przewidującej Y, obok trzech (A, B, C) innych (powiązanych) zmiennych, X i dwie inne zmienne (A, B) są znaczącymi predyktorami Y. Zwróć uwagę, że dwie pozostałe ( A, B) zmienne są istotnie skorelowane z Y poza …

34 regression correlation interpretation causality

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

2

Wariancja iloczynu zmiennych zależnych

Jaki jest wzór na wariancję iloczynu zmiennych zależnych? W przypadku zmiennych niezależnych formuła jest prosta: v a r (XY) = E( X2)Y2)) - E( XY)2)= v a r ( X) v a r ( Y) + v a r ( X) E( Y)2)+ v a r ( Y) E( X)2)var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 …

31 correlation variance

6

Jeśli „korelacja nie oznacza związku przyczynowego”, to jeśli znajdę korelację istotną statystycznie, jak mogę udowodnić związek przyczynowy?

Rozumiem, że korelacja nie jest przyczyną . Załóżmy, że otrzymujemy wysoką korelację między dwiema zmiennymi. Jak sprawdzić, czy ta korelacja jest rzeczywiście spowodowana przyczyną? Lub, pod jakimi dokładnie warunkami możemy wykorzystać dane eksperymentalne, aby wywnioskować związek przyczynowy między dwiema lub więcej zmiennymi?

30 correlation mathematical-statistics causality

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

SVD skorelowanej macierzy powinno być addytywne, ale nie wydaje się

Usiłuję tylko powtórzyć twierdzenie przedstawione w poniższym artykule Finding Correlated Biclusters z Gene Expression Data , czyli: Twierdzenie 4. Jeśli . Następnie mamy:Xjajot= RjadoT.jotXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ja. Jeśli jest idealnym biclusterem z modelem addytywnym, to jest idealnym biclusterem z korelacją na kolumnach; ii. Jeśli jest idealnym bicluster z modelem addytywnym, to jest …

29 correlation multivariate-analysis svd

Pytania otagowane jako correlation