Statystyki i duże zbiory danych multivariate-analysis

5

Jakie umiejętności są wymagane do wykonywania analiz statystycznych na dużą skalę?

Wiele prac statystycznych wymaga doświadczenia z danymi na dużą skalę. Jakie są umiejętności statystyczne i obliczeniowe, które byłyby potrzebne do pracy z dużymi zestawami danych. Na przykład, co powiesz na budowanie modeli regresji z zestawem danych z 10 milionami próbek?

107 regression machine-learning multivariate-analysis large-data

13

Jaki jest najlepszy sposób identyfikowania wartości odstających w danych wielowymiarowych?

Załóżmy, że mam duży zestaw danych wielowymiarowych z co najmniej trzema zmiennymi. Jak znaleźć wartości odstające? Pary rozproszone wykresy nie będą działać, ponieważ możliwe jest istnienie wartości odstającej w 3 wymiarach, która nie jest wartością odstającą w żadnej z dwuwymiarowych podprzestrzeni. Nie myślę o problemie z regresją, ale o prawdziwych …

94 multivariate-analysis outliers

3

Czy można mieć parę losowych zmiennych Gaussa, dla których rozkład połączeń nie jest Gaussowski?

Ktoś zadał mi to pytanie podczas rozmowy kwalifikacyjnej, a ja odpowiedziałem, że ich wspólna dystrybucja jest zawsze gaussowska. Myślałem, że zawsze potrafię napisać dwuwymiarowy gaussowski za pomocą jego środków, wariancji i kowariancji. Zastanawiam się, czy może istnieć przypadek, w którym łączne prawdopodobieństwo dwóch Gaussów nie jest Gaussowskie?

91 normal-distribution multivariate-analysis copula bivariate

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Wieloczynnikowa regresja wielokrotna w R.

Mam 2 zmienne zależne (DV), na które na każdy wynik może mieć wpływ zestaw 7 zmiennych niezależnych (IV). DV są ciągłe, podczas gdy zestaw IV składa się z kombinacji zmiennych ciągłych i binarnie kodowanych. (W kodzie poniżej zmienne ciągłe są pisane dużymi literami, a zmienne binarne małymi literami.) Celem badania …

68 r multivariate-analysis manova multiple-regression multivariate-regression

2

Jaki jest związek między analizą niezależnych składników a analizą czynnikową?

Jestem nowy w Independent Component Analysis (ICA) i mam tylko podstawowe zrozumienie tej metody. Wydaje mi się, że ICA jest podobna do analizy czynnikowej (FA) z jednym wyjątkiem: ICA zakłada, że obserwowane zmienne losowe są liniową kombinacją niezależnych składników / czynników niegaussowskich, podczas gdy klasyczny model FA zakłada, że obserwowane …

67 multivariate-analysis factor-analysis ica

5

Czy dostosowanie wartości p w regresji wielokrotnej w celu wielokrotnych porównań jest dobrym pomysłem?

Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

3

Jaka intuicja kryje się za warunkowymi rozkładami Gaussa?

Załóżmy, że X ∼ N2)( μ , Σ )X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Następnie rozkład warunkowy X1X1X_1 biorąc pod uwagę, że X2)= x2)X2=x2X_2 = x_2 jest rozkładem wielowymiarowym normalnie rozkładanym ze średnią: mi[ P( X1| X2)= x2)) ] = μ1+ σ12σ22( x2)- μ2))E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) …

46 normal-distribution multivariate-analysis intuition

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

5

Czym różnią się oceny skłonności od dodawania zmiennych towarzyszących w regresji i kiedy są one preferowane w stosunku do tej ostatniej?

Przyznaję, że jestem stosunkowo nowy w ocenach skłonności i analizie przyczynowej. Jedną z rzeczy, która nie jest dla mnie oczywista jako nowicjusz, jest to, że „równoważenie” za pomocą wyników skłonności różni się matematycznie od tego, co dzieje się, gdy dodamy zmienne towarzyszące w regresji? Czym różni się operacja i dlaczego …

41 regression multivariate-analysis causality propensity-scores

1

Analiza PCA i korespondencji w odniesieniu do Biplot

Biplot jest często używany do wyświetlania wyników analizy głównych składników (i powiązanych technik). Jest to podwójny lub nakładkowy wykres rozrzutu pokazujący obciążenia komponentów i oceny komponentów jednocześnie. @Amoeba poinformował mnie dzisiaj, że udzielił odpowiedzi odbiegającej od mojego komentarza do pytania, które dotyczy tego, w jaki sposób współrzędne biplot są produkowane …

38 pca multivariate-analysis svd correspondence-analysis biplot

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Czy istnieje przyjęta definicja mediany próbki na płaszczyźnie lub wyższych uporządkowanych przestrzeni?

Jeśli tak to co? Jeśli nie, dlaczego nie? W przypadku próbki w linii mediana minimalizuje całkowite odchylenie bezwzględne. Wydaje się naturalne, aby rozszerzyć definicję na R2 itp., Ale nigdy jej nie widziałem. Ale od dłuższego czasu jestem na lewym polu.

33 multivariate-analysis spatial median

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

SVD skorelowanej macierzy powinno być addytywne, ale nie wydaje się

Usiłuję tylko powtórzyć twierdzenie przedstawione w poniższym artykule Finding Correlated Biclusters z Gene Expression Data , czyli: Twierdzenie 4. Jeśli . Następnie mamy:Xjajot= RjadoT.jotXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ja. Jeśli jest idealnym biclusterem z modelem addytywnym, to jest idealnym biclusterem z korelacją na kolumnach; ii. Jeśli jest idealnym bicluster z modelem addytywnym, to jest …

29 correlation multivariate-analysis svd

Pytania otagowane jako multivariate-analysis