Pytania otagowane jako multivariate-analysis

Analizuje, gdzie analizowanych jest jednocześnie więcej niż jedna zmienna, a te zmienne są albo zależne (reakcyjne), albo jedyne w analizie. Można to skontrastować z analizą „wielokrotną” lub „wielowymiarową”, która zakłada więcej niż jedną zmienną predykcyjną (niezależną).


13
Jaki jest najlepszy sposób identyfikowania wartości odstających w danych wielowymiarowych?
Załóżmy, że mam duży zestaw danych wielowymiarowych z co najmniej trzema zmiennymi. Jak znaleźć wartości odstające? Pary rozproszone wykresy nie będą działać, ponieważ możliwe jest istnienie wartości odstającej w 3 wymiarach, która nie jest wartością odstającą w żadnej z dwuwymiarowych podprzestrzeni. Nie myślę o problemie z regresją, ale o prawdziwych …

3
Czy można mieć parę losowych zmiennych Gaussa, dla których rozkład połączeń nie jest Gaussowski?
Ktoś zadał mi to pytanie podczas rozmowy kwalifikacyjnej, a ja odpowiedziałem, że ich wspólna dystrybucja jest zawsze gaussowska. Myślałem, że zawsze potrafię napisać dwuwymiarowy gaussowski za pomocą jego środków, wariancji i kowariancji. Zastanawiam się, czy może istnieć przypadek, w którym łączne prawdopodobieństwo dwóch Gaussów nie jest Gaussowskie?

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


2
Jaki jest związek między analizą niezależnych składników a analizą czynnikową?
Jestem nowy w Independent Component Analysis (ICA) i mam tylko podstawowe zrozumienie tej metody. Wydaje mi się, że ICA jest podobna do analizy czynnikowej (FA) z jednym wyjątkiem: ICA zakłada, że ​​obserwowane zmienne losowe są liniową kombinacją niezależnych składników / czynników niegaussowskich, podczas gdy klasyczny model FA zakłada, że ​​obserwowane …

5
Czy dostosowanie wartości p w regresji wielokrotnej w celu wielokrotnych porównań jest dobrym pomysłem?
Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). …

3
Jaka intuicja kryje się za warunkowymi rozkładami Gaussa?
Załóżmy, że X ∼ N2)( μ , Σ )X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Następnie rozkład warunkowy X1X1X_1 biorąc pod uwagę, że X2)= x2)X2=x2X_2 = x_2 jest rozkładem wielowymiarowym normalnie rozkładanym ze średnią: mi[ P( X1| X2)= x2)) ] = μ1+ σ12σ22( x2)- μ2))E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) …

3
Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie
Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
Czym różnią się oceny skłonności od dodawania zmiennych towarzyszących w regresji i kiedy są one preferowane w stosunku do tej ostatniej?
Przyznaję, że jestem stosunkowo nowy w ocenach skłonności i analizie przyczynowej. Jedną z rzeczy, która nie jest dla mnie oczywista jako nowicjusz, jest to, że „równoważenie” za pomocą wyników skłonności różni się matematycznie od tego, co dzieje się, gdy dodamy zmienne towarzyszące w regresji? Czym różni się operacja i dlaczego …

1
Analiza PCA i korespondencji w odniesieniu do Biplot
Biplot jest często używany do wyświetlania wyników analizy głównych składników (i powiązanych technik). Jest to podwójny lub nakładkowy wykres rozrzutu pokazujący obciążenia komponentów i oceny komponentów jednocześnie. @Amoeba poinformował mnie dzisiaj, że udzielił odpowiedzi odbiegającej od mojego komentarza do pytania, które dotyczy tego, w jaki sposób współrzędne biplot są produkowane …

3
Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
SVD skorelowanej macierzy powinno być addytywne, ale nie wydaje się
Usiłuję tylko powtórzyć twierdzenie przedstawione w poniższym artykule Finding Correlated Biclusters z Gene Expression Data , czyli: Twierdzenie 4. Jeśli . Następnie mamy:Xjajot= RjadoT.jotXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ja. Jeśli jest idealnym biclusterem z modelem addytywnym, to jest idealnym biclusterem z korelacją na kolumnach; ii. Jeśli jest idealnym bicluster z modelem addytywnym, to jest …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.