Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


2
Rozbieżność KL między dwoma jednowymiarowymi gaussami
Muszę ustalić rozbieżność KL między dwoma Gaussami. Porównuję moje wyniki z tymi , ale nie mogę odtworzyć ich wyników. Mój wynik jest oczywiście błędny, ponieważ KL nie jest równe 0 dla KL (p, p). Zastanawiam się, gdzie popełniam błąd i pytam, czy ktokolwiek może to zauważyć. Niech p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, …

9
Prawdopodobieństwo pojedynczego zdarzenia w przyszłości: co to znaczy, że „Hillary ma 75% szans na wygraną”?
Ponieważ wybory są zdarzeniem jednorazowym, nie można powtórzyć eksperymentu. Co dokładnie oznacza technicznie stwierdzenie „Hillary ma 75% szans na wygraną” ? Szukam statystycznie poprawnej definicji, a nie intuicyjnej czy konceptualnej. Jestem fanem statystyk amatorskich, który próbuje odpowiedzieć na to pytanie, które pojawiło się w dyskusji. Jestem prawie pewien, że istnieje …

7
The Book of Why autorstwa Judei Pearl: Dlaczego niszczy statystyki?
Czytam The Book of Why Judei Pearl i zaczyna się ona pod moją skórą 1 . W szczególności wydaje mi się, że bezwarunkowo krytykuje „klasyczne” statystyki, wysuwając argument słaby, że statystyki nigdy nie są w stanie zbadać związków przyczynowych, że nigdy nie są zainteresowane relacjami przyczynowymi, a statystyki „stały się …
79 causality 

8
Obliczanie optymalnej liczby pojemników na histogramie
Interesuje mnie znalezienie możliwie optymalnej metody określania, ile pojemników powinienem użyć na histogramie. Moje dane powinny mieścić się w przedziale od 30 do 350 obiektów, a w szczególności staram się stosować próg (taki jak metoda Otsu), w którym „dobre” obiekty, których powinienem mieć mniej i które powinny być bardziej rozproszone, …

5
Jaka jest różnica między uczeniem się poza polityką a uczeniem się na podstawie polityki?
Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób: „Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ” …


6
Jak stwierdzić, czy dane są „klastrowane” wystarczająco, aby algorytmy klastrowania mogły dać znaczące wyniki?
Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby rzeczywiste wyniki grupowania były znaczące (a nie fałszywe)? Czy klastrowanie powinno być widoczne, …

5
Jak ręcznie obliczyć obszar pod krzywą (AUC) lub statystykę c
Interesuje mnie ręczne obliczanie pola pod krzywą (AUC) lub statystyki c dla binarnego modelu regresji logistycznej. Na przykład w zbiorze danych sprawdzania poprawności mam prawdziwą wartość zmiennej zależnej retencji (1 = zachowane; 0 = nie zachowane), a także przewidywany status retencji dla każdej obserwacji wygenerowanej przez moją analizę regresji przy …

7
Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?
Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta …


3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Jak stworzyć ładny wykres wyników analizy skupień k-średnich?
Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda fajnie, ale wciąż jest w fazie rozwoju. Przeczytałem też coś o …

3
Kiedy R jest kwadratem ujemne?
Mi się, że nie mogą być ujemne, jak to jest kwadratem R. Jednakże uruchomiony prostą regresję liniową w SPSS z jedną zmienną niezależną i zmienną zależną. Moje wyjście SPSS dają mi ujemną wartość R 2 . Jeśli nie było obliczyć tego ręką z R wówczas R 2 to pozytywny. Co …

7
Test T na nietypowy, gdy N> 50?
Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda? Jeśli prawda jest taka ze względu na centralne twierdzenie graniczne?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.