Statystyki i duże zbiory danych

8

Funkcja celu, funkcja kosztu, funkcja straty: czy to to samo?

W uczeniu maszynowym ludzie mówią o funkcji celu, funkcji kosztu, funkcji straty. Czy to tylko różne nazwy tego samego? Kiedy ich używać? Jeśli nie zawsze odnoszą się do tej samej rzeczy, jakie są różnice?

80 machine-learning terminology artificial-intelligence

2

Rozbieżność KL między dwoma jednowymiarowymi gaussami

Muszę ustalić rozbieżność KL między dwoma Gaussami. Porównuję moje wyniki z tymi , ale nie mogę odtworzyć ich wyników. Mój wynik jest oczywiście błędny, ponieważ KL nie jest równe 0 dla KL (p, p). Zastanawiam się, gdzie popełniam błąd i pytam, czy ktokolwiek może to zauważyć. Niech p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, …

79 normal-distribution kullback-leibler

9

Prawdopodobieństwo pojedynczego zdarzenia w przyszłości: co to znaczy, że „Hillary ma 75% szans na wygraną”?

Ponieważ wybory są zdarzeniem jednorazowym, nie można powtórzyć eksperymentu. Co dokładnie oznacza technicznie stwierdzenie „Hillary ma 75% szans na wygraną” ? Szukam statystycznie poprawnej definicji, a nie intuicyjnej czy konceptualnej. Jestem fanem statystyk amatorskich, który próbuje odpowiedzieć na to pytanie, które pojawiło się w dyskusji. Jestem prawie pewien, że istnieje …

79 probability prediction politics

7

The Book of Why autorstwa Judei Pearl: Dlaczego niszczy statystyki?

Czytam The Book of Why Judei Pearl i zaczyna się ona pod moją skórą 1 . W szczególności wydaje mi się, że bezwarunkowo krytykuje „klasyczne” statystyki, wysuwając argument słaby, że statystyki nigdy nie są w stanie zbadać związków przyczynowych, że nigdy nie są zainteresowane relacjami przyczynowymi, a statystyki „stały się …

79 causality

8

Obliczanie optymalnej liczby pojemników na histogramie

Interesuje mnie znalezienie możliwie optymalnej metody określania, ile pojemników powinienem użyć na histogramie. Moje dane powinny mieścić się w przedziale od 30 do 350 obiektów, a w szczególności staram się stosować próg (taki jak metoda Otsu), w którym „dobre” obiekty, których powinienem mieć mniej i które powinny być bardziej rozproszone, …

79 rule-of-thumb histogram

5

Jaka jest różnica między uczeniem się poza polityką a uczeniem się na podstawie polityki?

Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób: „Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ” …

78 machine-learning reinforcement-learning artificial-intelligence

21

Darmowe zasoby do nauki R.

Jestem zainteresowany nauką R na taniej. Jaki jest najlepszy darmowy zasób / książka / tutorial do nauki R?

78 r references

6

Jak stwierdzić, czy dane są „klastrowane” wystarczająco, aby algorytmy klastrowania mogły dać znaczące wyniki?

Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby rzeczywiste wyniki grupowania były znaczące (a nie fałszywe)? Czy klastrowanie powinno być widoczne, …

78 clustering k-means

5

Jak ręcznie obliczyć obszar pod krzywą (AUC) lub statystykę c

Interesuje mnie ręczne obliczanie pola pod krzywą (AUC) lub statystyki c dla binarnego modelu regresji logistycznej. Na przykład w zbiorze danych sprawdzania poprawności mam prawdziwą wartość zmiennej zależnej retencji (1 = zachowane; 0 = nie zachowane), a także przewidywany status retencji dla każdej obserwacji wygenerowanej przez moją analizę regresji przy …

78 regression logistic classification roc auc

7

Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?

Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta …

78 regression modeling continuous-data binning regression-strategies

1

Korelacja między zmienną nominalną (IV) a zmienną ciągłą (DV)

Mam zmienną nominalną (różne tematy konwersacji, zakodowane jako topic0 = 0 itd.) I kilka zmiennych skalowych (DV), takich jak długość konwersacji. Jak mogę ustalić korelacje między zmiennymi nominalnymi i skalowanymi?

77 correlation continuous-data categorical-data

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Jak stworzyć ładny wykres wyników analizy skupień k-średnich?

Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda fajnie, ale wciąż jest w fazie rozwoju. Przeczytałem też coś o …

77 data-visualization classification k-means unsupervised-learning

3

Kiedy R jest kwadratem ujemne?

Mi się, że nie mogą być ujemne, jak to jest kwadratem R. Jednakże uruchomiony prostą regresję liniową w SPSS z jedną zmienną niezależną i zmienną zależną. Moje wyjście SPSS dają mi ujemną wartość R 2 . Jeśli nie było obliczyć tego ręką z R wówczas R 2 to pozytywny. Co …

77 regression spss r-squared

7

Test T na nietypowy, gdy N> 50?

Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda? Jeśli prawda jest taka ze względu na centralne twierdzenie graniczne?

77 normal-distribution t-test central-limit-theorem