Statystyki i duże zbiory danych self-study

2

Jaka jest różnica między cenzurą a obcięciem?

W książce Modele statystyczne i metody dożywotnich danych napisano: Ocenzurowanie: Gdy obserwacja jest niekompletna z jakiejś przypadkowej przyczyny. Obcinanie: gdy niekompletny charakter obserwacji wynika z systematycznego procesu selekcji właściwego dla projektu badania. Co rozumie się przez „systematyczny proces selekcji nieodłączny od projektu badania” w definicji skrótu? Jaka jest różnica między …

30 self-study censoring truncation

6

Jaka jest różnica między regresją logistyczną a perceptronem?

Przeglądam notatki z wykładu Andrew Ng na temat uczenia maszynowego. Notatki wprowadzają nas do regresji logistycznej, a następnie do perceptronu. Opisując Perceptron, notatki mówią, że po prostu zmieniamy definicję funkcji progowej używanej do regresji logistycznej. Po wykonaniu tej czynności możemy użyć modelu Perceptron do klasyfikacji. Moje pytanie brzmi - jeśli …

30 regression machine-learning self-study logistic perceptron

7

Jakie są gałęzie statystyki?

W matematyce istnieją takie gałęzie, jak algebra, analiza, topologia itp. W uczeniu maszynowym uczenie się pod nadzorem, bez nadzoru i wzmacniające. W każdej z tych gałęzi są drobniejsze gałęzie, które dodatkowo dzielą metody. Mam problem ze zrównaniem się ze statystykami. Jakie byłyby główne gałęzie statystyki (i gałęzie podrzędne)? Idealna partycja …

30 self-study classification

4

Pseudo-R2 Interpretacja McFaddena

Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat? Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo R kwadrat McFaddena równy 0,192, podczas …

29 regression self-study logistic

4

Samokształcenie a nauczana edukacja?

Istnieje pytanie o podobnym przeznaczeniu na programmers.SE . To pytanie ma kilka całkiem dobrych odpowiedzi, ale ogólny temat wydaje się być taki, że bez samokształcenia nie ma miejsca. Oczywiście istnieje pewna znacząca różnica między programowaniem a statystyką - dzięki programowaniu naprawdę uczysz się podstawowej logiki, a następnie stosujesz ją wielokrotnie. …

28 self-study references teaching

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

5

Dlaczego rośnie wariancja chodzenia losowego?

Losowo w odległości , która jest określona jako gdzie jest szum biały. Oznacza, że bieżąca pozycja jest sumą poprzedniej pozycji + nieprzewidziany termin.Yt=Yt−1+etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t Możesz udowodnić, że średnia funkcja , ponieważμt=0μt=0\mu_t = 0 E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 …

28 time-series self-study mathematical-statistics stochastic-processes random-walk

8

Poszukuję dobrej i pełnej księgi prawdopodobieństwa i statystyki

Nigdy nie miałem okazji odwiedzić kursu statystyki z wydziału matematyki. Szukam teorii prawdopodobieństwa i księgi statystycznej, która byłaby kompletna i samowystarczalna. Przez kompletne rozumiem, że zawiera wszystkie dowody, a nie tylko wyniki. Przez samowystarczalność rozumiem, że nie muszę czytać innej książki, aby ją zrozumieć. Oczywiście może to wymagać rachunku na …

28 probability self-study mathematical-statistics references

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Który szpital powinien zostać wybrany? Jeden ma wyższy wskaźnik sukcesu, ale drugi ma wyższy ogólny wskaźnik sukcesu

To pytanie zostało przeniesione z Mathematics Stack Exchange, ponieważ można na nie odpowiedzieć podczas weryfikacji krzyżowej. Migrował 7 lat temu . Mam pytanie dotyczące czegoś, co mój nauczyciel statystyk powiedział o następującym problemie. Moje pytanie nawet nie dotyczy wystąpienia paradoksu Simpsona w tej sytuacji. Moje pytanie dotyczy po prostu nacisku …

27 self-study confounding simpsons-paradox

7

Dwa rzuty kostkami - ta sama liczba w sekwencji

Obecnie studiuję klasę wnioskowania statystycznego na Coursera. W jednym z zadań pojawia się następujące pytanie. | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I …

26 probability self-study conditional-probability

1

Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?

Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody? Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem …

26 machine-learning probability self-study optimization

2

Jak sprawdzić, czy dane są zgodne z rozkładem Poissona w R?

Jestem studentem studiów licencjackich i mam projekt do mojej klasy prawdopodobieństwa. Zasadniczo mam zbiór danych o huraganach, które nawiedziły mój kraj przez szereg lat. W mojej Księdze prawdopodobieństwa (Prawdopodobieństwo i statystyka z R) znajduje się (niekompletny) przykład, jak sprawdzić, czy dane są zgodne z rozkładem Poissona, zaczynają próbować udowodnić, że …

25 r self-study poisson-distribution poisson-process

3

Interpretacja wykresu reszt względem dopasowanych wartości z regresji Poissona

Próbuję dopasować dane do GLM (regresja Poissona) w R. Kiedy wykreśliłem reszty w stosunku do dopasowanych wartości, wykres utworzył wiele (prawie liniowych z lekką wklęsłą krzywą) „linii”. Co to znaczy? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness …

25 r self-study generalized-linear-model poisson-regression

4

Funkcje niezależnych zmiennych losowych

Czy twierdzenie, że funkcje niezależnych zmiennych losowych są same w sobie niezależne, prawda? Widziałem ten wynik często używany pośrednio w niektórych dowodach, na przykład w dowodzie niezależności między średnią próbki a wariancją próby rozkładu normalnego, ale nie byłem w stanie znaleźć uzasadnienia. Wydaje się, że niektórzy autorzy uważają to za …

25 probability self-study random-variable independence

Pytania otagowane jako self-study