Statystyki i duże zbiory danych references

4

Próbuję uzyskać globalną perspektywę na niektóre z podstawowych pomysłów w uczeniu maszynowym i zastanawiałem się, czy istnieje kompleksowe podejście do różnych pojęć utraty (kwadrat, log, zawias, proxy itp.). Zastanawiałem się nad bardziej kompleksową, formalną prezentacją doskonałego postu Johna Langforda na temat Lant Function Semantics .

16 references loss-functions

4

Jaka jest najlepsza książka o uogólnionych modelach liniowych dla nowicjuszy?

Nadal jestem całkiem nowy w uogólnionych modelach liniowych i mam problem z notacją w większości tekstów GLM, które wybrałem. Czy istnieją bardzo popularne książki GLM, które lepiej nadają się do czytelności?

16 regression generalized-linear-model references

2

Wybór pomiędzy „statystykami” Freedmana i in., A „modelami statystycznymi: teoria i praktyka” Freedmana

Nie jestem statystykiem, ale bardzo interesuję się statystykami i chciałbym kupić książkę, aby zachować ją jako punkt odniesienia. Mam kilka książek na określone tematy (np . Elementy uczenia statystycznego for machine learning lub Bayesian Data Analysis for ... cóż, Bayesian Data Analysis :) Szukałem również bardziej ogólnej książki. Książki Freedmana …

16 references

1

Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?

Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

5

Błąd przybliżenia przedziału ufności dla średniej, gdy

Niech będzie rodziną losowych zmiennych iid przyjmujących wartości w , mających średnią i wariancję . Prosty przedział ufności dla średniej, przy użyciu ilekroć jest znany, podaje P (| \ bar X - \ mu |> \ varepsilon) \ le \ frac {\ sigma ^ 2} {n \ varepsilon ^ 2} …

15 normal-distribution confidence-interval references asymptotics approximation

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Jakie metody statystyczne są archaiczne i należy je pominąć w podręcznikach? [Zamknięte]

W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

15 references history

4

Czy funkcja logit jest zawsze najlepsza do modelowania regresji danych binarnych?

Myślałem o tym problemie. Zwykłą funkcją logistyczną do modelowania danych binarnych jest: Jednak czy funkcja logit, która jest krzywą w kształcie litery S, zawsze jest najlepsza do modelowania danych? Być może masz powód, by sądzić, że twoje dane nie są zgodne z normalną krzywą w kształcie litery S, ale z …

15 logistic references link-function

2

Analiza w czasie wykonywania popularnych algorytmów uczenia maszynowego

Czy ktoś ma odniesienie do podsumowania analiz w czasie wykonywania dla popularnych algorytmów uczenia maszynowego (różne warianty NN, SVM itp.)?

15 machine-learning references algorithms

5

Jaki jest dobry zasób obejmujący porównanie zalet i wad różnych klasyfikatorów?

Jaki jest najlepszy gotowy do użycia klasyfikator 2 klas? Tak, myślę, że to pytanie za milion dolarów i tak, jestem świadomy twierdzenia o braku darmowego lunchu , a także przeczytałem poprzednie pytania: Jaki jest najlepszy gotowy do użycia 2-klasowy klasyfikator dla Twojej aplikacji? i najgorszy klasyfikator Nadal jestem zainteresowany czytaniem …

15 machine-learning classification references

2

Co to jest „metoda przekazywania wiadomości”?

Mam niejasne wyczucie, czym jest metoda przekazywania wiadomości: algorytm, który buduje aproksymację do rozkładu poprzez iteracyjne budowanie aproksymacji każdego z czynników rozkładu, zależnie od wszystkich aproksymacji wszystkich innych czynników. Uważam, że oba są przykładami Przekazywanie komunikatów wariacyjnych i propagowanie oczekiwań . Co to jest algorytm przekazywania komunikatów bardziej jawnie / …

15 distributions bayesian references algorithms

3

Dobre wprowadzenie do szeregów czasowych (z R)

Obecnie zbieram dane do eksperymentu dotyczącego cech psychospołecznych związanych z odczuwaniem bólu. W ramach tego zbieram pomiary GSR i BP elektronicznie od moich uczestników, wraz z różnymi raportami własnymi i niejawnymi pomiarami. Mam pochodzenie psychologiczne i nie mam nic przeciwko analizie czynnikowej, modelom liniowym i analizie eksperymentalnej. Moje pytanie brzmi, …

15 r time-series references

9

Jakie książki zawierają przegląd statystyk obliczeniowych dotyczących informatyki?

Jako inżynier oprogramowania interesuję się takimi tematami, jak algorytmy statystyczne, eksploracja danych, uczenie maszynowe, sieci bayesowskie, algorytmy klasyfikacji, sieci neuronowe, łańcuchy Markowa, metody Monte Carlo i generowanie liczb losowych. Osobiście nie miałem przyjemności pracy z żadną z tych technik, ale musiałem pracować z oprogramowaniem, które pod maską je zastosowało i …

15 references computational-statistics computing

3

Tor zderzeniowy w solidnym szacowaniu średniej

Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …

15 mean outliers robust references

9

Odwołanie do rozkładów o różnych właściwościach

Często zadaję sobie takie pytania, jak: „Wiem, że ta zmienna leży w a większość masy leży w a następnie stale spada w kierunku 1. Jakiego rozkładu mogę użyć do jej modelowania? „( 0 , 1 ) ( 0 , .20 )xxx( 0 , 1 )(0,1)(0,1)( 0 , .20 )(0,.20)(0,.20) W …

15 distributions references

Pytania otagowane jako references