Statystyki i duże zbiory danych modeling

3

Kiedy nie mogę zastąpić zmiennej losowej jej średnią?

Częstym uproszczeniem w modelowaniu i symulacji jest zastąpienie zmiennej losowej jej wartością średnią. Kiedy to uproszczenie doprowadziłoby do błędnego wniosku?

10 modeling mean random-variable

3

Test asocjacji dla normalnie dystrybuowanego DV przez kierunkowe zmienne niezależne?

Czy istnieje test hipotezy, czy normalnie dystrybuowana zmienna zależna jest powiązana ze zmienną o rozkładzie kierunkowym ? Na przykład, jeśli zmienna objaśniająca to pora dnia (a założenie, że dzień tygodnia, miesiąc roku itp. Są nieistotne) - tak można wyjaśnić fakt, że godzina 23:00 jest 22 godziny przed 1 rano, a …

10 hypothesis-testing modeling circular-statistics

1

Dopasowywanie rozkładu do danych przestrzennych

Cross wysyłając moje pytanie z matematyki, aby znaleźć pomoc dotyczącą statystyk. Badam fizyczny proces generujący dane, które ładnie rzutują na dwa wymiary o wartościach nieujemnych. Każdy proces ma (rzutowaną) ścieżkę punktów - y - patrz obrazek poniżej.xxxyyy Przykładowe ścieżki są niebieskie, kłopotliwy typ ścieżki został narysowany ręcznie na zielono, a …

10 distributions modeling predictive-models fitting curve-fitting

1

Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

Model dopasowania dla dwóch normalnych rozkładów w PyMC

Ponieważ jestem inżynierem oprogramowania i próbuję dowiedzieć się więcej statystyk, musisz mi wybaczyć, zanim zacznę, dlatego jest to poważna nowość ... Uczę się PyMC i pracuję nad kilkoma naprawdę (naprawdę) prostymi przykładami. Jednym z problemów, których nie mogę zabrać do pracy (i nie mogę znaleźć żadnych powiązanych przykładów), jest dopasowanie …

10 modeling python pymc

1

Czy regresje z błędami ucznia są bezużyteczne?

Proszę zobaczyć edycję. Gdy masz dane z dużymi ogonami, regresja z błędami uczniów wydaje się intuicyjna. Badając tę możliwość, natknąłem się na ten artykuł: Breusch, TS, Robertson, JC i Welsh, AH (01 listopada 1997). Nowe szaty cesarza: krytyka modelu regresji wielowymiarowej. Statistica Neerlandica, 51, 3.) ( link , pdf ) …

10 regression mathematical-statistics modeling robust

1

Pomoc w modelowaniu SEM (OpenMx, polycor)

Mam wiele problemów z jednym zestawem danych, do którego próbuję zastosować SEM. Przypuszczamy istnienie 5 ukrytych czynników A, B, C, D, E ze wskaźnikami odpowiednio. A1 do A5 (czynniki uporządkowane), B1 do B3 (ilościowo), C1, D1, E1 (wszystkie trzy ostatnie czynniki uporządkowane, z tylko 2 poziomami dla E1. Interesują nas …

10 r modeling multiple-regression sem

1

Czy istnieje koncepcja „wystarczającej” ilości danych do szkolenia modeli statystycznych?

Pracuję nad dość wieloma modelami statystycznymi, takimi jak Ukryte Modele Markowa i Modele Mieszanki Gaussa. Widzę, że szkolenie dobrych modeli w każdym z tych przypadków wymaga dużej (> 20000 zdań dla HMM) ilości danych, które są pobierane z podobnych środowisk, jak ostateczne użycie. Moje pytanie brzmi: Czy w literaturze istnieje …

10 modeling hidden-markov-model gaussian-mixture

5

Czy regresja logistyczna jest tendencyjna, gdy zmienna wynikowa jest podzielona między 5% a 95%?

Buduję model skłonności za pomocą regresji logistycznej dla klienta użyteczności publicznej. Obawiam się, że z całej próby moje „złe” konta wynoszą zaledwie 5%, a reszta jest dobra. Przepowiadam „źle”. Czy wynik zostanie zakłócony? Jaka jest optymalna proporcja „złej do dobrej”, aby zbudować dobry model?

10 logistic modeling

4

Wskazówki i porady dotyczące modelowania statystycznego?

Pracuję w dziedzinie eksploracji danych i miałem bardzo mało formalnego wykształcenia statystycznego. Ostatnio czytam dużo pracy, która koncentruje się na bayesowskich paradygmatach uczenia się i wydobywania, które uważam za bardzo interesujące. Moje pytanie brzmi (w kilku częściach), biorąc pod uwagę problem, czy istnieją ogólne ramy, dzięki którym można zbudować model …

10 bayesian modeling references eda

1

Jakie jest prawdopodobieństwo tego procesu?

Pacjent zostaje przyjęty do szpitala. Ich długość pobytu zależy od 2 rzeczy: ciężkości urazu i wysokości ubezpieczenia, jaką jest skłonny zapłacić, aby zatrzymać je w szpitalu. Niektórzy pacjenci odejdą przedwcześnie, jeśli ich ubezpieczenie zdecyduje się przestać płacić za pobyt. Załóż, że: 1) Długość pobytu jest rozłożona poissonem (załóżmy, że może …

10 maximum-likelihood modeling

9

Narzędzia do modelowania finansowych szeregów czasowych

Jakie nowoczesne narzędzia (oparte na systemie Windows) sugerujesz do modelowania finansowych szeregów czasowych?

10 modeling time-series finance software

2

Wnioskowanie statystyczne na podstawie błędnej specyfikacji modelu

Mam ogólne pytanie metodologiczne. Być może wcześniej na nie odpowiedziano, ale nie jestem w stanie zlokalizować odpowiedniego wątku. Docenię wskaźniki do możliwych duplikatów. ( Tutaj jest doskonałym jeden, ale bez odpowiedzi. To jest podobne w duchu, nawet z odpowiedzią, ale ten jest zbyt specyficzna z mojego punktu widzenia. To jest …

9 modeling inference misspecification

2

Modelowanie meloników do krykieta wydostających się z nieba

Mam zestaw danych opisujący dużą liczbę gier w krykieta (kilka tysięcy). W krykieta „meloniki” wielokrotnie rzucają piłkę z rzędu „pałkarzy”. Melonik próbuje wydostać pałkarza na zewnątrz. Pod tym względem przypomina miotacze i pałkarzy w baseballu. Gdybym wziął cały zestaw danych i podzielił całkowitą liczbę piłek, które wydały odbijającego przez całkowitą …

9 probability modeling games

5

Jaki jest dobry sposób graficznego przedstawienia bardzo dużej liczby sparowanych punktów danych?

W mojej dziedzinie zwykłym sposobem wykreślania sparowanych danych jest seria cienkich nachylonych segmentów linii, nakładających je na medianę i CI mediany dla dwóch grup: Jednak ten rodzaj wykresu staje się znacznie trudniejszy do odczytania, ponieważ liczba punktów danych staje się bardzo duża (w moim przypadku mam rzędu 10000 par): Zmniejszenie …

9 generalized-linear-model data-visualization modeling interpretation paired-data

Pytania otagowane jako modeling