Statystyki i duże zbiory danych modeling

2

Jakie są standardowe praktyki tworzenia syntetycznych zestawów danych?

Jako kontekst: podczas pracy z bardzo dużym zestawem danych czasami pojawia się pytanie, czy możemy stworzyć syntetyczny zestaw danych, w którym „znamy” związek między predyktorami a zmienną odpowiedzi lub relacje między predyktorami. Z biegiem lat wydaje mi się, że spotykam albo jednorazowe syntetyczne zestawy danych, które wyglądają, jakby zostały przygotowane …

26 modeling reproducible-research synthetic-data

5

W jaki sposób regresja liniowa wykorzystuje rozkład normalny?

W regresji liniowej zakłada się, że każda przewidywana wartość została wybrana z normalnego rozkładu możliwych wartości. Patrz poniżej. Ale dlaczego zakłada się, że każda przewidywana wartość pochodzi z rozkładu normalnego? Jak regresja liniowa wykorzystuje to założenie? Co, jeśli możliwe wartości nie są normalnie rozdzielane?

26 regression probability distributions normal-distribution modeling

2

Ogólny model liniowy a uogólniony model liniowy (z funkcją powiązania tożsamości?)

To jest mój pierwszy post, więc uspokój się, jeśli nie przestrzegam niektórych standardów! Poszukałem pytania i nic nie wyszło. Moje pytanie dotyczy głównie praktycznych różnic między ogólnym modelowaniem liniowym (GLM) a uogólnionym modelowaniem liniowym (GZLM). W moim przypadku byłoby to kilka zmiennych ciągłych jako współzmiennych i kilka czynników w ANCOVA …

25 modeling linear-model

4

Czy masz globalną wizję tych technik analizy?

Obecnie pracuję nad projektem, w którym zasadniczo potrzebuję, podobnie jak wszyscy, aby zrozumieć, w jaki sposób wyjście jest powiązane z wejściem . Szczególną cechą jest to, że dane są mi przekazywane pojedynczo, dlatego chcę aktualizować swoją analizę za każdym razem, gdy otrzymuję nowy . Wierzę, że nazywa się to przetwarzaniem …

24 modeling model-selection

6

Wprowadzenie do modelowania równań strukturalnych

Koledzy proszą mnie o pomoc w tym temacie, której tak naprawdę nie wiem. W jednym badaniu postawili hipotezy dotyczące roli niektórych ukrytych zmiennych, a sędzia poprosił ich o sformalizowanie tego w SEM. Ponieważ to, czego potrzebują, nie wydaje się zbyt trudne, myślę, że dam temu szansę ... na razie szukam …

24 references modeling sem psychometrics

10

Czy masz zalecenia dotyczące książek do samodzielnego nauczania statystyki stosowanej na poziomie magisterskim?

Brałem kilka kursów statystycznych na studiach, ale odkryłem, że moje wykształcenie było bardzo teoretyczne. Zastanawiałem się, czy któryś z was miał tekst w statystyce stosowanej (na poziomie magisterskim), który polecasz lub miałeś dobre doświadczenie.

23 regression references modeling experiment-design application

2

Modele statystyki przestrzennej: CAR vs SAR

Kiedy wolisz używać warunkowego modelu autoregresyjnego zamiast symultanicznego modelu autoregresyjnego podczas modelowania autokorelowanych danych lotniczych z odniesieniem geograficznym?

23 modeling spatial

4

Słabo informacyjne wcześniejsze rozkłady dla parametrów skali

Używam logarytmicznych rozkładów jako poprzednich rozkładów dla parametrów skali (dla rozkładów normalnych, rozkładów t itp.), Gdy mam ogólne pojęcie o tym, jaka powinna być skala, ale chcę się pomylić, mówiąc, że nie wiem dużo o tym. Używam tego, ponieważ to użycie ma dla mnie intuicyjny sens, ale nie widziałem, żeby …

21 distributions bayesian modeling prior maximum-entropy

4

Jak rzutować nowy wektor na przestrzeń PCA?

Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Jak połączyć przedziały ufności dla komponentu wariancji modelu z efektami mieszanymi, gdy używana jest wielokrotna imputacja

Logiką wielokrotnej imputacji (MI) jest przypisywanie brakujących wartości nie jeden raz, ale kilka razy (zwykle M = 5) razy, co skutkuje M zakończonymi zestawami danych. M zakończonych zestawów danych jest następnie analizowanych metodami kompletnych danych, na podstawie których szacunki M i ich błędy standardowe są łączone przy użyciu wzorów Rubina …

20 modeling confidence-interval mixed-model data-imputation

2

Określanie modelu różnic w różnicach z wieloma przedziałami czasowymi

Gdy oszacuję model różnic w dwóch przedziałach czasowych, model regresji równoważnej byłby następujący za. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} gdzie jest manekinem równym 1, jeśli obserwacja pochodzi z grupy poddanej leczeniuTreatmentTreatmentTreatment i jest obojętne, które jest równe 1, w okresie czasu po leczeniu doszłoddd Zatem …

20 regression modeling econometrics panel-data difference-in-difference

2

Metodologia prognozowania VAR

Buduję model VAR do prognozowania ceny aktywów i chciałbym wiedzieć, czy moja metoda jest statystycznie solidna, czy testy, które podałem, są odpowiednie i czy potrzebne są dalsze, aby zapewnić wiarygodną prognozę na podstawie moich zmiennych wejściowych. Poniżej znajduje się mój bieżący proces sprawdzania przyczynowości Grangera i prognozowania wybranego modelu VAR. …

19 r forecasting modeling var

2

Jak przewidzieć, kiedy nastąpi kolejne wydarzenie, na podstawie czasów poprzednich wydarzeń?

Jestem uczniem szkoły średniej i pracuję nad projektem programowania komputerowego, ale nie mam dużego doświadczenia w statystyce i modelowaniu danych poza kursem statystyki w szkole średniej, więc jestem trochę zdezorientowany. Zasadniczo mam dość dużą listę (zakładając, że jest wystarczająco duża, aby spełnić założenia dla wszelkich testów lub miar statystycznych) czasów, …

19 probability modeling data-mining predictive-models

1

Jakie jest zdanie społeczności na temat czwartego kwadrantu?

Nassim Taleb, znany ze sławy Black Swan (lub niesławny), opracował koncepcję i opracował coś, co nazywa „mapą granic statystyki” . Jego podstawowym argumentem jest to, że istnieje jeden rodzaj problemu decyzyjnego, w którym stosowanie dowolnego modelu statystycznego jest szkodliwe. Byłyby to wszelkie problemy decyzyjne, w przypadku których konsekwencje podjęcia złej …

19 distributions modeling random-variable

4

Czy mogę po prostu usunąć jedną z dwóch zmiennych predykcyjnych, które są wysoce skorelowane liniowo?

Korzystając z współczynnika korelacji Pearsona, mam kilka zmiennych, które są wysoce skorelowane ( i dla 2 par zmiennych, które są w moim modelu).ρ = 0,978ρ=0,978\rho = 0.978ρ = 0,989ρ=0,989\rho = 0.989 Powodem niektórych zmiennych są silnie skorelowane jest z powodu jedna zmienna jest używana w obliczeniach dla innej zmiennej. Przykład: …

18 regression correlation modeling

Pytania otagowane jako modeling