Statystyki i duże zbiory danych categorical-data

1

Interpretacja wyników .L i .Q z ujemnego dwumianowego GLM z danymi kategorialnymi

Właśnie uruchomiłem ujemny dwumianowy GLM i to jest wynik: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

centrowanie i skalowanie zmiennych zastępczych

Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”. Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych …

13 categorical-data data-transformation centering

6

Losowy las: jak obsługiwać nowe poziomy czynników w zestawie testowym?

Próbuję przewidzieć przy użyciu losowego modelu lasu w R. Jednak dostaję błędy, ponieważ niektóre czynniki mają inne wartości w zestawie testowym niż w zestawie treningowym. Na przykład czynnik Cat_2ma wartości 34, 68, 76itp. W zestawie testowym, które nie pojawiają się w zestawie szkoleniowym. Niestety nie mam kontroli nad zestawem testowym …

13 r categorical-data random-forest

2

Jak przekształcić dane porządkowe z kwestionariusza w odpowiednie dane przedziałowe?

Czy istnieją jakieś proste metody przekształcania danych z poziomu porządkowego na poziom przedziałowy (podobnie jak w przypadku odwrotnej)? I wykonalne w Excelu lub SPSS? Mając dane, powiedzmy: 10 pytań na poziomie porządkowym (powiedzmy skalę 0-5, gdzie 0 = „wcale”, 5 = „cały czas”), chcę je przekształcić, aby można je było …

13 categorical-data ordinal-data scales psychometrics

4

Jak podsumować dane kategoryczne?

Mam problem z następującym problemem, który, mam nadzieję, jest łatwy dla statystyk (jestem programistą z pewnym doświadczeniem w statystyce). Muszę streścić odpowiedzi na ankietę (dla kierownictwa). Ankieta zawiera ponad 100 pytań, pogrupowanych w różne obszary (z około 5 do 10 pytań na obszar). Wszystkie odpowiedzi są kategoryczne (w skali porządkowej …

13 categorical-data data-transformation descriptive-statistics

2

Przechwytywanie sezonowości w regresji wielokrotnej dla danych dziennych

Mam codzienne dane dotyczące sprzedaży produktu o dużej sezonowości. Chcę uchwycić sezonowość w modelu regresji. Czytałem, że jeśli masz dane kwartalne lub miesięczne, w takim przypadku możesz utworzyć odpowiednio 3 i 11 zmiennych zastępczych - ale czy mogę sobie poradzić z danymi dziennymi? Mam trzy lata codziennych danych. Zmienne niezależne …

13 regression time-series multiple-regression categorical-data

2

Zrozumienie tworzenia zmiennych fikcyjnych (ręcznych lub automatycznych) w GLM

Jeśli zmienna czynnikowa (np. Płeć o poziomach M i F) jest używana we wzorze glm, tworzone są zmienne zmienne, które można znaleźć w podsumowaniu modelu glm wraz z powiązanymi z nimi współczynnikami (np. Płeć) Jeśli zamiast polegać na R w celu podzielenia współczynnika w ten sposób, czynnik jest zakodowany w …

13 r generalized-linear-model categorical-data categorical-encoding

2

Współczynnik korelacji między (niesychotomiczną) zmienną nominalną a zmienną liczbową (przedział) lub porządkową

Przeczytałem już wszystkie strony w tej witrynie, próbując znaleźć odpowiedź na mój problem, ale wydaje się, że nikt nie jest właściwy dla mnie ... Najpierw wyjaśnię ci dane, z którymi pracuję ... Powiedzmy, że mam wektor tablicowy z kilkoma nazwami miast, po jednym dla każdego z 300 użytkowników. Mam też …

13 correlation matlab ordinal-data categorical-data continuous-data

2

Najlepsze praktyki kodowania funkcji jakościowych dla drzew decyzyjnych?

Podczas kodowania cech kategorycznych dla regresji liniowej obowiązuje zasada: liczba manekinów powinna być o jeden mniejsza niż całkowita liczba poziomów (aby uniknąć kolinearności). Czy istnieje podobna zasada dla drzew decyzyjnych (spakowane, wzmocnione)? Pytam o to, ponieważ standardową praktyką w Pythonie wydaje się być rozszerzanie npoziomów na nmanekiny (sklearny OneHotEncoderlub Pandy …

13 categorical-data random-forest cart boosting

1

Zwykła regresja logistyczna w Pythonie

Chciałbym uruchomić porządkową regresję logistyczną w Pythonie - dla zmiennej odpowiedzi z trzema poziomami i kilkoma czynnikami objaśniającymi. statsmodelsPakiet obsługuje binarny logit i wielomianu logitowe modele (MNLogit), ale nie uporządkowaną logit. Ponieważ podstawowa matematyka nie różni się tak bardzo, zastanawiam się, czy można ją łatwo wdrożyć za pomocą tych? (Alternatywnie, …

12 categorical-data python logit ordered-logit statsmodels

3

Estymator największego prawdopodobieństwa wspólnego rozkładu, biorąc pod uwagę tylko marginalne liczby

Niech będzie łącznym rozkładem dwóch zmiennych kategorialnych , z . Powiedzmy, że próbek pobrano z tego rozkładu, ale podano nam tylko liczby krańcowe, mianowicie dla :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Jaki jest estymator największej wiarygodności dla , biorąc uwagę ? Czy to jest znane? Wykonalne obliczeniowo? Czy …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Inwersja jagód

Mam duży zbiorczy zestaw danych rynkowych dotyczących sprzedaży wina w USA i chciałbym oszacować popyt na niektóre wina wysokiej jakości. Te udziały w rynku zostały zasadniczo wyprowadzone z losowego modelu użytkowego w postaci Uja j t= X′j tβ- α pj t+ ξj t+ ϵja j t≡ δj t+ ϵj tUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} …

12 logistic estimation multiple-regression categorical-data

3

Czy procedura stałych efektów Mundlak ma zastosowanie do regresji logistycznej z manekinami?

Mam zestaw danych z 8000 klastrami i 4 milionami obserwacji. Niestety moje oprogramowanie statystyczne, Stata, działa dość wolno, gdy używa swojej funkcji danych panelowych do regresji logistycznej: xtlogitnawet z podpróbką 10%. Jednak w przypadku korzystania z logitfunkcji niepanelowej wyniki pojawiają się znacznie wcześniej. Dlatego mogę korzystać ze logitzmodyfikowanych danych uwzględniających …

12 logistic categorical-data stata fixed-effects-model

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

Pytania otagowane jako categorical-data