Pytania otagowane jako categorical-data

Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.

1
Interpretacja wyników .L i .Q z ujemnego dwumianowego GLM z danymi kategorialnymi
Właśnie uruchomiłem ujemny dwumianowy GLM i to jest wynik: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 …

3
centrowanie i skalowanie zmiennych zastępczych
Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”. Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych …


2
Jak przekształcić dane porządkowe z kwestionariusza w odpowiednie dane przedziałowe?
Czy istnieją jakieś proste metody przekształcania danych z poziomu porządkowego na poziom przedziałowy (podobnie jak w przypadku odwrotnej)? I wykonalne w Excelu lub SPSS? Mając dane, powiedzmy: 10 pytań na poziomie porządkowym (powiedzmy skalę 0-5, gdzie 0 = „wcale”, 5 = „cały czas”), chcę je przekształcić, aby można je było …

4
Jak podsumować dane kategoryczne?
Mam problem z następującym problemem, który, mam nadzieję, jest łatwy dla statystyk (jestem programistą z pewnym doświadczeniem w statystyce). Muszę streścić odpowiedzi na ankietę (dla kierownictwa). Ankieta zawiera ponad 100 pytań, pogrupowanych w różne obszary (z około 5 do 10 pytań na obszar). Wszystkie odpowiedzi są kategoryczne (w skali porządkowej …

2
Przechwytywanie sezonowości w regresji wielokrotnej dla danych dziennych
Mam codzienne dane dotyczące sprzedaży produktu o dużej sezonowości. Chcę uchwycić sezonowość w modelu regresji. Czytałem, że jeśli masz dane kwartalne lub miesięczne, w takim przypadku możesz utworzyć odpowiednio 3 i 11 zmiennych zastępczych - ale czy mogę sobie poradzić z danymi dziennymi? Mam trzy lata codziennych danych. Zmienne niezależne …


2
Współczynnik korelacji między (niesychotomiczną) zmienną nominalną a zmienną liczbową (przedział) lub porządkową
Przeczytałem już wszystkie strony w tej witrynie, próbując znaleźć odpowiedź na mój problem, ale wydaje się, że nikt nie jest właściwy dla mnie ... Najpierw wyjaśnię ci dane, z którymi pracuję ... Powiedzmy, że mam wektor tablicowy z kilkoma nazwami miast, po jednym dla każdego z 300 użytkowników. Mam też …

2
Najlepsze praktyki kodowania funkcji jakościowych dla drzew decyzyjnych?
Podczas kodowania cech kategorycznych dla regresji liniowej obowiązuje zasada: liczba manekinów powinna być o jeden mniejsza niż całkowita liczba poziomów (aby uniknąć kolinearności). Czy istnieje podobna zasada dla drzew decyzyjnych (spakowane, wzmocnione)? Pytam o to, ponieważ standardową praktyką w Pythonie wydaje się być rozszerzanie npoziomów na nmanekiny (sklearny OneHotEncoderlub Pandy …

1
Zwykła regresja logistyczna w Pythonie
Chciałbym uruchomić porządkową regresję logistyczną w Pythonie - dla zmiennej odpowiedzi z trzema poziomami i kilkoma czynnikami objaśniającymi. statsmodelsPakiet obsługuje binarny logit i wielomianu logitowe modele (MNLogit), ale nie uporządkowaną logit. Ponieważ podstawowa matematyka nie różni się tak bardzo, zastanawiam się, czy można ją łatwo wdrożyć za pomocą tych? (Alternatywnie, …

3
Estymator największego prawdopodobieństwa wspólnego rozkładu, biorąc pod uwagę tylko marginalne liczby
Niech będzie łącznym rozkładem dwóch zmiennych kategorialnych , z . Powiedzmy, że próbek pobrano z tego rozkładu, ale podano nam tylko liczby krańcowe, mianowicie dla :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Jaki jest estymator największej wiarygodności dla , biorąc uwagę ? Czy to jest znane? Wykonalne obliczeniowo? Czy …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Inwersja jagód
Mam duży zbiorczy zestaw danych rynkowych dotyczących sprzedaży wina w USA i chciałbym oszacować popyt na niektóre wina wysokiej jakości. Te udziały w rynku zostały zasadniczo wyprowadzone z losowego modelu użytkowego w postaci Uja j t= X′j tβ- α pj t+ ξj t+ ϵja j t≡ δj t+ ϵj tUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} …

3
Czy procedura stałych efektów Mundlak ma zastosowanie do regresji logistycznej z manekinami?
Mam zestaw danych z 8000 klastrami i 4 milionami obserwacji. Niestety moje oprogramowanie statystyczne, Stata, działa dość wolno, gdy używa swojej funkcji danych panelowych do regresji logistycznej: xtlogitnawet z podpróbką 10%. Jednak w przypadku korzystania z logitfunkcji niepanelowej wyniki pojawiają się znacznie wcześniej. Dlatego mogę korzystać ze logitzmodyfikowanych danych uwzględniających …

1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.