Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.
Właśnie uruchomiłem ujemny dwumianowy GLM i to jest wynik: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 …
Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”. Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych …
Próbuję przewidzieć przy użyciu losowego modelu lasu w R. Jednak dostaję błędy, ponieważ niektóre czynniki mają inne wartości w zestawie testowym niż w zestawie treningowym. Na przykład czynnik Cat_2ma wartości 34, 68, 76itp. W zestawie testowym, które nie pojawiają się w zestawie szkoleniowym. Niestety nie mam kontroli nad zestawem testowym …
Czy istnieją jakieś proste metody przekształcania danych z poziomu porządkowego na poziom przedziałowy (podobnie jak w przypadku odwrotnej)? I wykonalne w Excelu lub SPSS? Mając dane, powiedzmy: 10 pytań na poziomie porządkowym (powiedzmy skalę 0-5, gdzie 0 = „wcale”, 5 = „cały czas”), chcę je przekształcić, aby można je było …
Mam problem z następującym problemem, który, mam nadzieję, jest łatwy dla statystyk (jestem programistą z pewnym doświadczeniem w statystyce). Muszę streścić odpowiedzi na ankietę (dla kierownictwa). Ankieta zawiera ponad 100 pytań, pogrupowanych w różne obszary (z około 5 do 10 pytań na obszar). Wszystkie odpowiedzi są kategoryczne (w skali porządkowej …
Mam codzienne dane dotyczące sprzedaży produktu o dużej sezonowości. Chcę uchwycić sezonowość w modelu regresji. Czytałem, że jeśli masz dane kwartalne lub miesięczne, w takim przypadku możesz utworzyć odpowiednio 3 i 11 zmiennych zastępczych - ale czy mogę sobie poradzić z danymi dziennymi? Mam trzy lata codziennych danych. Zmienne niezależne …
Jeśli zmienna czynnikowa (np. Płeć o poziomach M i F) jest używana we wzorze glm, tworzone są zmienne zmienne, które można znaleźć w podsumowaniu modelu glm wraz z powiązanymi z nimi współczynnikami (np. Płeć) Jeśli zamiast polegać na R w celu podzielenia współczynnika w ten sposób, czynnik jest zakodowany w …
Przeczytałem już wszystkie strony w tej witrynie, próbując znaleźć odpowiedź na mój problem, ale wydaje się, że nikt nie jest właściwy dla mnie ... Najpierw wyjaśnię ci dane, z którymi pracuję ... Powiedzmy, że mam wektor tablicowy z kilkoma nazwami miast, po jednym dla każdego z 300 użytkowników. Mam też …
Podczas kodowania cech kategorycznych dla regresji liniowej obowiązuje zasada: liczba manekinów powinna być o jeden mniejsza niż całkowita liczba poziomów (aby uniknąć kolinearności). Czy istnieje podobna zasada dla drzew decyzyjnych (spakowane, wzmocnione)? Pytam o to, ponieważ standardową praktyką w Pythonie wydaje się być rozszerzanie npoziomów na nmanekiny (sklearny OneHotEncoderlub Pandy …
Chciałbym uruchomić porządkową regresję logistyczną w Pythonie - dla zmiennej odpowiedzi z trzema poziomami i kilkoma czynnikami objaśniającymi. statsmodelsPakiet obsługuje binarny logit i wielomianu logitowe modele (MNLogit), ale nie uporządkowaną logit. Ponieważ podstawowa matematyka nie różni się tak bardzo, zastanawiam się, czy można ją łatwo wdrożyć za pomocą tych? (Alternatywnie, …
Niech będzie łącznym rozkładem dwóch zmiennych kategorialnych , z . Powiedzmy, że próbek pobrano z tego rozkładu, ale podano nam tylko liczby krańcowe, mianowicie dla :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Jaki jest estymator największej wiarygodności dla , biorąc uwagę ? Czy to jest znane? Wykonalne obliczeniowo? Czy …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Mam duży zbiorczy zestaw danych rynkowych dotyczących sprzedaży wina w USA i chciałbym oszacować popyt na niektóre wina wysokiej jakości. Te udziały w rynku zostały zasadniczo wyprowadzone z losowego modelu użytkowego w postaci Uja j t= X′j tβ- α pj t+ ξj t+ ϵja j t≡ δj t+ ϵj tUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} …
Mam zestaw danych z 8000 klastrami i 4 milionami obserwacji. Niestety moje oprogramowanie statystyczne, Stata, działa dość wolno, gdy używa swojej funkcji danych panelowych do regresji logistycznej: xtlogitnawet z podpróbką 10%. Jednak w przypadku korzystania z logitfunkcji niepanelowej wyniki pojawiają się znacznie wcześniej. Dlatego mogę korzystać ze logitzmodyfikowanych danych uwzględniających …
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.