Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.
Mam trzypoziomową tabelę zdarzeń awaryjnych, z danymi zliczeń dla kilku gatunków, rośliny żywicielskiej, z której zostały zebrane, oraz tego, czy zbiór ten miał miejsce w deszczowy dzień (to naprawdę ma znaczenie!). Przy użyciu R fałszywe dane mogą wyglądać mniej więcej tak: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) …
Wygląda na to, że możesz użyć kodowania dla jednej zmiennej jakościowej, ale mam dwie zmienne jakościowe i jedną zmienną predykcyjną ciągłą. Czy mogę użyć do tego wielokrotnej regresji w SPSS, a jeśli tak, to w jaki sposób? dzięki!
Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają, aby niez uporządkowane funkcje kategorialne były zakodowane na gorąco, a które …
Dopasowuję model o współczynniku z wieloma poziomami i dopasowanie R zajmuje naprawdę dużo czasu. Dlaczego to? Na przykład, jeśli dopasuję regresję do przewidywania wynagrodzeń graczy i dołączę czynnik prognostyczny dla wszystkich narodowości graczy, zajęłoby to więcej czasu niż dopasowanie modelu wynagrodzeń graczy z ciągłym predyktorem, np. wysokości.
Nie wiem, jakiej funkcji odległości między osobami należy użyć w przypadku nominalnych (nieuporządkowanych atrybutów kategorialnych). Czytałem jakiś podręcznik i sugerują one funkcję Simple Matching, ale niektóre książki sugerują, że powinienem zmienić atrybuty nominalne na binarne i użyć współczynnika Jaccard . Co jednak, jeśli wartości atrybutu nominalnego nie wynoszą 2? co …
Następujący problem: chcę przewidzieć zmienną jakościową z jedną (lub więcej) zmiennymi jakościowymi za pomocą glmnet (). Nie mogę jednak zrozumieć, jaki wynik daje mi glmnet. Ok, najpierw wygenerujmy dwie powiązane zmienne jakościowe: Generuj dane p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some …
Przeprowadzono ankietę, w której ludzie wybrali to, czego używają do wywołania określonej buźki, i wjechali do kraju pochodzenia. Przekodowałem odpowiedzi tekstowe na numeryczne. Jaką formę analizy należy zastosować (najlepiej w SPSS), aby sprawdzić poziom korelacji między tym, skąd pochodzą ludzie, a reprezentacjami, które wybrali?
Potrzebuję niewielkiej pomocy, aby iść w dobrym kierunku. Minęło dużo czasu, odkąd studiowałem statystyki i wydaje się, że żargon się zmienił. Wyobraź sobie, że mam zestaw danych związanych z samochodem, takich jak Czas podróży z miasta A do miasta B Odległość od miasta A do miasta B. Rozmiar silnika Rozmiar …
Wiele jest o kolinearności w odniesieniu do predyktorów ciągłych, ale nie tak bardzo, że mogę znaleźć na predyktory jakościowe. Mam dane tego typu zilustrowane poniżej. Pierwszy czynnik to zmienna genetyczna (liczba alleli), drugi czynnik to kategoria choroby. Najwyraźniej geny poprzedzają chorobę i są czynnikiem pokazującym objawy, które prowadzą do diagnozy. …
Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną …
Szukam korelacji między odpowiedziami na różne pytania w ankiecie („umm, zobaczmy, czy odpowiedzi na pytanie 11 korelują z odpowiedziami na pytanie 78”). Wszystkie odpowiedzi są kategoryczne (większość z nich „od bardzo nieszczęśliwych” do „bardzo szczęśliwych”), ale kilka z nich ma inny zestaw odpowiedzi. Większość z nich można uznać za porządkowe, …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Chcę obliczyć podsumowanie zmiennej w data.frame dla każdej unikalnej kombinacji czynników w data.frame. Czy powinienem użyć do tego plyr? Nie …
Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response, Ai B. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące. Jednak patrząc na proporcje danych, wygląda na to, że …
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
Przeprowadzam wielokrotną regresję liniową poniżej w R, aby przewidzieć zwrot z zarządzanego funduszu. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Tutaj tylko GRI i MBA są predyktorami binarnymi / dychotomicznymi; pozostałe predyktory są ciągłe. Używam tego kodu do generowania wykresów resztkowych dla zmiennych binarnych. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.