Statystyki i duże zbiory danych categorical-data

2

Czy można utworzyć wykres „zestawów równoległych” za pomocą R?

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Dzięki pytaniu Tormod (zamieszczonemu tutaj ) natrafiłem na fabułę zestawów równoległych . Oto przykład tego, jak to wygląda: (Jest to wizualizacja zestawu danych Titanica. Pokazuje, …

16 r data-visualization categorical-data interactive-visualization

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

„Zmienna manekina” kontra „zmienna wskaźnikowa” dla danych nominalnych / kategorialnych

„Zmienna manekina” i „zmienna wskaźnika” to często używane etykiety, aby opisać członkostwo w kategorii z kodowaniem 0/1; zazwyczaj 0: nie należy do kategorii, 1: należy do kategorii. W dniu 26.11.2014 r. Szybkie wyszukiwanie na scholar.google.com (wraz z cytatami) ujawnia, że „zmienna fikcyjna” jest używana w około 318 000 artykułów, a …

15 categorical-data terminology categorical-encoding

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Mieszanie danych ciągłych i binarnych z liniowym SVM?

Więc bawiłem się SVM i zastanawiam się, czy to dobra rzecz: Mam zestaw funkcji ciągłych (od 0 do 1) i zestaw cech kategorycznych, które przekonwertowałem na zmienne obojętne. W tym konkretnym przypadku koduję datę pomiaru w zmiennej zastępczej: Są 3 okresy, z których mam dane i zarezerwowałem dla nich 3 …

15 categorical-data svm feature-selection linear-model feature-construction

2

Jak zrobić regresję z kodowaniem efektu zamiast kodowania fikcyjnego w R?

Obecnie pracuję nad modelem regresji, w którym jako zmienne niezależne mam tylko zmienne kategorialne / czynnikowe. Moja zmienna zależna to stosunek przekształcony logit. Całkiem łatwo jest uruchomić normalną regresję w R, ponieważ R automatycznie wie, jak zakodować manekiny, gdy tylko będą miały typ „czynnik”. Jednak ten rodzaj kodowania oznacza również, …

15 r regression categorical-data categorical-encoding

1

Czy regresja logistyczna glmnet może bezpośrednio obsługiwać zmienne czynnikowe (kategoryczne) bez potrzeby zmiennych zastępczych? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 3 lata temu . Buduję regresję logistyczną w R za pomocą metody LASSO z funkcjami cv.glmnetwyboru lambdai glmnetdla ostatecznego modelu. Znam już wszystkie wady związane …

15 r logistic categorical-data lasso glmnet

2

Czy możemy zastosować kategoryczną zmienną niezależną w analizie dyskryminacyjnej?

W analizie dyskryminacyjnej zmienna zależna ma charakter kategoryczny, ale czy mogę użyć zmiennej kategorialnej (np. Status mieszkaniowy: wiejski, miejski) wraz z jakąś inną zmienną ciągłą jako zmienną niezależną w liniowej analizie dyskryminacyjnej?

15 logistic categorical-data discriminant-analysis regression-strategies

2

Czy przejście od ciągłych danych do jakościowych zawsze jest złe?

Kiedy czytam o tym, jak skonfigurować dane, często spotykam się z tym, że przekształcanie niektórych ciągłych danych w dane kategoryczne nie jest dobrym pomysłem, ponieważ bardzo dobrze możesz wyciągnąć błędne wnioski, jeśli progi są źle określone. Jednak obecnie mam pewne dane (wartości PSA dla pacjentów z rakiem prostaty), w których …

14 categorical-data continuous-data

3

Dlaczego korelacja nie jest zbyt przydatna, gdy jedna ze zmiennych jest kategoryczna?

To trochę kontrola, proszę, pomóżcie mi zobaczyć, czy nie rozumiem tej koncepcji iw jaki sposób. Mam funkcjonalne zrozumienie korelacji, ale czuję się trochę wyłapany, aby naprawdę pewnie wyjaśnić zasady tego funkcjonalnego zrozumienia. Jak rozumiem, korelacja statystyczna (w przeciwieństwie do bardziej ogólnego użycia tego terminu) jest sposobem na zrozumienie dwóch ciągłych …

14 correlation categorical-data covariance

1

Czy mieszanie danych jakościowych i ciągłych dla SVM (Support Vector Machines) jest w porządku?

Mam taki zestaw danych +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP …

14 categorical-data svm mixed-type-data

1

Jakie są różne rodzaje kodowania dostępne dla zmiennych kategorialnych (w R) i kiedy ich użyjesz?

Jeśli dopasujesz model liniowy lub mieszany, dostępne są różne typy kodowania, aby przekształcić zmienną kategorialną lub nominalną w szereg zmiennych, dla których szacowane są parametry, takie jak atrapa warunkowa (domyślnie R) i kodowanie efektów. Słyszałem, że kodowanie efektów (czasami nazywane kodowaniem dewiacyjnym lub kontrastowym) jest preferowane, gdy masz interakcje, ale …

14 regression mixed-model categorical-data contrasts categorical-encoding

2

Metody łączenia / zmniejszania kategorii w danych porządkowych lub nominalnych?

Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych. Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w …

14 r categorical-data dimensionality-reduction many-categories

8

Trenuj sieć neuronową, aby rozróżniać liczby parzyste od nieparzystych

Pytanie: czy można wytrenować NN, aby rozróżniał liczby nieparzyste od parzystych tylko przy użyciu samych danych wejściowych? Mam następujący zestaw danych: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 Trenowałem NN z dwoma neuronami wejściowymi (jeden jest zmienną …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

3

Zastąpienie zmiennych WoE (waga dowodu) w regresji logistycznej

To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie monotonicznej relacji między regresorem a zmienną zależną. O ile rozumiem, po …

14 regression logistic categorical-data modeling

Pytania otagowane jako categorical-data