Statystyki i duże zbiory danych categorical-data

6

Czy analizę głównych składników można zastosować do zbiorów danych zawierających mieszankę zmiennych ciągłych i kategorycznych?

Mam zestaw danych, który zawiera zarówno dane ciągłe, jak i kategoryczne. Analizuję za pomocą PCA i zastanawiam się, czy dobrze jest uwzględnić zmienne kategorialne jako część analizy. Rozumiem, że PCA można zastosować tylko do zmiennych ciągłych. Czy to jest poprawne? Jeśli nie można go użyć do danych kategorycznych, jakie są …

147 categorical-data pca correspondence-analysis mixed-type-data

6

Korelacje z nieuporządkowanymi zmiennymi kategorialnymi

Mam ramkę danych z wieloma obserwacjami i wieloma zmiennymi. Niektóre z nich są kategoryczne (nieuporządkowane), a inne są numeryczne. Szukam skojarzeń między tymi zmiennymi. Byłem w stanie obliczyć korelację dla zmiennych numerycznych (korelacja Spearmana), ale: Nie wiem, jak zmierzyć korelację między nieuporządkowanymi zmiennymi kategorialnymi. Nie wiem, jak zmierzyć korelację między …

123 r correlation categorical-data continuous-data mixed-type-data

1

Korelacja między zmienną nominalną (IV) a zmienną ciągłą (DV)

Mam zmienną nominalną (różne tematy konwersacji, zakodowane jako topic0 = 0 itd.) I kilka zmiennych skalowych (DV), takich jak długość konwersacji. Jak mogę ustalić korelacje między zmiennymi nominalnymi i skalowanymi?

77 correlation continuous-data categorical-data

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

6

Zasada zwijania zmiennych jakościowych na wielu poziomach?

Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

8

Czy kiedykolwiek ma sens traktowanie danych kategorycznych jako ciągłych?

Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …

57 categorical-data data-transformation ordinal-data continuous-data

1

Kodowanie typu hot-man vs dummy w Scikit-learn

Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

7

Wykres zależności między dwiema zmiennymi porządkowymi

Jaki jest odpowiedni wykres ilustrujący związek między dwiema zmiennymi porządkowymi? Kilka opcji, o których mogę myśleć: Wykres rozproszenia z dodanym drganiami losowymi, aby zatrzymać ukrywanie się punktów. Niby standardowa grafika - Minitab nazywa to „wykresem wartości indywidualnych”. Moim zdaniem może to być mylące, ponieważ wizualnie zachęca do pewnego rodzaju interpolacji …

46 data-visualization categorical-data ordinal-data scatterplot

4

Co to jest matryca kontrastowa?

Czym dokładnie jest matryca kontrastu (termin odnoszący się do analizy z predyktorami jakościowymi) i jak dokładnie określono matrycę kontrastu? Tzn. Czym są kolumny, czym są wiersze, jakie są ograniczenia na tej macierzy i co oznacza liczba w kolumnie ji rzędzie i? Próbowałem przeglądać dokumenty i sieć, ale wygląda na to, …

46 regression categorical-data definition contrasts categorical-encoding

5

Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)

Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Ostrzeżenie w R - Przybliżenie chi-kwadrat może być niepoprawne

Mam dane pokazujące wyniki egzaminu wstępnego do strażaka. Testuję hipotezę, że wyniki egzaminów i pochodzenie etniczne nie są od siebie niezależne. Aby to przetestować, przeprowadziłem test chi-kwadrat Pearsona w R. Wyniki pokazują, czego się spodziewałem, ale dało ostrzeżenie, że „ In chisq.test(a) : Chi-squared approximation may be incorrect.” > a …

40 r categorical-data chi-squared small-sample error-message

6

Popraw klasyfikację za pomocą wielu zmiennych kategorycznych

Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …

37 machine-learning classification categorical-data random-forest many-categories

2

Wielomianowa regresja logistyczna a regresja binarna logistyczna jeden na jeden

Powiedzmy, że mamy zmienną zależną z kilkoma kategoriami i zestawem zmiennych niezależnych. YYY Jakie są zalety wielomianowej regresji logistycznej w porównaniu z zestawem binarnych regresji logistycznych (tj. Schemat jeden do reszty )? Przez zestaw binarnej regresji logistycznej rozumiem, że dla każdej kategorii budujemy osobny binarny model regresji logistycznej z celem …

36 logistic categorical-data multinomial

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

Przeprowadzanie analizy głównych składników lub analizy czynnikowej na danych binarnych

Mam zestaw danych z dużą liczbą odpowiedzi Tak / Nie. Czy mogę korzystać z głównych składników (PCA) lub innych analiz redukcji danych (takich jak analiza czynnikowa) dla tego rodzaju danych? Proszę doradzić, jak mam to zrobić za pomocą SPSS.

30 spss categorical-data pca factor-analysis binary-data

Pytania otagowane jako categorical-data