Dane kategoryczne (zwane również nominalnymi) mogą przyjmować ograniczoną liczbę możliwych wartości zwanych kategoriami. Wartości kategoryczne „etykieta”, nie „mierzą”. Proszę użyć znacznika [ordinal-data] dla dyskretnych, ale uporządkowanych typów danych.
Mam zestaw danych, który zawiera zarówno dane ciągłe, jak i kategoryczne. Analizuję za pomocą PCA i zastanawiam się, czy dobrze jest uwzględnić zmienne kategorialne jako część analizy. Rozumiem, że PCA można zastosować tylko do zmiennych ciągłych. Czy to jest poprawne? Jeśli nie można go użyć do danych kategorycznych, jakie są …
Mam ramkę danych z wieloma obserwacjami i wieloma zmiennymi. Niektóre z nich są kategoryczne (nieuporządkowane), a inne są numeryczne. Szukam skojarzeń między tymi zmiennymi. Byłem w stanie obliczyć korelację dla zmiennych numerycznych (korelacja Spearmana), ale: Nie wiem, jak zmierzyć korelację między nieuporządkowanymi zmiennymi kategorialnymi. Nie wiem, jak zmierzyć korelację między …
Mam zmienną nominalną (różne tematy konwersacji, zakodowane jako topic0 = 0 itd.) I kilka zmiennych skalowych (DV), takich jak długość konwersacji. Jak mogę ustalić korelacje między zmiennymi nominalnymi i skalowanymi?
Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …
Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …
Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …
Jaki jest odpowiedni wykres ilustrujący związek między dwiema zmiennymi porządkowymi? Kilka opcji, o których mogę myśleć: Wykres rozproszenia z dodanym drganiami losowymi, aby zatrzymać ukrywanie się punktów. Niby standardowa grafika - Minitab nazywa to „wykresem wartości indywidualnych”. Moim zdaniem może to być mylące, ponieważ wizualnie zachęca do pewnego rodzaju interpolacji …
Czym dokładnie jest matryca kontrastu (termin odnoszący się do analizy z predyktorami jakościowymi) i jak dokładnie określono matrycę kontrastu? Tzn. Czym są kolumny, czym są wiersze, jakie są ograniczenia na tej macierzy i co oznacza liczba w kolumnie ji rzędzie i? Próbowałem przeglądać dokumenty i sieć, ale wygląda na to, …
Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak …
Mam dane pokazujące wyniki egzaminu wstępnego do strażaka. Testuję hipotezę, że wyniki egzaminów i pochodzenie etniczne nie są od siebie niezależne. Aby to przetestować, przeprowadziłem test chi-kwadrat Pearsona w R. Wyniki pokazują, czego się spodziewałem, ale dało ostrzeżenie, że „ In chisq.test(a) : Chi-squared approximation may be incorrect.” > a …
Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …
Powiedzmy, że mamy zmienną zależną z kilkoma kategoriami i zestawem zmiennych niezależnych. YYY Jakie są zalety wielomianowej regresji logistycznej w porównaniu z zestawem binarnych regresji logistycznych (tj. Schemat jeden do reszty )? Przez zestaw binarnej regresji logistycznej rozumiem, że dla każdej kategorii budujemy osobny binarny model regresji logistycznej z celem …
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …
Mam zestaw danych z dużą liczbą odpowiedzi Tak / Nie. Czy mogę korzystać z głównych składników (PCA) lub innych analiz redukcji danych (takich jak analiza czynnikowa) dla tego rodzaju danych? Proszę doradzić, jak mam to zrobić za pomocą SPSS.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.