Statystyki i duże zbiory danych categorical-data

2

Znaczenie predyktora jakościowego w regresji logistycznej

Mam problem z interpretacją wartości Z dla zmiennych kategorialnych w regresji logistycznej. W poniższym przykładzie mam zmienną kategorialną z 3 klasami i zgodnie z wartością z, KLASA 2 może być istotna, podczas gdy inne nie. Ale co to teraz znaczy? Że mogę połączyć pozostałe klasy w jedną? Czy cała zmienna …

19 r logistic categorical-data feature-selection categorical-encoding

5

Jak badać „korelację” między zmienną ciągłą a zmienną kategorialną?

Czym jest miarodajna miara „korelacji” do badania związku między tymi dwoma typami zmiennych? W R, jak to zrobić?

19 r correlation categorical-data association-measure

5

Jak przekodować zmienną kategorialną na zmienną numeryczną podczas korzystania z SVM lub sieci neuronowej

Aby użyć SVM lub sieci neuronowej, należy przekształcić (zakodować) zmienne kategorialne w zmienne numeryczne, normalną metodą w tym przypadku jest użycie wartości binarnych 0-1 z przekształconą k-tą wartością kategorialną na (0,0, .. ., 1,0, ... 0) (1 jest w pozycji k-tej). Czy istnieją inne metody, aby to zrobić, zwłaszcza gdy …

19 machine-learning neural-networks categorical-data svm categorical-encoding

4

Czy w przypadku danych kategorycznych mogą istnieć klastry bez powiązanych zmiennych?

Próbując wyjaśnić analizy skupień, ludzie często błędnie rozumieją ten proces jako związany z korelacją zmiennych. Jednym ze sposobów na ominięcie tego zamieszania jest taki spisek: To wyraźnie pokazuje różnicę między pytaniem, czy istnieją klastry, a pytaniem, czy zmienne są powiązane. Ilustruje to jednak tylko rozróżnienie dla ciągłych danych. Mam problem …

19 clustering categorical-data independence

2

Interpretacja beta, gdy istnieje wiele zmiennych kategorialnych

Rozumiem pojęcie, że jest średnią, gdy zmienna kategorialna jest równa 0 (lub jest grupą odniesienia), co daje końcową interpretację, że współczynnik regresji jest różnicą średniej z dwóch kategorii. Zakładam, że nawet przy> 2 kategoriach każda wyjaśnia różnicę między średnią tej kategorii a odniesieniem.β^0β^0\hat\beta_0β^β^\hat\beta Ale co jeśli więcej zmiennych zostanie wprowadzonych …

18 multiple-regression categorical-data interpretation regression-coefficients contrast

4

Brak przechodniości korelacji: korelacje między płcią a rozmiarem mózgu oraz między wielkością mózgu a ilorazem inteligencji, ale brak korelacji między płcią a ilorazem inteligencji

Na blogu znalazłem następujące wyjaśnienie i chciałbym uzyskać więcej informacji na temat nieprzechodniości korelacji: Mamy następujące niepodważalne fakty: Przeciętnie istnieje różnica w objętości mózgu między mężczyznami i kobietami Istnieje korelacja między IQ a rozmiarem mózgu; korelacja wynosi 0,33, a zatem odpowiada 10% zmienności IQ Z przesłanek 1 i 2 wynika …

18 correlation categorical-data mean descriptive-statistics neuroscience

1

Jak radzić sobie z maszyną SVM z atrybutami kategorialnymi

Mam przestrzeń 35 wymiarów (atrybutów). Mój problem analityczny jest prosty. Spośród 35 wymiarów ponad 25 ma charakter kategoryczny, a każdy atrybut przyjmuje ponad 50 typów wartości. W tym scenariuszu wprowadzenie zmiennej zastępczej również nie będzie dla mnie działać. Jak mogę uruchomić SVM na przestrzeni, która ma wiele atrybutów jakościowych?

18 categorical-data svm

5

Jakich statystyk podsumowujących używać ze zmiennymi jakościowymi lub jakościowymi?

Aby wyjaśnić, kiedy mam na myśli statystyki podsumowujące, mam na myśli średnią, zakresy mediany kwartylowej, wariancję, odchylenie standardowe. Czy podsumowując jednoznaczny , jakościowy lub jakościowy , biorąc pod uwagę zarówno przypadki nominalne, jak i porządkowe , sensowne jest znalezienie jego średniej, mediany, zakresów kwartylowych, wariancji i odchylenia standardowego? Jeśli tak, …

18 categorical-data descriptive-statistics

2

Wykrywanie anomalii za pomocą funkcji manekina (i innych funkcji dyskretnych / kategorialnych)

tl; dr Jaki jest zalecany sposób postępowania z discretedanymi podczas wykrywania nieprawidłowości? Jaki jest zalecany sposób postępowania categoricaldanymi podczas wykrywania nieprawidłowości? Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników. Być może zastąpisz wartość kategorii procentową szansą obserwacji? Wprowadzenie To jest mój pierwszy post tutaj, więc proszę, jeśli coś …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

Jak sprawdzić istotność statystyczną zmiennej jakościowej w regresji liniowej?

Jeśli w regresji liniowej mam zmienną kategorialną ... skąd mam poznać stastyczne znaczenie zmiennej kategorialnej? Powiedzmy, że współczynnik ma 10 poziomów ... będzie 10 różnych wynikowych wartości t, pod parasolem jednej zmiennej czynnikowej ...X1X1X_1X1X1X_1 Wydaje mi się, że istotność statystyczna jest testowana dla każdego poziomu zmiennej czynnikowej? Nie? @Macro: Zgodnie …

18 regression statistical-significance categorical-data

3

Czy budowanie klasyfikatora wieloklasowego jest lepsze niż kilka binarnych?

Muszę podzielić adresy URL na kategorie. Powiedzmy, że mam 15 kategorii, do których planuję wyzerować każdy adres URL. Czy 15-drożny klasyfikator jest lepszy? Gdzie mam 15 etykiet i generuję funkcje dla każdego punktu danych. Lub budowanie 15 binarnych klasyfikatorów, powiedzmy: film lub nie-film, i użyj liczb, które otrzymuję z tych …

18 machine-learning classification categorical-data svm feature-selection

2

Ważność funkcji w przypadku zmiennych zastępczych

Próbuję zrozumieć, w jaki sposób mogę uzyskać znaczenie funkcji zmiennej jakościowej, która została podzielona na zmienne fikcyjne. Używam scikit-learn, który nie obsługuje zmiennych kategorialnych tak jak R lub H2O. Jeśli podzielę zmienną kategorialną na zmienne pozorne, otrzymam osobne importy cech dla każdej klasy w tej zmiennej. Moje pytanie brzmi: czy …

18 categorical-data random-forest interpretation importance

1

Jak traktować predyktory jakościowe w LASSO

Używam LASSO, który ma pewne predyktory zmiennych jakościowych i niektóre ciągłe. Mam pytanie dotyczące zmiennych kategorialnych. Pierwszym krokiem, jaki rozumiem, jest rozbicie każdego z nich na atrapy, ujednolicenie ich pod kątem uczciwej kary, a następnie regres. Pojawia się kilka opcji traktowania zmiennych fikcyjnych: Uwzględnij wszystkie manekiny oprócz jednego dla każdego …

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

Jakościowe kodowanie zmiennych w regresji prowadzi do „osobliwości”

Mam niezależną zmienną o nazwie „jakość”; ta zmienna ma 3 tryby odpowiedzi (zła jakość; średnia jakość; wysoka jakość). Chcę wprowadzić tę zmienną niezależną do mojej wielokrotnej regresji liniowej. Kiedy mam binarną zmienną niezależną (zmienną fikcyjną, mogę kodować 0/ 1), łatwo jest wprowadzić ją do modelu wielokrotnej regresji liniowej. Ale przy …

17 r regression categorical-data multicollinearity categorical-encoding

2

Alternatywa dla sit / wykresów mozaikowych do tabel awaryjnych

Kiedyś natknąłem się na pewien rodzaj wykresu dla danych kategorycznych (tj. Tabel awaryjnych) w Internecie, który bardzo mi się podobał, ale nigdy więcej go nie znalazłem i nawet nie wiem, jak się nazywa. Zasadniczo było to jak wykres sitowy, ponieważ wysokości rzędów i szerokości kolumn były skalowane względem marginalnych prawdopodobieństw. …

17 r data-visualization categorical-data

Pytania otagowane jako categorical-data