Statystyki i duże zbiory danych binary-data

9

Pomiar entropii / informacji / wzorów matrycy binarnej 2d

Chcę zmierzyć entropię / gęstość informacji / podobieństwo wzorca dwuwymiarowej macierzy binarnej. Pokażę kilka zdjęć w celu wyjaśnienia: Ten ekran powinien mieć raczej wysoką entropię: ZA) To powinno mieć średnią entropię: B) Wreszcie te zdjęcia powinny mieć entropię bliską zeru: DO) RE) MI) Czy istnieje jakiś indeks, który przechwytuje entropię, …

53 algorithms binary-data entropy pattern-recognition information

6

Klasyfikacja binarna z klasami wysoce niezrównoważonymi

Mam zestaw danych w postaci (funkcje, wyjście binarne 0 lub 1), ale 1 zdarza się dość rzadko, więc po prostu zawsze przewidując 0, uzyskuję dokładność między 70% a 90% (w zależności od konkretnych danych, na które patrzę ). Metody ML dają mi tę samą dokładność i uważam, że powinny być …

52 machine-learning classification binary-data unbalanced-classes

4

Próg prawdopodobieństwa klasyfikacji

Mam pytanie dotyczące klasyfikacji w ogóle. Niech f będzie klasyfikatorem, który generuje zbiór prawdopodobieństw przy danych danych D. Normalnie można by powiedzieć: cóż, jeśli P (c | D)> 0,5, przypiszemy klasę 1, w przeciwnym razie 0 (niech to będzie binarna Klasyfikacja). Moje pytanie brzmi: co, jeśli się dowiem, że jeśli …

49 machine-learning classification binary-data threshold

3

Czy sensowne jest obliczenie korelacji Pearsona lub Spearmana między dwoma wektorami boolowskimi?

Istnieją dwa wektory logiczne, które zawierają tylko 0 i 1. Jeśli obliczę korelację Pearsona lub Spearmana, czy są one sensowne czy rozsądne?

42 correlation binary-data pearson-r spearman-rho

3

Czy PCA będzie działać dla typów danych boolowskich (binarnych)?

Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Przeprowadzanie analizy głównych składników lub analizy czynnikowej na danych binarnych

Mam zestaw danych z dużą liczbą odpowiedzi Tak / Nie. Czy mogę korzystać z głównych składników (PCA) lub innych analiz redukcji danych (takich jak analiza czynnikowa) dla tego rodzaju danych? Proszę doradzić, jak mam to zrobić za pomocą SPSS.

30 spss categorical-data pca factor-analysis binary-data

1

Czy istnieje analiza czynnikowa lub PCA dla danych porządkowych lub binarnych?

Ukończyłem analizę głównych składników (PCA), eksploracyjną analizę czynnikową (EFA) i potwierdzającą analizę czynnikową (CFA), traktując dane za pomocą skali Likerta (odpowiedzi 5-stopniowe: brak, trochę, trochę ...) jako ciągłe zmienna. Następnie, używając Lavaana, powtórzyłem CFA, definiując zmienne jako kategoryczne. Chciałbym wiedzieć, jakie typy analiz byłyby odpowiednie i byłyby równoważne PCA i …

28 pca factor-analysis ordinal-data binary-data likert

2

Jak używać jednocześnie zmiennych binarnych i ciągłych w grupowaniu?

Potrzebuję użyć zmiennych binarnych (wartości 0 i 1) w k-średnich. Ale k-średnie działa tylko ze zmiennymi ciągłymi. Wiem, że niektórzy ludzie nadal używają tych zmiennych binarnych w k-średnich, ignorując fakt, że k-średnie jest zaprojektowane tylko dla zmiennych ciągłych. To jest dla mnie nie do przyjęcia. Pytania: Jaki jest zatem statystycznie …

27 r clustering binary-data k-means mixed-type-data

7

Dlaczego na przykład płeć zazwyczaj ma kod 0/1 zamiast 1/2?

Rozumiem logikę kodowania do analizy danych. Moje pytanie poniżej dotyczy użycia określonego kodu. Czy istnieje powód, dla którego płeć jest często kodowana jako 0 dla kobiety i 1 dla mężczyzny? Dlaczego to kodowanie jest uważane za „standardowe”? Porównaj to z Kobietą = 1 i Mężczyzną = 2. Czy występuje problem …

25 data-transformation binary-data categorical-encoding units

5

Czy powinieneś kiedykolwiek ustandaryzować zmienne binarne?

Mam zestaw danych z zestawem funkcji. Niektóre z nich są binarne aktywne lub zwolnione, nieaktywne lub nieaktywne), a reszta ma wartość rzeczywistą, np . .(1=(1=(1=0=0=0=4564.3424564.3424564.342 Chcę nakarmić te dane do algorytmu uczenia maszynowego, więc zzz -score wszystkie wartościach rzeczywistych możliwości. Dostaję je w przybliżeniu między zakresem 333 a −2−2-2 . …

25 machine-learning normalization binary-data

3

Wizualizacja kalibracji przewidywanego prawdopodobieństwa modelu

Załóżmy, że mam model predykcyjny, który generuje dla każdej instancji prawdopodobieństwo dla każdej klasy. Teraz zdaję sobie sprawę, że istnieje wiele sposobów oceny takiego modelu, jeśli chcę wykorzystać te prawdopodobieństwa do klasyfikacji (precyzja, przywołanie itp.). Rozumiem również, że krzywa ROC i obszar pod nią mogą być użyte do określenia, jak …

23 data-visualization classification predictive-models binary-data calibration

3

Generuj losowo skorelowane dane między zmienną binarną a ciągłą

Chcę wygenerować dwie zmienne. Jedna to zmienna wyniku binarnego (powiedzmy sukces / porażka), a druga to wiek w latach. Chcę, aby wiek był pozytywnie skorelowany z sukcesem. Na przykład powinno być więcej sukcesów w wyższych segmentach wiekowych niż w niższych. Idealnie powinienem być w stanie kontrolować stopień korelacji. W jaki …

23 correlation random-variable random-generation binary-data

2

Grupowanie macierzy binarnej

Mam pół-małą macierz funkcji binarnych o wymiarze 250k x 100. Każdy wiersz to użytkownik, a kolumny to binarne „tagi” niektórych zachowań użytkownika, np. „Like_cats”. user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 …

22 r clustering binary-data

2

Współczynniki podobieństwa dla danych binarnych: Dlaczego warto wybrać Jaccard zamiast Russell i Rao?

Z Encyklopedii Nauk Statystycznych Rozumiem, że dany dychotomiczne (binarne: 1 = obecna; 0 = brak) atrybuty (zmienne), możemy utworzyć tabelę interwencyjny dla dowolnych dwóch przedmiotów í i j próbki:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = …

20 binary-data similarities association-measure

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Pytania otagowane jako binary-data