Statystyki i duże zbiory danych discrete-data

10

Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?

62 continuous-data discrete-data

5

Grupowanie zestawu danych ze zmiennymi dyskretnymi i ciągłymi

Mam zestaw danych X, który ma 10 wymiarów, z których 4 to wartości dyskretne. W rzeczywistości te 4 zmienne dyskretne są porządkowe, tzn. Wyższa wartość implikuje wyższy / lepszy semantyczny. 2 z tych zmiennych dyskretnych są jakościowe w tym sensie, że dla każdej z tych zmiennych odległość np. Od 11 …

33 clustering k-means discrete-data continuous-data gaussian-mixture

3

Czy test Kołmogorowa-Smirnowa jest ważny przy rozkładach dyskretnych?

Porównuję próbkę i sprawdzam, czy rozprowadza się ją jako jakąś dyskretną dystrybucję. Nie jestem jednak pewien, czy Kołmogorow-Smirnov ma zastosowanie. Wikipedia wydaje się sugerować, że tak nie jest. Jeśli nie, to jak mogę przetestować rozkład próbki?

29 hypothesis-testing discrete-data kolmogorov-smirnov

4

Prognozowanie za pomocą funkcji ciągłych i kategorycznych

Niektóre techniki modelowania predykcyjnego są bardziej zaprojektowane do obsługi ciągłych predyktorów, podczas gdy inne są lepsze do obsługi zmiennych jakościowych lub dyskretnych. Oczywiście istnieją techniki przekształcania jednego typu na inny (dyskretyzacja, zmienne fikcyjne itp.). Czy są jednak jakieś techniki modelowania predykcyjnego, które zostały zaprojektowane do obsługi obu typów danych wejściowych …

26 classification predictive-models categorical-data continuous-data discrete-data

1

Kołmogorow-Smirnov z dyskretnymi danymi: Jakie jest właściwe zastosowanie dgof :: ks.test w R?

Pytania dla początkujących: Chcę przetestować, czy dwa dyskretne zestawy danych pochodzą z tej samej dystrybucji. Zaproponowano mi test Kołmogorowa-Smirnowa. Conover ( Practical Nonparametric Statistics , 3d) wydaje się mówić, że do tego celu można zastosować test Kołmogorowa-Smirnowa, ale jego zachowanie jest „konserwatywne” z dyskretnymi rozkładami i nie jestem pewien, co …

23 r goodness-of-fit discrete-data kolmogorov-smirnov

1

Upuszczenie jednej z kolumn podczas kodowania na gorąco

Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …

22 regression machine-learning categorical-data discrete-data categorical-encoding

2

Czy ta dyskretna dystrybucja ma nazwę?

Czy ta dyskretna dystrybucja ma nazwę? Dlai∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} Natrafiłem na tę dystrybucję z następujących: Mam listę pozycji uszeregowanych według funkcji użyteczności. Chcę losowo wybrać jeden z elementów, kierując się na początek listy. Więc najpierw wybieram indeks pomiędzy 1 a równomiernie. Następnie wybieram …

21 probability terminology discrete-data distributions

2

Wykrywanie anomalii za pomocą funkcji manekina (i innych funkcji dyskretnych / kategorialnych)

tl; dr Jaki jest zalecany sposób postępowania z discretedanymi podczas wykrywania nieprawidłowości? Jaki jest zalecany sposób postępowania categoricaldanymi podczas wykrywania nieprawidłowości? Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników. Być może zastąpisz wartość kategorii procentową szansą obserwacji? Wprowadzenie To jest mój pierwszy post tutaj, więc proszę, jeśli coś …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

Podstawowe pytania dotyczące dyskretnej analizy przeżycia czasowego

Próbuję przeprowadzić dyskretną analizę przeżycia czasowego przy użyciu modelu regresji logistycznej i nie jestem pewien, czy całkowicie rozumiem ten proces. Byłbym bardzo wdzięczny za pomoc w kilku podstawowych pytaniach. Oto konfiguracja: Patrzę na członkostwo w grupie w ciągu pięciu lat. Każdy członek ma miesięczny zapis członkostwa za każdy miesiąc, gdy …

18 survival discrete-data hazard kaplan-meier

2

Jak dopasować rozkład dyskretny do zliczania danych?

Mam następujący histogram danych zliczania. I chciałbym dopasować do niego dyskretny rozkład. Nie jestem pewien, jak powinienem to zrobić. Czy powinienem najpierw nałożyć na histogram rozkład dyskretny, powiedzmy ujemny rozkład dwumianowy, aby uzyskać parametry rozkładu dyskretnego, a następnie uruchomić test Kołmogorowa – Smirnowa, aby sprawdzić wartości p? Nie jestem pewien, …

17 r poisson-distribution discrete-data computational-statistics negative-binomial

1

Hamiltonian Monte Carlo i dyskretne przestrzenie parametrów

Właśnie rozpoczął budowę modeli Stan ; aby zbudować znajomość narzędzia, pracuję nad niektórymi ćwiczeniami z analizy danych bayesowskich (wydanie 2). W Waterbuck wykonywania zakłada, że dane , z nieznany. Ponieważ Hamiltonian Monte Carlo nie zezwala na parametry dyskretne, zadeklarowałem jako rzeczywistą i zakodowałem rozkład dwumianowy o wartości rzeczywistej za pomocą …

13 bayesian mcmc discrete-data stan

3

Formuła prawdopodobieństwa dla rozkładu wielowymiarowego-bernoulli

Potrzebuję wzoru na prawdopodobieństwo zdarzenia w n-zmiennym rozkładzie Bernoulliego przy danych prawdopodobieństwa dla pojedynczego elementu i dla par elementów . Równoważnie mogę dać średnią i kowariancji .X∈{0,1}nX∈{0,1}nX\in\{0,1\}^n P ( X i = 1 ∧ X j = 1 ) = p i j XP(Xi=1)=piP(Xi=1)=piP(X_i=1)=p_iP(Xi=1∧Xj=1)=pijP(Xi=1∧Xj=1)=pijP(X_i=1 \wedge X_j=1)=p_{ij}XXX Dowiedziałem się już, że …

13 multivariate-analysis discrete-data

2

Optymalne binowanie w odniesieniu do danej zmiennej odpowiedzi

Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …

12 r dataset optimization discrete-data binning

3

Właściwości dyskretnej zmiennej losowej

Mój kurs statystyki nauczył mnie, że dyskretna zmienna losowa ma skończoną liczbę opcji ... Nie zdawałem sobie z tego sprawy. Wydawało mi się, że jak zestaw liczb całkowitych może być nieskończony. Googlowanie i sprawdzanie kilku stron internetowych, w tym kilku z kursów uniwersyteckich, nie potwierdziło tego wyraźnie; jednak większość stron …

11 random-variable discrete-data

3

Wizualizuj dwuwymiarowy rozkład dwumianowy

Pytanie: jak wygląda dwumianowy rozkład dwumianowy w przestrzeni trójwymiarowej? Poniżej znajduje się konkretna funkcja, którą chciałbym wizualizować dla różnych wartości parametrów; mianowicie , p 1 i p 2 .nnnp1p1p_{1}p2p2p_{2} f(x1,x2) = n !x1! x2)!px11px2)2),x1+ x2)= n ,p1+ p2)= 1f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. Zauważ, że istnieją dwa ograniczenia; …

11 probability data-visualization binomial discrete-data distributions

Pytania otagowane jako discrete-data