Pytania otagowane jako binning

Binning oznacza grupowanie zmiennej ciągłej w dyskretne kategorie. Jest szczególnie używany w odniesieniu do histogramów, ale może być również używany bardziej ogólnie w znaczeniu zgrubnego.

4
Ocena przybliżonego rozkładu danych na podstawie histogramu
Załóżmy, że chcę sprawdzić, czy moje dane są wykładnicze na podstawie histogramu (tzn. Są przekrzywione w prawo). W zależności od sposobu grupowania lub binowania danych mogę uzyskać bardzo różne histogramy. Jeden zestaw histogramów sprawi, że dane będą miały charakter wykładniczy. Kolejny zestaw sprawi, że dane nie będą wykładnicze. Jak sprawić, …

7
Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?
Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta …

3
Korzyści z używania wykresów QQ nad histogramami
W tym komentarzu Nick Cox napisał: Podział na klasy jest starożytną metodą. Podczas gdy histogramy mogą być przydatne, nowoczesne oprogramowanie statystyczne ułatwia, a także wskazane jest dopasowanie rozkładów do surowych danych. Binning po prostu odrzuca szczegóły, które są kluczowe przy określaniu, które rozkłady są prawdopodobne. Kontekst tego komentarza sugeruje użycie …

2
Kiedy powinniśmy dyskretyzować / bin ciągłe zmienne / funkcje niezależne, a kiedy nie?
Kiedy powinniśmy dyskretyzować / bin niezależne zmienne / cechy, a kiedy nie? Moje próby odpowiedzi na pytanie: Zasadniczo nie powinniśmy binować, ponieważ binowanie spowoduje utratę informacji. Binning faktycznie zwiększa stopień swobody modelu, więc możliwe jest spowodowanie nadmiernego dopasowania po binningu. Jeśli mamy model „dużej odchylenia”, binowanie może nie być złe, …

2
Wpływ granic bin na podstawie danych na test dobroci dopasowania chi-kwadrat?
Pomijając oczywistą kwestię niskiej mocy chi-kwadrat w tego rodzaju okolicznościach, wyobraź sobie, że wykonujesz test dobroci chi-kwadrat dla pewnej gęstości z nieokreślonymi parametrami, poprzez binowanie danych. Dla konkretności, powiedzmy rozkład wykładniczy z nieznaną średnią i wielkość próby powiedzmy 100. Aby uzyskać rozsądną liczbę spodziewanych obserwacji na przedział, należałoby wziąć pod …


2
Optymalne binowanie w odniesieniu do danej zmiennej odpowiedzi
Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …

5
Interpretacja twierdzenia Bayesa zastosowana do pozytywnych wyników mammografii
Próbuję owinąć głowę wokół wyniku twierdzenia Bayesa zastosowanego do klasycznego przykładu mammograficznego, przy czym obrót mamogramu jest idealny. To jest, Częstość występowania raka:.01.01.01 Prawdopodobieństwo pozytywnego mammografii, biorąc pod uwagę, że pacjent ma raka:111 Prawdopodobieństwo pozytywnego mammografii, biorąc pod uwagę, że pacjent nie ma raka:.01.01.01 Przez Bayes: P (rak | mammogram …

2
Jak „inteligentnie” skumulować zbiór posortowanych danych?
Staram się inteligentnie bin posortować kolekcję. Mam kolekcję fragmentów danych. Ale wiem, że te dane wpisuje się nierówno wielkości pojemników. Nie wiem, jak inteligentnie wybrać punkty końcowe, aby odpowiednio dopasować dane. na przykład:nnnmmm Powiedzmy, że mam w mojej kolekcji 12 produktów i wiem, że dane zmieszczą się w 3 pojemnikach: …


2
Liczba pojemników podczas obliczania wzajemnych informacji
Chcę kwantyfikować związek między dwiema zmiennymi, A i B, wykorzystując wzajemne informacje. Można to obliczyć, dzieląc obserwacje (patrz przykładowy kod Python poniżej). Jednak jakie czynniki determinują, jaka liczba pojemników jest rozsądna? Potrzebuję szybkiego obliczenia, więc nie mogę po prostu użyć wielu pojemników, aby zachować bezpieczeństwo. from sklearn.metrics import mutual_info_score def …

1
R regresja liniowa zmienna kategorialna „ukryta” wartość
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Wzór Doane'a na binowanie histogramów
Wdrażam różne algorytmy, aby oszacować najlepszą liczbę pojemników do użycia w histogramach. Większość z tych, które wdrażam, opisano na stronie „Histogram” w Wikipedii w sekcji „ Liczba pojemników i szerokość ” *. Utknąłem na problem z formułą Doane'a: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) gdzie …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.