Binning oznacza grupowanie zmiennej ciągłej w dyskretne kategorie. Jest szczególnie używany w odniesieniu do histogramów, ale może być również używany bardziej ogólnie w znaczeniu zgrubnego.
Załóżmy, że chcę sprawdzić, czy moje dane są wykładnicze na podstawie histogramu (tzn. Są przekrzywione w prawo). W zależności od sposobu grupowania lub binowania danych mogę uzyskać bardzo różne histogramy. Jeden zestaw histogramów sprawi, że dane będą miały charakter wykładniczy. Kolejny zestaw sprawi, że dane nie będą wykładnicze. Jak sprawić, …
Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta …
W tym komentarzu Nick Cox napisał: Podział na klasy jest starożytną metodą. Podczas gdy histogramy mogą być przydatne, nowoczesne oprogramowanie statystyczne ułatwia, a także wskazane jest dopasowanie rozkładów do surowych danych. Binning po prostu odrzuca szczegóły, które są kluczowe przy określaniu, które rozkłady są prawdopodobne. Kontekst tego komentarza sugeruje użycie …
Kiedy powinniśmy dyskretyzować / bin niezależne zmienne / cechy, a kiedy nie? Moje próby odpowiedzi na pytanie: Zasadniczo nie powinniśmy binować, ponieważ binowanie spowoduje utratę informacji. Binning faktycznie zwiększa stopień swobody modelu, więc możliwe jest spowodowanie nadmiernego dopasowania po binningu. Jeśli mamy model „dużej odchylenia”, binowanie może nie być złe, …
Pomijając oczywistą kwestię niskiej mocy chi-kwadrat w tego rodzaju okolicznościach, wyobraź sobie, że wykonujesz test dobroci chi-kwadrat dla pewnej gęstości z nieokreślonymi parametrami, poprzez binowanie danych. Dla konkretności, powiedzmy rozkład wykładniczy z nieznaną średnią i wielkość próby powiedzmy 100. Aby uzyskać rozsądną liczbę spodziewanych obserwacji na przedział, należałoby wziąć pod …
Załóżmy, że mam dwa rozkłady, które chcę szczegółowo porównać, tj. W taki sposób, aby kształt, skala i przesunięcie były łatwo widoczne. Jednym dobrym sposobem na to jest wykreślenie histogramu dla każdej dystrybucji, umieszczenie ich w tej samej skali X i ułożenie jednego pod drugim. W jaki sposób należy to zrobić? …
Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …
Próbuję owinąć głowę wokół wyniku twierdzenia Bayesa zastosowanego do klasycznego przykładu mammograficznego, przy czym obrót mamogramu jest idealny. To jest, Częstość występowania raka:.01.01.01 Prawdopodobieństwo pozytywnego mammografii, biorąc pod uwagę, że pacjent ma raka:111 Prawdopodobieństwo pozytywnego mammografii, biorąc pod uwagę, że pacjent nie ma raka:.01.01.01 Przez Bayes: P (rak | mammogram …
Staram się inteligentnie bin posortować kolekcję. Mam kolekcję fragmentów danych. Ale wiem, że te dane wpisuje się nierówno wielkości pojemników. Nie wiem, jak inteligentnie wybrać punkty końcowe, aby odpowiednio dopasować dane. na przykład:nnnmmm Powiedzmy, że mam w mojej kolekcji 12 produktów i wiem, że dane zmieszczą się w 3 pojemnikach: …
Przeczytałem więc kilka postów o tym, dlaczego zawsze należy unikać binowania. Popularnym odniesieniem dla tego roszczenia jest ten link . Główną kwestią jest to, że punkty binningu (lub punkty odcięcia) są raczej arbitralne, jak również wynikająca z tego utrata informacji, i że splajny powinny być preferowane. Jednak obecnie pracuję z …
Chcę kwantyfikować związek między dwiema zmiennymi, A i B, wykorzystując wzajemne informacje. Można to obliczyć, dzieląc obserwacje (patrz przykładowy kod Python poniżej). Jednak jakie czynniki determinują, jaka liczba pojemników jest rozsądna? Potrzebuję szybkiego obliczenia, więc nie mogę po prostu użyć wielu pojemników, aby zachować bezpieczeństwo. from sklearn.metrics import mutual_info_score def …
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
Wdrażam różne algorytmy, aby oszacować najlepszą liczbę pojemników do użycia w histogramach. Większość z tych, które wdrażam, opisano na stronie „Histogram” w Wikipedii w sekcji „ Liczba pojemników i szerokość ” *. Utknąłem na problem z formułą Doane'a: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) gdzie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.