x+x2+…
Wartość? - cóż, to szybki i łatwy sposób na uwzględnienie krzywizny bez konieczności myślenia o tym, a model może być wystarczająco dobry do tego, do czego go używasz. Zwykle działa dobrze, gdy masz dużo danych w porównaniu do liczby predyktorów, każdy predyktor jest podzielony na wiele kategorii; w tym przypadku w obrębie każdego pasma predykcyjnego zakres odpowiedzi jest niewielki, a średnia odpowiedź jest precyzyjnie określona.
[Edytuj w odpowiedzi na komentarze:
Czasami w polu stosuje się standardowe wartości graniczne dla zmiennej ciągłej: np. W medycynie pomiary ciśnienia krwi można zaklasyfikować jako niskie, średnie lub wysokie. Może istnieć wiele dobrych powodów, aby stosować takie odcięcia podczas prezentacji lub zastosowania modelu. W szczególności reguły decyzyjne są często oparte na mniejszej ilości informacji niż na modelu i mogą wymagać prostego zastosowania. Ale nie wynika z tego, że te wartości graniczne są odpowiednie do grupowania predyktorów po dopasowaniu modelu.
Załóżmy, że niektóre reakcje zmieniają się ciągle w zależności od ciśnienia krwi. Jeśli zdefiniujesz grupę wysokiego ciśnienia jako predyktor w swoim badaniu, efekt, który oceniasz, jest średnią odpowiedzią na określone ciśnienie krwi osób w tej grupie. To nieoszacowanie średniej odpowiedzi osób z wysokim ciśnieniem krwi w populacji ogólnej lub osób z grupy wysokiego ciśnienia w innym badaniu, chyba że podejmie się odpowiednie środki, aby to zrobić. Jeśli rozkład ciśnienia krwi w populacji ogólnej jest znany, tak jak sobie wyobrażam, lepiej obliczyć średnią odpowiedź osób z wysokim ciśnieniem krwi w populacji ogólnej na podstawie prognoz z modelu z ciśnieniem krwi jako Zmienna ciągła. Surowe binowanie sprawia, że Twój model można w przybliżeniu uogólnić.
Ogólnie rzecz biorąc, jeśli masz pytania dotyczące zachowania odpowiedzi między odcięciami, najpierw dopasuj najlepszy model, jaki możesz, a następnie użyj go, aby na nie odpowiedzieć.]
[W odniesieniu do prezentacji; Myślę, że to czerwony śledź:
(1) Łatwość prezentacji nie usprawiedliwia złych decyzji dotyczących modelowania. (A w przypadkach, w których binowanie jest dobrą decyzją modelowania, nie wymaga dodatkowego uzasadnienia.) Z pewnością jest to oczywiste. Nikt nigdy nie zaleca wyciągania ważnej interakcji z modelu, ponieważ trudno ją przedstawić.
(2) Niezależnie od tego, jaki model pasuje, nadal możesz prezentować jego wyniki w kategoriach kategorii, jeśli uważasz, że pomoże to w interpretacji. Chociaż ...
(3) Musisz być ostrożny, aby upewnić się, że nie pomaga to w błędnej interpretacji z powyższych powodów.
(4) W rzeczywistości nie jest trudno przedstawić odpowiedzi nieliniowe. Jasne jest, że osobista opinia i odbiorcy różnią się; ale nigdy nie widziałem wykresu dopasowanych wartości odpowiedzi w porównaniu do wartości predyktora, który łamałby kogoś tylko dlatego, że jest zakrzywiony. Interakcje, logi, efekty losowe, wielokoliniowość… - wszystko to jest znacznie trudniejsze do wyjaśnienia.]
[Dodatkowym punktem poruszonym przez @Roland jest dokładność pomiaru predyktorów; Myślę, że sugeruje, że kategoryzacja może być odpowiednia, gdy nie są one szczególnie precyzyjne. Zdrowy rozsądek może sugerować, że nie poprawisz spraw, powtarzając je jeszcze mniej precyzyjnie, i zdrowy rozsądek byłby słuszny: MacCallum i in. (2002), „On the Practice of Dychhotomization of Quant Quantities”, Psychological Methods , 7 , 1, s. 17–19.]