Chcę zawrzeć termin i jego kwadrat (zmienne predykcyjne) w regresji, ponieważ zakładam, że niskie wartości mają pozytywny wpływ na zmienną zależną, a wysokie wartości mają negatywny wpływ. powinien obejmować działanie wyższych wartości. Oczekuję zatem, że współczynnik będzie dodatni, a współczynnik będzie ujemny. Oprócz uwzględniam także inne zmienne predykcyjne.
Czytałem w niektórych postach tutaj, że dobrym pomysłem jest wyśrodkowanie zmiennych w tym przypadku, aby uniknąć wielokoliniowości. Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?
Czy powinienem wyśrodkować obie zmienne osobno (na średniej), czy powinienem tylko wyśrodkować a następnie wziąć kwadrat, czy powinienem wyśrodkować tylko i dołączyć oryginalne ?
Czy to problem, jeśli jest zmienną zliczającą?
Aby nie był zmienną zliczającą, pomyślałem o podzieleniu go przez teoretycznie zdefiniowany obszar, na przykład 5 kilometrów kwadratowych. Powinno to być trochę podobne do obliczania gęstości punktów.
Obawiam się jednak, że w tej sytuacji moje początkowe założenie dotyczące znaku współczynników już się nie utrzyma, jak wtedy, gdy i x² = 4
=
ale byłoby wtedy mniejsze, ponieważ .