Myślę o problemie polegającym na przewidywaniu dziennika (wydatków) klienta za pomocą regresji liniowej.
Zastanawiam się, jakich funkcji użyć jako danych wejściowych i zastanawiam się, czy użyteczne byłoby użycie percentyla zmiennej jako danych wejściowych.
Na przykład mógłbym wykorzystać przychody firm jako wkład. Zastanawiam się, czy zamiast tego mógłbym użyć percentyla przychodów firmy.
Innym przykładem byłby kategoryczny klasyfikator branżowy (NAICS) - jeśli miałbym spojrzeć na medianę wydatków na kod NAICS, a następnie przypisać każdy kod NAICS do „Percentile NAICS”, czy byłby to prawidłowa zmienna objaśniająca, której mogłabym użyć?
Zastanawiasz się tylko, czy są jakieś problemy, o których należy pamiętać podczas używania percentyli? Czy jest to w jakiś sposób równoważne rodzajowi skalowania funkcji?