Pytanie do wywiadu z naukowcem: Regresja liniowa niska

Stawiłem czoła pytaniu kwalifikacyjnemu o pracę, w której ankieter zapytał mnie, czy twoje jest bardzo niskie (od 5 do 10%) dla modelu elastyczności cen. Jak rozwiązałbyś to pytanie? $R^2$

Nie mogłem wymyślić nic innego niż fakt, że zrobię diagnostykę regresji, aby zobaczyć, co poszło źle lub czy należy zastosować jakąkolwiek metodę nieliniową. Jakoś myślę, że wywiad nie był zadowolony z mojej odpowiedzi. Czy jest coś jeszcze, co można zrobić w takim scenariuszu, aby dopasować model i użyć go do prognozowania poziomu produkcji, mimo że ma niski ? $R^2$

Edycja : Na późniejszym etapie podali mi dane do modelowania problemu podczas wywiadu i próbowałem dodać zmienne opóźnione, wpływ ceny konkurencji, manekiny sezonowości, aby zobaczyć, czy to coś zmieniło. spadł do 17,6 procent, a jego wyniki w próbie wstrzymania były słabe. Osobiście uważam, że nieetyczne jest umieszczanie takiego modelu prognozowania w środowisku na żywo, ponieważ da on błędne wyniki i spowoduje utratę klientów (wyobraź sobie, że korzystasz z rekomendacji cenowej z takiego modelu w przychodach Twojej firmy!). Czy w takich scenariuszach dzieje się coś jeszcze, co jest zbyt oczywiste, że każdy musi o tym wiedzieć? Coś, czego nie jestem świadomy, co kusi mnie, by powiedzieć „srebrna kula”? $R^2$

Ponadto, pozwala wyobrazić po dodaniu egzogenne zmienna poprawia przez kolejne 2%, to co można zrobić w tej sytuacji? Czy powinniśmy odrzucić projekt modelowania, czy istnieje jeszcze nadzieja na opracowanie modelu jakości na poziomie produkcji, na co wskazują wyniki na próbce wstrzymania? $R^2$

Edit2 : Pisałem to pytanie w economics.stackexchange.com forum dla zrozumienia tego problemu z punktu widzenia ekonomii

regression self-study theory

— Entuzjasta
źródło

„Przypuszczam, że Twój

jest bardzo niska (od 5 do 10%) na elastyczność cenowa modelu” nie jest pytanie . Moja odpowiedź na „załóżmy Twój

jest bardzo niska (od 5 do 10%) na elastyczność cenowa modelu” byłby „Ok, zrobione”. Mogę przypuszczać, że nie ma problemu, więc nie mam nic więcej do roboty. Gdyby tak naprawdę nie były w najbliższym czasie, musiałbym zapytać, jaki aspekt tego problemu uważali za problem do rozwiązania. W razie ich braku, co według ciebie jest problemem ?

R^{2}

$R^2$

R^{2}

$R^2$

— Glen_b

Oznacziłem to do samodzielnego studiowania @Glen_b, daj mi znać, jeśli będę potrzebować dodać więcej szczegółów. Dzięki!

— Entuzjasta

Dzięki, to dobra rzecz do zrobienia. Ale bardziej szczegółowe informacje obejmują pytanie, które należy rozwiązać. „Załóżmy, że X” przedstawia sytuację, w której nie trzeba niczego rozwiązywać.

— Glen_b

Publikacja krzyżowa na stronie economics.stackexchange.com/q/16617 . Spróbuj wybrać najlepszą stronę do pytania: jeśli uważasz, że warto dostosować warianty do różnych witryn, nadal łącz je.

— Scortchi - Przywróć Monikę

@Scortchi, dodałem link jako dodatkową edycję na obu forach. Dzięki!

— Entuzjasta

Odpowiedzi:

Co jeśli spojrzymy na problem z tej perspektywy. Elastyczność cen to związek między popytem a ceną produktu.

Gdy r-kwadrat w tej sytuacji jest niski, moglibyśmy sugerować, że związek między ceną a popytem na ten konkretny produkt nie jest silny.

Z punktu widzenia wyceny może to oznaczać, że znalazłeś produkt, za który możesz wycenić dowolnie bez dużego wpływu na popyt LUB że popyt jest dość zmienny pomimo różnicowania cen.

Jeśli spojrzysz na towary Veblen , są to przykłady, w których elastyczność jest odwrotna. Wraz ze wzrostem ceny rośnie popyt.

Z drugiej strony, jeśli r-kwadrat jest niski, może to po prostu oznaczać kategorię produktu, dla którego cena jest stosunkowo nieistotna, jeśli chodzi o popyt. Z czubka mojej głowy lek przeciwnowotworowy może być czymś, co przylgnie do tej właściwości. Tam, gdzie znaczenie leku przewyższa cenę, którą nakazuje, i nie może wykazać żadnej zmiany popytu.

Podsumowując, zakładam, że intencją ankietera może być osądzenie, czy wiesz, co oznacza implikacja niskiego kwadratu r, zamiast dowiedzieć się, jak zbudować lepszy model z wyższym kwadratem r.

— Arun Jose
źródło

+1 za zakończenie. Myślę też, że celem tego pytania jest próba zobaczenia, czy kandydat ślepo realizuje metrykę, nie w pełni ją rozumiejąc.

— Haitao Du

Nie jestem pewien, o co chodziło ankieterowi, ale w obliczu słabo wykonanego modelu to są rzeczy, które rozważam i odpowiedź, którą chciałbym usłyszeć jako ankieter (rozmawiam od kilku lat).

Zdobywanie większej ilości danych : to nie zawsze może pomóc, ale jest kilka rzeczy, które mogą pomóc w ocenie efektów tego rozwiązania:
- Uruchom model z różnymi wielkościami próbek - jeśli wyniki poprawią się z większą liczbą danych, uzasadnione założenie, że uzyskanie większej ilości danych będzie nadal poprawiać wydajność modelu.
- Stosunek funkcji do próbek - po wybraniu funkcji spróbuj zrozumieć, czy masz wystarczającą liczbę próbek na każdą wartość funkcji. Zobacz odpowiedź na pytanie na ten temat .
- Brakujące wartości docelowe - elastyczność może nie zachowywać się podobnie w różnych przedziałach cenowych. W sytuacji, gdy próbkujesz dane są tendencyjne do określonego zakresu, istnieje duża szansa, że nie będziesz w stanie uogólnić (na przykład 90% próbek dotyczy cen od 0 do 10, a pozostałe 10% dotyczy cen od 1000–10000). Istnieją inne sposoby rozwiązania tego problemu niż uzyskanie większej ilości danych (podziel szkolenie modelu, nie używaj regresji).
Lepsza inżynieria funkcji : jeśli masz wystarczającą ilość danych i wiesz o głębokim uczeniu się, być może ta nie ma znaczenia. Jeśli nie spełniasz wymienionych kryteriów, skoncentruj swoje wysiłki na tym. W modelach zachowań użytkowników istnieje wiele relacji, które nasza ludzka intuicja lepiej rozumie niż model wyuczony przez maszynę.
Tak jak w przypadku, w którym zaprojektowano kilka dodatkowych funkcji i znacznie poprawiono wydajność modelu. Ten krok jest podatny na błędy, ponieważ zwykle obejmuje kod oparty na logice (jeśli inne / formuły matematyczne).
Lepszy wybór modelu : Jak sugerowałeś, być może model nieliniowy będzie działał lepiej. Czy Twoje dane są jednorodne? Czy masz powody, by sądzić, że cechy krzyżowe lepiej wyjaśnią elastyczność cenową? (sezonowość * cena konkurenta).
Strojenie hiper parametrów : hiperparametry modelu wyszukiwania siatki (+ wyniki weryfikacji krzyżowej) to dobra praktyka, ale o ile mi wiadomo, rzadko poprawia wydajność (na pewno nie od 5% do 90%).

Jest więcej rzeczy, które można zrobić, ale te punkty są dość ogólne.

— yoav_aaa
źródło

Oprócz tego, co sugerują @DaFanat i @Arun, chciałbym dodać, że pomocna może być kontrola wizualna.

$R^2$

— IcannotFixThis
źródło

Dziękujemy za udostępnienie danych wejściowych dotyczących konkretnej domeny, ponieważ jest to rzeczywiście problem z zarządzaniem przychodami

— Entuzjasta