Regresja liniowa lub porządkowa regresja logistyczna do przewidywania oceny wina (od 0 do 10)

18

Mam stąd dane o winie , które składają się z 11 liczbowych zmiennych niezależnych z zależną oceną związaną z każdym wpisem o wartościach od 0 do 10. To sprawia, że jest to świetny zestaw danych, aby użyć modelu regresji do zbadania relacji między zmiennymi a powiązanymi ocena. Czy jednak regresja liniowa byłaby odpowiednia, czy też lepiej zastosować wielomianową / uporządkowaną regresję logistyczną?

Regresja logistyczna wydaje się lepsza, biorąc pod uwagę określone kategorie, tj. Nie ciągłą zmienną zależną, ale (1) istnieje 11 kategorii (nieco za dużo?) I (2) po inspekcji, są tylko dane dla 6-7 z tych kategorii, tj. Pozostałe W kategoriach 5-4 nie ma żadnego przykładu w zestawie danych.

Z drugiej strony regresja liniowa powinna liniowo oszacować ocenę między 0-10, co wydaje się bliższe temu, co próbuję znaleźć; jednak zmienna zależna nie jest ciągła w zbiorze danych.

Jakie jest lepsze podejście? Uwaga: do analizy używam R.

Edytuj, odnosząc się do niektórych punktów wymienionych w odpowiedziach:

Nie ma celu biznesowego, ponieważ tak naprawdę jest to na kurs uniwersytecki. Zadanie polega na przeanalizowaniu wybranego zestawu danych, w zależności od tego, co uważam za stosowne.
Rozkład ocen wygląda normalnie (histogram / wykres qq). Rzeczywiste wartości w zestawie danych wynoszą od 3 do 8 (mimo że technicznie 0–10).

r regression logistic ordered-logit

— Dimebag
źródło

9

Uporządkowany model logit jest bardziej odpowiedni, ponieważ masz zmienną zależną, która jest rankingiem, na przykład 7 jest lepsza niż 4. Jest więc jasne zamówienie.

Pozwala to uzyskać prawdopodobieństwo dla każdego przedziału. Istnieje kilka założeń, które należy wziąć pod uwagę. Możesz zajrzeć tutaj .

Jednym z założeń regresji logistycznej (i porządkowej probit) jest to, że związek między każdą parą grup wyników jest taki sam. Innymi słowy, porządkowa regresja logistyczna zakłada, że współczynniki opisujące związek między, powiedzmy, najniższą i wszystkimi wyższymi kategoriami zmiennej odpowiedzi są takie same jak te, które opisują związek między następną najniższą kategorią a wszystkimi wyższymi kategoriami itp. Nazywa się to założeniem prawdopodobieństwa proporcjonalnego lub założeniem regresji równoległej.

Jakiś kod:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Możesz uzyskać dalsze wyjaśnienia tutaj , tutaj , tutaj lub tutaj .

Pamiętaj, że będziesz musiał przekształcić swoje współczynniki na iloraz szans, a następnie na prawdopodobieństwa, aby mieć jasną interpretację pod względem prawdopodobieństw.

W prosty (i uproszczony sposób) możesz je obliczyć poprzez:

$exp(\beta_{i})=Odds Ratio$

$\frac{exp(\beta_{1})}{\sum exp(\beta_{i})} = Probability$

(Nie chcę być zbyt techniczny)

— adrian1121
źródło

4

Chciałbym przedstawić inny pogląd na problem: w prawdziwym świecie jest mniej prawdopodobne, że spotka się z tym pytaniem, ponieważ to , co należy zrobić, zależy od potrzeb biznesowych .

Istotne pytanie w realnym świecie brzmi: co zrobić po otrzymaniu prognozy?

$2$
Załóżmy, że firma chce wybrać dobre wino do wysłania do trzech rodzajów restauracji. Następnie konieczna będzie klasyfikacja wielu klas.

Podsumowując, chcę argumentować, że to, co należy zrobić, naprawdę zależy od potrzeb po uzyskaniu prognozy, zamiast po prostu patrzeć na atrybut zmiennej odpowiedzi.

— Haitao Du
źródło

1

Chociaż uporządkowany model logit (szczegółowo opisany przez @ adrian1121) byłby najbardziej odpowiedni pod względem założeń modelu, myślę, że wielokrotna regresja liniowa ma również pewne zalety.

Łatwość interpretacji . Modele liniowe są łatwiejsze do interpretacji niż uporządkowane modele logit.
Wygoda interesariuszy . Użytkownicy modelu mogą czuć się bardziej komfortowo z regresją liniową, ponieważ częściej wiedzą, co to jest.
Bardziej oszczędny (prostszy). Prostszy model może równie dobrze działać, patrz pokrewny temat .

Fakt, że większość odpowiedzi zawiera się w przedziale 3-8, sugeruje mi, że model liniowy może działać odpowiednio do twoich potrzeb. Nie twierdzę, że jest „lepszy”, ale może to być bardziej praktyczne podejście.

— Underminer
źródło

0

Zasadniczo uporządkowany model logit wydaje się odpowiedni, ale 10 (a nawet 7) kategorii to całkiem sporo.

1 / Czy w końcu sensowne byłoby ponowne przekodowanie (np. Oceny 1-4 zostałyby połączone w jedną pojedynczą modalność, powiedzmy „niską ocenę”)?

2 / Jaki jest rozkład ocen? Jeśli całkiem dobrze rozkład normalny, regresja liniowa wykonałaby dobrą robotę (patrz liniowy model prawdopodobieństwa ).

3 / W przeciwnym razie wybrałbym coś zupełnie innego, zwanego „ regresją beta ” - 11-punktowa skala oceny jest czymś dość szczegółowym w porównaniu do klasycznej 5-punktowej skali - myślę, że byłoby dopuszczalne przyjęcie skali oceny jako „intensywności” skala, gdzie 0 = zero i 1 = pełny / doskonały - Robiąc to, zasadniczo założysz, że twoja skala jest typem interwałowym (a nie porządkowym), ale dla mnie brzmi to akceptowalnie.

— Umka
źródło

3

Dlaczego 10 (lub 7) kategorii to dużo? Czy istnieje jakiś podstawowy techniczny powód, dla którego 10 kategorii nie będzie się odpowiednio zachowywać w uporządkowanym modelu logit, czy mówisz z czysto praktycznego punktu widzenia? (np. podobne rozważania do odpowiedzi podanej przez hxd1011.)

— RM

Nie, nie ma żadnego technicznego powodu, o ile dane pozwalają oszacować uporządkowany logit (OL) z „tyloma” kategoriami. Jednak określenie modelu OL z 11 kategoriami implikuje oszacowanie 10 „stałych” warunków (tj. Parametrów progowych) - Brzmi to dla mnie dużo, szczególnie jeśli niektóre kategorie nie są dobrze reprezentowane w bazie danych - Mam przeczucie, że model OL 11 kategorii jest nieco przesadzonych, albo traktowałbym oceny jako zmienne ciągłe, albo zawaliłem niektóre modalności, aby określić bardziej oszczędny (i być może bardziej znaczący) model OL.

— Umka

-1

Nie jestem specjalistą od regresji logistycznej, ale powiedziałbym, że chcesz użyć wielomianu ze względu na dyskretną zmienną zależną.

Regresja liniowa może dawać współczynniki, które można ekstrapolować poza możliwe granice zmiennej zależnej (tzn. Wzrost zmiennej niezależnej prowadziłby do zmiennej zależnej poza twoją granicą dla danego współczynnika regresji).

Regresja wielomianowa da różne prawdopodobieństwa dla różnych wyników zmiennej zależnej (tj. Współczynnik twojej regresji da ci, w jaki sposób zwiększają swoje prawdopodobieństwo uzyskania lepszego wyniku, bez uzyskania wyniku poza granicami).

— denis
źródło

3

Wielomian jest dobry dla wielu nieuporządkowanych kategorii. Zwykła logistyka (co OP proponuje w pytaniu) jest dobra dla wielu uporządkowanych kategorii.

— Gregor

-1

Inną możliwością jest użycie Losowego Lasu. Istnieją dwa sposoby pomiaru „ważności” zmiennej w Losowym lesie:

$X_j$ $X_j$ $X_j$ $Y$ $X$
$X_j$ $X_j$

Lasy losowe są również podatne na rodzaj wizualizacji danych zwany „wykresem częściowej zależności”. Zobacz ten szczegółowy samouczek, aby uzyskać więcej szczegółów.

Częściowa zależność i znaczenie permutacji nie są specyficzne dla modeli Losowych Lasów, ale ich popularność wzrosła wraz z popularnością Losowych Lasów ze względu na efektywność ich obliczania dla modeli Losowych Lasów.

— Shadowtalker
źródło

1

Wiem, że to dość styczna odpowiedź, ale chciałbym wiedzieć, dlaczego została ona odrzucona. Czy to nieprawda?

— shadowtalker