Mam stąd dane o winie , które składają się z 11 liczbowych zmiennych niezależnych z zależną oceną związaną z każdym wpisem o wartościach od 0 do 10. To sprawia, że jest to świetny zestaw danych, aby użyć modelu regresji do zbadania relacji między zmiennymi a powiązanymi ocena. Czy jednak regresja liniowa byłaby odpowiednia, czy też lepiej zastosować wielomianową / uporządkowaną regresję logistyczną?
Regresja logistyczna wydaje się lepsza, biorąc pod uwagę określone kategorie, tj. Nie ciągłą zmienną zależną, ale (1) istnieje 11 kategorii (nieco za dużo?) I (2) po inspekcji, są tylko dane dla 6-7 z tych kategorii, tj. Pozostałe W kategoriach 5-4 nie ma żadnego przykładu w zestawie danych.
Z drugiej strony regresja liniowa powinna liniowo oszacować ocenę między 0-10, co wydaje się bliższe temu, co próbuję znaleźć; jednak zmienna zależna nie jest ciągła w zbiorze danych.
Jakie jest lepsze podejście? Uwaga: do analizy używam R.
Edytuj, odnosząc się do niektórych punktów wymienionych w odpowiedziach:
- Nie ma celu biznesowego, ponieważ tak naprawdę jest to na kurs uniwersytecki. Zadanie polega na przeanalizowaniu wybranego zestawu danych, w zależności od tego, co uważam za stosowne.
- Rozkład ocen wygląda normalnie (histogram / wykres qq). Rzeczywiste wartości w zestawie danych wynoszą od 3 do 8 (mimo że technicznie 0–10).