Mam zestaw danych zawierający 365 obserwacji trzech zmiennych mianowicie pm
, temp
i rain
. Teraz chcę sprawdzić zachowanie pm
w odpowiedzi na zmiany w dwóch pozostałych zmiennych. Moje zmienne to:
pm10
= Odpowiedź (zależna)temp
= predyktor (niezależny)rain
= predyktor (niezależny)
Oto macierz korelacji dla moich danych:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Problem polega na tym, że kiedy studiowałem konstrukcję modeli regresji, napisano, że metodą addytywną należy zacząć od zmiennej, która jest najbardziej związana ze zmienną odpowiedzi. W moim zestawie danych rain
jest wysoce skorelowany z pm
(w porównaniu do temp
), ale jednocześnie jest to zmienna fikcyjna (deszcz = 1, brak deszczu = 0), więc mam teraz wskazówkę, od czego zacząć. Mam załączeniu dwa obrazy z pytaniem: Pierwszym z nich jest rozrzutu danych, a drugi obraz jest rozrzutu pm10
vs. rain
, ja też jestem w stanie zinterpretować wykres punktowy pm10
vs. rain
. Czy ktoś może mi pomóc, jak zacząć?