To jest mój pierwszy post na StackExchange, ale od dłuższego czasu używam go jako zasobu, zrobię co w mojej mocy, aby użyć odpowiedniego formatu i wprowadzić odpowiednie zmiany. Jest to również pytanie wieloczęściowe. Nie byłem pewien, czy powinienem podzielić pytanie na kilka różnych postów, czy tylko na jeden. Ponieważ wszystkie pytania pochodzą z jednej sekcji tego samego tekstu, pomyślałem, że bardziej odpowiednie byłoby opublikowanie jednego pytania.
Badam wykorzystanie siedlisk dużych gatunków ssaków do pracy magisterskiej. Celem tego projektu jest zapewnienie zarządcom lasów (którzy najprawdopodobniej nie są statystykami) praktycznych ram oceny jakości siedlisk na gruntach, którymi zarządzają w odniesieniu do tego gatunku. To zwierzę jest stosunkowo nieuchwytne, jest specjalistą od siedlisk i zwykle znajduje się na odległych obszarach. Przeprowadzono stosunkowo niewiele badań dotyczących rozmieszczenia gatunków, zwłaszcza sezonowych. Kilka zwierząt wyposażono w obroże GPS przez okres jednego roku. Sto lokalizacji (50 lat i 50 zim) wybrano losowo z danych obroży GPS każdego zwierzęcia. Ponadto losowo generowano 50 punktów w obrębie domowego zasięgu każdego zwierzęcia, aby służyć jako miejsca „dostępne” lub „pseudoobecności”.
Dla każdej lokalizacji pobrano próbki kilku zmiennych siedliskowych w terenie (średnice drzew, pokrywa pozioma, gruboziarniste szczątki drzewne itp.), A kilka próbek pobrano zdalnie przez GIS (wysokość, odległość od drogi, wytrzymałość itp.). Zmienne są przeważnie ciągłe, z wyjątkiem 1 zmiennej kategorialnej, która ma 7 poziomów.
Moim celem jest wykorzystanie modelowania regresji do zbudowania funkcji wyboru zasobów (RSF) w celu modelowania względnego prawdopodobieństwa użycia jednostek zasobów. Chciałbym zbudować sezonowy (zimowy i letni) RSF dla populacji zwierząt (typ projektu I), a także dla każdego pojedynczego zwierzęcia (typ projektu III).
Używam R do przeprowadzenia analizy statystycznej.
Tekst pierwotny używam jest ...
- „Hosmer, DW, Lemeshow, S. i Sturdivant, RX 2013. Applied Logistic Regression. Wiley, Chicester”.
Większość przykładów w Hosmer i in. Zastosowanie STATA, ja również za pomocą 2 następujących tekstu jako odniesienie z R .
- „Crawley, MJ 2005. Statystyka: wprowadzenie z wykorzystaniem RJ Wiley, Chichester, West Sussex, Anglia.”
- „Plant, RE 2012. Analiza danych przestrzennych w ekologii i rolnictwie przy użyciu R. CRC Press, Londyn, GBR.”
Obecnie wykonuję czynności opisane w rozdziale 4 Hosmer i in. za „Celowy wybór zmiennych towarzyszących” i zadaj kilka pytań na temat tego procesu. Przedstawiłem kilka pierwszych kroków w poniższym tekście, aby pomóc w moich pytaniach.
- Krok 1: Jednowymiarowa analiza każdej niezależnej zmiennej (zastosowałem jednoczynnikową regresję logistyczną). Każda zmienna, której test jednoznaczny ma wartość p mniejszą niż 0,25, powinna zostać uwzględniona w pierwszym modelu wielowymiarowym.
- Krok 2: Dopasuj model wielowymiarowy zawierający wszystkie zmienne towarzyszące zidentyfikowane do włączenia w kroku 1 i oceń znaczenie każdego zmiennego zmiennego przy użyciu wartości p jego statystyki Walda. Zmienne, które nie przyczyniają się do tradycyjnych poziomów znaczenia, należy wyeliminować i dopasować nowy model. Nowszy, mniejszy model należy porównać ze starym, większym modelem za pomocą testu współczynnika częściowej wiarygodności.
- Krok 3: Porównaj wartości szacowanych współczynników w mniejszym modelu z ich odpowiednimi wartościami z dużego modelu. Każda zmienna, której współczynnik zmienił się znacznie pod względem wielkości, powinna zostać ponownie dodana do modelu, ponieważ jest to ważne w sensie zapewnienia niezbędnej korekty wpływu zmiennych, które pozostają w modelu. Wykonuj kolejno kroki 2 i 3, aż okaże się, że wszystkie ważne zmienne są uwzględnione w modelu, a te wykluczone są nieistotne klinicznie i / lub statystycznie. Hosmer i in. użyć „ procentu delta-beta-kapelusza ” jako miary zmiany wartości współczynników. Sugerują znaczącą zmianę jako procent kapelusza delta-beta > 20%. Hosmer i in. zdefiniuj delta-beta-hat-procent jako . Gdzieθ1jest mniejszy od współczynnika modelu,β1ma współczynnik większy od modelu.
- Krok 4: Dodaj każdą zmienną niewybraną w kroku 1 do modelu uzyskanego na końcu kroku 3, pojedynczo, i sprawdź jej znaczenie albo przez wartość p statystyki Walda, albo test częściowego prawdopodobieństwa, jeśli jest to kategoryczny zmienna z więcej niż 2 poziomami. Ten krok jest niezbędny do identyfikacji zmiennych, które same w sobie nie są istotnie powiązane z wynikiem, ale wnoszą istotny wkład w obecności innych zmiennych. Odwołujemy się do modelu na końcu kroku 4 jako wstępnego głównego modelu efektów .
- Kroki 5-7: Nie osiągnąłem tego punktu, więc na razie zostawię te kroki lub zachowam je na inne pytanie.
Moje pytania:
- W kroku 2, jaki byłby odpowiedni jako tradycyjny poziom istotności, wartość p <0,05 coś większego jak <0,25?
- W kroku 2 ponownie chcę się upewnić, że kod R, którego używałem do testu częściowego prawdopodobieństwa, jest poprawny i chcę się upewnić, że poprawnie interpretuję wyniki. Oto, co robiłem…
anova(smallmodel,largemodel,test='Chisq')
Jeśli wartość p jest znacząca (<0,05), dodaję zmienną z powrotem do modelu, jeśli jest nieistotna, kontynuuję usuwanie? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])