Pełne ujawnienie: To zadanie domowe. Zamieściłem link do zestawu danych ( http://www.bertelsen.ca/R/logistic-regression.sav )
Moim celem jest zmaksymalizowanie prognozy osób spłacających zaległości kredytowe w tym zbiorze danych.
Każdy model, który do tej pory wymyśliłem, przewiduje> 90% domyślnych, ale <40% domyślnych, co daje ogólną skuteczność klasyfikacji ~ 80%. Zastanawiam się więc, czy między zmiennymi występują efekty interakcji? Czy w ramach regresji logistycznej oprócz testowania każdej możliwej kombinacji istnieje sposób na zidentyfikowanie potencjalnych efektów interakcji? Lub alternatywnie sposób na zwiększenie efektywności klasyfikacji osób naruszających prawo.
Utknąłem, wszelkie zalecenia byłyby pomocne w wyborze słów, kodu R lub składni SPSS.
Moje podstawowe zmienne są przedstawione na poniższym histogramie i wykresie rozrzutu (z wyjątkiem zmiennej dychotomicznej)
Opis podstawowych zmiennych:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Dodatkowe zmienne są tylko przekształceniami powyższego. Próbowałem także przekonwertować kilka zmiennych ciągłych na zmienne kategorialne i zaimplementować je w modelu, ale nie ma tam szczęścia.
Jeśli chcesz szybko wstawić go do R, oto on:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)