Nie zgodziłem się z innymi odpowiedziami w komentarzach, więc sprawiedliwie daję własne. Niech będzie odpowiedzią (konta dobre / złe), a X będzie współzmiennymi.YX
W przypadku regresji logistycznej model jest następujący:
log(p(Y=1|X=x)p(Y=0|X=x))=α+∑ki=1xiβi
Zastanów się, w jaki sposób mogą być gromadzone dane:
- Możesz wybrać obserwacje losowo z jakiejś hipotetycznej „populacji”
- Możesz wybrać dane na podstawie i zobaczyć, jakie wartości Y występują.XY
Oba są odpowiednie dla powyższego modelu, ponieważ modelujesz tylko rozkład . Można by je nazwać badaniem prospektywnym .Y|X
Alternatywnie:
- Możesz wybrać obserwacje na podstawie (powiedzmy 100 każdego) i zobaczyć względne rozpowszechnienie X (tj. Rozwarstwiasz się na Y ). Nazywa się to badaniem retrospektywnym lub kontrolą przypadków .YXY
(Można również wybrać dane w oparciu o i pewne zmienne X : byłoby to stratyfikowane badanie kontroli przypadków i jest o wiele bardziej skomplikowane w pracy, więc nie będę się tutaj zajmował).YX
Jest ładny wynik z epidemiologii (patrz Prentice i Pyke (1979) ), że dla badania kontrolnego przypadku, maksymalne oszacowania prawdopodobieństwa dla można znaleźć za pomocą regresji logistycznej, która wykorzystuje model prospektywny dla danych retrospektywnych.β
Jak to ma związek z twoim problemem?
Cóż, oznacza to, że jeśli jesteś w stanie zebrać więcej danych, możesz po prostu spojrzeć na złe konta i nadal używać regresji logistycznej, aby oszacować (ale musiałbyś dostosować α, aby uwzględnić nadmierną reprezentację ). Załóżmy, że kosztuje to 1 USD za każde dodatkowe konto, może to być bardziej opłacalne niż po prostu przeglądanie wszystkich kont.βjaα
Ale z drugiej strony, jeśli masz już WSZYSTKIE możliwe dane, nie ma sensu stratyfikować: po prostu wyrzucałbyś dane (dając gorsze oszacowania), a następnie miałbyś problem z oszacowaniem .α