Jeśli możesz nadal dodawać nowe dane (w oparciu o główną koncepcję, taką jak obszar, tj. Kod pocztowy), a wydajność twojego modelu poprawia się, wtedy jest to oczywiście dozwolone ... zakładając, że zależy ci tylko na ostatecznym wyniku.
Istnieją wskaźniki, które będą próbowały cię z tym poprowadzić, takie jak Akaike Information Criterion (AIC) lub porównywalne Bayesian Information Criterion (BIC). Pomagają one zasadniczo wybrać model na podstawie jego wydajności, ponosząc karę za wszystkie dodatkowe parametry, które są wprowadzane i które należy oszacować. AIC wygląda następująco:
A I C = 2 k - 2 ln( L^)
gdzie to liczba parametrów do oszacowania, tj. liczba zastosowanych cech, ponieważ każdy z nich będzie miał jeden współczynnik w regresji logistycznej. to maksymalna wartość Maksymalnego prawdopodobieństwa (równoważna optymalnemu wynikowi). BIC po prostu używa nieco inaczej do karania modeli.L kkL.^k
Kryteria te mogą pomóc ci powiedzieć, kiedy przestać, ponieważ możesz wypróbować modele o coraz większej liczbie parametrów i po prostu wziąć model o najlepszej wartości AIC lub BIC.
Jeśli nadal masz w modelu inne funkcje, które nie są związane z ZIP, mogą zostać potencjalnie przytłoczone - zależy to od używanego modelu. Mogą jednak również wyjaśniać pewne rzeczy dotyczące zestawu danych, których po prostu nie można zawrzeć w danych ZIP, takie jak powierzchnia podłogi domu (zakładając, że jest to względnie niezależne od kodu pocztowego).
W takim przypadku możesz porównać je do czegoś takiego jak Analiza głównych składników, gdzie zbiór funkcji wyjaśnia jeden wymiar wariancji w zbiorze danych, podczas gdy inne funkcje wyjaśniają inny wymiar. Bez względu na to, ile masz funkcji związanych z ZIP, nigdy nie możesz wyjaśnić znaczenia powierzchni podłogi.