Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których:
Szacujemy również regresję, która przewiduje wartości na podstawie wartości , to znaczy:
Załóżmy, że teraz otrzymujemy wartości , wtedy mielibyśmy dwie różne metody przewidywania :
Który ogólnie byłby lepszy?
Zgaduję, że pierwsze równanie byłoby lepsze, ponieważ wykorzystuje informacje z dwóch form punktów danych, podczas gdy drugie równanie wykorzystuje informacje tylko z punktów danych, które mają wartości predykcyjne . Moje szkolenie w zakresie statystyki jest ograniczone, dlatego chciałbym zasięgnąć profesjonalnej porady.
Ponadto, ogólnie, jakie jest najlepsze podejście do danych zawierających niepełne informacje? Innymi słowy, w jaki sposób możemy uzyskać jak najwięcej informacji z danych, które nie mają wartości we wszystkich wymiarach?