Nie mogę biegać z dużymi psami statystyk, które odpowiedziały przede mną i być może moje myślenie jest naiwne, ale patrzę na to w ten sposób ...
Wyobraź sobie, że jeździsz samochodem i jedziesz drogą, skręcasz kierownicą w lewo i prawo i szaleńczo naciskasz pedał gazu i hamulce. A jednak samochód porusza się płynnie, bez twoich działań. Od razu podejrzewasz, że nie byłeś w prawdziwym samochodzie, a być może, jeśli przyjrzymy się bliżej, ustalimy, że jeździsz w Disney World. (Gdybyś był w prawdziwym samochodzie, byłbyś w śmiertelnym niebezpieczeństwie, ale nie jedźmy tam.)
Z drugiej strony, jeśli jechałeś samochodem w dół, a nieznaczne skręcenie koła w lewo lub w prawo natychmiast spowodowało ruch samochodu, naciśnięcie hamulca spowodowało silne spowolnienie, a naciśnięcie pedału gazu wróciło z powrotem do siedzenie. Możesz podejrzewać, że byłeś w samochodzie sportowym o wysokich osiągach.
Ogólnie rzecz biorąc, prawdopodobnie doświadczasz czegoś pomiędzy tymi dwoma skrajnościami. Stopień, w jakim twoje dane wejściowe (układ kierowniczy, hamulce, gaz) bezpośrednio wpływają na ruch samochodu, daje ci wskazówkę co do jego jakości. Oznacza to, że im więcej zmienności w ruchu samochodu, która jest związana z twoimi działaniami, tym lepszy samochód, a im bardziej samochód porusza się niezależnie od twojej kontroli, tym gorzej jest samochód.
W podobny sposób mówisz o tworzeniu modelu dla niektórych danych (nazwijmy te dane ), w oparciu o niektóre inne zestawy danych (nazwijmy je ). Jeżeli nie zmienia się, to jest jak samochód, który nie rusza i tam naprawdę nie ma sensu dyskutować, jeśli samochód (model) działa dobrze, czy nie, więc zakładamy, nie różnią.yx1, x2), . . . , xjayy
Podobnie jak samochód, dobrej jakości model będzie miał dobry związek między zmiennymi wynikami zmiennymi wejściowymi . W przeciwieństwie do samochodu, niekoniecznie powodują zmianę , ale jeśli model będzie użyteczny, muszą się zmienić w ścisłym związku z . Innymi słowy, wyjaśniają dużą wariancję .yxjaxja yxjayxjay
PS Nie byłem w stanie wymyślić analogii Kubusia Puchatka, ale próbowałem.
PPS [EDYCJA:] Pamiętaj, że odpowiadam na to pytanie. Nie daj się zwieść myśleniu, że jeśli weźmiesz pod uwagę 100% wariancji, Twój model będzie działał cudownie. Musisz także pomyśleć o nadmiernym dopasowaniu, gdzie Twój model jest tak elastyczny, że bardzo dobrze pasuje do danych treningowych - w tym do przypadkowych dziwactw i osobliwości. Aby skorzystać z tej analogii, potrzebujesz samochodu, który ma dobre sterowanie i hamulce, ale chcesz, aby działał dobrze na drodze, nie tylko na używanym torze testowym.