Powodem, dla którego wykresy są powszechnie stosowane do wprowadzenia prostej regresji - reakcji przewidywanej przez pojedynczy predyktor - jest to, że pomagają one zrozumieć.
Uważam jednak, że mogę nadać smak, który może pomóc w zrozumieniu, co się dzieje. W tym skoncentruję się głównie na próbie przekazania zrozumienia, które dają, co może pomóc w niektórych innych aspektach, które zwykle napotykasz podczas czytania o regresji. Więc ta odpowiedź dotyczy głównie określonego aspektu Twojego postu.
Wyobraź sobie, że siedzisz przed dużym prostokątnym stołem, takim jak zwykłe biurko, jedno długie na ramię (być może 1,8 metra), może o połowę mniejsze.
Siedzisz przed stołem w zwykłej pozycji, na środku jednego długiego boku. Na tym stole wbita jest duża liczba gwoździ (z dość gładkimi główkami) w górną powierzchnię, tak aby każdy z nich lekko się podniósł (wystarczająco, aby poczuć, gdzie są, i wystarczająco, aby przywiązać do nich sznurek lub przyczepić gumkę ).
Gwoździe te znajdują się w różnych odległościach od krawędzi biurka, w taki sposób, że w kierunku jednego końca (powiedzmy lewy koniec) zwykle znajdują się bliżej krawędzi biurka, a następnie w miarę przesuwania się w kierunku drugiego końca główki gwoździ mają tendencję do bycia dalej od swojej krawędzi.
Wyobraź sobie, że warto mieć poczucie, jak średnio paznokcie są od krawędzi w dowolnej pozycji wzdłuż krawędzi.
Wybierz miejsce wzdłuż krawędzi biurka i umieść tam rękę, a następnie sięgnij do przodu bezpośrednio po stole, delikatnie przeciągając dłoń bezpośrednio do siebie, a następnie ponownie, przesuwając dłoń w przód iw tył nad główkami gwoździ. Z tych gwoździ napotyka się kilkadziesiąt guzów - tych w wąskiej szerokości dłoni (gdy odsuwa się bezpośrednio od krawędzi, w stałej odległości od lewego końca biurka), odcinek lub pasek o szerokości około dziesięciu centymetrów .
Chodzi o to, aby w tej niewielkiej sekcji ustalić średnią odległość do gwoździa od krawędzi biurka. Intuicyjnie to tylko środek uderzeń, które uderzyłyśmy, ale jeśli zmierzyliśmy każdą odległość do gwoździa w tej szerokości biurka o szerokości dłoni, moglibyśmy łatwo obliczyć te średnie.
Na przykład, moglibyśmy skorzystać z kwadratu w kształcie litery T, którego głowa przesuwa się wzdłuż krawędzi biurka i którego trzonek biegnie w kierunku drugiej strony biurka, ale tuż nad biurkiem, abyśmy nie uderzali w gwoździe, gdy przesuwa się w lewo lub w prawo - gdy mijamy dany gwóźdź, możemy uzyskać jego odległość wzdłuż trzonu kwadratu T.
Tak więc, w miarę postępów miejsc wzdłuż naszej krawędzi, powtarzamy to ćwiczenie polegające na znalezieniu wszystkich gwoździ w pasie o szerokości dłoni biegnącym do nas i od nas oraz znalezieniu ich średniej odległości. Być może dzielimy biurko na paski o szerokości dłoni wzdłuż naszej krawędzi (więc każdy gwóźdź występuje w dokładnie jednym pasku).
Teraz wyobraź sobie, że powiedziano 21 takich pasków, pierwszy na lewej krawędzi i ostatni na prawej krawędzi. Środki oddalają się od naszego biurka, gdy przechodzimy przez paski.
Środki te tworzą prosty nieparametryczny estymator regresji oczekiwań y (nasz dystans) biorąc pod uwagę x (odległość wzdłuż naszej krawędzi od lewego końca), czyli E (y | x). W szczególności jest to podzielony estymator regresji nieparametrycznej, zwany także regresogramem
Jeśli te wartości średnich pasów wzrastały regularnie - to znaczy, że średnia zwykle zwiększała się o mniej więcej taką samą ilość na pasek, jak poruszaliśmy się po pasach - wówczas moglibyśmy lepiej oszacować naszą funkcję regresji, zakładając, że oczekiwana wartość y była liniowa funkcja x - tzn. oczekiwana wartość y dla x była stałą powiększoną o wielokrotność x. Tutaj stała reprezentuje miejsce, w którym gwoździe zwykle się znajdują, gdy x wynosi zero (często możemy umieścić to na skrajnej lewej krawędzi, ale nie musi tak być), a konkretna wielokrotność x oznacza, jak szybko średnia jest średnia zmienia się, gdy poruszamy się o jeden centymetr (powiedzmy) w prawo.
Ale jak znaleźć taką funkcję liniową?
Wyobraź sobie, że owijamy jedną gumką nad każdą główką gwoździa i przyczepiamy każdą do długiego cienkiego patyka, który leży tuż nad biurkiem, na gwoździach, tak aby leżał gdzieś w pobliżu „środka” każdego paska dla.
Mocujemy opaski w taki sposób, aby rozciągały się tylko w kierunku do nas i od nas (nie w lewo ani w prawo) - w lewo do siebie naciągałyby, aby ich kierunek rozciągania pod kątem prostym kijem, ale tutaj zapobiegamy temu, aby ich kierunek rozciągania pozostał tylko w kierunkach w kierunku lub od naszej krawędzi biurka. Teraz pozwalamy kijowi osiadać, gdy opaski ciągną go w kierunku każdego gwoździa, przy czym bardziej odległe gwoździe (z bardziej rozciągniętymi gumowymi opaskami) ciągną odpowiednio mocniej niż gwoździe blisko patyka.
Wówczas łączny wynik wszystkich pasm ciągnących za drążek byłby (najlepiej, co najmniej) pociągnięcie za drążek, aby zminimalizować sumę kwadratowych długości naciągniętych gumek; w tym kierunku bezpośrednio w poprzek stołu odległość od naszej krawędzi stołu do drążka w dowolnej pozycji x byłaby naszym oszacowaniem oczekiwanej wartości y danej x.
Jest to zasadniczo oszacowanie regresji liniowej.
Teraz wyobraź sobie, że zamiast gwoździ mamy wiele owoców (na przykład małych jabłek) zwisających z dużego drzewa i chcemy znaleźć średnią odległość owoców nad ziemią, która zmienia się w zależności od położenia na ziemi. Wyobraź sobie, że w tym przypadku wysokości nad ziemią stają się większe, gdy idziemy do przodu i nieco większe, gdy poruszamy się w prawo, znowu w regularny sposób, więc każdy krok do przodu zazwyczaj zmienia średnią wysokość o mniej więcej tę samą wartość, a każdy krok do prawo zmieni również średnią o mniej więcej stałą wartość (ale ta poprawiona o krok zmiana średniej średniej różni się od kroku o krok do przodu).
Jeśli zminimalizujemy sumę kwadratowych odległości w pionie od owoców do cienkiego płaskiego arkusza (być może cienkiego arkusza z bardzo sztywnego plastiku), aby dowiedzieć się, jak zmienia się średnia wysokość, gdy poruszamy się do przodu lub krok w prawo, byłoby to regresja liniowa z dwoma predyktorami - regresja wielokrotna.
To jedyne dwa przypadki, które fabuły mogą pomóc zrozumieć (mogą szybko pokazać to, co właśnie opisałem szczegółowo, ale mam nadzieję, że wiesz, że masz podstawy do konceptualizacji tych samych pomysłów). Oprócz tych najprostszych dwóch przypadków pozostaje nam tylko matematyka.
Weźmy teraz przykład ceny domu; możesz przedstawić powierzchnię każdego domu według odległości wzdłuż krawędzi biurka - reprezentować największy rozmiar domu jako pozycję w pobliżu prawej krawędzi, każdy inny rozmiar domu będzie znajdować się nieco dalej po lewej stronie, gdzie pewna liczba centymetrów będzie reprezentować liczba metrów kwadratowych. Teraz odległość reprezentuje cenę sprzedaży. Reprezentuj najdroższy dom jako pewną odległość w pobliżu najdalszej krawędzi biurka (jak zawsze krawędź najdalej od krzesła), a każdy przesunięty centymetr będzie reprezentował pewną liczbę rialów.
Dla obecnych wyobraźmy sobie, że wybraliśmy reprezentację tak, aby lewa krawędź biurka odpowiadała powierzchni domu równej zero, a bliższa krawędź - cenie domu równej 0. Następnie wbijamy gwóźdź do każdego domu.
Prawdopodobnie nie będziemy mieć gwoździ w pobliżu lewego końca naszej krawędzi (mogą być głównie w prawo i od nas), ponieważ niekoniecznie jest to dobry wybór skali, ale twój wybór modelu bez przechwytu sprawia, że jest to lepszy sposób na omówienie tego.
Teraz w swoim modelu zmuszasz kij do przejścia przez pętlę sznurka w lewym rogu bliskiej krawędzi biurka - w ten sposób zmuszając dopasowany model do ceny zerowej za obszar zerowy, co może wydawać się naturalne - ale wyobraź sobie, że istnieją niektóre dość stałe składniki ceny, które wpłynęły na każdą sprzedaż. Wtedy sensowne byłoby, aby przecięcie było różne od zera.
W każdym razie, po dodaniu tej pętli, to samo ćwiczenie z gumką, jak poprzednio, znajdzie nasze oszacowanie najmniejszej kwadratowej linii.