Jaki jest związek między

38

Jaki jest związek między i na poniższym wykresie? Moim zdaniem istnieje ujemny związek liniowy, ale ponieważ mamy wiele wartości odstających, związek jest bardzo słaby. Czy mam rację? Chcę się dowiedzieć, jak wyjaśnić wykresy rozrzutu. $Y$ $X$

wprowadź opis zdjęcia tutaj

self-study correlation scatterplot

— PSS
źródło

3

Co to jest ? Co to jest ? W jakim procesie tworzysz wartości odstające? Co sprawia, że myślisz, że nie są to prawdziwe pomiary? Jaka jest teoria?

X

$X$

Y

$Y$

— abaumann

4

Dzięki za komentarz. Właśnie widzę tę fabułę w książce. Y jest zmienną zależną, a X jest zmienną niezależną. Nie ma teorii. wykreślił wykres rozrzutu, aby pokazać zależność Y dla danego x. A w książce jest pytanie, czy istnieje jakikolwiek związek, liniowy czy nieliniowy? Mocny czy słaby?

— PSS

7

To ćwiczenie z tasseografii . Jest to bardzo popularne wśród traderów, którzy nazywają to analizą techniczną . Zasadniczo, nie wiedząc czegoś o naturze danych, jest to bezowocne ćwiczenie

— Aksakal

1

@chl you rock za darowiznę na nagrodę dla whuber =)

— Cam.Davidson.Pilon

3

@Aksakal Język statystyczny zazwyczaj rozumie „związek” raczej dosłownie: jako opisujący zestawy krotek liczb. Na przykład współczynnik korelacji opisuje związek. Nie ma wpływu na genezę, naturę lub związek przyczynowy między zmiennymi podstawowymi. Zgadzam się z tobą, że „wyjaśnienie” jest zwykle rozumiane w tak głębszym sensie, ale ponieważ związki są tak mocno podkreślone w pytaniu, myślę, że sprawiedliwe jest, aby nie przesuwać dosłownie znaczenia „wyjaśnić” zbyt daleko. Sugerowanie, że opisywanie wykresów rozrzutu to po prostu czytanie liści herbaty, idzie za daleko, IMHO.

— whuber

50

Pytanie dotyczy kilku pojęć: jak oceniać dane podane tylko w postaci wykresu rozrzutu, jak podsumować wykres rozrzutu oraz czy (i do jakiego stopnia) związek wygląda liniowo. Ułóżmy je w porządku.

Ocena danych graficznych

Stosuj zasady eksploracyjnej analizy danych (EDA). Te (przynajmniej pierwotnie, gdy zostały opracowane do użycia w formie ołówka i papieru) podkreślają proste, łatwe do obliczenia, solidne podsumowania danych. Jeden z najprostszych rodzajów podsumowań opiera się na pozycjach w zbiorze liczb, takim jak wartość środkowa, która opisuje „typową” wartość. Środki są łatwe do wiarygodnego oszacowania na podstawie grafiki.

Wykresy rozrzutu zawierają pary liczb. Pierwsza z każdej pary (zgodnie z wykresem na osi poziomej) daje zestaw pojedynczych liczb, które moglibyśmy podsumować osobno.

W tym szczególnym wykresie rozrzutu wartości y wydają się leżeć w dwóch prawie całkowicie oddzielnych grupach : wartości powyżej u góry i te równe lub mniejsze niż u dołu. (Wrażenie to potwierdza rysowanie histogramu wartości y, który jest ostro dwumodalny, ale na tym etapie byłoby to dużo pracy.) Zapraszam sceptyków do zezowania na wykresie rozrzutu. Kiedy to robię - przy użyciu rozmycia Gaussa z dużym promieniem, z korekcją gamma (czyli standardowego szybkiego przetwarzania obrazu) kropek na wykresie rozrzutu, widzę to: $60$ $60$

Rycina 0

Dwie grupy - górna i dolna - są dość widoczne. (Górna grupa jest znacznie lżejsza niż dolna, ponieważ zawiera o wiele mniej kropek).

Odpowiednio, podsumujmy grupy wartości y osobno. Zrobię to, rysując linie poziome na środkowych dwóch grupach. Aby podkreślić wrażenie danych i pokazać, że nie wykonujemy żadnych obliczeń, usunąłem (a) wszystkie dekoracje, takie jak osie i linie siatki oraz (b) zamazałem punkty. Niewielka ilość informacji o wzorcach w danych jest tracona przez „mrużenie oczu” na grafice:

Postać

Podobnie próbowałem oznaczyć mediany wartości x pionowymi segmentami linii. W górnej grupie (czerwone linie) możesz sprawdzić - zliczając plamy - że te linie faktycznie dzielą grupę na dwie równe połowy, zarówno poziomo, jak i pionowo. W dolnej grupie (niebieskie linie) jedynie wizualnie oszacowałem pozycje bez faktycznego liczenia.

Ocena relacji: regresja

Punkty przecięcia są środkami dwóch grup. Jednym doskonałym podsumowaniem zależności między wartościami xiy byłoby zgłoszenie tych pozycji centralnych. Następnie należałoby uzupełnić to podsumowanie opisem, jak bardzo dane są rozmieszczone w każdej grupie - po lewej i po prawej, powyżej i poniżej - wokół ich centrów. Dla zwięzłości nie zrobię tego tutaj, ale zwróć uwagę, że (z grubsza) długości odcinków linii, które narysowałem, odzwierciedlają ogólne spready dla każdej grupy.

W końcu narysowałem (przerywaną) linię łączącą oba centra. To rozsądna linia regresji. Czy to dobry opis danych? Na pewno nie: zobacz, jak rozłożone są dane wokół tej linii. Czy to w ogóle dowód liniowości? Nie ma to większego znaczenia, ponieważ opis liniowy jest tak słaby. Niemniej jednak, ponieważ jest to przed nami pytanie, zajmiemy się nim.

Ocena liniowości

Zależność jest liniowa w sensie statystycznym, gdy albo wartości y zmieniają się w wyważony losowy sposób wokół linii lub wartości x są widoczne w wyważony losowy sposób wokół linii (lub obu).

Wydaje się, że nie jest tak w przypadku pierwszego: ponieważ wydaje się, że wartości y dzielą się na dwie grupy, ich zmienność nigdy nie będzie wyglądać na zrównoważoną w sensie mniej więcej symetrycznego rozkładu powyżej lub poniżej linii. (To natychmiast wyklucza możliwość zrzucenia danych do pakietu regresji liniowej i wykonania dopasowania y względem najmniejszych kwadratów względem x: odpowiedzi nie byłyby istotne).

Co z odmianą x? Jest to bardziej prawdopodobne: na każdej wysokości działki poziomy rozrzut punktów wokół linii kropkowanej jest dość zrównoważony. Spread w tym rozpraszania wydaje się być trochę większa na niższych wysokościach (niskie wartości Y), ale może to dlatego, że istnieje wiele więcej punktów tam. (Im więcej przypadkowych danych masz, tym szersze są ich skrajne wartości).

Ponadto, gdy skanujemy od góry do dołu, nie ma miejsc, w których poziomy rozproszenie wokół linii regresji jest silnie niezrównoważone: byłoby to dowodem nieliniowości. (Cóż, może około y = 50 lub więcej może być zbyt wiele dużych wartości x. Ten subtelny efekt można uznać za kolejny dowód na rozbicie danych na dwie grupy wokół wartości y = 60).

Wnioski

Widzieliśmy to

Sensowne jest postrzeganie x jako funkcji liniowej y plus pewnej „ładnej” losowej zmiany.
To nie nie ma sensu aby zobaczyć y jako funkcja liniowa X plus losowej zmienności.
Linię regresji można oszacować, dzieląc dane na grupę wysokich wartości y i grupę niskich wartości y, znajdując centra obu grup za pomocą median i łącząc te centra.
Powstała linia ma nachylenie w dół, co wskazuje na ujemną zależność liniową.
Nie ma wyraźnych odstępstw od liniowości.
Niemniej jednak, ponieważ rozpiętości wartości x wokół linii są nadal duże (w porównaniu do ogólnego rozproszenia wartości x na początek), musielibyśmy scharakteryzować tę ujemną zależność liniową jako „bardzo słaby”.
Bardziej użyteczne może być opisanie danych jako tworzących dwie owalne chmury (jedną dla y powyżej 60, a drugą dla niższych wartości y). W każdej chmurze istnieje niewielka wykrywalna zależność między xiy. Centra chmur znajdują się w pobliżu (0,29, 90) i (0,38, 30). Chmury mają porównywalne rozpiętości, ale górna chmura ma znacznie mniej danych niż dolna (może 20% tyle).

Dwa z tych wniosków potwierdzają wnioski zawarte w samym pytaniu, że istnieje słaby negatywny związek. Inne uzupełniają i popierają te wnioski.

Jednym z wniosków wyciągniętych z pytania, które wydaje się nie podtrzymywać, jest twierdzenie, że istnieją „wartości odstające”. Bardziej uważne badanie (jak naszkicowano poniżej) nie spowoduje wyświetlenia żadnych pojedynczych punktów, a nawet niewielkich grup punktów, które można uznać za odstające. Po wystarczająco długiej analizie można zwrócić uwagę na dwa punkty w pobliżu środkowego prawego lub jeden punkt w lewym dolnym rogu, ale nawet one nie zmienią znacząco oceny danych, niezależnie od tego, czy są one rozważane odosobniony.

Dalsze wskazówki

Można powiedzieć znacznie więcej. Następnym krokiem będzie ocena rozprzestrzeniania się tych chmur. Zależności między xiy w każdej z dwóch chmur można oceniać osobno, przy użyciu tych samych technik pokazanych tutaj. Nieznaczną asymetrię dolnej chmury (wydaje się, że przy najmniejszych wartościach y pojawia się więcej danych) można ocenić, a nawet skorygować, ponownie wyrażając wartości y (pierwiastek kwadratowy może działać dobrze). Na tym etapie sensowne byłoby poszukiwanie danych peryferyjnych, ponieważ w tym momencie opis zawierałby informacje o typowych wartościach danych oraz ich rozkładach; wartości odstające (z definicji) byłyby zbyt daleko od środka, aby można je było wyjaśnić w kategoriach obserwowanej wielkości rozprzestrzeniania się.

Żadna z tych prac - która jest dość ilościowa - nie wymaga znacznie więcej niż znalezienie pośrednich grup danych i wykonanie z nimi prostych obliczeń, a zatem można je wykonać szybko i dokładnie, nawet jeśli dane są dostępne tylko w formie graficznej. Każdy wynik tutaj podany - łącznie z wartościami ilościowymi - można łatwo znaleźć w ciągu kilku sekund za pomocą systemu wyświetlania (takiego jak wydruk i ołówek :-)), który pozwala na umieszczenie lekkich śladów na górze grafiki.

— Whuber
źródło

4

Łał. Nigdy nie widziałbym tych dwóch grup i wynikającej z nich linii. I kwestionuję to.

— rvl

4

@Rus Cieszę się, że ktoś kwestionuje to badanie, ponieważ żadna EDA nie jest wyjątkowa ani dyspozycyjna. Dołączyłem inny obraz, aby pomóc Ci zobaczyć to, co widzę. Chciałbym zaprosić Cię do opublikowania odpowiedzi, która jest równie lub bardziej oszczędna i użytecznie opisowa.

— whuber

12

Jako ludzie jesteśmy wyjątkowo skłonni do znajdowania wzorów, nawet takich, których nie ma. Myślę, że całkiem prawdopodobne jest uzyskanie wykresu rozrzutu, takiego jak ten, który mamy tutaj tylko z dwoma niezależnymi RV, z których jeden jest wypaczony. Nie mam na to żadnego dowodu i nie mam żadnej alternatywnej analizy do zaoferowania - poza tą, która mówi, że związek jest niewielki lub żaden. Tak, możliwe jest, że bimodalność jest obecna. Gdyby proces ten można było obserwować dalej, moglibyśmy zobaczyć, co się stanie. Myślę, że musimy być ostrożni i świadomi naszej skłonności do reagowania na prawdopodobne fałszywe wzorce.

— rvl

4

@Russ Masz rację. Potrzebne jest doświadczenie, aby nie czytać zbyt wiele we wzorce. Z mojego doświadczenia wynika, że przy 150-200 punktach trudno jest losowo uzyskać silną bimodalność, którą zmierzyłem we współrzędnych y. Takie doświadczenie można obecnie łatwo i szybko uzupełnić symulacją: kiedy myślisz, że widzisz wzór, to (1) scharakteryzuj go ilościowo i (2) poszukaj go w losowych próbkach, które są generowane zgodnie z prostszą hipotezą alternatywną. Jeśli wzór pojawia się bardzo często, możesz obwiniać swoją korę wzrokową, ale w przeciwnym razie możesz coś znaleźć.

— whuber

1

@Russ Dziękuję. To nie był wykres resztkowy, który opisałem - role xiy są odwrócone. Niemniej jednak ma on charakter informacyjny. Heteroscedastyczność jest najbardziej uderzającą rzeczą: wydaje się ona wspierać hipotezę dwóch klastrów (która spowodowałaby zniknięcie heteroscedastyczności). Pamiętaj, jestem agnostykiem w stosunku do tej hipotezy. Wszystko, co tu napisałem, jest w oryginalnym duchu starannego, rzetelnego opisu danych. Każda pojedyncza krzywa jako opis tych danych będzie surowa i być może niezadowalająca.

— whuber

31

Zabawmy się!

Przede wszystkim, ja ociera się dane off wykresie.

$X=0.4$ $X$

Y = β_{0} + β_{X} X + β_{c} max (X - θ, 0) + ε

$Y = \beta_{0} + \beta_{X}X + \beta_{\text{c}}\max\left(X-\theta,0\right) + \varepsilon$

Szacunkowe współczynniki były następujące:

Y = 50.9 - 37.7 X - 26.74436 max (X - 0.46, 0)

$Y = 50.9 -37.7X -26.74436\max\left(X-0.46,0\right)$

Chciałbym zauważyć, że chociaż wątpliwy whuber twierdzi, że nie ma silnych zależności liniowych, odchylenie od linii implikowane przez element zawiasu jest w tej samej kolejności co nachylenie (tj. 37,7), więc I z szacunkiem nie zgadzałby się, że nie widzimy silnej relacji nieliniowej (tj. Tak, nie ma silnych relacji, ale termin nieliniowy jest mniej więcej tak silny jak liniowy). $Y = 50.9 - 37.7X$ $X$

Czas zabawy z danymi

Interpretacja
(przyjąłem, że jesteś zainteresowany jako zmienną zależną). Wartości są bardzo słabo przewidywane przez (przy skorygowanym = 0,03). Skojarzenie jest w przybliżeniu liniowe, z niewielkim spadkiem nachylenia o około 0,46. Reszty są nieco przekrzywiony w prawo, prawdopodobnie dlatego, że jest ostry dolną granicę wartości . Biorąc pod uwagę wielkość próby , jestem skłonny tolerować naruszenia normalności . Więcej obserwacji dla wartości pomogłoby ustalić, czy zmiana nachylenia jest rzeczywista, czy jest artefaktem zmniejszonej wariancji $Y$ $Y$ $X$ $R^{2}$ $Y$ $N=170$ $X>0.5$ $Y$ w tym zakresie.

Aktualizacja za pomocą wykresu : $\ln(Y)$

(Czerwona linia jest po prostu regresją liniową ln (Y) na X.)

Zaktualizowany o wykres zgodnie z sugestią Russa Lentha.

W komentarzach Russ Lenth napisał: „Zastanawiam się, czy to się utrzyma, jeśli wygładzisz względem Rozkład jest wypaczony w prawo”. Jest to dość dobra sugestia, ponieważ transformacja względem daje również nieco lepsze dopasowanie niż linia między i z resztami, które są bardziej symetrycznie rozmieszczone. Jednak zarówno jego sugerowany i mój liniowy zawias dzielą preferencję dla relacji między (nietransformowanym) i która nie jest opisana linią prostą. $\log Y$ $X$ $Y$ $\log Y$ $X$ $Y$ $X$ $\log(Y)$ $X$ $Y$ $X$

— Alexis
źródło

1

Zastanawiam się tylko, czy to trzyma się jeśli wygładzić vs . Rozkład jest przekrzywiony w prawo i myślę, że transformacja, która sprawia, że rozkład jest bardziej symetryczny, nie będzie również przypominać kultowego wykresu rozproszenia zerowego.

\log Y

$\log Y$

X

$X$

Y

$Y$

— rvl

1

@Russ Klasyczne jest to, że rozkłady bimodalne mogą być przekrzywione i sugerować transformacje logów. Ale rozkład y tutaj jest rzeczywiście bimodalny i dziennik prawdopodobnie nie jest użytecznym sposobem na jego ponowne wyrażenie. Kiedy dwa składniki są rozdzielone, dolny jest nadal dodatnio przekrzywiony, a pierwiastek kwadratowy jest w przybliżeniu w odpowiedniej ilości, aby go przekształcić, aby uzyskać rozkład symetryczny. Pierwiastek kwadratowy nie wpływa znacząco na symetrię górnej grupy, co wskazuje, że pierwiastek może być dobrym wyborem. Nie rozwiązuje to jednak bimodalności - i na tym polega problem z dowolnym płynem tego typu.

— whuber

1

Alexis, w naszych odpowiedziach obaj jesteśmy winni używania „silnego” w nieokreślony sposób. Sens, w którym miałem na myśli „słaby”, został wskazany w niektórych moich frazach, co miało wskazywać, że nachylenie jest małe w porównaniu do rozproszenia w wartościach y. Nie sądzę, aby twoja analiza zawierała inne wnioski w tym względzie. Czułem potrzebę ostrożności, ponieważ przyjmując hipotetycznie, że model mieszanki dla y może mieć sens, wydaje się, że w górnej grupie może istnieć słaby dodatni związek między xiy oraz brak związku w niższej grupie.

— whuber

3

Alexis, książka EDA Tukeya jest ich pełna. Więcej technik (bardziej wyrafinowanych, z matematycznym uzasadnieniem) znajduje się w Hoaglin, Mosteller i Tukey, Zrozumienie analizy danych solidnych i eksploracyjnych .

— whuber

2

Instrukcja @rivu. Wziąłem 10 lub 15 minut. Początkowo umieść każdy punkt za pomocą wskaźnika, a następnie precyzyjnie umieść go za pomocą klawiszy strzałek.

— Alexis,

21

Oto moje ~~2 ¢~~ 1,5 ¢. Dla mnie najbardziej widoczną cechą jest to, że dane nagle się zatrzymują i „zbierają” na dole zakresu Y. Widzę dwa (potencjalne) „klastry” i ogólne negatywne skojarzenie, ale najbardziej istotnymi cechami są (potencjalny) efekt podłogi i fakt, że górna gromada o niskiej gęstości rozciąga się tylko na część zakresu X.

Ponieważ „klastry” są niejasno dwuwymiarowe normalne, parametryczny model normalnej mieszanki może być interesujący do wypróbowania. Korzystając z danych @Alexis, stwierdzam, że trzy klastry optymalizują BIC. „Efekt podłogowy” o dużej gęstości jest wybierany jako trzeci klaster. Kod wygląda następująco:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26

wprowadź opis zdjęcia tutaj

Co możemy z tego wywnioskować? Nie sądzę, żeby było Mclustto jedynie błędne rozpoznanie ludzkiego wzoru. (Podczas gdy moja interpretacja wykresu rozrzutu może być.) Z drugiej strony nie ma wątpliwości, że jest to post-hoc . Widziałem, co może być interesującym wzorem, więc postanowiłem to sprawdzić. Algorytm coś znajduje, ale wtedy sprawdziłem tylko to, co według mnie może tam być, więc mój kciuk jest zdecydowanie na skali. Czasami można opracować strategię przeciwdziałania temu (patrz doskonała odpowiedź @ whubera tutaj ), ale nie mam pojęcia, jak przejść przez taki proces w takich przypadkach. W rezultacie biorę te wyniki z dużą ilością soli (robiłem coś takiego wystarczająco często, że komuś brakuje całego shakera). Daje mi to trochę materiału do przemyślenia i omówienia z moim klientem podczas następnego spotkania. Jakie są te dane? Czy ma to sens, że może wystąpić efekt podłogi? Czy miałoby sens, że mogą istnieć różne grupy? Jak znaczący / zaskakujący / interesujący / ważny byłby, gdyby były prawdziwe? Czy istnieją niezależne dane / czy możemy je w wygodny sposób przeprowadzić w celu rzetelnego przetestowania tych możliwości? Itp.

— gung - Przywróć Monikę
źródło

1

+1 Za wskazanie, w jaki sposób analiza eksploracyjna w naturalny sposób prowadzi do interesujących pytań . Chciałbym bardziej podkreślić ten punkt w mojej odpowiedzi. Chociaż myślę, że popychanie rzeczy do przekonania (w tym momencie), że tak naprawdę są trzy odrębne grupy, wyniki klastra nadal stanowią prawidłowy sposób dostrzeżenia negatywnego związku między x i y oraz podsumowania tego związku. Zastanawiam się, w jakim stopniu automatyczne grupowanie może być ogólnie przydatnym narzędziem eksploracyjnym - pod warunkiem, że nie mamy ochoty zbytnio czytać wyników.

— whuber

14

Pozwól mi opisać to, co widzę, gdy tylko na nie spojrzę:

Jeśli interesuje nas rozkład warunkowy (który często skupia się na zainteresowaniach, jeśli widzimy jako IV, a jako DV), to dla rozkład warunkowy wydaje się bimodalny z wyższą grupą ( od około 70 do 125, ze średnią nieco poniżej 100) i niższą grupą (od 0 do około 70, ze średnią około 30 lub więcej). W każdej grupie modalnej związek z jest prawie płaski. (Zobacz czerwone i niebieskie linie poniżej z grubsza narysowane tam, gdzie myślę, że powinno być jakieś przybliżone położenie) $y$ $x$ $y$ $x\leq 0.5$ $Y|x$ $x$

Następnie, patrząc na to, gdzie te dwie grupy są bardziej lub mniej gęste w , możemy dalej powiedzieć: $X$

Dla górna grupa całkowicie znika, co powoduje, że ogólna średnia spada, a poniżej około 0,2, dolna grupa jest znacznie mniej gęsta niż powyżej, dzięki czemu ogólna średnia jest wyższa. $x>0.5$ $x$

Między tymi dwoma efektami indukuje pozornie ujemną (ale nieliniową) zależność między nimi, ponieważ wydaje się zmniejszać względem ale z szerokim, przeważnie płaskim obszarem w środku. (Zobacz fioletową przerywaną linię) $E(Y|X=x)$ $x$

wprowadź opis zdjęcia tutaj

Bez wątpienia ważne byłoby, aby wiedzieć, jakie były i , ponieważ wówczas może być bardziej zrozumiałe, dlaczego rozkład warunkowy dla może być bimodalny na dużej części jego zasięgu (w rzeczywistości może nawet stać się jasne, że istnieją rzeczywiście dwie grupy, których rozkłady w wywołują pozornie malejący związek w ). $Y$ $X$ $Y$ $X$ $Y|x$

To, co widziałem, opierało się wyłącznie na kontroli „na oko”. Przy odrobinie zabawy w czymś takim, jak podstawowy program do manipulacji obrazami (taki jak ten, w którym narysowałem linie), moglibyśmy zacząć szukać dokładniejszych liczb. Jeśli zdigitalizujemy dane (co jest całkiem proste przy użyciu przyzwoitych narzędzi, a czasem trochę żmudne, aby uzyskać właściwe), możemy przeprowadzić bardziej wyrafinowane analizy tego rodzaju wrażeń.

Tego rodzaju analiza eksploracyjna może prowadzić do niektórych ważnych pytań (czasami takich, które zaskakują osobę, która ma dane, ale pokazała tylko wykres), ale musimy zadbać o to, w jakim stopniu nasze modele są wybierane przez takie inspekcje - jeśli stosujemy modele wybrane na podstawie wyglądu wykresu, a następnie oceniamy te modele na tych samych danych, będziemy mieli takie same problemy, jakie napotykamy, gdy używamy bardziej formalnego wyboru modelu i oszacowania na tych samych danych. [Nie ma to wcale na celu podważenia znaczenia analizy eksploracyjnej - musimy jedynie uważać na konsekwencje robienia tego bez względu na to, jak do tego podchodzimy. ]

Odpowiedź na komentarze Russa:

[późniejsza edycja: Aby wyjaśnić - zasadniczo zgadzam się z krytyką Russa podjętą jako ogólna ostrożność i na pewno jest jakaś możliwość, że widziałem więcej, niż jest w rzeczywistości. Planuję wrócić i edytować je w bardziej obszernym komentarzu na temat fałszywych wzorów, które zwykle identyfikujemy na podstawie wzroku i sposobów, w których możemy zacząć unikać najgorszego z nich. Wierzę, że będę w stanie dodać uzasadnienie, dlaczego myślę, że w tym konkretnym przypadku prawdopodobnie nie jest to po prostu fałszywe (np. Za pomocą regressogramu lub płynnego jądra z zerowym zamówieniem, choć oczywiście nie ma więcej danych do przetestowania, są tylko tak daleko, jak to możliwe; na przykład, jeśli nasza próbka jest niereprezentatywna, nawet ponowne próbkowanie prowadzi nas tylko do tej pory.]

Całkowicie się zgadzam, że mamy tendencję do dostrzegania fałszywych wzorów; to kwestia, o której często mówię, zarówno tutaj, jak i gdzie indziej.

Jedną rzeczą, którą sugeruję, na przykład, patrząc na wykresy resztkowe lub wykresy QQ, jest wygenerowanie wielu wykresów, w których sytuacja jest znana (zarówno tak, jak powinny być i gdzie założenia nie mają miejsca), aby uzyskać jasne pojęcie, jaki wzór powinien być zignorowany.

Oto przykład, w którym wykres QQ jest umieszczony wśród 24 innych (które spełniają założenia), abyśmy mogli zobaczyć, jak niezwykły jest wykres. Ten rodzaj ćwiczeń jest ważny, ponieważ pomaga nam uniknąć oszukiwania się, interpretując każde małe poruszenie, z których większość będzie zwykłym hałasem.

Często podkreślam, że jeśli możesz zmienić wrażenie, opisując kilka punktów, możemy polegać na wrażeniu generowanym wyłącznie przez hałas.

[Jednak gdy jest to widoczne z wielu punktów, a nie z kilku, trudniej jest utrzymywać, że go tam nie ma.]

Wyświetlacze w odpowiedzi whuber wspiera moje wrażenie, rozmycie Gaussa fabuła wydaje się podnieść taką samą tendencję do bimodalności w . $Y$

Gdy nie mamy więcej danych do sprawdzenia, możemy przynajmniej spojrzeć na to, czy wyświetlenie ma tendencję do przetrwania podczas ponownego próbkowania (bootstrap rozkład dwuwymiarowy i zobacz, czy prawie zawsze jest ono obecne), lub inne manipulacje, w których wrażenie nie powinno być widoczne jeśli to zwykły hałas.

1) Oto jeden ze sposobów sprawdzenia, czy pozorna bimodalność jest czymś więcej niż tylko skośnością i hałasem - czy pojawia się w oszacowaniu gęstości jądra? Czy nadal jest to widoczne, jeśli wykreślamy szacunki gęstości jądra przy różnych przekształceniach? Tutaj przekształcam go w kierunku większej symetrii, przy 85% domyślnej przepustowości (ponieważ próbujemy zidentyfikować stosunkowo mały tryb, a domyślna przepustowość nie jest zoptymalizowana do tego zadania):

wprowadź opis zdjęcia tutaj

Wykresy to , i . Pionowe linie to , i . Bimodalność jest zmniejszona, ale wciąż dość widoczna. Ponieważ jest to bardzo wyraźne w oryginalnym KDE, wydaje się potwierdzać, że tam jest - a druga i trzecia fabuła sugerują, że jest przynajmniej trochę odporny na transformację. $Y$ $\sqrt{Y}$ $\log(Y)$ $68$ $\sqrt{68}$ $\log(68)$

2) Oto kolejny podstawowy sposób na sprawdzenie, czy to coś więcej niż „hałas”:

Krok 1: wykonaj grupowanie na Y

wprowadź opis zdjęcia tutaj

Krok 2: Podziel na dwie grupy na i zgrupuj obie grupy osobno i sprawdź, czy jest całkiem podobny. Jeśli nic się nie dzieje na tych dwóch połówkach, nie należy oczekiwać, że podzielą to wszystko tak samo. $X$

wprowadź opis zdjęcia tutaj

Punkty z kropkami zostały zgrupowane inaczej niż klaster „wszystko w jednym zestawie” na poprzednim wykresie. Zrobię trochę później, ale wygląda na to, że być może naprawdę może istnieć poziomy podział w pobliżu tej pozycji.

Spróbuję regressogram lub estymatora Nadaraya-Watsona (oba są lokalnymi oszacowaniami funkcji regresji, ). Nie wygenerowałem jeszcze, ale zobaczymy, jak idą. Prawdopodobnie wykluczyłbym te same końce, na których jest mało danych. $E(Y|x)$

3) Edycja: Oto regressogram dla pojemników o szerokości 0,1 (z wyłączeniem samych końców, jak zasugerowałem wcześniej):

wprowadź opis zdjęcia tutaj

Jest to całkowicie zgodne z oryginalnym wrażeniem, jakie miałem z fabuły; nie dowodzi to, że moje rozumowanie było prawidłowe, ale moje wnioski doszły do tego samego wyniku, co regressogram.

Gdyby to, co zobaczyłem w fabule - i wynikające z tego rozumowanie - było fałszywe, prawdopodobnie nie powinienem byłby tak rozróżniać . $E(Y|x)$

(Następną rzeczą do wypróbowania byłby estymator Nadayara-Watson. W takim razie mógłbym zobaczyć, jak przebiega ponowna próbkowanie, jeśli mam czas.)

4) Późniejsza edycja:

Nadarya-Watson, jądro Gaussa, szerokość pasma 0,15:

wprowadź opis zdjęcia tutaj

Ponownie jest to zaskakująco zgodne z moim początkowym wrażeniem. Oto estymatory NW oparte na dziesięciu próbkach ładowania początkowego:

wprowadź opis zdjęcia tutaj

Istnieje szeroki wzorzec, chociaż kilka próbek nie jest tak wyraźnie zgodnych z opisem na podstawie całych danych. Widzimy, że przypadek poziomu po lewej jest mniej pewny niż po prawej - poziom hałasu (częściowo z kilku obserwacji, częściowo z szerokiego rozpiętości) jest taki, że trudniej jest twierdzić, że średnia jest naprawdę wyższa na w lewo niż w centrum.

Moje ogólne wrażenie jest takie, że prawdopodobnie nie oszukałem się, ponieważ różne aspekty umiarkowanie dobrze radzą sobie z różnymi wyzwaniami (wygładzanie, transformacja, podział na podgrupy, ponowne próbkowanie), które miałyby tendencję do zaciemniania ich, gdyby były tylko hałasem. Z drugiej strony, wskazania są takie, że efekty, choć zasadniczo zgodne z moim początkowym wrażeniem, są stosunkowo słabe i może być zbyt wiele, aby twierdzić, że jakakolwiek rzeczywista zmiana oczekiwań przesunęła się z lewej strony na środek.

— Glen_b
źródło

1

Kwestionowałem jedną odpowiedź, ale jestem pewien, że mogę znaleźć rzeczy, których nie ma

— rvl

1

Próbowałem odwrócić głos w dół, ale chyba nie mogę. To, że naprawdę nie zgadzam się z twoją odpowiedzią, niekoniecznie oznacza, że nie wnosi ona wkładu w dyskusję. Nie jestem pewien, jak używać głosów „w dół” i nie mam na myśli nic osobistego. P

— rvl

4

@Russ nie martwi się oceną negatywną, to naprawdę nie ma znaczenia, poza tym, że sygnalizuje, że jest coś, co powinienem rozwiązać. O wiele ważniejsze jest, aby dowiedzieć się, dlaczego się nie zgadzamy (o ile w ogóle to robimy), niż martwić się fałszywymi punktami internetowymi. Masz zastrzeżenie warte przedyskutowania, a ja chętnie zapłacę dziesięć razy tyle głosów za to, że przeprowadzę nawet tę krótką dyskusję. Zachęcam do głosowania za każdym razem, gdy się nie zgadzasz, jeśli powiesz dlaczego. To moja szansa, żeby się czegoś nauczyć.

— Glen_b

1

@RussLenth możesz cofnąć głosowanie negatywne (lub głosowanie pozytywne) poprzez ponowne kliknięcie głosowania w dół. Jeśli nie masz pewności, gdzie są twoje głosy, w dymku nad strzałką w dół (lub w górę) poinformujesz o tym.

— Alexis,

4

+1 Właściwie zrobiłem dużo tej analizy, ale nie chciałem nadmiernie rozszerzać mojej odpowiedzi o te wyniki. Wykonałeś świetną robotę, prezentując go w jasnej, czytelnej i przekonującej formie. Jedną rzeczą, którą dodatkowo zrobiłem, było regresowanie (właściwie płynne) x względem y (pomimo scharakteryzowania y jako „zależnego”): Myślę, że wynik był pomocny w ocenie nieliniowości w związku w sposób agnostyczny, czy y należy traktować jako jedną lub dwie grupy.

— whuber

13

OK, poszedłem za przykładem Alexis i przechwyciłem dane. Oto wykres kontra . $\log y$ $x$ wykres log (Y) vs. X

A korelacje:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188

Test korelacji wskazuje na prawdopodobną negatywną zależność. Nie jestem przekonany o żadnej bimodalności (ale też nie jestem przekonany, że jej nie ma).

[Usunąłem resztkowy wykres, który miałem we wcześniejszej wersji, ponieważ przeoczyłem punkt, w którym @whuber próbował przewidzieć ] $X|Y$

— rvl
źródło

2

Nawiasem mówiąc ... właśnie przyszło mi do głowy, że przyjęcie transformacji log (Y) jako zależnej jest nadal równoważne znalezieniu relacji nieliniowej ... log (Y) jest ładniejszy względem reszt niż funkcja zawiasu, w której grałem moja odpowiedź ... ale jeden z wniosków jest podobny: związek między i ma lepsze wyrażenia funkcjonalne niż .

Y

$Y$

X

$X$

Y = a + b X

$Y=a+bX$

— Alexis

Dziękuję za tę resztkową działkę, Russ. To nie jest prośba, ale chciałbym zwrócić uwagę, że to, co mnie zainteresowało - i być może ma większą wartość w badaniu GoF - to relacja x jako funkcji y, a nie w ten sposób. Spojrzenie na reszty x wywołuje pewne dodatkowe (być może użyteczne) pytania, które dotychczas nie były podnoszone, takie jak to, czy moglibyśmy się czegoś nauczyć poprzez nieliniowe ponowne wyrażenia x (tak, możemy); czy wiele można powiedzieć bez względu na hipotezę dwóch populacji (tak, jeszcze raz), a także o solidności mojego dopasowania (jest bardzo solidny).

— whuber

Może chcesz zrobić za to resztkową fabułę. Przechodzę do innych rzeczy.

— rvl

5

Russ Lenth zastanawiał się, jak wyglądałby wykres, gdyby oś Y była logarytmiczna. Alexis zeskrobała dane, więc łatwo jest wydrukować oś dziennika:

wprowadź opis zdjęcia tutaj

W skali logarytmicznej nie ma śladu bimodalności ani trendu. To, czy skala dziennika ma sens, czy nie, zależy oczywiście od szczegółów tego, co reprezentują dane. Podobnie, czy ma sens sądzić, że dane reprezentują próbkowanie z dwóch populacji, jak sugeruje whuber, zależy od szczegółów.

Dodatek: W oparciu o poniższe komentarze, oto poprawiona wersja:

wprowadź opis zdjęcia tutaj

— Harvey Motulsky
źródło

Opublikowałem wykres w ciągu kilku minut od opublikowania jego przez Russa Lenthana. Nie widziałem jego, inaczej nie wysłałbym mojej.

— Harvey Motulsky

Y

$Y$

9

Ta grafika przedstawia interesujący przykład efektu złego wyboru wizualizacji: zmniejszając współczynnik kształtu i wydłużając oś y ponad dwukrotnie tak daleko, jak to konieczne, oprogramowanie automatycznie tłumiło wrażenia wizualne jakiegokolwiek pionowego rozproszenia, utrudniając widzowi zobaczenie wszystkiego. Właśnie dlatego dobra eksploracja, choć kierowana graficzną reprezentacją, musi (a) stosować odpowiednie metody wizualizacji, które ujawniają , a nie tłumią zachowanie danych, oraz (b) wspierać je dodatkowymi analizami (np. Pokazanymi w poście @ Glen_b) .

— whuber

Dla zakresów Y w pytaniu logarytmiczna podstawa 2 byłaby prostszym wyborem, aby mieć rozsądny zakres wartości dla osi Y. Pozwoliłoby to również uniknąć górnego zakresu od dobrych wartości 1 i 1000, które nie są zgodne z dostępnymi danymi.

— Andy W

1

Masz rację, związek jest słaby, ale nie zero. Domyślam się pozytywnie. Jednak nie zgaduj, po prostu uruchom prostą regresję liniową (regresja OLS) i dowiedz się! Tam otrzymasz nachylenie xxx, które mówi ci, jaki jest związek. I tak, masz wartości odstające, które mogą wpływać na wyniki. Można sobie z tym poradzić. Możesz użyć odległości Cooka lub stworzyć wykres dźwigni, aby oszacować wpływ wartości odstających na relację.

Powodzenia

— Helgi Guðmundsson
źródło

Co sprawia, że myślisz, że są to rzeczywiste wartości odstające, a nie to, że MZD jest nieliniowy?

— abaumann

Przypuszczam, że tak też może być. Ale trudno powiedzieć, kropki są tak rozrzucone.

— Helgi Guðmundsson

Po co zakładać liniowość z OLS? Regresja nieparametryczna FTW! :)

— Alexis,

1

@Alexis słusznie podkreśla, że założenia takie jak liniowość muszą być uzasadnione, zarówno teorią domen, jak i sprawdzaniem modelu. Uważam jednak, że całkowite usunięcie wartości odstających bez dokładnego zastanowienia się, dlaczego takie wartości wystąpiły, jest bardzo częstym błędem w analizie statystycznej.

— abaumann

Tak, wartości odstających nie można usunąć bez dobrego uzasadnienia, takiego jak zła wartość. Ale transformacje mogą pomóc dostosować rozkład wartości do lepszego dopasowania i zmniejszyć wartości odstające. I tak, zgadzam się, uważam, że dość powszechne jest usuwanie wartości odstających bez uzasadnionej przyczyny.

— Helgi Guðmundsson,

1

Już udzieliłeś intuicji swojemu pytaniu, patrząc na orientację punktów danych X / Y i ich rozproszenie. Krótko mówiąc, masz rację.

Pod względem formalnym orientację można nazwać znakiem korelacji, a dyspersję - wariancją . Te dwa łącza dostarczą więcej informacji na temat interpretacji liniowej zależności między dwiema zmiennymi.

— Robert Kubrick
źródło

0

To praca w domu. Odpowiedź na twoje pytanie jest prosta. Uruchom regresję liniową Y na X, otrzymasz coś takiego:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Tak więc statystyki t są znaczące dla zmiennej X przy 99% ufności. Dlatego można zadeklarować zmienne jako mające pewien związek.

Czy to jest liniowe? Dodaj zmienną X2 = (X-średnia (X)) ^ 2 i zresetuj ponownie.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Współczynnik przy X jest nadal znaczący, ale X2 nie. X2 oznacza nieliniowość. Zatem deklarujesz, że związek wydaje się liniowy.

Powyższe dotyczyło pracy domowej.

W prawdziwym życiu sprawy są bardziej skomplikowane. Wyobraź sobie, że były to dane o klasie uczniów. Y - wyciskanie na ławce w funtach, X - czas w minutach wstrzymania oddechu przed wyciśnięciem na ławce. Zapytałbym o płeć uczniów. Dla zabawy dodajmy kolejną zmienną Z i powiedzmy, że Z = 1 (dziewczęta) dla wszystkich Y <60, a Z = 0 (chłopcy), gdy Y> = 60. Uruchom regresję z trzema zmiennymi:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Co się stało?! „Relacja” między X i Y zniknęła! Wygląda na to, że związek był fałszywy ze względu na mylącą zmienną płci.

Co jest morałem tej historii? Musisz wiedzieć, jakie są dane, aby „wyjaśnić” „relację”, a nawet ustalić ją w pierwszej kolejności. W tym przypadku, w momencie, gdy powiedzą mi, że dane dotyczące aktywności fizycznej uczniów, natychmiast zapytam o ich płeć, a nawet nie zawracam sobie głowy analizą danych bez uzyskania zmiennej płci.

Z drugiej strony, jeśli zostaniesz poproszony o „opisanie” wykresu rozrzutu, wtedy wszystko pójdzie. Korelacje, dopasowania liniowe itp. W pracy domowej powinny wystarczyć dwa pierwsze kroki powyżej: spójrz na współczynnik X (relacja), a następnie X ^ 2 (liniowość). Upewnij się, że masz na myśli zmienną X (odejmij średnią).

— Aksakal
źródło