Jak omówić wykres rozrzutu z wieloma nowymi liniami?


11

Zmierzyliśmy dwie zmienne, a wykres rozrzutu wydaje się sugerować wiele modeli „liniowych”. Czy istnieje sposób, aby spróbować destylować te modele? Identyfikacja innych zmiennych niezależnych okazała się trudna.

Wykres rozrzutu dwóch zmiennych

Obie zmienne są mocno pochylone w lewo (w kierunku małych liczb), jest to oczekiwany rozkład w naszej domenie. Intensywność kropki reprezentuje ilość punktów danych (w skali ) w tym . log10<x,y>

Alternatywnie, czy istnieje sposób na zgrupowanie punktów?

W naszym polu twierdzi się, że te dwie zmienne korelują liniowo. Staramy się zrozumieć / wyjaśnić, dlaczego w naszych danych tak nie jest.

(Uwaga, mamy 17 milionów punktów danych)

aktualizacja: dziękuję za wszystkie odpowiedzi, oto kilka wymaganych wyjaśnień:

  • Obie zmienne są tylko liczbami całkowitymi, co wyjaśnia niektóre wzorce w logu scatterplot.
  • Na szczęście minimalna wartość obu zmiennych z definicji wynosi 1.
  • 7 milionów punktów znajduje się w („wyjaśnione” przez lewy skośność danych)<3,1>

Oto wymagane wykresy:

log scatterplot: Wykres rozproszenia w logu dziennika

(puste są spowodowane wartościami całkowitymi)

log-log polarny: współrzędne biegunowe θ=y

Histogram współczynnika: Histogram współczynnika

Częstotliwość jest w skali logarytmicznej, ponieważ bara to 7 milionów punktów i ukryłaby pozostałe słupki.1/3


2
Jak ten wykres wygląda we współrzędnych biegunowych ? (Może być wskazane, aby najpierw wziąć logarytmy i (plus, jeśli to konieczne, małe początkowe przesunięcie, aby uniknąć zer).) Ponieważ wszystkie linie wydają się promieniować od początku, to możliwe - szczególnie jeśli wariant wokół linii pojawia się homoscedastyczny - wtedy wszystko, co musisz zrobić, to skupić punkty w wymiarze . (r,θ)XYθθ
whuber

Czy istnieją współczynniki związane z uzyskaniem Y i X? Czy w grę wchodzą zmienne, które przyjmują tylko wartości dyskretne? Jak to wygląda jako wykres dziennika?
Glen_b

1
@whuber & Glen_b Dodałem wykresy z tymi transformacjami.
Davy Landman

Dziękuję, Davy. Powinienem był jaśniej powiedzieć o punkcie używania współrzędnych biegunowych: wykreślając na osi poziomej i na osi pionowej , wszelkie linie promieniowe na oryginalnym wykresie pojawią się jako linie idealnie poziome. Można je nie tylko łatwo wykryć wizualnie (nasze oczy mają wbudowane przetwarzanie rozpoznające poziome cechy liniowe), po wykryciu mogą być przetwarzane za pomocą analizy skupień opartej wyłącznie na . Twój wykres biegunowy logarytmiczny, stosując transformacje nieliniowe do współrzędnych (szczególnie ), niszczy te ładne właściwości. rθθθ
whuber

@whuber Zaktualizowałem fabułę, postawiłem theta na y, czy to są linie, które masz na myśli?
Davy Landman

Odpowiedzi:


7

Możesz mieć artefakty wynikające z ograniczeń tego, co jest możliwe fizycznie lub co jest rejestrowane (w najprostszym przypadku, tylko liczby całkowite). Całkowicie anonimowe i nie sugerują żadnych pewnych przypuszczeń na temat tego, jak to powstaje, ale wygląda na to, że niektóre są faworyzowane i na pewno spojrzałbym na rozkład tego stosunku. Ponadto, jeśli tak, z mojego doświadczenia wynika, że ​​nie warto szukać osobnych modeli, chyba że naprawdę miksujesz zupełnie różne sytuacje. (Dla „fizycznie” czytaj „biologicznie” lub cokolwiek przysłówek ma sens).YXY/X

Im dłużej na to patrzę, tym bardziej wydaje mi się, że linie takie jak lub są widoczne dla liczby całkowitej , ponieważ same wartości są liczbami całkowitymi.X/kkXk

Inną, ale prawdopodobnie powiązaną kwestią jest to, że dane te wymagają transformacji. Jeśli wszystkie są dodatnie, logarytmy są wskazane. Obawiam się, że masz zera. W takim przypadku dyskusja jest możliwa. Na przykład na wykresie można odgadnąć linię o wartości . Jeśli są zera, niektóre przekleństwa na lub pierwiastek kostki powinny pomóc. Wszystko, co pomaga lepiej widzieć wzory, jest obronne.Y=0log(Y+constant)

Terminologia: skośność w statystykach jest opisana w odniesieniu do bardziej rozciągniętego ogona. Możesz traktować tę terminologię jako wsteczną. Tutaj obie zmienne są wypaczone do wysokich wartości lub dodatnie lub prawe.

AKTUALIZACJA: Dziękujemy za dodatkowe wykresy, które są najbardziej pomocne. Prawie wszystkie domysły wydają się potwierdzone. (Dolna linia, że ​​tak powiem, to , a nie ). Paski są artefaktami lub efektami wtórnymi używania liczb całkowitych, co może być jedynym lub przynajmniej najbardziej praktycznym sposobem pomiaru tego, co mierzą (o czym pytanie pozostaje dyskretne). Dziennik i inne wykresy ujawniają dyskrecję. Pomimo dyskrecji dyskrecja jest potwierdzona. Istnieją wyraźne tryby (piki w rozkładzie) dla stosunków 1/4, 1/2, 1/1 i 2/1.Y=1Y=0

Tak jak poprzednio, nie zalecałbym modelowania różnych pasków inaczej bez naukowego powodu, aby je rozróżniać lub traktować osobno. Powinieneś uśrednić to, co masz. (Mogą istnieć znane metody z tego rodzaju danymi w celu tłumienia dyskrecji. Jeśli ludzie w Twojej dziedzinie rutynowo mierzą miliony punktów dla każdego wykresu, trudno uwierzyć, że nie było to wcześniej widoczne).

Korelacja powinna być z pewnością dodatnia. Oprócz formalnego testu istotności, który tutaj byłby całkowicie bezużyteczny, ponieważ drobne korelacje będą kwalifikować się jako znaczące przy tej wielkości próby, to, czy zostanie uznane za silne, jest kwestią oczekiwań i standardów w danej dziedzinie. Porównywanie ilościowe twojej korelacji z wynikami innych jest dobrym rozwiązaniem.

Szczegół: Skośność jest nadal opisywana w niewłaściwy sposób, zgodnie z konwencją statystyczną. Te zmienne są pochylone w prawo; żargon ten pasuje, gdy patrzy się na histogram z poziomą osią jasności i zauważa, że ​​skośność nazywa się dłuższym ogonem, a nie koncentracją o większej wartości.


Dodałem wykres dziennika i starałem się dokładniej określić skośność.
Davy Landman

4

Narzędzie, które chcesz, nazywa się regresem przełączania. Chodzi o to, że istnieje kilka linii regresji, a każdy punkt danych jest przypisany do jednej z nich. Na przykład równanie pierwszej linii regresji wyglądałoby następująco: Równanie linii regresji byłoby następujące: W sumie , powiedzmy , jest różnych linii regresji. Dla dowolnego punktu danych widzimy tylko jedną z linii regresji. Dlatego musi istnieć jakiś mechanizm decydujący, którą linię regresji widzimy dla każdego punktu. Najprostszym mechanizmem jest po prostu rozkład wielomianowy. Oznacza to, że widzimy

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmth linia regresji z prawdopodobieństwem , gdzie . pmmpm=1

Model jest zwykle szacowany na podstawie maksymalnego prawdopodobieństwa. Zakładając, że są dystrybuowane , funkcja prawdopodobieństwa, którą maksymalizowałbyś, to: Funkcja to standardowa normalna gęstość. Maksymalizujesz to w parametrach , z zastrzeżeniem ograniczeń . Jest to zwykle nieco zepsuty problem maksymalizacji, jeśli zamierzasz zastosować metody quasi-Newtona, aby go rozwiązać. Nie możesz po prostu zacząć wszystkich i od zera iϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm w , na przykład. Musisz podać odrębne wartości początkowe do i aby algorytm mógł je „rozróżnić”.1Mαβ

Istnieje wiele sposobów, aby zwiększyć zaangażowanie, jeśli chcesz. Być może masz zmienną która Twoim zdaniem wpływa na , czyli która wpływa na wybraną regresję. Cóż, możesz użyć wielomianowej funkcji logit, aby było funkcją : ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

Teraz są parametry . W rzeczywistości istnieją parametry , ponieważ wymagana jest normalizacja --- odczytana w logu wielomianowym w celu wyjaśnienia.5 M - 1 δ , γ5M+15M1δ,γ

Innym sposobem na zwiększenie jego zaangażowania jest użycie metody wyboru , liczby linii regresji. Jestem dość swobodny w podejmowaniu tego rodzaju decyzji w mojej własnej pracy, więc może ktoś inny może wskazać ci najlepszy sposób wyboru.M


2
Może to być naturalny model, gdy istnieje kilka różnych reżimów i pewne niezależne uzasadnienie ich istnienia. Tutaj jest tak wiele ukośnych pasków - i można się domyślać, że więcej będzie widoczne w skali logarytmicznej - że problem wyboru jest nadrzędny dla tego podejścia, a nie przypadkowy, jak się wydaje tutaj sugerowany. M
Nick Cox

2

Obserwowałem podobne zachowanie w niektórych moich zestawach danych. W moim przypadku wiele różnych linii było spowodowanych błędem kwantyzacji w jednym z moich algorytmów przetwarzania.

Oznacza to, że patrzymy na wykresy rozproszenia przetworzonych danych, a algorytm przetwarzania miał pewne efekty kwantyzacji, które powodowały zależności w danych, które wyglądały dokładnie tak, jak powyżej.

Naprawienie efektów kwantyzacji sprawiło, że nasza produkcja wyglądała na znacznie gładszą i mniej zbitą.

Jeśli chodzi o komentarz do „korelacji liniowej”. To, co przedstawiłeś, jest niewystarczające do ustalenia, czy dane te są skorelowane liniowo, czy nie. Oznacza to, że w niektórych polach współczynnik korelacji> 0,7 jest uważany za silną korelację liniową. Biorąc pod uwagę, że większość twoich danych jest blisko źródła, całkiem możliwe jest, że twoje dane są liniowo skorelowane z tym, co powiedziałaby „konwencjonalna mądrość”. Korelacja mówi bardzo niewiele o zestawie danych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.