Możesz mieć artefakty wynikające z ograniczeń tego, co jest możliwe fizycznie lub co jest rejestrowane (w najprostszym przypadku, tylko liczby całkowite). Całkowicie anonimowe i nie sugerują żadnych pewnych przypuszczeń na temat tego, jak to powstaje, ale wygląda na to, że niektóre są faworyzowane i na pewno spojrzałbym na rozkład tego stosunku. Ponadto, jeśli tak, z mojego doświadczenia wynika, że nie warto szukać osobnych modeli, chyba że naprawdę miksujesz zupełnie różne sytuacje. (Dla „fizycznie” czytaj „biologicznie” lub cokolwiek przysłówek ma sens).YXY/X
Im dłużej na to patrzę, tym bardziej wydaje mi się, że linie takie jak lub są widoczne dla liczby całkowitej , ponieważ same wartości są liczbami całkowitymi.X/kkXk
Inną, ale prawdopodobnie powiązaną kwestią jest to, że dane te wymagają transformacji. Jeśli wszystkie są dodatnie, logarytmy są wskazane. Obawiam się, że masz zera. W takim przypadku dyskusja jest możliwa. Na przykład na wykresie można odgadnąć linię o wartości . Jeśli są zera, niektóre przekleństwa na lub pierwiastek kostki powinny pomóc. Wszystko, co pomaga lepiej widzieć wzory, jest obronne.Y=0log(Y+constant)
Terminologia: skośność w statystykach jest opisana w odniesieniu do bardziej rozciągniętego ogona. Możesz traktować tę terminologię jako wsteczną. Tutaj obie zmienne są wypaczone do wysokich wartości lub dodatnie lub prawe.
AKTUALIZACJA: Dziękujemy za dodatkowe wykresy, które są najbardziej pomocne. Prawie wszystkie domysły wydają się potwierdzone. (Dolna linia, że tak powiem, to , a nie ). Paski są artefaktami lub efektami wtórnymi używania liczb całkowitych, co może być jedynym lub przynajmniej najbardziej praktycznym sposobem pomiaru tego, co mierzą (o czym pytanie pozostaje dyskretne). Dziennik i inne wykresy ujawniają dyskrecję. Pomimo dyskrecji dyskrecja jest potwierdzona. Istnieją wyraźne tryby (piki w rozkładzie) dla stosunków 1/4, 1/2, 1/1 i 2/1.Y=1Y=0
Tak jak poprzednio, nie zalecałbym modelowania różnych pasków inaczej bez naukowego powodu, aby je rozróżniać lub traktować osobno. Powinieneś uśrednić to, co masz. (Mogą istnieć znane metody z tego rodzaju danymi w celu tłumienia dyskrecji. Jeśli ludzie w Twojej dziedzinie rutynowo mierzą miliony punktów dla każdego wykresu, trudno uwierzyć, że nie było to wcześniej widoczne).
Korelacja powinna być z pewnością dodatnia. Oprócz formalnego testu istotności, który tutaj byłby całkowicie bezużyteczny, ponieważ drobne korelacje będą kwalifikować się jako znaczące przy tej wielkości próby, to, czy zostanie uznane za silne, jest kwestią oczekiwań i standardów w danej dziedzinie. Porównywanie ilościowe twojej korelacji z wynikami innych jest dobrym rozwiązaniem.
Szczegół: Skośność jest nadal opisywana w niewłaściwy sposób, zgodnie z konwencją statystyczną. Te zmienne są pochylone w prawo; żargon ten pasuje, gdy patrzy się na histogram z poziomą osią jasności i zauważa, że skośność nazywa się dłuższym ogonem, a nie koncentracją o większej wartości.