Zastanawiałem się, jak wywnioskować wariancję zmiennej za pomocą wykresu pudełkowego. Czy można przynajmniej wywnioskować, czy dwie zmienne mają tę samą wariancję, obserwując ich wykres pudełkowy?
Zastanawiałem się, jak wywnioskować wariancję zmiennej za pomocą wykresu pudełkowego. Czy można przynajmniej wywnioskować, czy dwie zmienne mają tę samą wariancję, obserwując ich wykres pudełkowy?
Odpowiedzi:
Nie bez wielu ścisłych założeń, nie. Jeśli miałbyś założyć, że odpowiedź brzmi „tak” (zamiast pytać, za co cię klaszczę), założę się, że mógłbym cię oszukać w tym (kontratakującym) przykładzie:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Wygląda całkiem podobnie, prawda? Jednak !
W przypadku, gdy nie wynika z kodu, populacja 2
wynosi:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
I nie, nie można wywnioskować, że ta populacja jest normalna tylko dlatego, że jest dokładnie symetryczna. Oto wykres populacji QQ 2
:
Na pewno nie wygląda dla mnie normalnie.
Edytuj - odpowiedź na Twój komentarz:
Wariancja jest statystyką numeryczną. Jeśli wariancje dwóch dystrybucji są dosłownie równe, to prawie wszystko, co musisz o tym powiedzieć. Jeśli dwie dystrybucje są dokładnie normalne , znowu, istnieje matematyczna definicja , obie pasują. Jeśli dwa rozkłady nie są dokładnie normalne lub równe w wariancji, nie powinieneś mówić inaczej. Jeśli chcesz powiedzieć, że są w przybliżeniu równe lub normalne, prawdopodobnie powinieneś zdefiniować „wystarczająco przybliżony” w sposób dostosowany do twoich celów, których tu nie określiłeś. Wrażliwość na różnice dystrybucyjne różni się znacznie w zależności od analizy, która zwykle motywuje pytania takie jak twoje. Na przykład,jest dość odporny na naruszenia tego ostatniego przy równych rozmiarach próby ), więc nie zalecałbym tego testu do porównania mojej populacji 2
do populacji 1
(rozkład normalny).
Na to dobrze odpowiedziano. Te dodatkowe komentarze są trochę za długie (AKTUALIZACJA: teraz o wiele za długo), aby można je było dodać jako komentarze.
Ściśle mówiąc, wszystko, co można odczytać z wykresu pudełkowego na temat zmienności rozkładu, to jego zakres międzykwartylowy (długość lub wysokość pudełka) i zasięg (długość lub wysokość między skrajnościami wyświetlacza).
Dla przybliżenia, wykresy pudełkowe, które wydają się identyczne, mogą mieć bardzo podobne wariancje, ale uważaj. Wykresy pudełkowe z bardzo różnymi pozycjami pudeł lub ogonami (lub obydwoma) najprawdopodobniej nie będą miały podobnych wariantów, ale nie jest to niemożliwe. Ale nawet jeśli wykresy pudełkowe wyglądają identycznie, na zwykłym lub waniliowym wykresie pudełkowym nie ma informacji o zmienności w pudełku lub w rzeczywistości zmienności w wąsach (linie często pokazane między pudełkiem a punktami danych w granicach 1,5 IQR bliższego kwartylu) . Uwaga: istnieje kilka wariantów wykresów pudełkowych; autorzy często słabo dokumentują dokładne zasady stosowane przez ich oprogramowanie.
Popularność działki pudełkowej ma swoją cenę. Wykresy ramkowe mogą być bardzo przydatne do wyświetlania cech brutto wielu grup lub zmiennych (powiedzmy 20 lub 30, a czasem nawet więcej). Jak powszechnie używane do porównywania powiedzmy 2 lub 3 grup, są one wyprzedane, moim zdaniem, ponieważ inne wykresy mogą pokazać znacznie więcej szczegółów w sposób inteligentny w tej samej przestrzeni. Oczywiście jest to powszechnie, jeśli nie powszechnie doceniane, a różne udoskonalenia wykresu pudełkowego pokazują więcej szczegółów.
Poważna praca z odchyleniami wymaga dostępu do oryginalnych danych.
Jest to szeroki pędzel i można dodać więcej szczegółów. Na przykład pozycja mediany w ramce czasami daje trochę więcej informacji.
AKTUALIZACJA
Wydaje mi się, że o wiele więcej osób interesuje się wykorzystaniem (i ograniczeniami) wykresów pudełkowych w ogóle niż konkretnym pytaniem o wnioskowanie o wariancji z wykresu pudełkowego (na które krótka odpowiedź brzmi: „Nie można, z wyjątkiem pośrednich, w przybliżeniu, a czasem "), więc dodam jeszcze dalsze komentarze na temat alternatyw, zgodnie z sugestią @Christian Sauer.
Histogramy używane rozsądnie często są nadal konkurencyjne. Nowoczesny klasyczny tekst wprowadzający Freedmana, Pisaniego i Purvesa używa ich w całym tekście.
Różne, znane jako wykresy punktowe lub paski (wykresy) (i pod wieloma innymi nazwami) są łatwe do zrozumienia. Identyczne punkty można układać w stosy, po binowaniu w razie potrzeby. Możesz dodać medianę i kwartyle lub średnie i przedziały ufności do treści swojego serca.
Wydaje się, że wykresy kwantowe są nabytym smakiem, ale pod wieloma względami najbardziej wszechstronnym ze wszystkich. Uwzględniam tutaj wykresy uporządkowanych wartości ponownie skumulowane prawdopodobieństwo (pozycja wykresu), a także wykresy kwantylowe, które byłyby proste, gdyby dane stanowiły dowolny rozkład „markowy” (normalny, wykładniczy, gamma, cokolwiek innego). (Podziękowania dla @Scortchi za odniesienie do „marki” stosowanej przez CJ Geyera.)
Ale wyczerpująca lista nie jest możliwa. (Dodam na przykład, że bardzo rzadko reprezentacja łodygi i liścia jest dokładnie w porządku, aby zobaczyć ważne szczegóły w danych, tak jak w przypadku powszechnej preferencji cyfr.) Kluczową zasadą jest to, że najlepsze rodzaje wykresu dystrybucji pozwalają pozornie niemożliwa, percepcja drobnej struktury w danych, która może być interesująca lub ważna (modalność, ziarnistość, wartości odstające itp.), a także gruboziarnista struktura (poziom, rozpiętość, skośność itp.).
Wykresy pudełkowe nie są równie dobre w pokazywaniu wszystkich rodzajów struktur. Nie mogą być i nie były przeznaczone. Warto zaznaczyć, że JW Tukey w Analiza danych eksploracyjnych Reading, MA: Addison-Wesley (1977) podał przykład danych bimodalnych z Rayleigha, których wykres skrzynkowy całkowicie przesłania główną strukturę. Jako świetny statystyk dobrze wiedział, że wykresy pudełkowe nie zawsze były odpowiedzią.
Dziwna praktyka, szeroko rozpowszechniona w tekstach wprowadzających, omawia ANOVA, zapraszając czytelników do spojrzenia na wykresy pudełkowe, które pokazują mediany i kwartyle, a nie środki i wariancje (raczej SD). Oczywiście patrzenie na dane jest znacznie lepsze niż nie patrzenie, ale mimo to bardziej odpowiednia reprezentacja graficzna jest prawdopodobnie pewnym wykresem surowych danych z dopasowanymi środkami +/- pewną odpowiednią wielokrotnością SE.
Naiwne podejście:
W rozkładzie normalnym kwantyle 25% i 75% znajdują się w odległości od centrum. To daje, że gęstość wyśrodkowana w 50% pokrywa dwukrotnie tę odległość ( ). Na wykresie pudełkowym zakres międzykwartylowy (IQR, odległość od dołu ramki do góry) obejmuje 50% wyśrodkowaną ilość próbki.1,35 ⋅ σ
Jeśli przyjmiesz założenie, że twoja populacja ma rozkład normalny (co czasami jest WIELKIM założeniem, a nie tak trywialnym), to standardowe odchylenie twojej populacji można z grubsza oszacować na podstawie równania , że to .σ = 0,74 ⋅ I Q R
I o porównywaniu wariancji według wykresów pudełkowych: szersze pudełka oznaczają większe wariancje, ale daje to zrozumienie eksploracyjne i należy wziąć pod uwagę także wąsy i wartości odstające. W celu potwierdzenia należy zastosować kontrast hipotez.