Wykresy małych próbek

13

Mam mały zestaw danych 14 osobnych razy, aby wykonać zadanie. Mam jednak trudności ze znalezieniem odpowiedniego wykresu, którego można by użyć do wykreślenia danych. Gdyby próbka była większa, użyłbym wykresu pudełkowego lub histogramu, ale nie jestem pewien, czy stosowne byłoby użycie w tym przypadku, gdy próbka jest tak mała.

Aktualizacja: Czasy to 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2

data-visualization descriptive-statistics small-sample

— Eamonn
źródło

4

Nic nie przebije pokazania rzeczywistych danych, na których Ci zależy, jako konkretnego przykładu zachęcającego ludzi do publikowania różnych rozwiązań. Z góry proponuję wykresy punktowe lub paski i wykresy kwantowe z nałożonym polem.

— Nick Cox

16

Myślę, że podstawową zasadą tutaj jest to, że możesz i powinieneś pokazywać wszystkie indywidualne wartości. Nawet jeśli szczegół nie jest w sposób oczywisty interesujący ani użyteczny, nie ma powodu, aby go nie pokazywać lub zobowiązać czytelnika do odkodowania (powiedzmy) histogramu, w którym słupki mogą reprezentować tylko jedną lub dwie wartości.

Oferuję tutaj mały kompozyt. Lewy górny róg to wykres punktowy lub pasek (co najmniej dwadzieścia innych nazw użyto dla tego samego pomysłu) przedstawiony poziomo, a prawy górny róg ten sam pomysł przedstawiony pionowo. Wystąpienia o tej samej wartości są dopasowywane przez układanie w stos.

Na dole znajduje się wykres kwantylu w sensie Parzen, w którym milcząca skala pozioma jest skumulowanym prawdopodobieństwem (pozycja wykresu we wspólnym żargonie), a konwencjonalne pole mediany i kwartyli można narysować w taki sposób, że (w zasadzie) połowa wartości są w polu, jak zawsze reklamowane, a połowa wartości na zewnątrz. Dodatkowa pozioma linia tutaj oznacza średnią. Niektóre osoby dodają środki do wykresów pudełkowych jako dodatkowy symbol punktu lub znacznika; Uważam, że może to kolidować z wyświetlaniem samych danych i wolę dodatkową linię. Jeśli linia mediany i linia średniej wydają się zbieżne, musisz pomyśleć, co zrobić. Prawie zawsze średnia i mediana są wyraźnie różne.

Prawdopodobnie standardem jest wyraźne określanie jednostek miary na wykresie, ale nie widzę, jakie są.

(Celowo przesunąłem tutaj dodatkowy punkt, a mianowicie, że wykresy mogą być bardzo małe, ale wciąż pouczające. W praktyce nie uczyniłbym ich tak małymi.)

EDYTOWAĆ:

Odsyłacze dodane do wykresów skrzynek kwantylowych szeroko w sensie Parzen (dalsze odniesienia w drugiej części poniżej; istnieją inne zastosowania „wykresów skrzynek kwantylowych”)

Jak zmierzyć różnicę między danymi nieparametrycznymi z wieloma zerami?

Jak korzystać z wykresów pudełkowych, aby znaleźć punkt, w którym wartości mogą pochodzić z różnych warunków?

Jak wizualizować niezależny test t dwóch próbek?

Jak sprawdzić, który eksperyment działa lepiej przy użyciu testu U Manna-Whitneya?

Shera, DM 1991. Niektóre zastosowania wykresów kwantowych do poprawy prezentacji danych. Informatyka i statystyki 23: 50–53.

Militký, J. i M. Meloun. 1993. Niektóre pomoce graficzne do jednoznacznej analizy danych eksploracyjnych. Analytica Chimica Acta 277: 215-221.

Meloun, M. i J. Militký. 1994. Wspomagane komputerowo przetwarzanie danych w chemometrii analitycznej. I. Analiza eksploracyjna danych jednoczynnikowych. Chemical Papers 48: 151-157.

EDYCJA 2:

Głównym celem tych wątków jest nie tylko udzielenie odpowiedzi na bezpośrednie pytanie, ale także poruszenie bardzo podobnych pytań, które mogą zainteresować innych.

Niektóre inne projekty wykresów w innych odpowiedziach tutaj pokazują identyfikatory oznaczone agnostycznie 1 ... 14 przy braku innych szczegółów. Zakładając, że te i inne identyfikatory były przydatne w interpretacji, prosty projekt, aby je pokazać, to wykres punktowy (Cleveland). Oto dwie spośród kilku możliwości, w których porządek identyfikatora jest przestrzegany dosłownie (po lewej) i w których wartości są sortowane (po prawej). W razie potrzeby jest dużo miejsca na dłuższe etykiety.

Zaletą tego projektu w porównaniu z wykresami słupkowymi jest to, że oś odpowiedzi lub wyniku może zaczynać się od wartości innej niż zero, jeśli wydaje się to lepszym wyborem.

Łatwo można sobie również wyobrazić obracanie wykresów tak, aby oś odpowiedzi była pionowa.

— Nick Cox
źródło

(+1) Czasami widziałem wykres punktowy lub pasek, szczególnie jeśli jest zorientowany pionowo, z punktami „ułożonymi w stos” centralnie, a nie w lewo (tj. Jeśli byłyby trzy ułożone w stos, wówczas środkowy byłby zgodny z punkty bez stosów). Daje to linię symetrii, która jest przyjemna pod względem estetycznym, ale nie jestem pewien, jak praktyczna jest to korzyść. Być może ułatwia to nałożenie pudełka. Czy to ma osobne imię, wiesz? Czy jest jakaś rada, aby tego uniknąć / przyjąć?

— Silverfish,

1

Czy jest też szansa, że możesz podać referencje dla Parzen? Zawsze lubiłem te wątki, ale nigdy nie przeczytałem dla nich odpowiedniego odniesienia.

— Silverfish,

@Silverfish Wyśrodkowane (wyśrodkowane) warianty są z pewnością popularne i często omawiane. Małe problemy wydają się być pragnieniem symetrii, jak wspominasz, w porównaniu do projektu przypominającego styl histogramu, który raczej wolę nieco, ale jest to kwestia gustu i okoliczności. Dodałem odsyłacze, które z kolei powitałyby innych.

— Nick Cox

3

@Nick Cox podał już kilka dobrych przykładów, dwie inne opcje, z których często korzystam, to wykres pudełkowy z punktami nałożonymi lub lekko roztrzęsionymi,

Z kodem R.

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDYCJA: Możesz również użyć fabuły skrzypiec, jeśli chcesz

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

— eeongrail
źródło

1

Dziękuję bardzo za odpowiedź. Niechętnie stosowałem wykresy pudełkowe w moich analizach ze względu na wielkość próbki. Ale po przejrzeniu różnych podręczników wydaje się, że moja próbka jest wystarczająca.

— Eamonn

1

Twoje pytanie przypomniało mi technikę opisaną w tym poście na blogu . Chodzi o wizualizację dyskretnych zdarzeń.

Podstawową sztuczką jest wykreślenie the time before an eventx the time after an event.

Twoje dane wizualizowane [1]

Może to być przypadek, ale do górnego środkowego obszaru nie ma danych. Widać więc pewną strukturę.

Szybki i brudny Rkod.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

— Harald Thomson
źródło

OP powiedział 14 razy. Przeczytałem to jako sugerujące, że nie są to serie. Jeśli są serią, Twój pomysł jest z pewnością trafny.

— Nick Cox

Prawdopodobnie masz rację. Jednakże, nawet jeśli są one nie seria, wykres będzie pokazać zależności między czasem. Oczywiście wtedy etykiety osi są błędne.

— Harald Thomson,

2

Tylko OP może dokładnie wyjaśnić, jakie są dane, ale nie sądzę, aby ten wykres wygrał w obu kierunkach. Jeśli dane są oddzielne razy, wówczas wykres jest bez znaczenia, chyba że istnieje znaczenie dla kolejności, w jakiej podano wartości.

— Nick Cox

fyi textprzyjmuje argumenty wektorowe - text(x, y, 1:12)powinno działać.

— MichaelChirico,

1

Kolejny pomysł, ponieważ wykorzystujesz czas.

Wykres toru wyścigowego - wykres słupkowy o współrzędnych biegunowych - daje taki sam efekt jak stoper:

Idealnie etykiety obserwacyjne byłyby nałożone na słupki lub przynajmniej na drugim końcu. W tej chwili widz ma dodatkowy wysiłek, aby śledzić, która obserwacja jest (w górę / w dół) podczas dokonywania jakichkolwiek porównań.

— neerajt
źródło

2

Muszę uznać to za ekscentryczną, a wręcz szczerą, całkowicie perwersyjną technikę graficzną. Oko nie widzi nawet długości łuku, ale obszar do odkodowania jako taki, ale mózg musi interweniować i podkreślać, że tylko kąt obrotu ma charakter informacyjny. Ciężko jest nawet zobaczyć, które wartości są mniejsze, równe lub większe od siebie, co jest natychmiastowe w dowolnym akceptowalnym stylu wykresu.

— Nick Cox,

Jedyny plus, jaki widzę w tym projekcie, chyba że ocena dotyczy nietypowego projektu, to to, że identyfikatory od 1 do 14 są natychmiast w tym projekcie. Podniosłem ten punkt w edycji do mojej własnej odpowiedzi.

— Nick Cox,