Podsumowanie dyrektora generalnego
Historia jest znacznie dłuższa i bardziej skomplikowana, niż wielu ludziom się wydaje.
Streszczenie wykonawcze
Historia tego, co Tukey nazywał wykresami pudełkowymi, jest splątana z historią, która jest obecnie często nazywana wykresami kropkowymi lub paskowymi (dziesiątki innych nazw) i reprezentacjami empirycznej funkcji kwantylu.
Wykresy pudełkowe w szeroko aktualnych formach najlepiej znane są z prac Johna Wildera Tukeya (1970, 1972, 1977).
Ale pomysł pokazania mediany i kwartyli jako podstawowych podsumowań - często, ale nie zawsze, z kropkami pokazującymi wszystkie wartości - wraca przynajmniej do diagramów dyspersji (wiele nazw wariantów) wprowadzonych przez geografa Percy'ego Roberta Crowe (1933). Były to podstawowe opłaty dla geografów i były używane w wielu podręcznikach, a także w artykułach naukowych z końca lat 30. XX wieku.
Bibby (1986, s. 56, 59) podał nawet wcześniejsze odniesienia do podobnych idei nauczanych przez Arthura Lyona Bowleya (później Sir Arthur) w swoich wykładach około 1897 r. I do jego rekomendacji (Bowley, 1910, s. 62; 1952, s. 73 ), aby wykorzystać minimum i maksimum oraz 10, 25, 50, 75 i 90% punktów jako podstawę do podsumowania graficznego.
Słupki zasięgu przedstawiające skrajności i kwartyle są często przypisywane Mary Eleanor Spear (1952), ale w moim czytaniu mniej osób cytuje Kennetha W. Haemera (1948). Artykuły Haemera na temat grafiki statystycznej w American Statistician około 1950 r. Były pomysłowe i mają krytyczne znaczenie i warto je ponownie przeczytać. (Wielu czytelników będzie mogło uzyskać do nich dostęp za pośrednictwem jstor.org.) W przeciwieństwie do tego książki Speara (Spear 1969 to rehash) były dostępne i rozsądne, ale celowo wprowadzające, a nie nowatorskie czy naukowe.
Warianty wykresów pudełkowych, w których wąsy rozciągają się na wybrane percentyle, są powszechniejsze, niż się wydaje wielu osobom. Znów równoważne wykresy były używane przez geografów od lat 30. XX wieku.
To, co jest najbardziej oryginalne w wersji wykresów pudełkowych Tukeya, to przede wszystkim kryteria identyfikacji punktów na ogonach, które mają zostać wydrukowane osobno i zidentyfikowane jako zasługujące na szczegółowe rozważenie - i równie często oznacza to, że zmienna powinna być analizowana w przekształconej skali. Jego praktyczna reguła 1,5 IQR pojawiła się dopiero po wielu eksperymentach. W niektórych rękach zmutowano twardą zasadę usuwania punktów danych, co nigdy nie było intencją Tukeya. Mocna, niezapomniana nazwa - fabuła pudełkowa - nie zaszkodziła w zapewnieniu znacznie szerszego wpływu tych pomysłów. Natomiast schemat dyspersji jest raczej nudnym i ponurym terminem.
Dość długa lista odniesień tutaj, być może wbrew pozorom, nie ma być wyczerpująca. Celem jest jedynie dostarczenie dokumentacji dla niektórych prekursorów i alternatyw dla fabuły pudełkowej. Konkretne odniesienia mogą być pomocne w przypadku szczegółowych zapytań lub jeśli są blisko twojego pola. Natomiast nauka o praktykach w innych dziedzinach może być pożyteczna. Graficzna - nie tylko kartograficzna - wiedza geografów była często niedoceniana.
Więcej szczegółów
Hybrydowe wykresy punktowe były używane przez Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse and Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond i McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young i in. (2006) oraz Hendry i Nielsen (2007) i wielu innych. Zobacz także Miller (1953, 1964).
Przyciąganie wąsów do konkretnych percentyli, a nie do punktów danych w tak wielu IQR kwartyli, zostało podkreślone przez Clevelanda (1985), ale przewidywane przez Matthewsa (1936) i Grove (1956), którzy wykreślili zakres interoktyli, czyli między pierwszym a siódme oktyle, a także zakres i przedział międzykwartylowy. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) i Davino i in. (2014) pokazał średnie, a także minimum, kwartyle, medianę i maksimum. Schmid (1954) pokazał wykresy podsumowujące z medianą, kwartylami oraz 5 i 95% punktów. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) i Motulsky (2010, 2014, 2018) wykreślili wąsy do 5 i 95% punktów. Morgan i Henrion (1990, s. 221, 241), Spence (2001, s. 36) oraz Gotelli i Ellison (2004, 2013, s. 72, 110, 213, 416) wykreślono wąsy do 10% i 90% punktów. Harris (1999) pokazał przykłady 5 i 95% oraz 10 i 90% punktów. Altman (1991, s. 34, 63) i Greenacre (2016) wykreślili wąsy do 2,5% i 97,5% punktów. Reimann i in. (2008, s. 46–47) wykreślili wąsy do 5% i 95% oraz 2% i 98% punktów.
Parzen (1979a, 1979b, 1982) hybrydyzował wykresy pudełkowe i kwantylowe jako wykresy kwantowe. Zobacz także (np.) Shera (1991), Militký and Meloun (1993), Meloun and Militký (1994). Zauważ jednak, że kwantylowy wykres pudełkowy Keena (2010) to po prostu wykres pudełkowy z wąsami sięgającymi skrajności. Natomiast kwantowe wykresy pudełkowe JMP są ewidentnie wykresami pudełkowymi ze znacznikami przy 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: patrz Sall i in. (2014, s. 143–4).
Oto kilka uwag na temat wariantów wykresów kwantowych.
(A) Wykres centylowo-percentylowy Esty i Banfielda (2003) drukuje tę samą informację inaczej, wykreślając dane jako linie ciągłe i tworząc symetryczny wyświetlacz, w którym oś pionowa pokazuje kwantyle, a oś pozioma nie pokazuje położenia , ale oba min ( ) i jego odbicie lustrzane min ( ). Drobne szczegóły: na ich papierze pozycje kreślenia są źle opisane jako „percentyle”. Zobacz także Martinez i in. (2011, 2017), co utrwala to zamieszanie.pp , 1 - p-p , 1 - p
Pomysł wykreślenia min ( ) (lub jego ekwiwalentu procentowego) pojawia się niezależnie w (B) „działkach górskich” (Krouwer 1992; Monti 1995; Krouwer i Monti 1995; Goldstein 1996) oraz w (C) działkach „odwrócona funkcja rozkładu empirycznego” (Huh 1995). Zobacz także Xue i Titterington (2011), aby uzyskać szczegółową analizę składania funkcji rozkładu w dowolnym kwantylu. p , 1 - p
Z literatury widzianej przeze mnie wydaje się, że żaden z tych wątków - wykresy kwantowe lub późniejsze warianty (A) (B) (C) - nie cytują się nawzajem.
!!! na dzień 3 października 2018 r. szczegóły dotyczące niektórych odniesień należy podać w następnej edycji.
Altman, DG 1991.
Statystyka praktyczna w badaniach medycznych.
Londyn: Chapman and Hall.
Bentley, JL 1985. Programowanie pereł: wybór.
Komunikacja ACM 28: 1121-1127.
Bentley, JL 1988.
Więcej pereł programistycznych: Wyznania kodera.
Reading, MA: Addison-Wesley.
Bibby, J. 1986.
Uwagi w kierunku historii statystyki nauczania.
Edynburg: John Bibby (Książki).
Bowley, AL 1910.
Podstawowy podręcznik statystyki.
Londyn: Macdonald and Evans. (siódma edycja 1952)
Cleveland, WS 1985. Elementy danych graficznych.
Monterey, Kalifornia: Wadsworth.
Crowe, PR 1933. Analiza prawdopodobieństwa opadów: Metoda graficzna i jej zastosowanie do danych europejskich.
Scottish Geographical Magazine 49: 73-91.
Crowe, PR 1936. System opadów na równinach zachodnich.
Przegląd geograficzny 26: 463–484.
Davis, JC 2002.
Statystyka i analiza danych w geologii.
Nowy Jork: John Wiley.
Dickinson, GC 1963.
Mapowanie statystyczne i prezentacja statystyki.
Londyn: Edward Arnold. (drugie wydanie 1973)
Dury, GH 1963.
East Midlands and the Peak.
Londyn: Thomas Nelson.
Farmer, BH 1956. Opady deszczu i zaopatrzenie w wodę w suchej strefie Cejlonu. W Steel, RW i CA Fisher (red.)
Geographic Essays on British Tropical Lands.
Londyn: George Philip, 227-268.
Gregory, S. 1963. Metody statystyczne i geograf.
Londyn: Longmans. (późniejsze wydania 1968, 1973, 1978; wydawca później Longman)
Grove, AT 1956. Erozja gleby w Nigerii. W Steel, RW i CA Fisher (red.)
Geographic Essays on British Tropical Lands.
Londyn: George Philip, 79-111.
Haemer, KW 1948. Wykresy zasięgu.
American Statistician 2 (2): 23.
Hendry, DF i B. Nielsen. 2007.
Modelowanie ekonometryczne: podejście oparte na prawdopodobieństwie.
Princeton, NJ: Princeton University Press.
Hogg, WH 1948. Diagramy dyspersji opadów: omówienie ich zalet i wad.
Geografia 33: 31-37.
Ibrekk, H. i MG Morgan. 1987. Graficzna komunikacja niepewnych ilości dla osób nietechnicznych.
Analiza ryzyka 7: 519–529.
Johnson, BLC 1975.
Bangladesz. Londyn: Heinemann Educational.
Keen, KJ 2010.
Grafika do statystyki i analizy danych z R.
Boca Raton, Floryda: CRC Press. (2. edycja 2018)
Lewis, CR 1975. Analiza zmian w statusie miejskim: studium przypadku w środkowej Walii i na środkowym pograniczu walijskim.
Transakcje Institute of British Geographers
64: 49-65.
Martinez, WL, AR Martinez i JL Solka. 2011.
Analiza danych eksploracyjnych za pomocą MATLAB.
Boca Raton, Floryda: CRC Press.
Matthews, HA 1936. Nowe spojrzenie na niektóre znane indyjskie opady deszczu.
Scottish Geographical Magazine 52: 84-97.
Matthews, JA 1981.
Podejścia ilościowe i statystyczne do geografii: Podręcznik praktyczny.
Oxford: Pergamon.
Meloun, M. i J. Militký. 1994. Wspomagane komputerowo przetwarzanie danych w chemometrii analitycznej. I. Analiza eksploracyjna danych jednowymiarowych.
Chemical Papers 48: 151-157.
Militký, J. i M. Meloun. 1993. Niektóre pomoce graficzne do jednoznacznej analizy danych eksploracyjnych.
Analytica Chimica Acta 277: 215-221.
Miller, AA 1953.
The Skin of the Earth.
Londyn: Methuen. (2. wydanie 1964)
Monkhouse, FJ i HR Wilkinson. 1952.
Mapy i diagramy: ich kompilacja i konstrukcja.
Londyn: Methuen. (późniejsze wydania 1963, 1971)
Morgan, MG i M. Henrion. 1990.
Niepewność: przewodnik po radzeniu sobie z niepewnością w analizie ryzyka ilościowego i polityki.
Cambridge: Cambridge University Press.
Myatt, GJ 2007.
Sense of Data: Praktyczny przewodnik po eksploracyjnej analizie danych i eksploracji danych.
Hoboken, NJ: John Wiley.
Myatt, GJ i Johnson, WP 2009.
Sense of Data II: Praktyczny przewodnik po wizualizacji danych, zaawansowanych metodach eksploracji danych i aplikacjach.
Hoboken, NJ: John Wiley.
Myatt, GJ i Johnson, WP 2011.
Sense of Data III: Praktyczny przewodnik po projektowaniu interaktywnych wizualizacji danych.
Hoboken, NJ: John Wiley.
Ottaway, B. 1973. Diagramy dyspersji: nowe podejście do wyświetlania dat węgla-14.
Archeometria 15: 5-12.
Parzen, E. 1979a. Modelowanie danych nieparametrycznych.
Journal, American Statistics Association 74: 105-121.
Parzen, E. 1979b. Perspektywa funkcji kwantylu gęstości na solidne oszacowanie. W Launer, RL i GN Wilkinson (red.) Solidność w statystyce.
New York: Academic Press, 237-258.
Parzen, E. 1982. Modelowanie danych z wykorzystaniem funkcji kwantylu i kwantyli gęstości. W Tiago de Oliveira, J. i Epstein, B. (red.)
Kilka ostatnich postępów w statystyce. Londyn: Academic Press, 23–52.
Quinn, GP i MJ Keough. 2002.
Projekt eksperymentalny i analiza danych dla biologów.
Cambridge: Cambridge University Press.
Reimann, C., P. Filzmoser, RG Garrett i R. Dutter. 2008.
Wyjaśnienie analizy danych statystycznych: Zastosowane statystyki środowiskowe z R.
Chichester: John Wiley.
Sall, J., A. Lehman, M. Stephens i L. Creighton. 2014.
JMP Start Statistics: Przewodnik po statystykach i analizie danych za pomocą JMP.
Cary, Karolina Północna: SAS Institute.
Shera, DM 1991. Niektóre zastosowania wykresów kwantowych w celu poprawy prezentacji danych.
Informatyka i statystyki 23: 50–53.
Spear, ME 1952. Statystyka wykresów.
Nowy Jork: McGraw-Hill.
Spear, ME 1969. Practical Charting Techniques.
Nowy Jork: McGraw-Hill.
Tukey, JW 1970.
Analiza danych eksploracyjnych. Limitowana edycja wstępna. Tom I.
Reading, MA: Addison-Wesley.
Tukey, JW 1972. Niektóre wyświetlacze graficzne i półgraficzne. W Bancroft, TA i Brown, SA (red.)
Dokumenty statystyczne na cześć George'a W. Snedecora.
Ames, IA: Iowa State University Press, 293-316. (dostępny również na stronie http://www.edwardtufte.com/tufte/tukey )
Tukey, JW 1977.
Analiza danych eksploracyjnych.
Reading, MA: Addison-Wesley.
Wild, CJ i GAF Seber. 2000.
Spotkania losowe: pierwszy kurs analizy danych i wnioskowania.
Nowy Jork: John Wiley.