Jeśli chcemy wyraźnie zobaczyć rozkład danych ciągłych, który z histogramu i pdf powinien zostać użyty?
Jakie są różnice między histogramem a pdf, a nie pod względem formuły?
Jeśli chcemy wyraźnie zobaczyć rozkład danych ciągłych, który z histogramu i pdf powinien zostać użyty?
Jakie są różnice między histogramem a pdf, a nie pod względem formuły?
Odpowiedzi:
Aby wyjaśnić punkt Dirksa:
Powiedz, że twoje dane są próbką normalnego rozkładu. Możesz skonstruować następujący wykres:
Czerwona linia jest oszacowaniem gęstości empirycznej, niebieska linia to teoretyczne pdf podstawowego rozkładu normalnego. Zauważ, że histogram jest tutaj wyrażony w gęstościach, a nie w częstotliwościach. Odbywa się to w celach kreślenia, na ogół częstotliwości są używane w histogramach.
Aby odpowiedzieć na twoje pytanie: używasz rozkładu empirycznego (tj. Histogramu), jeśli chcesz opisać swoją próbkę, i pdf, jeśli chcesz opisać hipotetyczny rozkład leżący u podstaw.
Wykres jest generowany przez następujący kod w R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Histogram to szacunkowa gęstość wieku sprzed komputera. Szacowanie gęstości jest alternatywą.
Obecnie używamy obu tych elementów i istnieje bogata literatura na temat tego, które wartości domyślne należy zastosować.
Z drugiej strony pdf jest wyrażeniem o zamkniętej formie dla danej dystrybucji. Różni się to od opisu zestawu danych z szacunkową gęstością lub histogramem.
Nie ma tutaj twardej i szybkiej zasady. Jeśli znasz gęstość swojej populacji, to PDF jest lepszy. Z drugiej strony często mamy do czynienia z próbkami, a histogram może przekazywać pewne informacje, które pokrywa szacunkowa gęstość. Na przykład Andrew Gelman mówi o tym:
Kluczową zaletą histogramu jest to, że jako wykres surowych danych zawiera on ziarna własnej oceny błędów. Innymi słowy, postrzępienie lekko niedopasowanego histogramu jest użyteczną usługą poprzez wizualne wskazanie zmienności próbkowania. Dlatego, jeśli spojrzysz na histogramy w moich książkach i opublikowanych artykułach, prawie zawsze używam wielu pojemników. Niemal nigdy też nie lubię szacunków gęstości jądra, których ludzie czasami używają do wyświetlania jednowymiarowych rozkładów. Wolę zobaczyć histogram i wiedzieć, gdzie są dane.
Histogram częstotliwości względnej ( dyskretny )
Histogram gęstości ( dyskretny )
Funkcja gęstości prawdopodobieństwa PDF ( ciągły )
Te odniesienia były pomocne :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution z powyższej strony
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html