Kiedy histogram jednolitego pojemnika jest lepszy niż niejednorodny?
Wymaga to pewnego rodzaju identyfikacji tego, co chcielibyśmy zoptymalizować; wiele osób próbuje zoptymalizować średni zintegrowany błąd średniokwadratowy, ale w wielu przypadkach myślę, że nieco pomija sens robienia histogramu; często (moim zdaniem) „wygładza”; w przypadku narzędzia eksploracyjnego, takiego jak histogram, mogę tolerować znacznie więcej szorstkości, ponieważ sama szorstkość daje mi poczucie zakresu, w jakim powinienem „wygładzić” wzrok; Mam tendencję do podwojenia zwykłej liczby pojemników z takich zasad, czasem o wiele więcej. Zgadzam się w tej sprawie z Andrew Gelmanem ; rzeczywiście, jeśli moim zainteresowaniem było uzyskanie dobrego AIMSE, prawdopodobnie nie powinienem brać pod uwagę histogramu.
Potrzebujemy więc kryterium.
Zacznę od omówienia niektórych opcji histogramów nierównych obszarów:
Istnieją pewne podejścia, które wykonują bardziej wygładzanie (mniej, szersze przedziały) w obszarach o niższej gęstości i mają węższe przedziały, w których gęstość jest wyższa - takie jak histogramy „równej powierzchni” lub „równej liczby”. Wydaje się, że Twoje edytowane pytanie uwzględnia możliwość równego liczenia.
histogram
Funkcja w R w lattice
opakowaniu może wyprodukować około bary równopowierzchniowa:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Ten spadek po prawej stronie lewego skrajnego pojemnika jest jeszcze wyraźniejszy, jeśli zaczniesz czwarte korzenie; z pojemnikami o równej szerokości nie możesz ich zobaczyć, chyba że użyjesz 15 do 20 razy więcej pojemników, a wtedy prawy ogon będzie wyglądał okropnie.
Jest tu histogram równej liczby , z kodem R, który wykorzystuje kwantyle próbki do znalezienia podziałów.
Na przykład na tych samych danych, co powyżej, oto 6 przedziałów z (miejmy nadzieję) 8 obserwacjami:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
To pytanie CV wskazuje na artykuł Denby'ego i Mallowsa, którego wersję można pobrać stąd, który opisuje kompromis między pojemnikami o równej szerokości i pojemnikami o równej powierzchni.
W pewnym stopniu odnosi się również do pytań, które miałeś.
Być może mógłbyś rozważyć ten problem jako identyfikację przerw w częściowo stałym procesie Poissona. Doprowadziłoby to do takiej pracy . Istnieje również powiązana możliwość spojrzenia na algorytmy typu klastrowania / klasyfikacji na (powiedzmy) zliczeniach Poissona, z których niektóre algorytmy dawałyby wiele przedziałów. Grupowanie zostało zastosowane na histogramach 2D ( w efekcie obrazów ) w celu zidentyfikowania regionów, które są względnie jednorodne.
-
Gdybyśmy mieli histogram równej liczby i jakieś kryterium optymalizacji, moglibyśmy wypróbować zakres zliczeń na bin i w jakiś sposób ocenić to kryterium. Wspomniany tutaj papier Wand [ papier lub dokument roboczy pdf ] i niektóre z jego odniesień (np. Do dokumentów Sheather i in.) Zarysowują szacunkową szerokość pojemnika „podłącz” w oparciu o pomysły wygładzania jądra w celu optymalizacji AIMSE; ogólnie rzecz biorąc, tego rodzaju podejście powinno być przystosowalne do tej sytuacji, chociaż nie przypominam sobie, żeby to było zrobione.