Jest dobry przypadek posiadania dużej liczby pojemników, np. Pojemników na każdą możliwą wartość, ilekroć podejrzewa się, że szczegół histogramu nie byłby hałasem, ale interesującą lub ważną drobną strukturą.
Nie jest to bezpośrednio związane z dokładną motywacją tego pytania, ponieważ wymaga automatycznej reguły dla pewnej optymalnej liczby pojemników, ale ma to znaczenie dla całego pytania.
Przejdźmy od razu do przykładów. W demografii zaokrąglanie zgłaszanych grup wiekowych jest powszechne, szczególnie, ale nie tylko w krajach o ograniczonej wiedzy. To, co może się zdarzyć, to fakt, że wiele osób nie zna dokładnej daty urodzenia lub istnieją powody społeczne lub osobiste, by zaniżać lub przesadzać wiek. Historia wojskowości obfituje w przykłady ludzi opowiadających kłamstwa na temat swojego wieku, aby unikać lub szukać służby w siłach zbrojnych. Rzeczywiście wielu czytelników pozna kogoś, kto jest bardzo nieskory lub w inny sposób nie do końca zgodny ze swoim wiekiem, nawet jeśli nie kłamią w spisie ludności. Wynik netto jest różny, ale jak już sugeruje się, zwykle jest zaokrąglany, np. Wiek kończący się na 0 i 5 jest znacznie częstszy niż wiek mniejszy o rok lub dłużej.
Podobne zjawisko preferencji cyfr jest powszechne nawet w przypadku całkiem różnych problemów. W przypadku niektórych staromodnych metod pomiaru ostatnia cyfra zgłaszanego pomiaru musi być mierzona wzrokowo przez interpolację stopniowanych znaków. Był to długi standard w meteorologii z termometrami rtęciowymi. Stwierdzono, że zbiorowo niektóre zgłaszane cyfry są bardziej powszechne niż inne i że indywidualnie wielu z nas ma podpisy, co jest osobistym wzorem faworyzowania niektórych cyfr zamiast innych. Zwykle rozkład odniesienia jest tutaj jednolity, to znaczy, o ile zakres możliwych pomiarów jest wielokrotnie większy niż „jednostka” pomiaru, oczekuje się, że końcowe cyfry wystąpią z jednakową częstotliwością. Więc jeśli zgłoszone temperatury w cieniu mogą obejmować (powiedzmy) 50∘C dziesięć ostatnich cyfr, ułamki stopnia .0, .1, ⋯, .8, .9 powinny wystąpić z prawdopodobieństwem 0,1. Jakość tego przybliżenia powinna być dobra nawet dla bardziej ograniczonego zakresu.
Nawiasem mówiąc, patrzenie na ostatnie cyfry zgłaszanych danych to prosta i dobra metoda sprawdzania sfabrykowanych danych, która jest znacznie łatwiejsza do zrozumienia i mniej problematyczna niż obecnie modna kontrola pierwszych cyfr z odwołaniem do prawa Benforda.
Wynik histogramów powinien być teraz wyraźny. Prezentacja przypominająca kolec może służyć do pokazania, lub bardziej ogólnie, sprawdzenia tego rodzaju drobnej struktury. Oczywiście, jeśli nic interesującego nie jest dostrzegalne, wykres może być mało użyteczny.
Jeden przykład pokazuje wzrost wieku na podstawie spisu ludności z Ghany w 1960 r. Zobacz http://www.stata.com/manuals13/rspikeplot.pdf
Dokonano dobrego przeglądu dystrybucji cyfr końcowych w
Preece, DA 1981. Rozkład ostatnich cyfr w danych. The Statistician 30: 31-60.
Uwaga na temat terminologii: niektóre osoby piszą o unikalnych wartościach zmiennej, kiedy lepiej mówić o odrębnych wartościach zmiennej. Słowniki i przewodniki użytkowania nadal informują, że „unikatowy” oznacza występowanie tylko raz. Tak więc różne zgłaszane przedziały wiekowe populacji mogą wynosić 0, 1, 2 itd., Ale zdecydowana większość tych przedziałów wiekowych nie będzie wyjątkowa dla jednej osoby.