Drzewo dwumianowe ma dwie gałęzie, z których każda ma prawdopodobnie 0,5. W rzeczywistości p = 0,5, a q = 1-0,5 = 0,5. Generuje to rozkład normalny z równomiernie rozłożoną masą prawdopodobieństwa.
W rzeczywistości musimy założyć, że każda warstwa w drzewie jest kompletna. Kiedy dzielimy dane na pojemniki, otrzymujemy rzeczywistą liczbę z podziału, ale zaokrąglamy w górę. Cóż, ten poziom jest niekompletny, więc nie otrzymujemy histogramu zbliżającego się do normy.
Zmień prawdopodobieństwo rozgałęzienia na p = 0,9999 i q = 0,0001, a to sprawi, że wypaczimy normalne. Przesunięta masa prawdopodobieństwa. To wyjaśnia skośność.
Niepełne poziomy lub kosze mniejsze niż 2 ^ n generują drzewa dwumianowe o obszarach, które nie mają masy prawdopodobieństwa. To daje nam kurtozę.
Odpowiedź na komentarz:
Kiedy mówiłem o określeniu liczby przedziałów, zaokrąglij w górę do następnej liczby całkowitej.
Maszyny Quincunx upuszczają piłki, które ostatecznie przybliżają normalny rozkład przez dwumian. Taka maszyna przyjmuje kilka założeń: 1) liczba przedziałów jest skończona, 2) podstawowe drzewo jest binarne, i 3) prawdopodobieństwa są ustalone. Maszyna Quincunx w Museum of Mathematics w Nowym Jorku pozwala użytkownikowi dynamicznie zmieniać prawdopodobieństwa. Prawdopodobieństwa mogą ulec zmianie w dowolnym momencie, nawet przed ukończeniem bieżącej warstwy. Stąd pomysł, że pojemniki nie są wypełnione.
W przeciwieństwie do tego, co powiedziałem w mojej oryginalnej odpowiedzi, gdy masz pustkę na drzewie, rozkład pokazuje kurtozę.
Patrzę na to z perspektywy systemów generatywnych. Używam trójkąta do podsumowywania drzew decyzyjnych. Gdy podejmowana jest nowatorska decyzja, dodaje się więcej pojemników u podstawy trójkąta i pod względem rozkładu w ogonach. Przycinanie poddrzewa z drzewa pozostawiłoby puste przestrzenie w masie prawdopodobieństwa rozkładu.
Odpowiedziałem tylko, aby dać ci intuicyjny sens. Etykiety? Korzystałem z programu Excel i grałem z prawdopodobieństwami w dwumianach i wygenerowałem oczekiwane skośności. Nie zrobiłem tego z kurtozą, nie pomaga to, że jesteśmy zmuszeni myśleć o masie prawdopodobieństwa jako statycznej podczas używania języka sugerującego ruch. Podstawowe dane lub kulki powodują kurtozę. Następnie analizujemy to na różne sposoby i przypisujemy do kształtowania opisowych terminów, takich jak środek, ramię i ogon. Jedyne, z czym musimy pracować, to pojemniki. Pojemniki żyją dynamicznym życiem, nawet jeśli dane nie mogą.