Poniżej opisano, co próbuję osiągnąć, ale możliwe jest, że mój alternatywny opis problemu może opisać mój cel:
chcę
podziel następujące liczby na grupy, w których wariancje liczb w ramach każdej grupy nie są zbyt duże, a różnice między średnimi grup nie są zbyt małe
porównaj ostatecznie otrzymany rozkład z „idealnymi” i zobacz, jak „różni się” od bycia doskonałym.
Wyjaśnienie laika dotyczące celu
Próbuję obliczyć rozkład dochodów i określić „przedziały dochodów”, w których mieści się każda populacja. Ten przedział dochodów powinien sam się dostosowywać na podstawie danych wejściowych.
Moim celem jest ostatecznie zmierzenie lub obliczenie różnicy między przedziałami dochodów. Zakładam, że będzie wiele nawiasów i chcę zobaczyć, jak daleko „od siebie” są poszczególne poziomy.
Oto próbka godzinowego dochodu dla zestawu populacji liczącego 20 osób i łącznego dochodu 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Jak korzystać z pojęć matematycznych do grupowania, sortowania i analizowania danych, które działają jak podział dochodu w danej populacji?
Na koniec obliczeń chcę ustalić rozkład dochodów wielopoziomowych, w którym idealny rozkład wyglądałby (coś) w ten sposób
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
albo to:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Pytanie
Jak powinienem przeanalizować grupy populacji i zmierzyć lukę w sposób, który powie mi, ile potrzeba, aby upodobnić ją do dwóch ostatnich zestawów modeli wymienionych powyżej?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.