Znalazłem tej implementacji Pythona w Breaks Jenks Natural algorytmu i mogłem zrobić to uruchomić na moim Windows 7 maszynie. Jest dość szybki i wykrywa przerwy w krótkim czasie, biorąc pod uwagę rozmiar moich geodanych. Przed użyciem tego algorytmu grupowania dla moich danych korzystałem sklearn.clustering.KMeans
(tutaj) z algorytmu. Problemem z KMeans było znalezienie optymalnego parametru wartości K, ale „rozwiązałem” to uruchomienie algorytmu dla różnych wartości K i użycie sklearn.metrics.silhouette_score
(tutaj) do znalezienia najlepszego K.
Moje pytanie brzmi: jeśli powiem algorytmowi Natural Breaks, aby znalazł 5 klas (to byłby K), jak mogę się upewnić, że jest to liczba klas, które najlepiej pasują do moich danych? Jak potwierdzić, że wybieram najlepszą liczbę przerw?
Dzięki!