Korzystam z szybkiej symulacji, aby porównać różne metody klastrowania, i obecnie mam problem z oceną rozwiązań klastrowych.
Znam różne miary sprawdzania poprawności (wiele z nich znajduje się w klaster.stats () w R), ale zakładam, że najlepiej je wykorzystać, jeśli szacunkowa liczba klastrów faktycznie równa się prawdziwej liczbie klastrów. Chcę zachować możliwość pomiaru, jak dobrze działa rozwiązanie klastrowania, gdy nie określa ono prawidłowej liczby klastrów w oryginalnej symulacji (tj. Jak dobrze dane modelu rozwiązania z trzema klastrami, które zostały zasymulowane, mają 4-klaster rozwiązanie). Tylko dla twojej informacji, klastry są symulowane, aby posiadać identyczne macierze kowariancji.
Myślałem, że rozbieżność KL między dwiema mieszaninami Gaussów byłaby użyteczna do wdrożenia, ale nie istnieje żadne rozwiązanie w formie zamkniętej ( Hershey i Olson (2007) ), a wdrożenie symulacji Monte Carlo zaczyna być kosztownie obliczeniowe.
Czy są jakieś inne rozwiązania, które mogą być łatwe do wdrożenia (nawet jeśli są tylko przybliżeniem)?