Mam ponad 1000 próbek danych z 19 zmiennymi. Moim celem jest przewidzenie zmiennej binarnej na podstawie pozostałych 18 zmiennych (binarnych i ciągłych). Jestem całkiem pewien, że 6 zmiennych predykcyjnych jest powiązanych z odpowiedzią binarną, chciałbym jednak dalej analizować zestaw danych i szukać innych powiązań lub struktur, których mógłbym brakować. Aby to zrobić, zdecydowałem się na użycie PCA i klastrowania.
Podczas uruchamiania PCA na znormalizowanych danych okazuje się, że należy zachować 11 składników, aby zachować 85% wariancji. Wykreślając wykresy par otrzymuję to:
Nie jestem pewien, co będzie dalej ... Nie widzę żadnego znaczącego wzorca w pca i zastanawiam się, co to oznacza i czy mogło to być spowodowane faktem, że niektóre zmienne są binarne. Po uruchomieniu algorytmu klastrowania z 6 klastrami otrzymuję następujący wynik, który nie jest dokładnie poprawą, chociaż niektóre obiekty BLOB wydają się wyróżniać (żółte).
Jak zapewne możesz powiedzieć, nie jestem ekspertem od PCA, ale widziałem kilka samouczków i jak to może być potężne, aby zobaczyć struktury w przestrzeni wielowymiarowej. Dzięki słynnemu zestawowi danych MNIST (lub IRIS) działa świetnie. Moje pytanie brzmi: co powinienem teraz zrobić, aby uzyskać więcej sensu z PCA? Klastrowanie nie wydaje się zbierać niczego pożytecznego. Jak mogę stwierdzić, że nie ma wzorca w PCA lub co mam teraz spróbować znaleźć wzorce w danych PCA?