Posiadam zestaw danych dyskretnych (porządkowych, meristycznych i nominalnych) zmiennych opisujących morfologiczne charaktery skrzydeł na kilku blisko spokrewnionych gatunkach owadów. Chcę przeprowadzić jakąś analizę, która dałaby mi wizualną reprezentację podobieństwa różnych gatunków w oparciu o cechy morfologiczne. Pierwszą rzeczą, która wpadła mi do głowy, była PCA (jest to rodzaj wizualizacji, którą chcę stworzyć), ale po jej przeanalizowaniu (szczególnie inne pytania, takie jak: czy analizę głównych składowych można zastosować do zestawów danych zawierających ciągłe zestawienie i zmienne kategoryczne?), wydaje się, że PCA może być nieodpowiednia dla danych dyskretnych (PCA jest stosowana w tego rodzaju badaniach w literaturze, ale zawsze z ciągłymi danymi). Ignorując podłoże statystyczne, dlaczego te dane są nieodpowiednie, PCA daje mi stosunkowo doskonałe wyniki w odniesieniu do mojego pytania biologicznego (hybrydowe grupy interesów mieszczą się w samym środku ich grup ojcowskich).
Próbowałem też wielu analiz korespondencji, aby uspokoić statystyki (przynajmniej o ile rozumiem), ale nie wydaje mi się, aby uzyskać wykres analogiczny do tego, który uzyskałbym za pomocą PCA, w którym moje obserwacje (osoby biologiczne) są rozdzielone, powiedzmy kolorem, aby pokazać różne grupy (różne gatunki, mówiąc biologicznie). Wydaje się, że ta analiza ma na celu opisanie, w jaki sposób zmienne (tutaj, moje cechy morfologiczne) są ze sobą powiązane, a nie poszczególne obserwacje. A kiedy wykreślam obserwacje pokolorowane według grup, otrzymuję tylko jedną wartość (być może średnią) opisującą cały zestaw jednostek. Zrobiłem analizę w R, więc być może nie jestem też wystarczająco R-savy, aby mój pomysł na fabułę zadziałał.
Czy mam rację, próbując przeprowadzić tego rodzaju analizę z moimi danymi, czy też jestem na dobrej drodze? Jeśli nie możesz powiedzieć, moja wiedza statystyczna jest ograniczona, więc równania zachodzące pod tymi analizami są ponad moją głową. Próbuję przeprowadzić tę analizę w sposób całkowicie opisowy (nie muszę już robić dalszego podziału liczb) i przeczytałem, że w takim przypadku wystarczy PCA, ale chcę się upewnić, że nie jestem naruszając zbyt wiele założeń statystycznych.