Mam zestaw danych z 11 zmiennymi i PCA (ortogonalny) został zrobiony w celu zmniejszenia danych. Zdecydowanie o liczbie składników, które miałyby je zachować, było dla mnie oczywiste z mojej wiedzy na ten temat i wykresu piargowego (patrz poniżej), że dwa główne składniki (komputery osobiste) wystarczały do wyjaśnienia danych, a pozostałe elementy były tylko mniej pouczające.
Wykres Scree z równoległą analizą: zaobserwowane wartości własne (zielone) i symulowane wartości własne na podstawie 100 symulacji (czerwone). Wykres Scree sugeruje 3 komputery, podczas gdy test równoległy sugeruje tylko dwa pierwsze komputery.
Jak widać, tylko 48% wariancji może zostać uchwycone przez dwa pierwsze komputery.
Wykresy obserwacji na pierwszej płaszczyźnie wykonane przez pierwsze 2 komputery ujawniły trzy różne klastry przy użyciu hierarchicznego skupienia aglomeracyjnego (HAC) i skupienia K-średnich. Te 3 klastry okazały się bardzo istotne dla omawianego problemu i były również zgodne z innymi ustaleniami. Pomijając fakt, że zarejestrowano tylko 48% wariancji, wszystko inne było niesamowicie w porządku.
Jeden z moich dwóch recenzentów powiedział: nie można w dużym stopniu polegać na tych odkryciach, ponieważ można wyjaśnić tylko 48% wariancji i jest to mniej niż wymagane.
Pytanie
Czy istnieje jakakolwiek wymagana wartość tego, ile wariancji należy zarejestrować przez PCA, aby była ważna? Czy to nie zależy od wiedzy w dziedzinie i stosowanej metodologii? Czy ktoś może ocenić zasadność całej analizy na podstawie samej wartości wyjaśnionej wariancji?
Notatki
- Dane to 11 zmiennych genów mierzonych bardzo czułą metodologią w biologii molekularnej zwaną ilościową reakcją łańcuchową polimerazy w czasie rzeczywistym (RT-qPCR).
- Analizy wykonano przy użyciu R.
- Doceniane są odpowiedzi analityków danych oparte na ich osobistym doświadczeniu pracującym nad rzeczywistymi problemami w dziedzinie analizy mikromacierzy, chemometrii, analiz spektrometrycznych lub podobnych.
- Proszę rozważyć udzielenie jak największej liczby odpowiedzi.