Po pierwsze, istnieją różne sposoby konstruowania tak zwanych dwupłatów w przypadku analizy korespondencji. We wszystkich przypadkach podstawową ideą jest znalezienie sposobu, aby pokazać najlepsze przybliżenie 2D „odległości” między komórkami wiersza i komórkami kolumny. Innymi słowy, szukamy hierarchii (mówimy również o „wyświęceniu”) relacji między wierszami i kolumnami tabeli awaryjnej.
χ2)
corresp()
MASS
Rtdo= NN.
i = 1 , … , Ij = 1 , … , Jfaj |ja= nI j/ ni ⋅fai | jot= nI j/ n⋅ jjafai ⋅jotfa⋅ jχ2)jai′
d2χ2(i,i′)=∑j=1Jnn⋅j(nijni⋅−ni′jni′⋅)2
χ2H0( i , j )ni⋅×n⋅j/n(i,j)
Jeśli zdajesz sobie sprawę z PCA w profilach rzędów (postrzeganych jako osoby), zastępując odległość euklidesową przezcos 2 i j χ 2χ2odległość, a następnie otrzymasz swój CA. Pierwsza główna oś jest linią najbliższą wszystkim punktom, a odpowiadającą jej wartością własną jest bezwładność wyjaśniona przez ten wymiar. Możesz zrobić to samo z profilami kolumn. Można wykazać, że istnieje symetria między tymi dwoma podejściami, a dokładniej, że główne elementy (PC) dla profili kolumnowych są powiązane z tymi samymi wartościami własnymi niż komputery PC dla profili rzędów. Biplot pokazuje współrzędne osobników w tym nowym układzie współrzędnych, chociaż osobniki są reprezentowane w osobnej przestrzeni czynnikowej. Pod warunkiem, że każda jednostka / modalność jest dobrze reprezentowana w przestrzeni silni (możesz spojrzeć nacos2modalności z pierwszą osią główną, która jest miarą korelacji / asocjacji), możesz nawet zinterpretować bliskość między elementami i tabeli kontyngencji (co można zrobić, patrząc na resztki twojego test niezależności, np .).ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed
Całkowita bezwładność twojego CA (= suma wartości własnych) jest statystyką podzieloną przez (która jest Pearsona ). n ϕ 2χ2nϕ2
Faktycznie, istnieje kilka pakietów, które mogą zapewnić Państwu urzędów ulepszonych w porównaniu do funkcji dostępnych w MASS
pakiecie: ade4 , FactoMineR , anacor i ok .
Najnowszą jest ten, który został użyty do danej ilustracji, a papier został opublikowany w Journal of oprogramowania statystycznego, który wyjaśnia większość swoich functionnalities: Korespondencja Analiza w R, z grafiką Dwu- i Trójwymiarowe: CA Package .
Twój przykład dotyczący kolorów oczu / włosów można odtworzyć na wiele sposobów:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
We wszystkich przypadkach to, co czytamy w wynikowym biplocie, jest w zasadzie (ograniczam moją interpretację do 1. osi, która tłumaczy większość bezwładności):
- pierwsza oś podkreśla wyraźny sprzeciw między jasnymi i ciemnymi kolorami włosów oraz między niebieskimi i brązowymi oczami;
- ludzie o blond włosach mają również niebieskie oczy, a ludzie o czarnych włosach mają brązowe oczy.
Istnieje wiele dodatkowych zasobów na temat analizy danych w laboratorium bioinformatyki z Lyonu we Francji. Jest to głównie po francusku, ale myślę, że nie będzie to dla ciebie zbyt dużym problemem. Następujące dwa materiały powinny być interesujące na początek:
k