Pytanie 1
Ekolodzy cały czas mówią o gradientach. Istnieje wiele rodzajów gradientów, ale najlepiej jest myśleć o nich jako o jakiejkolwiek kombinacji zmiennych, które chcesz lub są ważne dla odpowiedzi. Tak więc gradientem może być czas, przestrzeń lub kwasowość gleby, składniki odżywcze lub coś bardziej złożonego, takiego jak liniowa kombinacja zakresu zmiennych wymaganych w jakiś sposób przez reakcję.
Mówimy o gradientach, ponieważ obserwujemy gatunki w przestrzeni lub czasie, a cała masa rzeczy różni się w zależności od tej przestrzeni lub czasu.
Q2
Doszedłem do wniosku, że w wielu przypadkach podkowa w PCA nie stanowi poważnego problemu, jeśli rozumiesz, jak powstaje i nie robisz głupich rzeczy, takich jak wzięcie PC1, gdy „gradient” jest faktycznie reprezentowany przez PC1 i PC2 (no cóż, jest również podzielony na wyższe komputery, ale mam nadzieję, że dwuwymiarowa reprezentacja jest OK).
W CA myślę, że myślę tak samo (teraz musiałem się nad tym trochę zastanowić). Rozwiązanie może tworzyć łuk, gdy w danych nie ma silnego drugiego wymiaru, tak że wersja złożona pierwszej osi, która spełnia wymagania ortogonalności osi CA, wyjaśnia więcej „bezwładności” niż inny kierunek danych. Może to być poważniejsze, ponieważ jest to złożona struktura, w której za pomocą PCA łuk jest tylko sposobem na przedstawienie liczebności gatunków w miejscach wzdłuż jednego dominującego gradientu.
Nigdy do końca nie rozumiałem, dlaczego ludzie tak bardzo martwią się złym zamówieniem na PC1 z silną podkową. Odparłbym, że w takich przypadkach nie powinieneś brać tylko PC1, a wtedy problem znika; pary współrzędnych na PC1 i PC2 pozbywają się zwrotów na dowolnej z tych dwóch osi.
Pytanie 3
Gdybym widział podkowę w biplocie PCA, zinterpretowałbym dane jako mające jeden dominujący gradient lub kierunek zmiany.
Gdybym zobaczył łuk, prawdopodobnie doszłbym do tego samego, ale byłbym bardzo ostrożny, próbując w ogóle wyjaśnić oś 2 CA.
Nie zastosowałbym DCA - po prostu przekręca łuk (w najlepszych okolicznościach) tak, że nie widzisz osobliwości na wykresach 2D, ale w wielu przypadkach wytwarza inne fałszywe struktury, takie jak diamenty lub kształty trąbki rozmieszczenie próbek w przestrzeni DCA. Na przykład:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
Po lewej stronie wykresu widzimy typowe rozkładanie przykładowych punktów.
Pytanie 4
m
Sugerowałoby to znalezienie nieliniowego kierunku w wielowymiarowej przestrzeni danych. Jedną z takich metod jest krzywa główna Hastie & Stuezel, ale dostępne są inne nieliniowe metody rozmaitości, które mogą wystarczyć.
Na przykład dla niektórych danych patologicznych
Widzimy silną podkowę. Krzywa główna próbuje odzyskać ten leżący u podstaw gradient lub układ / uporządkowanie próbek za pomocą gładkiej krzywej w m wymiarach danych. Poniższy rysunek pokazuje, w jaki sposób algorytm iteracyjny jest zbieżny na czymś zbliżonym do gradientu. (Myślę, że odchodzi on od danych na górze wykresu, aby być bliżej danych w wyższych wymiarach, a częściowo ze względu na kryterium zgodności wewnętrznej, aby krzywa została uznana za krzywą główną).
Mam więcej szczegółów, w tym kod na swoim blogu, z którego wziąłem te zdjęcia. Ale najważniejsze jest to, że główne krzywe łatwo odzyskują znane uporządkowanie próbek, podczas gdy same PC1 lub PC2 tego nie robią.
W przypadku PCA powszechnie stosuje się transformacje w ekologii. Popularnymi transformacjami są te, o których można pomyśleć o zwróceniu pewnej odległości innej niż euklidesowa, gdy odległość euklidesowa jest obliczana na przekształconych danych. Na przykład odległość Hellingera wynosi
DHellinger(x1,x2)=∑j=1p[y1jy1+−−−−√−y2jy2+−−−−√]2−−−−−−−−−−−−−−−−−−⎷
yijjiyi+i
Podkowa jest znana i badana od dawna w ekologii; część wczesnej literatury (plus bardziej nowoczesny wygląd) to
Główne odniesienia do krzywej głównej to
Ta pierwsza jest bardzo ekologiczną prezentacją.