Zrozumienie tego wykresu sprzedaży lodów PCA w zależności od temperatury

9

Przyjmuję dane pozorne temperatury w stosunku do sprzedaży lodów i skategoryzowałem je za pomocą K oznacza (n klastrów = 2), aby rozróżnić 2 kategorie (całkowicie pozorne).

Teraz przeprowadzam analizę głównych składników tych danych, a moim celem jest zrozumienie tego, co widzę. Wiem, że celem PCA jest zmniejszenie wymiarów (oczywiście nie w tym przypadku) i wykazanie wariancji elementów. Ale jak czytasz poniższy wykres PCA, tj. Jaką historię możesz opowiedzieć o temperaturze w porównaniu z lodami na wykresie PCA? Co oznaczają komputery 1. (X) i 2. (Y)?

— adhg
źródło

1

To powinien być komentarz, ale nie mam wystarczającej liczby przedstawicieli. Poniższy link to doskonały samouczek na temat PCA. W szczególności przykład zabawki zachowuje równowagę między „wystarczająco prostym do zrozumienia jednym obrazem” a „wystarczająco skomplikowanym, aby można go było wykorzystać jako analogię w przyszłych problemach”. Myślę, że przeczytanie tego może pomóc wyjaśnić, co PCA może, a czego nie może zrobić dla ciebie. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

— Jason

18

Wiem, że celem PCA jest zmniejszenie wymiarów

Ludzie często tak sądzą, ale w rzeczywistości PCA to tylko reprezentacja danych w ujęciu ortogonalnym. Ta podstawa nadal ma takie same wymiary jak oryginalne dane. Nic nie jest stracone ... jeszcze. Część dotycząca zmniejszania wymiarów zależy wyłącznie od Ciebie. PCA zapewnia, że górne wymiarów nowej projekcji to najlepsze wymiarów, które mogą być reprezentowane przez dane. Co najlepiej znaczy? Właśnie tutaj pojawia się wyjaśniona wariancja. $k$ $k$

oczywiście nie w tym przypadku

Nie byłbym tego taki pewien! Z drugiego wykresu wygląda wizualnie, że wiele informacji z twoich danych można rzutować na poziomą linię. To 1 wymiar, zamiast oryginalnej fabuły, która była w 2 wymiarach! Oczywiście tracisz niektóre informacje, ponieważ usuwasz oś Y, ale to, czy utrata tych informacji jest dla Ciebie akceptowalna, zależy od ciebie.

Istnieje mnóstwo pytań związanych z tym, co PCA jest na stronie, więc zachęcam do sprawdzenia ich tutaj , tutaj , tutaj lub tutaj . Jeśli masz później inne pytania, prześlij je, a chętnie pomogę.

Jako twoje aktualne pytanie:

jaka jest historia, którą możesz opowiedzieć o temperaturze w porównaniu z lodami na wykresie PCA?

Ponieważ nowe osie współrzędnych są liniową kombinacją pierwotnych współrzędnych, to ... w zasadzie nic! PCA da ci odpowiedź w rodzaju (złożone liczby):

\begin{aligned} P C 1 & = 2.5 \times ice cream - 3.6 \times temperature \\ P C 2 & = - 1.5 \times ice cream + 0.6 \times temperature \end{aligned}

$\begin{split} \mathrm{PC1} &= 2.5\times \text{ice cream} - 3.6\times \text{temperature}\\ \mathrm{PC2} &= -1.5\times \text{ice cream} + 0.6\times \text{temperature} \end{split}$

Czy to ci się przydaje? Może. Ale nie sądzę :)

Edytowane

Dodam ten zasób, który moim zdaniem jest pomocny, ponieważ interaktywne wykresy są fajne.

Edytowane ponownie

Aby wyjaśnić, co oznacza najlepsze : $k$

PCA próbuje znaleźć wymiary, które dają największą wariancję, gdy dane są na nich rzutowane. Zakładając, że twoje dane mają wymiarów, pierwsze komputerów wyjaśnia większą wariancję danych niż jakikolwiek inny wymiarów. To, co mam na myśli najlepszą . To, czy jest to dla Ciebie przydatne, to inna sprawa. $n > k$ $k$ $k$ $k$

— ilanman
źródło

6

Pamiętaj także o skalowaniu zmiennych. W przeciwnym razie sprzedaż (znacznie wyższe liczby) wyjaśni większość wariancji. Prawdopodobnie dlaczego jednostki w twoim komputerze są tak różne.

— Filipe

Dobra odpowiedź, ale twoje stwierdzenie „... najlepsze wymiary kk, w których dane mogłyby być reprezentowane jako ...”, może być zbyt ogólne. Kierunek maksymalnej wariancji niekoniecznie jest użyteczny do rozdzielenia dwóch klas. Jakoś często to działa dobrze, ale nie dlatego, że PCA robi wszystko, aby dokonać najlepszego wyboru w określonym celu.

— Wayne,

„w rzeczywistości PCA to tylko reprezentacja danych w ujęciu ortogonalnym”. Ciągle jestem zaskoczony faktem, że wiele osób nie rozumie tego punktu ...

— 3x89g2

5

Do dobrej odpowiedzi człowieka Ilana dodam, że istnieje dość prosta interpretacja twoich głównych komponentów, chociaż w tym prostym przypadku 2D nie ma większego znaczenia dla tego, co moglibyśmy zinterpretować, patrząc tylko na wykres rozrzutu.

Pierwszy komputer PC to suma ważona (czyli kombinacja liniowa, w której oba współczynniki są dodatnie) temperatury i spożycia lodów. Po prawej stronie masz upalne dni, w których sprzedaje się dużo lodów, a po lewej stronie masz chłodniejsze dni, w których sprzedaje się mniej lodów. Ten komputer wyjaśnia większość twojej wariancji i grupy, które masz, pasują do tych dwóch stron.

Drugi komputer PC mierzy, w jaki sposób temperatura i zużycie lodów odsuwa się od ścisłej zależności liniowej podkreślonej przez pierwszy komputer. W górnej części wykresu mamy dni z większą ilością sprzedanych lodów w porównaniu z innymi dniami o tej samej temperaturze, aw dolnej części dni z mniejszą liczbą sprzedanych lodów w zależności od temperatury. Ten komputer wyjaśnia tylko małą część wariancji.

Oznacza to, że możemy opowiedzieć historię na podstawie głównych składników, chociaż przy użyciu tylko dwóch zmiennych jest to ta sama historia, którą moglibyśmy zauważyć bez PCA. Przy większej liczbie zmiennych PCA staje się bardziej użyteczny, ponieważ opowiada historie, które inaczej byłyby trudniejsze do zauważenia.

— Pere
źródło