W ramach pracy na uniwersytecie muszę przeprowadzić wstępne przetwarzanie danych na dość dużym, wielowymiarowym (> 10) surowym zbiorze danych. Nie jestem statystykiem w żadnym znaczeniu tego słowa, więc jestem trochę zdezorientowany, co się dzieje. Z góry przepraszam za to, co jest prawdopodobnie śmiesznie prostym pytaniem - moja głowa wiruje po spojrzeniu na różne odpowiedzi i próbie przebrnięcia przez statystyki.
Przeczytałem to:
- PCA pozwala mi zmniejszyć wymiarowość moich danych
- Odbywa się to poprzez łączenie / usuwanie atrybutów / wymiarów, które są bardzo skorelowane (a zatem są trochę niepotrzebne)
- Czyni to, znajdując wektory własne w danych kowariancji (dzięki fajnemu samouczkowi, którego się nauczyłem)
Który jest świetny.
Jednak naprawdę trudno mi zobaczyć, jak mogę to zastosować praktycznie do moich danych. Na przykład ( nie jest to zestaw danych, którego będę używał, ale próba przyzwoitego przykładu, z którym ludzie mogą pracować), gdybym miał zestaw danych z czymś takim jak ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Nie jestem pewien, jak interpretowałbym jakiekolwiek wyniki.
Większość samouczków, które widziałem online, daje mi bardzo matematyczny obraz PCA. Przeprowadziłem kilka badań i podążałem za nimi - ale wciąż nie jestem do końca pewien, co to oznacza dla mnie, który po prostu próbuje wydobyć jakieś znaczenie z tego zbioru danych, które mam przed sobą.
Po prostu wykonanie PCA na moich danych (przy użyciu pakietu statystyk) wyrzuca macierz liczb NxN (gdzie N jest liczbą oryginalnych wymiarów), która jest dla mnie całkowicie grecka.
Jak mogę zrobić PCA i wziąć to, co otrzymam, w sposób, który mogę następnie wyrazić prostym językiem angielskim pod względem oryginalnych wymiarów?