A1. Co to jest redukcja wymiarów: jeśli myślisz o danych w macierzy, gdzie wiersze są instancjami, a kolumny atrybutami (lub elementami), to redukcja wymiarów odwzorowuje tę macierz danych na nową macierz z mniejszą liczbą kolumn. W przypadku wizualizacji, jeśli myślisz o każdej macierzy-kolumnie (atrybucie) jako wymiarze w przestrzeni elementów, wówczas zmniejszenie wymiarów jest rzutowaniem instancji z przestrzeni o wyższym wymiarze (więcej kolumn) na podprzestrzeń o niższych wymiarach (mniej kolumn).
Typowym celem tej transformacji jest (1) zachowanie informacji w matrycy danych, przy jednoczesnym zmniejszeniu złożoności obliczeniowej; (2) poprawa separowalności różnych klas danych.
A2 Redukcja wymiarów jako wybór funkcji lub ekstrakcja funkcji: użyję wszechobecnego zestawu danych Iris , który jest prawdopodobnie „cześć światem” nauki danych. W skrócie, zestaw danych Iris ma 3 klasy i 4 atrybuty (kolumny). Zilustruję wybór funkcji i ekstrakcję dla zadania polegającego na zmniejszeniu wymiarów zestawu danych Iris z 4 do 2.
Obliczam pary wariancji tego zestawu danych za pomocą biblioteki w języku Python o nazwie seaborn. Kod to: sns.pairplot (tęczówka, odcień = „gatunek”, markery = [„o”, „s”, „D”]). Otrzymuję rysunek,
że mogę wybrać parę atrybutów (2 wymiary), które zapewniają mi największy podział między 3 klasami (gatunkami) w zbiorze danych Iris. Byłby to przypadek wyboru funkcji.
Następny jest ekstrakcja funkcji. W tym miejscu rzutuję 4-wymiarową przestrzeń cech tęczówki na nową 2-wymiarową podprzestrzeń, która nie jest wyrównana względem osi z pierwotną przestrzenią. To są nowe atrybuty. Zazwyczaj są one oparte na rozkładzie w oryginalnej wysokiej przestrzeni wymiarowej. Najpopularniejszą metodą jest analiza głównych składników, która oblicza wektory własne w pierwotnej przestrzeni.
Oczywiście nie jesteśmy ograniczeni do używania jedynie liniowej i globalnej projekcji do podprzestrzeni opartej na wektorach własnych. Możemy również zastosować metody projekcji nieliniowej. Oto przykład nieliniowego PCA wykorzystującego sieci neuronowe
Wyodrębniono
atrybuty (wymiary) w ostatnim przykładziez oryginalnych 4 atrybutów za pomocą sieci neuronowych. Możesz eksperymentować z różnymi odmianami PCA dla zestawu danych tęczówki, korzystając z tego kodu metod pca .
Podsumowanie: Chociaż metody wyodrębniania funkcji mogą wydawać się lepsze pod względem wydajności niż wybór funkcji, wybór zależy od aplikacji. Atrybuty wyodrębniania funkcji zwykle tracą fizyczną interpretację, co może, ale nie musi, stanowić problemu w zależności od wykonywanego zadania. Na przykład, jeśli projektujesz bardzo drogie zadanie gromadzenia danych z kosztownymi czujnikami i musisz zaoszczędzić na atrybutach (liczbie różnych czujników), chciałbyś zebrać małą próbkę pilotażową przy użyciu wszystkich dostępnych czujników, a następnie wybrać te, które są najbardziej pouczające dla zadania gromadzenia dużych zbiorów danych.