Jakie są właściwe kroki dla wstępnego przetwarzania moich przebiegów w celu późniejszego wykonania niezależnej analizy składowej (ICA)? Rozumiem, że chociaż dalsze wyjaśnienie tego nie boli, ale bardziej interesuje mnie dlaczego.
Jakie są właściwe kroki dla wstępnego przetwarzania moich przebiegów w celu późniejszego wykonania niezależnej analizy składowej (ICA)? Rozumiem, że chociaż dalsze wyjaśnienie tego nie boli, ale bardziej interesuje mnie dlaczego.
Odpowiedzi:
Analiza niezależnych składników (ICA) służy do rozdzielenia liniowej mieszaniny statystycznie niezależnych i co najważniejsze nie Gaussowskich składników † na jej składniki. Standardowym modelem bezgłośnego ICA jest
gdzie jest wektorem obserwacji lub danych, s jest sygnałem źródłowym / składowymi oryginalnymi (niegaussowskimi), a A jest wektorem transformacji, który określa liniowe mieszanie sygnałów składowych. Zazwyczaj A i S są nieznane.
Istnieją dwie główne strategie wstępnego przetwarzania w ICA, a mianowicie centrowanie i wybielanie / kulkowanie. Głównymi przyczynami przetwarzania wstępnego są:
Od wprowadzenia G. Li i J. Zhanga, „Sphering i jego właściwości”, The Indian Journal of Statistics, t. 60, Seria A, część I, s. 119–133, 1998:
Wartości odstające, skupienia lub inne rodzaje grup, a także stężenia w pobliżu krzywych lub nie na powierzchniach to prawdopodobnie ważne cechy, które mogą zainteresować analityków danych. Zasadniczo nie można ich uzyskać poprzez zwykłą znajomość średniej próby i macierzy kowariancji. W tych okolicznościach pożądane jest oddzielenie informacji zawartych w macierzy średniej i kowariancji i zmusza nas do zbadania aspektów naszych zbiorów danych innych niż te dobrze rozumiane natury. Centrowanie i sferowanie to proste i intuicyjne podejście, które eliminuje informacje o średniej kowariancji i pomaga uwypuklić struktury wykraczające poza korelację liniową i kształty eliptyczne, dlatego często wykonuje się je przed eksploracją wyświetlania lub analiz zestawów danych
1. Centrowanie:
Centrowanie jest bardzo prostą operacją i po prostu odnosi się do odejmowania średniej . W praktyce używasz średniej próbki i tworzysz nowy wektor x c = x - ¯ x , gdzie ¯ x jest średnią danych. Geometrycznie, odjęcie średniej jest odpowiednikiem tłumaczenia centrum współrzędnych do pochodzenia. Średnia może zawsze zostać ponownie dodana do wyniku końca (jest to możliwe, ponieważ mnożenie macierzy jest rozdzielne).
2. Wybielanie:
Wybielanie to przekształcenie, który przetwarza dane w taki sposób, że ma macierz kowariancji tożsamości, to znaczy, . Zwykle pracujesz z przykładową macierzą kowariancji,
gdzie jest tylko moim leniwym symbolem zastępczym dla odpowiedniego współczynnika normalizacji (w zależności od wymiarów x ). Nowy bielony wektor jest tworzony jako
s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]
Jeśli po transformacji wartości własne są bliskie zeru, można je bezpiecznie odrzucić, ponieważ są one tylko szumem i utrudniają jedynie oszacowanie z powodu „przeuczenia”.
3. Inne przetwarzanie wstępne
Mogą istnieć inne etapy przetwarzania wstępnego związane z określonymi aplikacjami, których nie można udzielić w odpowiedzi. Na przykład widziałem kilka artykułów wykorzystujących dziennik szeregów czasowych i kilka innych, które filtrują szeregi czasowe. Mimo że może być odpowiedni do konkretnego zastosowania / warunków, wyniki nie są przenoszone na wszystkie pola.
† Uważam, że można użyć ICA, jeśli co najmniej jeden ze składników jest gaussowski, chociaż nie mogę teraz znaleźć odniesienia do tego.
{-1,1}
NormalDistribution[]
Pierwszy to gęstość stawu dla dwóch nieskorelowanych Gaussów, drugi w trakcie transformacji, a trzeci po wybieleniu. W praktyce widoczne są tylko kroki 2 i 3.