Podziękowania dla tej odpowiedzi należą do @ttnphns, który wyjaśnił wszystko w powyższych komentarzach. Chciałbym jednak udzielić rozszerzonej odpowiedzi.
Na twoje pytanie: czy wyniki LDA dotyczące znormalizowanych i niestandardowych funkcji będą dokładnie takie same? --- odpowiedź brzmi: tak . Najpierw przedstawię nieformalny argument, a następnie przejdę do matematyki.
Wyobraź sobie zestaw danych 2D pokazany jako wykres rozproszenia po jednej stronie balonu (oryginalne zdjęcie z balonu tutaj ):
Tutaj czerwone kropki to jedna klasa, zielone kropki to inna klasa, a czarna linia to granica klasy LDA. Teraz przeskalowaniex lub yosie odpowiadają rozciąganiu balonu w poziomie lub w pionie. Intuicyjnie jasne jest, że chociaż nachylenie czarnej linii zmieni się po takim rozciągnięciu, klasy będą dokładnie tak samo rozdzielne jak poprzednio, a względne położenie czarnej linii nie ulegnie zmianie. Każda obserwacja testowa zostanie przypisana do tej samej klasy, co przed rozciąganiem. Można więc powiedzieć, że rozciąganie nie wpływa na wyniki LDA.
Teraz, matematycznie, LDA znajduje zestaw osi dyskryminujących, obliczając wektory własne W.- 1b, gdzie W. i bsą macierzami rozproszenia wewnątrz i między klasami. Równolegle są to uogólnione wektory własne uogólnionego problemu wartości własnychB v =λ W v.
Rozważ centralną macierz danych X ze zmiennymi w kolumnach i punktami danych w wierszach, dzięki czemu całkowita macierz rozproszenia jest podana przez T =X⊤X. Standaryzacja danych sprowadza się do skalowania każdej kolumnyX o określoną liczbę, tj. zastępując ją Xn e w= X Λ, gdzie Λjest macierzą diagonalną ze współczynnikami skalowania (odwrotności standardowych odchyleń każdej kolumny) na przekątnej. Po takim przeskalowaniu macierz rozproszenia zmieni się w następujący sposób:T.n e w= Λ T Λ, i ta sama transformacja nastąpi W.n e w i bn e w.
Pozwolić v być wektorem pierwotnego problemu, tj
B v =λ W v .
Jeśli pomnożymy to równanie przez
Λ po lewej stronie i włóż
ΛΛ- 1 po obu stronach wcześniej
v, otrzymujemy
Λ B ΛΛ- 1v =λΛ W ΛΛ- 1v ,
to znaczy
bn e wΛ- 1v =λW.n e wΛ- 1v ,
co oznacza że
Λ- 1v jest wektorem własnym po przeskalowaniu z dokładnie taką samą wartością własną
λ jak wcześniej.
Oś dyskryminacyjna (podana przez wektor własny) ulegnie zmianie, ale jej wartość własna, która pokazuje, ile klas są rozdzielone, pozostanie dokładnie taka sama. Co więcej, rzut na tę oś, pierwotnie podany przezX przeciwko, zostanie teraz podany przez X Λ(Λ- 1v )= X v, tzn. pozostanie dokładnie taki sam (może nawet do współczynnika skalowania).
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Nie, to stwierdzenie jest nieprawidłowe. Kwestia standaryzacji za pomocą LDA jest taka sama jak w każdej metodzie wielowymiarowej. Na przykład PCA. Odległość Mahalanobisa nie ma nic wspólnego z tym tematem.