Zrozumienie parametrów funkcji podstawy Gaussa do zastosowania w regresji liniowej

12

Chciałbym zastosować funkcję bazową Gaussa do implementacji regresji liniowej. Niestety trudno mi zrozumieć kilka parametrów funkcji podstawowej. W szczególności i . $\mu$ $\sigma$

Mój zestaw danych to macierz 10 000 x 31. 10 000 próbek i 31 funkcji. Przeczytałem, że „Każda funkcja podstawowa przekształca wektor wejściowy x w wartość skalarną”. Zakładam więc, że x to 1 próbka, a więc wektor 1 x 31. Stąd jestem zdezorientowany. Czym dokładnie jest parametr ? Czytałem, że to rządzi lokalizacjami podstawowych funkcji. Czy to nie oznacza czegoś? Wyrzucają mnie także indeks dolny j ( i ), co sprawia, że myślę o j-tym wierszu. Ale to nie wydaje się mieć sensu. Czy jest wektorem? Teraz $\mu_j$ $\mu$ $\phi$ $\mu_j$ $\sigma$ „rządzi skalą przestrzenną”. Co to dokładnie jest? Widziałem niektóre implementacje, które próbują dla tego parametru wartości .1, .5, 2.5. Jak obliczane są te wartości? Robiłem badania i szukałem przykładów do nauki, ale jak dotąd nie byłem w stanie ich znaleźć. Każda pomoc lub kierunek są mile widziane! Dziękuję Ci.

regression machine-learning basis-function

— użytkownik2743
źródło

11

Ponieważ jesteś zdezorientowany, pozwól mi zacząć od przedstawienia problemu i zadawania pytań jeden po drugim. Masz próbkę o wielkości 10.000 i każda próbka jest opisana przez wektor cech . Jeśli chcesz przeprowadzić regresję za pomocą radialnych funkcji bazowych Gaussa, to szukasz funkcji w postaci gdzie są podstawowymi funkcjami. W szczególności musisz znaleźć wagi , aby dla danych parametrów i zminimalizować błąd między a odpowiednią prognozą = $x\in\mathbb{R}^{31}$

f (x) = \sum_{j} w_{j} * g_{j} (x; μ_{j}, σ_{j}), j = 1.. m

$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$

g_{i}

$g_i$

m

$m$

w_{j}

$w_j$

μ_{j}

$\mu_j$

σ_{j}

$\sigma_j$

y

$y$

\hat{y}

$\hat{y}$

f (\hat{x})

$f(\hat{x})$ - zazwyczaj zminimalizujesz błąd najmniejszych kwadratów.

Czym dokładnie jest parametr J indeksu dolnego Mu?

Musisz znaleźć podstawowe funkcje . (Trzeba jeszcze ustalić liczbę ) Każda funkcja podstawą będzie miał i (także nieznane). dolny wynosi od do . $m$ $g_j$ $m$ $\mu_j$ $\sigma_j$ $j$ $1$ $m$

Czy jest wektorem? $\mu_j$

Tak, jest to punkt . Innymi słowy, jest to punkt gdzieś w przestrzeni cech i A musi być określony dla każdego z funkcji bazowych. $\mathbb{R}^{31}$ $\mu$ $m$

Czytałem, że to rządzi lokalizacjami podstawowych funkcji. Czy to nie oznacza czegoś?

Podstawowa funkcja jest wyśrodkowana na . Musisz zdecydować, gdzie są te lokalizacje. Więc nie, niekoniecznie jest to środek czegokolwiek (ale poniżej znajdziesz sposoby na określenie tego) $j^{th}$ $\mu_j$

Teraz sigma, która „rządzi skalą przestrzenną”. Co to dokładnie jest?

$\sigma$ jest łatwiejsza do zrozumienia, jeśli przejdziemy do samych podstawowych funkcji.

Pomaga myśleć o radialnych funkcjach podstawy Gaussa w niższych dimensonach, np. Mathbb lub . W Gaussowską radialną funkcją bazową jest po prostu dobrze znana krzywa dzwonowa. Dzwon może oczywiście być wąski lub szeroki. Szerokość jest określana przez - im większa tym węższy kształt dzwonu. Innymi słowy, skaluje szerokość kształtu dzwonu. Więc dla = 1 nie mamy skalowania. W przypadku dużego mamy znaczne skalowanie. $\mathbb{R}^{1}$ $\mathbb{R}^{2}$ $\mathbb{R}^{1}$ $\sigma$ $\sigma$ $\sigma$ $\sigma$ $\sigma$

Możesz zapytać, jaki jest tego cel. Jeśli pomyślisz o dzwonku pokrywającym pewną część przestrzeni (linia w ) - wąski dzwonek zakrywa tylko niewielką część linii *. Punkty pobliżu środka dzwonu będą miały większą wartość . Punkty daleko od centrum będą miały mniejszą wartość . Skalowanie powoduje przesuwanie punktów dalej od środka - gdy dzwonek zwęża się, punkty będą znajdować się dalej od środka - zmniejszając wartość $\mathbb{R}^{1}$ $x$ $g_j(x)$ $g_j(x)$ $g_j(x)$

Każda funkcja podstawowa przekształca wektor wejściowy x w wartość skalarną

Tak, oceniasz funkcje podstawowe w pewnym momencie . $\mathbf{x}\in\mathbb{R}^{31}$

\exp (- \frac{‖ x - μ_{j} ‖_{2}^{2}}{2 * σ_{j}^{2}})

$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$

W rezultacie otrzymujesz skalar. Wynik skalarny zależy od odległości punktu od centrum podanej przezi skalar . $\mathbf{x}$ $\mu_j$ $\|\mathbf{x}-\mu_j\|$ $\sigma_j$

Widziałem niektóre implementacje, które próbują dla tego parametru wartości .1, .5, 2.5. Jak obliczane są te wartości?

Jest to oczywiście jeden z interesujących i trudnych aspektów stosowania radialnych funkcji bazowych Gaussa. podczas przeszukiwania sieci znajdziesz wiele sugestii dotyczących sposobu określania tych parametrów. W bardzo prosty sposób przedstawię jedną możliwość opartą na grupowaniu. Możesz znaleźć tę i kilka innych sugestii online.

Zacznij od grupowania 10000 próbek (możesz najpierw użyć PCA do zmniejszenia wymiarów, a następnie grupowania k-Means). Możesz pozwolić, aby była liczbą znalezionych klastrów (zwykle stosując weryfikację krzyżową w celu ustalenia najlepszego ). Teraz utwórz radialną funkcję podstawową dla każdego skupienia. Dla każdej radialnej funkcji bazowej niech będzie środkiem (np. Średnią, centroidem itp.) Klastra. Niech odzwierciedla szerokość klastra (np. Promień ...) Teraz przejdź do regresji (ten prosty opis to tylko przegląd - wymaga dużo pracy na każdym kroku!) $m$ $m$ $g_j$ $\mu_j$ $\sigma_j$

* Oczywiście, krzywa dzwonowa jest zdefiniowana od - do więc będzie miała wartość wszędzie na linii. Jednak wartości daleko od centrum są znikome $\infty$ $\infty$

— martino
źródło

Niezła odpowiedź! Jednak szukając , nie kończymy z obsługą regresji maszyny wektorowej (z jądrem gaussa)?

μ

$\mu$

— O_Devinyak

@ O_Devinyak- Wiele metod ekspansji podstaw będzie wymagać pewnego rodzaju oszacowania parametrów. Istnieje wiele sposobów na znalezienie więc nie sądzę, że to koniecznie oznacza, że redukujemy problem do SVR. Szczerze mówiąc, nie jestem ekspertem od SVR, ale funkcja straty, która jest zminimalizowana, jest z pewnością inna i jestem pewien, że wiele funkcji jest ignorowanych - to jest sposób na wektor wsparcia. W przypadku funkcji podstawowych używamy wszystkich funkcji do oceny, ale na szczęście kompaktowa obsługa oznacza, że wiele funkcji podstawowych zwraca wartości pomijalne lub zerowe. W każdym razie byłoby to dobre pytanie na tym forum

μ

$\mu$

— martino

Dlaczego potrzebujemy skali zamiast macierzy kowariancji, która sprawiłaby, że funkcja podstawowa wyglądałaby jak wykładnicza część wielowymiarowego Gaussa?

σ_{j}

$\sigma_j$

— stackunderflow

1

Pozwól, że spróbuję podać proste wyjaśnienie. W takim zapisie może być numerem wiersza, ale może być także numerem cechy. Jeśli napiszemy wówczas oznacza numer funkcji, to wektor kolumnowy, to skalar, a to kolumna -wektor. Jeśli napiszemy to oznacza numer wiersza, to skalar, to wektor kolumny, a to wektor wiersza. Notacja, w której oznacza wiersz, a oznacza kolumnę, jest bardziej powszechna, więc użyjmy pierwszego wariantu. $j$ $y=\beta_0+\sum_{j=1:31}{\beta_j\phi_j(x)}$ $j$ $y$ $\beta_j$ $\phi_j(x)$ $y_j=\beta\phi_j(x)$ $j$ $y_j$ $\beta$ $\phi_j(x)$ $i$ $j$

Wprowadzając funkcję Gaussa do regresji liniowej, (skalar) zależy teraz nie od wartości liczbowych cech (wektor), ale od odległości między a środkiem wszystkich innych punktów . W ten sposób nie zależy od tego, czy -ta wartość cechy tej obserwacji jest wysoka czy mała, ale zależy od tego, czy ta wartość cechy jest bliska, czy daleka od średniej dla tej cechy . Więc nie jest parametrem, ponieważ nie można go dostroić. Jest to tylko właściwość zestawu danych. Parametr $y_i$ $x_i$ $x_i$ $\mu_i$ $y_i$ $j$ $i$ $j$ $j$ $\mu_{ij}$ $\mu_j$ $\sigma^2$ jest wartością skalarną, kontroluje gładkość i można ją dostroić. Jeśli jest mały, małe zmiany odległości będą miały duży wpływ (pamiętaj o stromych gaussach: wszystkie punkty znajdujące się już w niewielkiej odległości od centrum mają małe wartości ). Jeśli jest duży, niewielkie zmiany odległości będą miały niewielki wpływ (pamiętaj o płaskiej gaussowskiej: spadek wraz ze wzrostem odległości od centrum jest powolny). Należy poszukać optymalnej wartości (zwykle znajduje się ona przy weryfikacji krzyżowej). $y$ $y$ $\sigma^2$

— O_Devinyak
źródło

0

Funkcje podstawy Gaussa w ustawieniach wielowymiarowych mają centra wielowymiarowe. Zakładając, że twój , a następnie . Gaussian musi być wielowymiarowy, tj. gdzie to macierz kowariancji. Indeks nie jest składową wektora, jest tylko tym wektorem. Podobnie jest tą macierzą. $x\in\mathbb{R}^{31}$ $\mu_j\in\mathbb{R}^{31}$ $e^{(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)}$ $\Sigma_j\in\mathbb{R}^{31\times 31}$ $j$ $j$ $\Sigma_j$ $j$

— Karel Macek
źródło