Pytania otagowane jako kernel-trick

Metody uczenia się jądra są używane w uczeniu maszynowym do uogólnienia technik liniowych na sytuacje nieliniowe, zwłaszcza SVM, PCA i GP. Nie mylić z [wygładzaniem jądra], do szacowania gęstości jądra (KDE) i regresji jądra.

4
Jak intuicyjnie wyjaśnić, czym jest jądro?
Wiele klasyfikatorów uczenia maszynowego (np. Maszyny wektorów wsparcia) pozwala na określenie jądra. Jaki byłby intuicyjny sposób wyjaśnienia, czym jest jądro? Jednym z aspektów, o którym myślałem, jest rozróżnienie między liniowymi i nieliniowymi jądrami. Mówiąc prościej, mógłbym mówić o „liniowych funkcjach decyzyjnych” i „nieliniowych funkcjach decyzyjnych”. Nie jestem jednak pewien, czy …


3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 





3
Jak udowodnić, że podstawową funkcją radialną jest jądro?
Jak udowodnić, że podstawowa funkcja radialna jest jądrem? O ile rozumiem, aby to udowodnić, musimy udowodnić jedno z poniższych:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Dla dowolnego zestawu wektorów macierz = jest dodatnim półfinałem.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Można przedstawić mapowanie takie jak = .ΦΦ\Phik ( x , …
35 svm  kernel-trick 

3
Czy istnieje jakiś problem z nadzorowanym uczeniem się, który (głębokie) sieci neuronowe nie mogłyby oczywiście przewyższyć innych metod?
Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w tej erze? Oto moje ograniczenie na ten temat. …


3
Różnica między SVM a perceptronem
Jestem trochę zmieszany z różnicą między SVM a perceptronem. Pozwólcie, że spróbuję podsumować moje rozumienie tutaj i proszę o poprawienie tam, gdzie się mylę i uzupełnienie tego, co przegapiłem. Perceptron nie próbuje zoptymalizować „odległości” separacji. Tak długo, jak znajdzie hiperpłaszczyznę oddzielającą dwa zestawy, jest dobra. Z drugiej strony SVM próbuje …

4
Różnica jąder w SVM?
Czy ktoś może mi powiedzieć różnicę między jądrami w SVM: Liniowy Wielomian Gaussowski (RBF) Sigmoid Ponieważ, jak wiemy, jądro służy do mapowania naszej przestrzeni wejściowej na przestrzeń cech o wysokiej wymiarowości. I w tej przestrzeni cech znajdujemy liniowo oddzielalną granicę. Kiedy są używane (pod jakim warunkiem) i dlaczego?

3
Mapa funkcji dla jądra Gaussa
W SVM jądro Gaussa jest zdefiniowane jako: gdzie x, y \ in \ mathbb {R ^ n} . Nie znam jednoznacznego równania \ phi . Chcę wiedzieć.K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi Ja też chcę wiedzieć, czy ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right) gdzie ci∈Rci∈Rc_i\in \mathbb R . Teraz myślę, że to nie jest równe, ponieważ …

3
Czy możliwe jest zejście gradientu dla SVM w jądrze (jeśli tak, to dlaczego ludzie używają programowania kwadratowego)?
Dlaczego ludzie używają technik programowania kwadratowego (takich jak SMO) podczas obsługi SVM z jądrem? Co jest nie tak z Gradient Descent? Czy nie jest możliwe używanie go z jądrem, czy jest to po prostu zbyt wolne (i dlaczego?). Oto nieco więcej kontekstu: starając się lepiej zrozumieć SVM, użyłem Gradient Descent …

1
Jaką funkcją może być jądro?
W kontekście uczenia maszynowego i rozpoznawania wzorców istnieje koncepcja o nazwie Kernel Trick . W obliczu problemów, w których jestem proszony o ustalenie, czy funkcja może być funkcją jądra, czy nie, co dokładnie należy zrobić? Czy powinienem najpierw sprawdzić, czy mają one postać trzech lub czterech funkcji jądra, takich jak …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.