Próbuję zrozumieć proces szkolenia maszyny wektora liniowego wsparcia . Zdaję sobie sprawę, że właściwości SMV pozwalają na ich optymalizację znacznie szybciej niż za pomocą kwadratowego solvera programistycznego, ale do celów edukacyjnych chciałbym zobaczyć, jak to działa. Dane treningowe set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 …
Mam funkcję prawdopodobieństwa dla prawdopodobieństwa moich danych biorąc pod uwagę niektóre parametry modelu , które chciałbym oszacować. Zakładając płaskie priorytety parametrów, prawdopodobieństwo jest proporcjonalne do prawdopodobieństwa a posteriori. Używam metody MCMC, aby zbadać to prawdopodobieństwo.L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N Patrząc na wynikowy zbieżny łańcuch, stwierdzam, że parametry maksymalnego prawdopodobieństwa nie …
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …
Jest to dla mnie trudny temat do wyszukiwania w Google, ponieważ optymalizacja słów i stochastyczna w wyszukiwaniu prawie automatycznie domyślnie wyszukuje optymalizację stochastyczną. Ale tak naprawdę chcę wiedzieć, jakie istnieją metody optymalizacji modeli komputerowych, gdy wyniki modelu komputerowego są stochastyczne, tj. Nie deterministyczne? Na przykład, jeśli weźmiemy pod uwagę model …
Moja fryzjerka Stacey zawsze robi radosną minę, ale często stresuje ją zarządzanie czasem. Dzisiaj Stacey była spóźniona na moje spotkanie i bardzo przepraszała. Podczas strzyżenia zastanawiałem się: jak długo powinny trwać jej standardowe spotkania? (jeśli preferencje klienta dotyczące czystych okrągłych numerów można na chwilę zignorować). Należy wziąć pod uwagę pewien …
Próbuję zaimplementować algorytm Neldera-Meada do optymalizacji funkcji. Strona wikipedii o Nelder-Mead jest zaskakująco jasna na temat całego algorytmu, z wyjątkiem kryterium zatrzymania. Tam niestety mówi: Sprawdź zbieżność [potrzebne wyjaśnienie] . Sam wypróbowałem i przetestowałem kilka kryteriów: Przestań, jeśli gdzie jest mały i gdzie jest wierzchołkiem simpleksa, uporządkowanym od niskiego ( …
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
Natknąłem się na te slajdy (slajd 16 i 17) na jednym z kursów online. Instruktor próbował wyjaśnić, w jaki sposób Maximum Posterior Estimate (MAP) jest faktycznie rozwiązaniem , gdzie \ theta ^ {*} to prawdziwy parametr.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Czy ktoś może wyjaśnić, jak to wygląda? Edycja: Dodano slajdy …
Rozumiem, że regresja LASSO jest taka, że współczynniki regresji są wybrane w celu rozwiązania problemu minimalizacji: minβ. Y- Xβ∥2)2) s . t . ∥ β∥1≤ tminβ‖y-Xβ‖2)2) s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t W praktyce odbywa się to za pomocą mnożnika Lagrange'a, co powoduje problem do rozwiązania …
Jeśli mam macierz projektową , gdzie jest liczbą obserwacji wymiaru , jaka jest złożoność rozwiązania dla z Lasso wrt i ? Myślę, że odpowiedź powinna odnosić się do tego, jak jedna iteracja LASSO skaluje się z tymi parametrami, a nie do tego, jak skaluje się liczba iteracji (zbieżności), chyba że …
Postępuję zgodnie z samouczkiem mens Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Samouczek używa tf.train.Optimizer.minimize(konkretnie tf.train.GradientDescentOptimizer). Nigdzie nie widzę żadnych argumentów do zdefiniowania gradientów. Czy przepływ Tensor jest domyślnie domyślnie różnicowany numerycznie? Czy istnieje sposób, aby przejść w gradienty, jak można z scipy.optimize.minimize?
System oceny Elo wykorzystuje algorytm minimalizacji spadku gradientu funkcji utraty entropii krzyżowej między spodziewanym i obserwowanym prawdopodobieństwem wyniku w porównaniach w parach. Możemy zapisać funkcje strat ogólnych jako E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) gdzie suma jest wykonywana dla wszystkich wyników i wszystkich przeciwników n . p i to obserwowana częstotliwość …
Zasadniczo chcę przekształcić miary podobieństwa w wagi, które są używane jako predyktory. Podobieństwa będą dotyczyć [0,1], a ja ograniczę wagi również do [0,1]. Chciałbym funkcji paramterycznej, która wykonuje to mapowanie, które prawdopodobnie zoptymalizuję za pomocą spadku gradientu. Wymagania są takie, że 0 map do 0, 1 map do 1 i …
Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …
Próbuję zrozumieć optymalizację spadku gradientu w algorytmach ML (uczenie maszynowe). Rozumiem, że jest to funkcja, gdzie koszt celem jest minimalizacja błędu . W scenariuszu, w którym wagi są optymalizowane w celu uzyskania minimalnego błędu i stosowane są pochodne częściowe, czy zmienia on zarówno jak i na każdym etapie, czy też …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.