Mówiąc matematycznie. Wyobraź sobie, że jesteś modelką (nie, nie taki, rysunek 8)
Y= W.X+ n i ge r I o N
Więc co rozumiesz? Zanotowano wstępne założenie w modelu takim jak ty.
Jeśli chodzi o wagę, logicznie rzecz biorąc, waga jest twoim gradientem (w algebrze liniowej),
Co to jest Gradient? , to stromość funkcji liniowej.
Co sprawia, że gradient liniowy jest bardzo stromy (Wysoka wartość dodatnia)?
Jest tak, ponieważ niewielkie zmiany w X (dane wejściowe) powodują duże różnice w osi Y (dane wyjściowe). Więc ty (już nie jako model, ale genialny matematyk (twoje alter ego)) lub twój komputer próbujesz znaleźć ten gradient, który możesz nazwać ciężarem. Różnica polega na tym, że używasz ołówka i wykresu, aby to znaleźć, ale czarna skrzynka wykonuje swoją elektroniczną magię za pomocą rejestrów.
W procesie uczenia maszynowego komputer lub Ty próbujesz narysować wiele linii prostych lub funkcji liniowych w punktach danych,
Dlaczego próbujesz narysować wiele linii prostych?
Ponieważ w wykresie / pamięci komputera próbujesz zobaczyć linię, która jest odpowiednio dopasowana.
Skąd ja lub komputer znam linię, która jest odpowiednio dopasowana?
W mojej szkole średniej nauczono mnie rysować linię między punktami danych, wizualnie sprawdzając linię, która przecina się idealnie w środku wszystkich punktów danych (zapomnij o szumie w sztucznej inteligencji, nasze mózgi mogą obliczyć po prostu patrząc na rzeczy) . Ale jeśli chodzi o komputer, wypróbowuje standardowe odchylenie i wariancję każdej linii w kierunku punktów danych. Wybrana jest linia o najmniejszym odchyleniu (czasami nazywa to funkcją błędu).
Chłodny! i co się stanie
Obliczany jest gradient tej linii, powiedzmy, że obliczana jest waga problemu uczenia się
to jest uczenie maszynowe w jego podstawowym rozumieniu, a uczeń szkoły średniej wykreślający wykres w swoim grafiku