Jaka jest różnica między hiperparametrami modelu a parametrami modelu?

28

Zauważyłem, że takie terminy, jak hiperparametr modelu i parametr modelu zostały użyte zamiennie w sieci bez wcześniejszego wyjaśnienia. Myślę, że jest to niepoprawne i wymaga wyjaśnienia. Rozważ model uczenia maszynowego, klasyfikator oparty na SVM / NN / NB lub narzędzie do rozpoznawania obrazów - wszystko, co przyjdzie ci do głowy.

Jakie są hiperparametry i parametry modelu?
Podaj przykłady.

— minerały
źródło

3

Andrew Ng opracowuje różnicę między parametrami a hiperparametrami. coursera.org/learn/neural-networks-deep-learning/lecture/TBvb5/…

— Divyanshu Shekhar

27

Hiperparametry i parametry są często używane zamiennie, ale istnieje między nimi różnica. Nazywasz coś „hiperparametrem”, jeśli nie można go nauczyć bezpośrednio w estymatorze. Jednak „parametry” są terminem bardziej ogólnym. Kiedy mówisz „przekazanie parametrów do modelu”, oznacza to ogólnie kombinację hiperparametrów wraz z niektórymi innymi parametrami, które nie są bezpośrednio związane z estymatorem, ale są wymagane dla twojego modelu.

Załóżmy na przykład, że budujesz klasyfikator SVM w sklearn:

from sklearn import svm
X = [[0, 0], [1, 1]]
y = [0, 1]
clf = svm.SVC(C =0.01, kernel ='rbf', random_state=33)
clf.fit(X, y)

W powyższym kodzie instancja SVM jest estymatorem twojego modelu, dla którego w tym przypadku są hiperparametry Ci kernel. Ale twój model ma inny parametr, który nie jest hiperparametrem i to znaczy random_state.

— Nain
źródło

Ta odpowiedź sugeruje, że random_statejest parametrem. Myślę, że jest to mylące, ponieważ (zobacz inne odpowiedzi); model uczy się parametru , zaś hiperparametr jest określany przez nas ; jak random_state=33. Ale random_statenie jest też hiperparametrem, ponieważ nie ma najlepszej wartości random_state; patrz dyskusja Jasona Brownlee tutaj

— The Red Pea

21

Oprócz powyższej odpowiedzi.

Parametry modelu to właściwości danych treningowych, których nauczy się podczas szkolenia klasyfikator lub inny model ml. Na przykład w przypadku niektórych zadań NLP: częstotliwość słowa, długość zdania, rozkład rzeczownika lub czasownika na zdanie, liczba określonych znaków n-gramów na słowo, różnorodność leksykalna itp. Parametry modelu różnią się dla każdego eksperymentu i zależą od rodzaju dane i zadania pod ręką.

Z drugiej strony hiperparametry są wspólne dla podobnych modeli i nie można ich nauczyć podczas treningu, ale są ustawiane wcześniej. Typowy zestaw hiperparametrów dla NN obejmuje liczbę i rozmiar ukrytych warstw, schemat inicjowania ciężaru, szybkość uczenia się i jego zanikanie, próg zaniku i progu obcinania gradientu itp.

— minerały
źródło

7

Hiperparametry to te, które dostarczamy do modelu, na przykład: liczba ukrytych węzłów i warstw, funkcje wejściowe, szybkość uczenia się, funkcja aktywacji itp. W sieci neuronowej, podczas gdy parametry to takie, których nauczyłaby się maszyna, takie jak Wagi i Biases .

— Lakshmi Prasad Y
źródło

5

W uczeniu maszynowym wygląda model z parametrami i hiperparametrami, $M$

$Y \approx M_{\mathcal{H}}(\Phi | D)$

gdzie to parametry, a to hiperparametry. to dane treningowe, a to dane wyjściowe (etykiety klas w przypadku zadania klasyfikacyjnego). $\Phi$ $\mathcal{H}$ $D$ $Y$

Celem podczas treningu jest znalezienie oszacowania parametrów , która optymalizuje jakąś funkcję strata mamy określony. Ponieważ modelu i utraty funkcji są oparte na , wtedy wynikające z tego parametry zależą także od hiperparametrów . $\hat{\Phi}$ $\mathcal{L}$ $M$ $\mathcal{L}$ $\mathcal{H}$ $\Phi$ $\mathcal{H}$

$\mathcal{H}$ $M$ $M_{\mathcal{H}}$

$M_{\mathcal{H}}$ $\mathcal{H}$ $\hat{\Phi}$ $\mathcal{H}$

$Y_{pred}$ $\Phi$ $\mathcal{H}$

$\Phi = \{\bar{\mu}, \bar{\sigma} \}$ $\bar{\mu}$ $N$ $\bar{\sigma}$ $N$ $N$

$N$ $\mathcal{H} = \{N \}$ $N$ $D$ $N$ $N$ $\Phi = \{\bar{\mu}, \bar{\sigma}, N \}$

Należy jednak zauważyć, że efekt, lub przewidywane wartości dla punktów danych w danych jest oparty na a nie . Oznacza to, że każde z jąder Gaussa wniesie pewną wartość prawdopodobieństwa do na podstawie odległości od ich odpowiedniego i własnego . „Parametr” nie jest tu wyraźnie uwzględniony, więc prawdopodobnie nie jest „tak naprawdę” parametrem modelu. $d$ $D$ $GMM(\bar{\mu}, \bar{\sigma})$ $N$ $N$ $d$ $d$ $\mu$ $\sigma$ $N$

$M$ $\mathcal{L}$

— Dynamiczny Gwiezdny Pył
źródło

3

Upraszczając,

Parametry modelu są czymś, czego sam uczy się model. Na przykład 1) Wagi lub współczynniki zmiennych niezależnych w modelu regresji liniowej. 2) Wagi lub współczynniki zmiennych niezależnych SVM. 3) Punkty podziału w drzewie decyzyjnym.

Hiper-parametry modelu służą do optymalizacji wydajności modelu. Na przykład: 1) Jądro i luz w SVM. 2) Wartość K w KNN. 3) Głębokość drzewa w drzewach decyzyjnych.

— Manju Savanth
źródło

Nie muszą one mieć nic wspólnego z optymalizacją modelu. Hyperparamy to tylko parametry procesu budowania modelu.

— Sean Owen,

0

Parametry modelu są szacowane na podstawie danych automatycznie, a hiperparametry modelu są ustawiane ręcznie i są używane w procesach, aby pomóc oszacować parametry modelu.

Hiperparametry modelu są często nazywane parametrami, ponieważ są to części uczenia maszynowego, które należy ustawić ręcznie i dostroić.

Zasadniczo parametry są tymi, których „model” używa do prognozowania itp. Na przykład współczynniki masy w modelu regresji liniowej. Hiperparametry to te, które pomagają w procesie uczenia się. Na przykład liczba skupień w K-średnich, współczynnik skurczu w regresji grzbietu. Nie pojawią się w ostatecznej prognozie, ale mają duży wpływ na to, jak parametry będą wyglądać po kroku uczenia się.

Patrz: https://machinelearningmastery.com/difference-between-a-parameter-and-a-hyperparameter/

— Prhld
źródło