Odpowiedź Nicka Algera jest bardzo dobra, ale zamierzam uczynić ją trochę bardziej matematyczną za pomocą jednej przykładowej metody, Metropolis-Hastings.
Scenariusz, który zamierzam zbadać, to populacja jednego. Proponujesz mutację ze stanu do stanu j z prawdopodobieństwem Q ( i , j ) , a my również narzucamy warunek, że Q ( i , j ) = Q ( j , i ) . Zakładamy również, że F ( i ) > 0 dla wszystkich i ; jeśli nie masz sprawności w swoim modelu, możesz to naprawić, dodając wszędzie mały epsilon.jajotQ ( i , j )Q ( i , j ) = Q ( j , i )fa( i ) > 0ja
Akceptujemy przejście z na j z prawdopodobieństwem:jajot
min ( 1 , F( j )fa( i ))
Innymi słowy, jeśli jest bardziej sprawny, zawsze bierzemy to, ale jeśli jest mniej sprawny, bierzemy to z prawdopodobieństwem , w przeciwnym razie próbujemy ponownie, dopóki nie zaakceptujemy mutacja.j F ( j )jotjotfa( j )fa( i )
Teraz chcielibyśmy zbadać , faktyczne prawdopodobieństwo przejścia z na .i jP.( i , j )jajot
Oczywiście jest to:
P.( i , j ) = Q ( i , j ) min ( 1 , F( j )fa( i ))
Załóżmy, że . Następnie = 1, a więc:min ( 1 , F ( j )fa( j ) ≥ F( i )min ( 1 , F( j )fa( i ))
fa( i ) P( i , j )
= F.( i ) Q ( i , j ) min ( 1 , F( j )fa( i ))
= F.( i ) Q ( i , j )
= Q ( j , i ) m i n ( 1 , F( i )fa( j )) F( j )
= F.( j ) P.( j, i )
Uruchomienie argumentu do tyłu, a także zbadanie trywialnego przypadku, w którym , widać, że dla wszystkich i :i = jjajot
fa( i ) P( i , j ) = F.( j ) P.( j , i )
Jest to niezwykłe z kilku powodów.
Prawdopodobieństwo przejścia jest niezależny od . Oczywiście może minąć trochę czasu, zanim skończymy w atraktorze, a zaakceptowanie mutacji może zająć trochę czasu. Gdy mamy do prawdopodobieństwo przejścia jest całkowicie zależne od , a nie na .QfaQ
Zsumowanie wszystkich daje:ja
∑iF(i)P(i,j)=∑iF(j)P(j,i)
Najwyraźniej musi sumować się do jeśli zsumujesz wszystkie (to znaczy prawdopodobieństwo przejścia z jednego stanu musi sumować się do ), więc otrzymujesz:P(j,i)1i1
F(j)=∑iF(i)P(i,j)
Oznacza to, że jest (nienormalizowaną) funkcją gęstości prawdopodobieństwa, dla której stanów wybiera metodę. Nie tylko masz gwarancję odkrycia całego krajobrazu, ale robisz to proporcjonalnie do tego, jak „pasuje” każdy stan.F
Oczywiście jest to tylko jeden z wielu przykładów; jak zauważyłem poniżej, okazuje się, że jest to metoda bardzo łatwa do wyjaśnienia. Zazwyczaj używasz GA nie do eksploracji pdf, ale do znalezienia ekstremum, i możesz rozluźnić niektóre warunki w tym przypadku i nadal zagwarantować ostateczną zbieżność z dużym prawdopodobieństwem.