Gradient Descent to algorytm znajdowania minimum funkcji. Iteracyjnie oblicza pochodne cząstkowe (gradienty) funkcji i schodzi w krokach proporcjonalnych do tych pochodnych cząstkowych. Jednym z głównych zastosowań Gradient Descent jest dopasowanie sparametryzowanego modelu do zestawu danych: funkcja, która ma być zminimalizowana, jest funkcją błędu modelu.