Dlaczego podczas szkolenia modeli uczenia maszynowego czasami korzystne jest utrzymanie wielkości partii na poziomie 2? Pomyślałem, że najlepiej będzie użyć rozmiaru, który najlepiej pasuje do twojej pamięci / RAM GPU.
Ta odpowiedź twierdzi, że dla niektórych pakietów moc 2 jest lepsza jako wielkość partii. Czy ktoś może podać szczegółowe wyjaśnienie / link do szczegółowego wyjaśnienia tego? Czy dotyczy to wszystkich algorytmów optymalizacji (opadanie gradientu, propagacja wsteczna itp.), Czy tylko niektórych z nich?