Czy jest jakaś literatura, która bada wybór wielkości mini-partii podczas stochastycznego spadku gradientu? Z mojego doświadczenia wynika, że jest to wybór empiryczny, zwykle znajdowany w drodze weryfikacji krzyżowej lub przy użyciu różnych reguł.
Czy dobrym pomysłem jest powolne zwiększanie rozmiaru minibatchu, gdy zmniejsza się błąd sprawdzania poprawności? Jaki miałby to wpływ na błąd generalizacji? Czy lepiej korzystać z bardzo małej minibatchu i aktualizować mój model setki tysięcy razy? Czy lepiej by mi było, gdyby liczba była zbalansowana pomiędzy ekstremalnie małą i partią?
Czy powinienem przeskalować rozmiar mojego minibatchu według rozmiaru zestawu danych, czy też oczekiwanej liczby funkcji w zestawie danych?
Oczywiście mam wiele pytań na temat wdrażania schematów uczenia się w małych partiach. Niestety większość artykułów, które czytam, tak naprawdę nie precyzuje, jak wybrali ten hiperparametr. Odniosłem pewien sukces od autorów takich jak Yann LeCun, zwłaszcza z kolekcji papierów Tricks of the Trade. Jednak wciąż nie widziałem, aby te pytania zostały w pełni rozwiązane. Czy ktoś ma jakieś zalecenia dotyczące artykułów lub porady, jakich kryteriów mogę użyć, aby określić dobre rozmiary minibatchów, próbując poznać funkcje?