czy można podać ogólną zasadę dotyczącą wielkości sieci neuronowych, które można trenować na zwykłych procesorach graficznych klasy konsumenckiej ? Na przykład:
Pojawienie lokomocji (wzmocnienie) papieru pociągi do sieci przez aktywację tanh neuronów. Mają trójwarstwowy NN z 300 200 100 jednostkami dla Planar Walker . Ale nie zgłaszają sprzętu i czasu ...
Ale czy można opracować ogólną zasadę? Również na podstawie bieżących wyników empirycznych, na przykład:
Jednostki X używające aktywacji sigmoidalnej mogą wykonywać iteracje uczenia Y na godzinę na 1060.
Lub użycie funkcji aktywacji a zamiast b powoduje zmniejszenie wydajności razy.
Jeśli student / badacz / ciekawy umysł zamierza kupić procesor graficzny do zabawy z tymi sieciami, jak zdecydujesz, co otrzymasz? 1060 jest najwyraźniej opcją budżetową na poziomie podstawowym, ale jak można ocenić, czy nie jest mądrzejsze, aby po prostu zdobyć głupiego netbooka zamiast budować komputer stacjonarny o dużej mocy i wydać zaoszczędzone $ na infrastrukturę chmury na żądanie.
Motywacja do pytania: właśnie kupiłem 1060 i (sprytnie, zadając pytanie, huh) zastanawiam się, czy nie powinienem był zatrzymać $ i założyć konto Google Cloud. A jeśli mogę uruchomić moją symulację pracy magisterskiej na GPU.