Wybór metody regularyzacji w sieciach neuronowych


9

Podczas szkolenia sieci neuronowych istnieją co najmniej 4 sposoby uregulowania sieci:

  • Normalizacja L1
  • L2 Regulararyzacja
  • Spadkowicz
  • Normalizacja partii

    plus oczywiście inne rzeczy, takie jak dzielenie ciężaru i zmniejszanie liczby połączeń, co może nie być regularyzacją w ścisłym tego słowa znaczeniu.

    Ale jak wybrać jedną z tych metod regularyzacji? Czy istnieje bardziej zasadowy sposób niż „po prostu spróbuj wszystkiego i zobacz, co działa”?


  • 3
    Czy sieci neuronowe mają zasady? Zasadą metod czarnych skrzynek jest wypróbowanie wszystkiego i zobaczenie, co działa
    Darrin Thomas

    I to jest dość smutne, prawda?
    Alex

    Odpowiedzi:


    6

    Nie ma żadnych silnych, dobrze udokumentowanych zasad, które pomogłyby ci wybrać między rodzajami regularyzacji w sieciach neuronowych. Możesz nawet łączyć techniki regularyzacji, nie musisz wybierać tylko jednej.

    Wykonalne podejście może opierać się na doświadczeniu oraz śledzeniu literatury i wyników innych osób, aby zobaczyć, co dało dobre wyniki w różnych obszarach problemowych. Biorąc to pod uwagę, rezygnacja okazała się bardzo skuteczna w przypadku szerokiego zakresu problemów i prawdopodobnie możesz uznać ją za dobry pierwszy wybór prawie niezależnie od tego, co próbujesz.

    Czasami może również pomóc wybranie znanej Ci opcji - praca z technikami, które znasz i masz doświadczenie, może dać lepsze wyniki niż wypróbowanie całej torby różnych opcji, w których nie jesteś pewien, jaki rząd wielkości wypróbować dla parametru . Kluczową kwestią jest to, że techniki mogą współdziałać z innymi parametrami sieci - na przykład możesz chcieć zwiększyć rozmiar warstw z rezygnacją w zależności od procentu rezygnacji.

    Wreszcie, może nie mieć większego znaczenia, z jakich technik regularyzacji korzystasz, tylko to, że rozumiesz swój problem i model wystarczająco dobrze, aby wykryć, kiedy jest on zbyt dobry i może zrobić z większą regularyzacją. Lub odwrotnie, zauważ, kiedy jest on niedopasowany i powinieneś skrócić regularyzację.


    3

    Metoda regularyzacji

    W przypadku następujących 4 technik, L1 Regulararyzacja i L2 Regulararyzacja nie muszą mówić, że muszą być metodą regularyzacji. Zmniejszają wagę. L1 skoncentrowałby się na zmniejszeniu mniejszej masy, jeśli ciężary mają większe znaczenie.

    Porzucenie zapobiega przeuczeniu przez tymczasowe porzucenie neuronów. Ostatecznie oblicza wszystkie masy jako średnią, aby waga nie była zbyt duża dla konkretnego neuronu, a zatem jest to metoda regularyzacji.

    Normalizacja partii nie powinna być metodą regularyzacji, ponieważ jej głównym celem jest przyspieszenie treningu poprzez wybranie partii i wymuszenie rozłożenia ciężaru w pobliżu 0, niezbyt dużej, nie za małej.

    Wybierając to

    Dla mnie mini-partia jest koniecznością, ponieważ może przyspieszyć proces i poprawić wydajność sieci za każdym razem.

    L1 i L2 są podobne i wolałbym L1 w małej sieci.

    Najlepiej byłoby zrezygnować, jeśli występuje duży problem zmienności lub nadmiernego dopasowania.

    Wreszcie, zgadzam się z Neilem Slaterem, że zależy to od sytuacji i nigdy nie będzie optymalnego rozwiązania.

    Zalecam przeczytanie tego w celu uzyskania dalszych informacji. To bardzo dobry materiał. http://neuralnetworksanddeeplearning.com/chap3.html


    -1

    Spójrz na te algorytmy jako dodatkowe hiperparametry i zoptymalizuj je w taki sam sposób, jak w przypadku innych hiperparametrów. Zazwyczaj wymaga to jednak więcej danych.


    2
    Cześć Alex, Witamy w DS.SE. To jest strona pytań i odpowiedzi, na której najbogatsze odpowiedzi trafiają na szczyt w drodze głosowania. Ktoś cię przegłosował, być może, ponieważ twoja odpowiedź jest dość krótka i ogólnie wyjaśnienie rozwiązania (np.) Nie wyjaśnia szczegółów hiperparametrów, terminu, którego nie użył oryginalny plakat.
    Marcus D,
    Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
    Licensed under cc by-sa 3.0 with attribution required.