Istnieją pewne warianty normalizacji obrazów, ale większość wydaje się używać tych dwóch metod:
- Odejmij średnią na kanał obliczoną dla wszystkich zdjęć (np. VGG_ILSVRC_16_layers )
- Odejmij według pikseli / kanałów obliczonych na wszystkich obrazach (np. CNN_S , zobacz także sieć referencyjną Caffe )
Moim zdaniem naturalne podejście do normalizacji każdego obrazu. Zdjęcie zrobione w świetle dziennym spowoduje, że wystrzeli więcej neuronów niż zdjęcie nocne, i chociaż może poinformować nas o czasie, zwykle dbamy o bardziej interesujące cechy obecne na krawędziach itp.
Pierre Sermanet wspomina w 3.3.3, że lokalna normalizacja kontrastu byłaby oparta na obrazie, ale nie natknąłem się na to w żadnym z przykładów / samouczków, które widziałem. Widziałem także interesujące pytanie Quory i post Xiu-Shen Wei, ale wydaje się, że nie obsługują one dwóch powyższych podejść.
Czego dokładnie brakuje? Czy jest to problem z normalizacją kolorów, czy jest papier, który faktycznie wyjaśnia, dlaczego tak wielu stosuje takie podejście?