Przestrzegam przed oczekiwaniem silnego podobieństwa między biologicznymi i sztucznymi sieciami neuronowymi. Myślę, że nazwa „sieci neuronowe” jest nieco niebezpieczna, ponieważ skłania ludzi do oczekiwania, że procesy neurologiczne i uczenie maszynowe powinny być takie same. Różnice między biologicznymi i sztucznymi sieciami neuronowymi przeważają nad podobieństwami.
Jako przykład tego, jak może się to nie udać, możesz również obrócić rozumowanie w oryginalnym poście na głowie. Możesz trenować sieć neuronową, aby nauczyć się rozpoznawać samochody po południu, pod warunkiem, że masz dość szybki komputer i pewną ilość danych treningowych. Możesz sprawić, że będzie to zadanie binarne (samochód / nie samochód) lub zadanie wielozadaniowe (samochód / tramwaj / rower / samolot / łódź) i nadal będziesz mieć pewność sukcesu.
Z drugiej strony nie spodziewałbym się, że dziecko będzie mogło wybrać samochód w ciągu dnia - a nawet tygodnia - po urodzeniu, nawet po tym, jak zobaczyło „tak wiele przykładów treningu”. Coś wyraźnie różni się między dwulatkiem a niemowlęciem, co tłumaczy różnicę w zdolnościach uczenia się, podczas gdy sieć neuronowa klasyfikacji obrazów waniliowych jest w pełni zdolna do przechwycenia klasyfikacji obiektów natychmiast po „urodzeniu”. Myślę, że istnieją dwie ważne różnice: (1) względna ilość dostępnych danych szkoleniowych i (2) mechanizm samokształcenia, który rozwija się w czasie z powodu dużej ilości danych szkoleniowych.
Oryginalny post przedstawia dwa pytania. W tytule i treści pytania pytamy, dlaczego sieci neuronowe potrzebują „tylu przykładów”. W porównaniu z doświadczeniem dziecka sieci neuronowe wyszkolone przy użyciu wspólnych testów porównawczych obrazu mają stosunkowo niewiele danych.
Ponownie sformułuję pytanie w tytule na
„W jaki sposób szkolenie sieci neuronowej dla wspólnego testu porównawczego obrazu porównuje i kontrastuje z doświadczeniami uczenia się dziecka?”
Dla porównania rozważę dane CIFAR-10, ponieważ jest to wspólny test porównawczy obrazu. Część oznaczona składa się z 10 klas obrazów z 6000 obrazów na klasę. Każdy obraz ma wymiary 32 x 32 pikseli. Jeśli w jakiś sposób ułożysz oznaczone zdjęcia z CIFAR-10 i nagrałeś standardowy film z 48 klatkami na sekundę, będziesz miał około 20 minut materiału.
Dziecko w wieku 2 lat, które obserwuje świat przez 12 godzin dziennie, ma około 263000 minut (ponad 4000 godzin) bezpośrednich obserwacji świata, w tym informacji zwrotnych od dorosłych (etykiety). (Są to tylko figury na boisku - nie wiem, ile minut typowy dwulatek spędził na obserwowaniu świata.) Co więcej, dziecko będzie miało kontakt z wieloma, wieloma przedmiotami poza 10 klasami, które obejmują CIFAR- 10
W grze jest więc kilka rzeczy. Jednym z nich jest to, że dziecko ma kontakt z większą ilością danych i bardziej zróżnicowanym źródłem danych niż model CIFAR-10. Różnorodność danych i ich objętość są ogólnie uznawane za warunki wstępne dla solidnych modeli. W tym świetle nie wydaje się zaskakujące, że sieć neuronowa jest gorsza w tym zadaniu niż dziecko, ponieważ sieć neuronowa wyuczona na CIFAR-10 jest pozytywnie głodna pod względem danych treningowych w porównaniu z dwulatkiem. Rozdzielczość obrazu dostępna dla dziecka jest lepsza niż dla obrazów CIFAR-10 32x32, dzięki czemu dziecko może uzyskać informacje na temat drobnych szczegółów obiektów.
Porównanie CIFAR-10 z dwuletnim nie jest idealne, ponieważ model CIFAR-10 prawdopodobnie będzie trenowany z wieloma przejściami po tych samych statycznych obrazach, podczas gdy dziecko zobaczy, używając widzenia obuocznego, jak obiekty są ułożone w trzy -wymiarowy świat poruszający się z różnymi warunkami oświetleniowymi i perspektywami na te same obiekty.
Anegdota o dziecku OP pociąga za sobą drugie pytanie:
„Jak sieci neuronowe mogą stać się samoukami?”
Dziecko ma talent do samokształcenia, dzięki czemu z czasem można dodawać nowe kategorie przedmiotów bez konieczności rozpoczynania od nowa.
Uwaga OP na temat uczenia się przez transfer określa jeden rodzaj adaptacji modelu w kontekście uczenia maszynowego.
W komentarzach inni użytkownicy zwracali uwagę, że uczenie się jednym i kilkoma strzałami * to kolejny obszar badań nad uczeniem maszynowym.
Ponadto uczenie się o wzmocnieniu odnosi się do modeli samokształceniowych z innej perspektywy, zasadniczo umożliwiając robotom eksperymentowanie metodą prób i błędów w celu znalezienia optymalnych strategii rozwiązywania określonych problemów (np. Gry w szachy).
Prawdopodobnie prawdą jest, że wszystkie trzy z tych paradygmatów uczenia maszynowego są związane z poprawą sposobu, w jaki maszyny dostosowują się do nowych zadań widzenia komputerowego. Szybkie dostosowywanie modeli uczenia maszynowego do nowych zadań jest aktywnym obszarem badań. Ponieważ jednak praktyczne cele tych projektów (identyfikacja nowych przypadków złośliwego oprogramowania, rozpoznawanie oszustów na zdjęciach paszportowych, indeksowanie Internetu) i kryteria sukcesu różnią się od celów dziecka uczącego się o świecie, a fakt, że jest on realizowany komputer wykorzystujący matematykę, a drugi wykonany w materiale organicznym za pomocą chemii, bezpośrednie porównania między nimi pozostaną obarczone.
Nawiasem mówiąc, interesujące byłoby zbadanie, jak odwrócić problem CIFAR-10 i wytrenowanie sieci neuronowej w rozpoznawaniu 6000 obiektów z 10 przykładów każdego z nich. Ale nawet to nie byłoby uczciwe porównanie do 2-latka, ponieważ nadal istniałaby duża rozbieżność w całkowitej objętości, różnorodności i rozdzielczości danych treningowych.
* Obecnie nie mamy tagów do nauki za jednym podejściem lub za pomocą kilku ćwiczeń.