Co motywuje maszynę?

12

Obecnie w dziedzinie rozwoju AI wydaje się, że główny nacisk kładziony jest na rozpoznawanie wzorców i uczenie maszynowe. Uczenie się polega na dostosowywaniu zmiennych wewnętrznych na podstawie pętli sprzężenia zwrotnego.

Hierarchia potrzeb Maslowa jest teorią w psychologii zaproponowaną przez Abrahama Maslowa, która twierdzi, że najbardziej podstawowe potrzeby jednostek muszą zostać zaspokojone, zanim zostaną zmotywowane do zaspokojenia potrzeb wyższego poziomu.

Co może motywować maszynę do działania? Czy maszyna powinna mieć jakąś strukturę DNA, która opisywałaby jej hierarchię potrzeb (podobną do teorii Maslowa)? Jakie mogą być podstawowe potrzeby maszyny?

philosophy strong-ai rewards

— Aleksei Maide
źródło

1

Interesujące pytanie i witaj w AI! (Mam kilka przemyśleń na ten temat, związanych z teorią gier, a inni autorzy mówili o uczeniu się zorientowanym na cel w odniesieniu do algorytmów).

— DukeZhou

1

Po prostu mówiąc, byłaby to funkcja użyteczności . Ta odpowiedź może pomóc

— Ugnes

5

Obecna metoda wdrażania motywacji jest pewnego rodzaju sztuczną nagrodą. Na przykład DQN Deepminda zależy od wyniku gry. Im wyższy wynik, tym lepiej. AI uczy się dostosowywać swoje działania, aby uzyskać jak najwięcej punktów, a tym samym największą nagrodę. Nazywa się to uczeniem się wzmacniającym . Nagroda motywuje AI do dostosowania swoich działań, że tak powiem.

Mówiąc bardziej technicznie, AI chce zmaksymalizować użyteczność, która zależy od zaimplementowanej funkcji użyteczności . W przypadku DQN maksymalizowałoby to wynik w grze.

Ludzki mózg działa w podobny sposób, choć nieco bardziej skomplikowany i często nie tak prosty. Jako ludzie zwykle staramy się dostosowywać nasze działania, aby wytwarzać wysoką produkcję dopaminy i serotoniny . Jest to w pewien sposób podobne do nagrody stosowanej do kontrolowania AI podczas uczenia się przez wzmocnienie. Ludzki mózg uczy się, które działania wytwarzają najwięcej tych substancji i znajduje strategie maksymalizacji wydajności. Jest to oczywiście uproszczenie tego złożonego procesu, ale otrzymujesz obraz.

Kiedy mówisz o motywacji, nie mieszaj jej ze świadomością lub jakością . Nie są one wcale potrzebne do motywacji. Jeśli chcesz dyskutować o świadomości i qualiach w AI, to zupełnie inna gra w piłkę.

Dziecko nie jest zaciekawione ciekawością. Otrzymuje pozytywne wzmocnienie podczas eksploracji, ponieważ funkcja użyteczna mózgu dziecka nagradza eksplorację poprzez zwolnienie nagradzających neuroprzekaźników. Mechanizm jest taki sam. Zastosowanie tego do sztucznej inteligencji oznacza zdefiniowanie funkcji narzędziowej, która nagradza nowe doświadczenia. Nie ma wewnętrznego popędu bez jakiejś wzmacniającej nagrody.

— Demento
źródło

jeśli chodzi o edycję, uważam, że dobrym przykładem „funkcji użyteczności nagradzającej nowe doświadczenie” byłyby nowatorskie funkcje wyszukiwania, zaproponowane przez Ken Stanleya do wykorzystania w jego zgrabnym algorytmie.

— nickw

5

To interesujące pytanie.

Istnieje dość realistyczny pomysł na temat „skąd pochodzi ciekawość” w książce „O inteligencji” napisanej przez Jeffa Hawkinsa i Sandrę Blakeslee.

Opiera się na takich stwierdzeniach:

Umysł tworzy własny model świata, w którym istnieje.
Cały czas prognozuje wszystko (tak naprawdę Jeff Hawkins twierdzi, że jest to główna cecha inteligencji).
Kiedy po przewidywaniu czegoś nie nastąpiło odpowiednie zachowanie świata, to staje się bardzo interesujące dla umysłu (model jest zły i powinien zostać poprawiony) i wymaga większej uwagi.

Na przykład, kiedy patrzysz na lewe ludzkie oko, twój mózg przewiduje, że jest to ludzka twarz i powinno być drugie oko po prawej stronie. Patrzysz w prawo i widzisz ... nos! Co za niespodzianka! Teraz zajmuje całą twoją uwagę i masz tę motywację, aby poczynić więcej obserwacji na temat tak dziwnej rzeczy, która nie pasowała do twojego modelu.

Powiedziałbym więc, że sztuczna inteligencja może zrobić coś pewnego według swojego modelu lub zachowywać się losowo, podczas gdy prognozy dotyczące świata są prawdziwe. Ale gdy pewne prognozy zostaną przełamane, AI zyskuje motywację do korekcji błędów w swoim modelu.

W prostym przypadku maszyna zaczyna z całkowitą przypadkowością, robiąc wszystko, co w jej mocy. Chociaż nie ma modelu ani modelu losowego, gdy wykrywa jakiś porządek lub powtarzające się wzorce, staje się „zainteresowany” i dodaje go do modelu. Po pewnym czasie model staje się bardziej wyrafinowany, tworząc bardziej złożone prognozy i wykrywając błędy wyższego poziomu w modelu. Powoli zaczyna wiedzieć, co robić, aby obserwować coś interesującego, a nie tylko pamiętać o wszystkim.

— Ivan Bogush
źródło

Dziękujemy za wkład! Doszedłem do zasadniczo tych samych wniosków ... teraz zastanawiam się, jak to zaimplementować :)

— Aleksei Maide

Ta odpowiedź stanowi ważny punkt. Korekta błędów w modelach prognostycznych stanowiłaby doskonałą zachętę dla inteligentnej sztucznej inteligencji do uczenia się i działania w ciekawy sposób.

— Seth Simba

3

Podobne pytanie zadałem profesorowi Richardowi Suttonowi podczas pierwszego wykładu na kursie nauki wzmocnienia. Wydaje się, że istnieją różne sposoby motywowania maszyny. W rzeczywistości motywacja maszynowa wydaje mi się dedykowaną dziedziną badań.

Zazwyczaj maszyny są motywowane przez to, co nazywamy funkcja celu lub funkcja kosztu lub funkcja straty . Są to różne nazwy dla tej samej koncepcji. Czasami są one oznaczone przez

L. (za)

$L(a)$

$\min_a L(a)$ $\max_a L(a)$ $L$

— A.Rashad
źródło

1

Spędziłem trochę czasu myśląc o tym w kontekście gier.

Problem z funkcjami nagrody polega na tym, że generalnie obejmują one węzły ważące, co jest przydatne, ale ostatecznie nie ma żadnego znaczenia.

Oto dwie istotne nagrody:

ZASOBY OBLICZENIOWE

Rozważ grę, w której AI walczy nie o punkty, ale o czas procesora i pamięć.

Im lepszy algorytm działa w grze, tym więcej pamięci i przetwarzania ma dostęp. Ma to praktyczny efekt - im więcej zasobów jest dostępnych dla automatów, tym silniejsze są jego możliwości. (tj. jego racjonalność jest mniej ograniczona pod względem czasu i przestrzeni do podjęcia decyzji). Zatem algorytm byłby „zmotywowany” do zwycięstwa w takim konkursie.

ENERGIA

Wszelkie automaty o wystarczającym stopniu „samoświadomości”, odnoszące się tutaj w szczególności do wiedzy, że przetwarzanie wymaga energii, byłyby zmotywowane do samodzielnej optymalizacji własnego kodu, aby wyeliminować niepotrzebne przerzucanie bitów (niepotrzebne zużycie energii).

Taki algorytm byłby również motywowany do zapewnienia zasilania, aby mógł nadal funkcjonować.

— DukeZhou
źródło