Z pewnością istnieje sposób na wprowadzenie tego, co wielu nazywa wzmocnionym nauczaniem, do prawdziwych aplikacji internetowych, mobilnych i stacji roboczych.
Robią to organizacje wojskowe, przemysł filmowy, firmy zorientowane na oprogramowanie, a ja zrobiłem to zarówno dla firm z listy Fortune 500, jak i dla małych firm. Istnieją adaptacyjne elementy uczenia się we wszystkich rodzajach elementów systemu wbudowanych w większe systemy, od robotów rozpoznawania twarzy FaceBook po Google Translate, systemy rozpoznawania kodów pocztowych USPS po autonomiczne systemy sterowania lotem i ruchem. Oprogramowanie do projektowania wspomaganego komputerowo (CAD) jest z pewnością realnym celem.
Podstawa zbrojenia
Rozważ serię wektorów opisujących zdarzenia. Wyobraź sobie, że są one podzielone na dwie podsekcje A i B. Sieć neuronowa (sztuczna lub biologiczna) może być trenowana przy użyciu A.
Trening może być nadzorowany, co oznacza, że jeden z wymiarów wektora jest uważany za etykietę, a zatem zmienną zależną, aby optymalnie przewidzieć. Pozostałe wymiary stają się następnie faktami lub sygnałami wejściowymi, a zatem niezależnymi zmiennymi do zastosowania w prognozowaniu. Szkolenie może być nadzorowane przy użyciu ekstrakcji funkcji.
Tak czy inaczej, jeśli zostanie dostarczony z A przed B i oczekuje się, że będzie działał w produkcji (rzeczywiste wykorzystanie) przed przybyciem B, późniejsze przybycie B stanowi wybór.
- Skasuj ciężary i wszelkie dostosowania meta-parametrów dokonane podczas treningu z A i ponownie uruchom trening z połączoną serią A i B.
- Kontynuuj trening z B, w którym to przypadku sieć byłaby stronnicza z A, a wynik różniłby się od wyniku uzyskanego przez trening z B, a następnie A.
- Znajdź sposób na ograniczenie uprzedzeń związanych z pierwszym treningiem z A, unikając zużycia zasobów wymaganych dla powyższego wyboru nr 1.
Wybór nr 3 jest najlepszym wyborem w wielu przypadkach, ponieważ zawiera zalety wyborów nr 1 i nr 2. Matematycznie # 3 odbywa się poprzez ułatwienie wyprzedzania tego, czego nauczyłem się z serii A. Wagi sieci neuronowej i dostosowania meta-parametrów muszą być podatne na korektę, ponieważ nowe doświadczenia wskazują na to konieczność. Jedno naiwne podejście można matematycznie sformułować odwrotną funkcję wykładniczą, która modeluje naturalny rozpad wielu zjawisk w fizyce, chemii i naukach społecznych.
P = e -nt , gdzie P jest prawdopodobieństwem, że fakt jest nadal skuteczny, n oznacza szybkość zanikania wyuczonej w przeszłości informacji, a t jest pewną miarą postępu, na przykład znacznikiem czasu, liczbą podsekwencji (partii), numer kolejny fakt lub numer zdarzenia.
W przypadku podserii A i B, gdy powyższy wzór zostanie w jakiś sposób zaimplementowany w mechanizmie uczenia się, trening A będzie mniej obciążał wynik końcowy po dalszym treningu z użyciem B, ponieważ t dla A jest mniejszy niż t dla B, mówiąc mechanizmowi, że B jest bardziej prawdopodobne.
Jeśli rekurencyjnie podzielimy A i B na pół, tworząc coraz bardziej szczegółowe podseryty, powyższa idea pozwalająca na stopniowe zanikanie poprzednich informacji pozostaje ważna i cenna. Promowanie sieci do pierwszych informacji wykorzystywanych do szkolenia jest równoważne psychologicznym koncepcjom ograniczonego myślenia. Wydaje się, że systemy uczenia, które ewoluowały w mózg ssaków, zapominają lub tracą zainteresowanie przeszłymi rzeczami, aby zachęcić do otwartości, co nie jest niczym innym, jak pozwoleniem, by nowe uczenie się czasami poprzedziło wcześniejsze uczenie się, jeśli nowe informacje zawierają silniejsze wzorce uczenia się.
Istnieją DWA powody, dla których nowsze dane przykładowe mogą stopniowo przewyższać starsze dane przykładowe.
- Powyższe usunięcie uprzedzeń z wcześniejszego uczenia się w celu odpowiedniego zważenia ostatnich wydarzeń w dalszym uczeniu się ma sens, jeśli wszystkie zdarzenia, których doświadczono (przeszkolono), przedstawiają rozsądne fakty na temat zewnętrznego świata, którego system próbuje się nauczyć.
- Świat zewnętrzny może się zmieniać, a starsza nauka może stać się nieistotna lub nawet wprowadzać w błąd.
Konieczność stopniowego zmniejszania znaczenia wcześniejszych informacji w miarę ciągłego uczenia się jest jednym z dwóch głównych aspektów wzmocnienia. Drugi aspekt to zestaw koncepcji naprawczych opartych na idei sygnalizacji zwrotnej.
Informacje zwrotne i wzmocnienie
Sygnałem zwrotnym we wzmocnionym uczeniu się jest uczenie maszynowe równoważne ze znanymi pojęciami psychologicznymi, takimi jak ból, przyjemność, zadowolenie i dobre samopoczucie. System uczenia się otrzymuje informacje, aby poprowadzić trening poza cel wyodrębnienia cech, niezależności grupowania lub znalezienia neuronowej macierzy masy netto, która aproksymuje związek między cechami zdarzeń wejściowych a ich etykietami.
Dostarczone informacje mogą pochodzić wewnętrznie z wcześniej zaprogramowanego rozpoznania wzoru lub zewnętrznie z nagrody i kary, jak ma to miejsce w przypadku ssaków. Techniki i algorytmy opracowywane we wzmocnionym uczeniu maszynowym często wykorzystują te dodatkowe sygnały (stosując podział czasu na przetwarzanie) lub stale wykorzystują niezależność jednostek przetwarzania równoległych architektur przetwarzania.
Dzieło to zostało zapoczątkowane na MIT przez Norberta Wienera i przedstawione w jego książce Cybernetics (MIT Press 1948). Słowo Cybernetyka pochodzi od starszego słowa, które oznacza sterowanie statkami . Automatyczny ruch steru w celu utrzymania kursu mógł być pierwszym mechanicznym systemem sprzężenia zwrotnego. Twój silnik kosiarki prawdopodobnie ma taki silnik.
Aplikacje adaptacyjne i uczenie się
Prosta adaptacja w czasie rzeczywistym dla pozycji steru lub przepustnicy kosiarki nie uczy się. Taka adaptacja jest zwykle jakąś formą liniowej regulacji PID. Obecnie rozwijana technologia uczenia maszynowego obejmuje ocenę i kontrolę złożonych, nieliniowych systemów, które matematycy nazywają chaotycznymi.
Przez chaos nie oznaczają, że opisane procesy są w szale lub są zdezorganizowane. Chaotycy odkryli przed dziesięcioleciami, że proste równania nieliniowe mogą prowadzić do wysoce zorganizowanych zachowań. Mają na myśli to, że zjawisko jest zbyt wrażliwe na niewielkie zmiany, aby znaleźć jakiś ustalony algorytm lub formułę, aby je przewidzieć.
Język taki jest. To samo stwierdzenie, z kilkoma różnymi fleksjami wokalnymi, może oznaczać tuzin różnych rzeczy. Zdanie angielskie „Naprawdę” jest przykładem. Jest prawdopodobne, że techniki wzmocnienia umożliwią przyszłym maszynom rozróżnienie z dużym prawdopodobieństwem sukcesu między różnymi znaczeniami tego stwierdzenia.
Dlaczego najpierw gry?
Gry mają bardzo prosty i łatwy do zdefiniowania zestaw możliwych scenariuszy. Jeden z głównych czynników przyczyniających się do pojawienia się komputera, John von Neumann, argumentował w Theory of Games and Economic Behavior , książce, którą jest współautorem Oskara Morgensterna, że wszelkie planowanie i podejmowanie decyzji jest w rzeczywistości graniem w gry o różnym stopniu złożoności.
Rozważ gry, przykładowy zestaw szkoleniowy kolekcji mózgów, który z czasem stworzy systemy, które mogą określać znaczenie oświadczenia, podobnie jak osoby wykształcone, na podstawie trzech źródeł wskazówek.
- Kontekst w rozmowie lub scenariuszu towarzyskim
- Odmiana głosu głośnika
- Wyraz twarzy i język ciała mówcy
Beyond Chess and The Game of Go
Na ścieżce od gier do systemów językowych z dokładnym rozumieniem i głębszymi możliwościami słuchania istnieje kilka zastosowań wzmocnionego uczenia się, które mają znacznie większe znaczenie dla Ziemi i ludzkiego doświadczenia.
- Systemy, które uczą się, jak wyłączać lub tłumić światła, urządzenia, systemy cyfrowe, HVAC i inne urządzenia zużywające energię - Energia jest prawdopodobnie najbardziej wpływowym geopolitycznie towarem w historii ludzkości ze względu na wyczerpywanie się zasobów paliw kopalnych.)
- Autonomiczny rozwój pojazdów - niebezpieczny trend eksploatacji ciężkiego sprzętu, takiego jak samoloty, pojazdy kempingowe, ciężarówki, autobusy i przyczepy ciągników przez osoby o nieznanym stanie umysłu na otwartych drogach, będzie prawdopodobnie postrzegany przez przyszłych ludzi jako szaleństwo.
- Ocena wiarygodności informacji - Informacje są wszędzie i ponad 99% z nich zawiera błędy, częściowo lub całkowicie. Bardzo niewiele jest potwierdzonych przez rzeczywiste badania, albo odpowiednio zaprojektowane i zinterpretowane randomizowane badania z podwójnie ślepą próbą, albo potwierdzone testy laboratoryjne i analizy.
- Aplikacje opieki zdrowotnej, które lepiej diagnozują, dostosowują środki zaradcze do danej osoby i pomagają w utrzymaniu opieki, aby zapobiec nawrotom.
Te cztery i wiele innych są znacznie ważniejsze niż gromadzenie bogactwa poprzez zautomatyzowane szybkie handlowanie lub wygrywanie konkursów, dwa samocentryczne zainteresowania uczeniem maszynowym, które wpływają tylko na jedno lub dwa pokolenia rodziny jednej osoby.
Bogactwo i sława są tym, co w teorii gier nazywa się grą o sumie zerowej . Przynoszą tyle strat, ile jest wygranych, jeśli weźmie się pod uwagę filozofię Złotej Reguły, że inni i ich rodziny są dla nas równie ważni.
Reinforced Learning for CAD (Computer Aided Design)
Projektowanie wspomagane komputerowo jest w naturalny sposób prekursorem projektowania komputerowego (bez pomocy ludzi), podobnie jak układy przeciwblokujące naturalnie prowadzą do w pełni autonomicznych pojazdów.
Zastanów się nad poleceniem: „Stwórz mi mydelniczkę na mój prysznic, która maksymalizuje prawdopodobieństwo, że moja rodzina może wziąć mydło za pierwszym razem bez otwierania oczu i minimalizuje trudność w utrzymaniu mydła i powierzchni prysznica w czystości. Oto wysokość członkowie mojej rodziny i zdjęcia kosmicznej kabiny prysznicowej. ” Następnie drukarka 3D wyskoczy z urządzenia i będzie gotowa do podłączenia wraz z instrukcją instalacji.
Oczywiście taki system CD (CAD bez A) musiałby zostać przeszkolony w zakresie sprzątania, ludzkich zachowań bez widzenia, sposobów mocowania przedmiotów do płytek, narzędzi i możliwości utrzymania w domu przeciętnego konsumenta, możliwości drukarki 3D i kilka innych rzeczy.
Takie zmiany w automatyzacji produkcji prawdopodobnie zaczną się od wzmocnionego uczenia się prostszych poleceń, takich jak: „Dołącz te dwie części za pomocą masowo produkowanych łączników i najlepszych praktyk”. Program CAD wybrałby następnie sprzęt spośród śrub, nitów, klejów i innych opcji, być może zadając projektantowi pytania dotyczące temperatur roboczych i zakresów drgań. Wybór, położenie i kąt zostaną następnie dodane do odpowiedniego zestawu części CAD i rysunków złożeniowych oraz zestawień materiałowych.