Czy można wytrenować głębokie sieci w celu udowodnienia twierdzeń?


21

Załóżmy, że mamy dużą liczbę dowodów w rachunku predykatów pierwszego rzędu. Załóżmy, że mamy również aksjomaty, następstwa i twierdzenia w tej dziedzinie matematyki w tej formie.

Rozważ każdą twierdzenie, która została udowodniona, oraz treść istniejącej teorii otaczającej tę konkretną propozycję jako przykład w zestawie szkoleniowym i znany dobry dowód propozycji jako powiązane etykiety. Rozważmy teraz głęboką sztuczną sieć zaprojektowaną specjalnie do trenowania na tym zestawie przykładów, a hiperparametry ustawione poprawnie, aby to zrobić.

Czy jest możliwe wytrenowanie głębokiej sztucznej sieci w taki sposób, aby prezentacja nowej twierdzenia i istniejącej wokół niej teorii przedstawionej w rachunku predykatów pierwszego rzędu na wejściu dawała dowód na wyjściu?

(Oczywiście takie dowody należy następnie sprawdzić ręcznie.)

Jeśli odsetek uzyskanych dobrych dowodów jest wystarczająco wysoki, czy można stworzyć algorytm genetyczny, który proponuje propozycje wyszkolonej głębokiej sieci, tworząc w ten sposób dowody?

Czy to jest możliwe?

Czy byłoby możliwe wykorzystanie tego rodzaju głębokiej sieci do rozwiązania hipotezy Collatza lub Riemanna lub przynajmniej zmiany schematów w taki sposób, aby matematycy byli w stanie uzyskać wiarygodny dowód?


5
O ile mogę myśleć o „donośnym nie”, NN są dobre tylko dla przybliżeń funkcji (bardzo dobrze) ... powiedzenie, że NN może zrobić to, co mówisz, robi podstawowe założenie, że wszystkie dowody są w jakiś sposób funkcją probelms, varibales lub inne rzeczy ... i nie wiem, czy ktoś tak powiedział
DuttaA

2
@DouglasDaseeco prawie wszystkie dowody są autorstwa matematyków wyobrażających sobie coś abstrakcyjnego „intuicyjnie”, a następnie ożywiać… podczas gdy NN zdecydowanie nie jest w stanie tego zrobić… będą w stanie udowodnić jedynie drobne lub podobne twierdzenia, takie jak znalezienie wyjątku i w ten sposób obalić czy coś w tym stylu
DuttaA

1
@DuttaA, intuicji jest znacznie łatwiej nauczyć sieci neuronowej niż logiki. Sztuczne sieci mogą sortować niejednoznacznie adresowaną pocztę bez mechanizmu reguł. Wydzielanie funkcji i kategoryzacja bez nadzoru są również bliższe intuicji. Operacje logiczne, takie jak mnożenie podwójnych, są nie do pokonania. W psychologii rozwojowej intuicyjne pozyskiwanie uwagi dorosłych ma miejsce na wiele lat przed logiczną koncepcją AND i OR. Dzieci nie myślą przyczynowo: „Jeśli jęczę, mama się załamie i da mi cukier”. Wykonują funkcję, a nie plan. W mojej odpowiedzi tutaj pierwsze dwa elementy są najtrudniejsze.
FauChristian

2
Czy mogę zasugerować użycie NN do kierowania tradycyjnym przysłowiowym twierdzeniem. Regularny prover twierdzeń przedstawia możliwości dla sieci, a NN musi tylko wybrać jedną. W ten sposób nie trzeba uczyć się, co jest i nie jest prawidłową logiką, a tylko to, co interesujące.
PyRulez

Odpowiedzi:


6

Istniejące systemy produkcyjne, opracowane w ciągu ostatnich kilku dekad, mają zakodowane w nich reguły wnioskowania. Opierają się na wizji Leibniza, że ​​cała logika klasyczna może być zakodowana w języku symbolicznym i przetwarzana mechanicznie. Opracowano logikę predykatów pierwszego rzędu i sformalizowano nomeclature.

Chociaż wizja automatycznego dowodzenia twierdzeń była w znacznym stopniu podważona przez dwa twierdzenia Gödela, prace nad kompletnością Turinga i opracowanie architektury do praktycznej realizacji przez von Neumanna ożywiły pracę w kierunku automatyzacji mechanicznego wnioskowania.

Laboratorium AI MIT za czasów Minsky'ego żyło takimi wysiłkami, ale to, co nazwali kombinacyjną eksplozją, pokazało, że nie było wystarczającej dostępności zasobów obliczeniowych do przeszukiwania przestrzeni wymaganej do automatycznego udowodnienia arbitralnych twierdzeń o nietrywialnej złożoności. Duże komputery równoległe zwane maszynami łączącymi i różnymi schematami, wykorzystujące meta reguły i podejścia heurystyczne, zostały wykorzystane do rozwiązania problemu kombinatorycznej eksplozji.

Wprowadzono sztuczne sieci, a społeczność LISP podważyła pomysł, że mogą one konkurować z maszynami produkcyjnymi, kiedy po raz pierwszy zaproponowano. Jednak w kontekście znacznego sukcesu w zwiększaniu zasobów obliczeniowych i ostatnich osiągnięć w uczeniu maszynowym wielu zaczęło zadawać pytania, które zostały odłożone na półkę w XX wieku.

Wiemy już, że sztuczne sieci mogą uczyć się arbitralnych funkcji logicznych i algebraicznych, z których wiele można nauczyć się za pomocą PAC. 1 Biorąc pod uwagę odpowiednie środowisko uczenia się, logiczne wnioskowanie jest oczywiście czymś, co kora mózgowa może zrobić na obecnym etapie ewolucji. To, czy sieci neuronowe osiągną ten poziom poznania, jest otwartym pytaniem wielu osób.

Że główny nurt sztucznej inteligencji i badania nad uczeniem maszynowym nie koncentrują się na sztucznym pozyskiwaniu sieci logicznych reguł wnioskowania, głównie dlatego, że programowanie ich w systemie takim jak DRools i inne powszechnie stosowane systemy produkcyjne wydaje się, że bardziej racjonalne podejście nie oznacza, że ​​zawsze tak będzie. Pytanie brzmi, czy zwrot z inwestycji jest wystarczający, aby zrobić coś interesującego, ale z pewnością kosztownego, gdy istnieją już inne rozwiązania.

To pytanie jest podobne do innego pytania dotyczącego wymiany sztucznej inteligencji na temat tego, jak dobra jest sztuczna inteligencja w matematyce. Jedna z podanych tam odpowiedzi ma zastosowanie tutaj.

Ważne jest, aby nie odrzucać żadnego podejścia w tym okresie, ponieważ niedawne zainteresowanie AI nie tylko ożywiło wydatki rządowe, ale także wydatki komercyjne. Wydatki te zwiększają personel, moc obliczeniową i motywację do pokonywania przeszkód, które wcześniej mogły być uważane za nie do pokonania.


Przypisy

[1] PAC Learning jest ramą do określania praktycznej obliczalności algorytmów uczenia się, biorąc pod uwagę cechy klasy hipotez, których można się nauczyć przy użyciu danego modelu oraz oczekiwaną dokładność i pewność procesu uczenia się.


1

Twój pomysł może być w ogóle wykonalny, ale sieć neuronowa jest prawdopodobnie niewłaściwym narzędziem wysokiego poziomu do zbadania tego problemu.

Siłą sieci neuronowej jest znalezienie wewnętrznych reprezentacji, które pozwalają na wysoce nieliniowe rozwiązanie podczas mapowania wejść na wyjścia. Kiedy trenujemy sieć neuronową, te odwzorowania są uczone statystycznie poprzez powtarzanie przykładów. Prowadzi to do opracowania modeli, które interpolować dobrze gdy podane dane podobne do zbioru treningowego, ale Przewidywanie źle.

Modele sieci neuronowej również nie mają kontekstu, tak więc jeśli użyjesz modelu generatywnego (np. RNN wyszkolonego na sekwencjach, które tworzą ważny lub interesujący dowód), może łatwo wytworzyć statystycznie przyjemne, ale bez znaczenia śmieci.

Będziesz potrzebować jakiejś zasady organizowania, która pozwala badać i potwierdzać dowody w kombinatoryczny sposób. W rzeczywistości coś takiego jak twój pomysł zostało już zrobione więcej niż jeden raz, ale obecnie nie mogę znaleźć referencji.

Nic nie powstrzymuje Cię przed użyciem sieci neuronowej w sztucznej inteligencji, która szuka dowodów. W matematycznym AI mogą znajdować się miejsca, w których na przykład potrzebujesz dobrej heurystyki, aby poprowadzić wyszukiwanie - np. W kontekście X jest pod-dowód Y może być interesujący lub istotny. Ocena wyniku prawdopodobieństwa jest czymś, co sieć neuronowa może zrobić w ramach szerszego schematu sztucznej inteligencji. Jest to podobne do łączenia sieci neuronowych z uczeniem się wzmacniającym.

Zasadniczo możliwe jest zbudowanie całego pomysłu z sieci neuronowych. W końcu istnieją dobre powody, by podejrzewać, że ludzkie rozumowanie działa podobnie przy użyciu neuronów biologicznych (nie udowodniono, że sztuczne mogą się z tym równać). Jednak architektura takiego systemu wykracza poza jakikolwiek nowoczesny projekt lub konfigurację szkoleniową NN. Na pewno nie będzie to tylko kwestia dodania wystarczającej liczby warstw, a następnie wprowadzenia danych.


Max nie szuka narzędzia. Zaczął od „Wyobraź sobie, że mam listę wszystkich problemów i dowodów” w pytaniu przed edycją. „Nadmierna edycja ukryła to pierwsze słowo. Myśli o wykonalności, która jest uzasadnioną działalnością badawczą. Badania zwykle zaczynają się od wyobrażenie i wykonalność. Max nie jest jedynym, który dostrzega znaczenie swojego pytania. Istnieją setki osób, które wiedzą, że może być sposób na szkolenie sieci w celu udowodnienia poprzez optymalizację stosowania reguł wnioskowania. Wyuczona intuicja. Nietzschean Hofstadter dyskutuje na ten temat
FauChristian,

@FauChristian Czytam „czy to możliwe”, czy można to osiągnąć przy użyciu obecnie znanych technik i jak można by rozpocząć takie badania ponownie przy użyciu istniejących metod. Zgadzam się, że można odpowiedzieć przy użyciu bardziej teoretycznego kąta. Ciekawe może być pytanie Meta, w jaki sposób OP może oznaczać różnicę i jak możemy potwierdzić zamiar
Neil Slater,

1

Co wiemy

Według strony Banku Światowego: „Obecnie na świecie jest około 200 milionów studentów wyższych uczelni, w porównaniu z 89 milionami w 1998 roku”. Co najmniej 1 na 100 musiał, jako wymaganie matematyczne, opracować dowód na twierdzenie i żyć co najmniej 40 lat później.

Chociaż istnieje co najmniej 20 milionów sieci neuronowych, które mogą udowodnić twierdzenie, brakuje im przykładów, które odpowiedziałby twierdząco. Te sieci neuronowe są biologiczne, a nie sztuczne, i w większości udowodniły one wcześniej udowodnione twierdzenia, nie hipotezę Collatza ani hipotezę Riemanna.

Co niektórzy wierzą

Ci, którzy wierzą, że do głębokiego uczenia Q i urządzeń opartych na uwadze dołączą inne konstrukcje systemów uczenia się, dopóki zdolności ludzkiego mózgu nie zostaną zasymulowane i być może przekroczone, prawdopodobnie uwzględnią twierdzenie jako jedną z tych ludzkich możliwości. Prawdopodobnie zadeklarują logikę predykcji i wnioskowanie jako kolejną złożoną funkcję poznawczą, która zostanie osiągnięta w sztucznych systemach.

Ci, którzy uważają, że niektóre zdolności są nasycone ludźmi i są zarezerwowanymi możliwościami, mogą zadeklarować logikę predykcji i wnioskowanie jako zastrzeżone tylko dla ludzi.

Aktualny stan postępu

Nie ma artykułów akademickich wskazujących na możliwość udowodnienia nawet najprostszych dowodów za pomocą logiki predykcyjnej i wnioskowania. Możliwe, że rząd lub przedsiębiorstwo prywatne osiągnęło pewien poziom sukcesu, ale nie zostało to ujawnione.

Pomysł, że sztuczne sieci, jeśli zostaną znacznie rozwinięte, mogą przewyższyć systemy produkcyjne, systemy AI oparte na produkcjach lub regułach, w obszarach o największej skuteczności, został zaproponowany na wczesnym etapie rozwoju AI. Było to wtedy kwestionowane i teraz dyskutowane, jednak argumenty nie są matematyczne, więc nie ma wyraźnych przesłanek, że jest to niemożliwe.

Z pewnością inne aspekty poznawcze ludzkiej myśli są ważnymi celami badań nad AI. Dialog, zautomatyzowana edukacja, planowanie, analiza strategiczna i pilotowanie pojazdów to wszystkie aspekty wyższej myśli, które wymagają więcej niż DQN, a podejście sieciowe oparte na uwadze może teraz przynieść, ale wysiłki badawcze w tych obszarach są znaczne i dobrze finansowane.

Potencjalne podejście

Badania nad logicznymi zdolnościami poznawczymi powinny rozpocząć znane już dowody, znacznie prostsze niż przypuszczenia wspomniane w pytaniu. Na przykład udowodniono, że suma dwóch nieujemnych liczb całkowitych musi być kolejną liczbą całkowitą nieujemną. W rachunku predykatów może być reprezentowany jako ciąg znaków.

zado,bdo:s=za+bsdo

Mówi, że aib są członkami zbioru liczb zliczających, że s, zdefiniowane jako suma tych dwóch, musi być również członkiem zbioru liczb zliczających. Dowód ten można również przedstawić jako ciąg ciągów znaków rachunku predykatów pierwszego rzędu.

No Small Project Research

Taki przykład może wydawać się prosty dla kogoś, kto odbył lata kursów matematyki i skonstruował dowody. Dla dziecka nie jest to łatwe i bardzo trudno jest uzyskać sztuczną sieć, która konwerguje się w funkcję, która stosuje wszystkie reguły logicznego wnioskowania i zawiera meta-reguły pozwalające uzyskać dowód na formalny system, taki jak arytmetyka liczb całkowitych.

Turing kompletnych sieci, takich jak RNN, z pewnością będzie miał przewagę nad MLP (perceptrony wielowarstwowe). Sieci oparte na uwagach mogą być rozsądną opcją badawczą. Są inne wskazane w poniższych odnośnikach.

Do badań potrzebna byłaby równoległa platforma obliczeniowa, ponieważ wektor wejściowy może wynosić setki kilobajtów. Rozmiary przykładów i liczbę potrzebnych jest trudno oszacować bez udziału roku lub dwóch w procesie badawczym.

Najpierw należy zdefiniować liczenie liczb, znak plus i znak równości, a te definicje i pewna liczba aksjomatów, postulatów, lematów i następstw muszą być częścią przykładu wprowadzania w formie formalnej, takiej jak propozycja, która ma być udowodnione powyżej, wraz z tą propozycją.

I to jest praca, aby przygotować tylko jeden przykład. Potrzebujesz tysięcy, aby wyszkolić intuicyjną wiedzę na temat zasad wnioskowania w głębokiej sieci. (Bardzo celowo wybrałem słowo INTUICYWNE z powodów teoretycznych, których wyjaśnienie zajęłoby co najmniej sto stron).

To nie jest mały projekt, ponieważ przykładowy zestaw danych musi zawierać co najmniej kilka tysięcy przypadków, a każdy przypadek, choć może mieć pewną teorię, musi być tak skonfigurowany, aby propozycja została idealnie sformułowana, a także niezbędny zbiór teorii w doskonałej formie na wejściu dla każdej iteracji treningu.

Domyślam się, że zajęłoby to zespołowi błyskotliwych badaczy z odpowiednim zrozumieniem głębokich sieci, zbieżności i rachunku predykatów około dziesięciu lat, aby wyszkolić sieć, aby dawać realne dowody w odpowiedzi na proste matematyczne propozycje.

Ale nie byłoby to małe osiągnięcie

Dla niektórych może to wydawać się absurdalne, ale byłby to pierwszy raz, kiedy ktoś nauczyłby komputer logiki. Natury tuż przed ziemią zajęło nauczanie logicznego wnioskowania o organizmie, Sokratesie.

Ludzie zakładają, że ponieważ komputer składa się z obwodów cyfrowych wykonujących logikę zgodnie z projektem, komputery są logiczne. Każdy, kto zajmuje się tworzeniem oprogramowania od dziesięcioleci i ma skłonność do myślenia głębszego niż hakowanie dla zabawy lub pieniędzy, wie inaczej. Nawet po starannym zaprogramowaniu komputery nie symulują logicznego wnioskowania i nie mogą skorygować własnego zaprogramowanego zachowania pod kątem dowolnego błędu. W rzeczywistości większość dzisiejszego rozwoju oprogramowania polega na naprawianiu błędów.

Symulowanie logicznej myśli byłoby ważnym krokiem w kierunku symulacji poznania i szerszego zakresu ludzkich możliwości.


Referencje

Nauka komponowania sieci neuronowych do odpowiedzi na pytania Jacob Andreas, Marcus Rohrbach, Trevor Darrell i Dan Klein UC, Berkeley 2016 https://arxiv.org/pdf/1601.01705.pdf

Nauka wielu warstw reprezentacji Geoffrey E. Hinton Department of Computer Science, University of Toronto 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Neural Turing Machine (pokaz slajdów) Autor: Alex Graves, Greg Wayne, Ivo Danihelka Przedstawienie: Tinghui Wang (Steve) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Maszyny neuronowe Turinga (papier) Alex Graves, Greg Wayne, Ivo Danihelka https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Uczenie się wzmacniające, maszyny neuronowe Wojciech Zaremba, Ilya Sutskever ICLR dokument konferencyjny https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer 2016

Dynamiczna maszyna neuronowa Turinga z ciągłymi i dyskretnymi schematami adresowania Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Internetowa samokonstruująca rozmyta sieć neuronowa, sieć wnioskowania i jej zastosowania Chia-Feng Juang i Chin-Teng Lin IEEE Transakcje w Fuzzy Systems, v6, n1 1998 https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Gated Graph Sequence Neural Networks Yujia Li i Richard Zemel Konferencja ICLR 2016 https://arxiv.org/pdf/1511.05493.pdf

Maszyny budowlane, które uczą się i myślą jak ludzie Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum oraz Samuel J. Gershman Behavioural and Brain Sciences 2016 https://arxiv.org/pdf/1604.00289.pdf

Zależne od kontekstu wstępnie przeszkolone głębokie sieci neuronowe do rozpoznawania mowy z dużym słownictwem Transakcje George E. Dahl, Dong Yu, Li Deng i Alex Acero IEEE dotyczące przetwarzania dźwięku, mowy i języka 2012 https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A i utraci ważność = 1534211789 i podpis = 33QcFP0JGFeA% 2FTsqjQZpXYrIGm_%% 3DEd% 3% 3DD% 3% 3DD% 15

Osadzanie jednostek i relacji w celu uczenia się i wnioskowania w bazach wiedzy Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 i Li Deng2 Konferencja ICLR 2015 https://arxiv.org/pdf/1412.6575.pdf

Algorytm szybkiego uczenia się dla sieci głębokiej wiary Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (przekazany przez Yann Le Cun) Obliczenia neuronowe 18 2006 http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Networks / hinton1 * .pdf

FINN: Framework for Fast, Scalable Binaryized Neural Network Wnioskowanie Yaman Umuroglu i in. 2016 https://arxiv.org/pdf/1612.07119.pdf

Od uczenia maszynowego do rozumowania maszynowego Léon Bottou 2/8/2011 https://arxiv.org/pdf/1102.1808.pdf

Dogłębne uczenie się Yann LeCun1,2, Yoshua Bengio3 i Geoffrey Hinton4,5 Nature vol 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf


-1

Jest to możliwe, ale prawdopodobnie nie jest to dobry pomysł.

Dowód logiczny jest jednym z najstarszych obszarów sztucznej inteligencji, a istnieją specjalne techniki, które nie wymagają szkolenia i są bardziej niezawodne niż podejście oparte na sieci neuronowej, ponieważ nie opierają się na wnioskach statystycznych , i zamiast tego użyj przyjaciela matematyka: rozumowanie dedukcyjne.

Główne pole nosi nazwę „ Automated Theorem Proving ” i jest na tyle stare, że jest trochę zwapnione jako obszar badań. Nie ma wielu innowacji, ale niektórzy nadal nad tym pracują.

Podstawową ideą jest to, że dowodzenie twierdzeń jest po prostu klasycznym lub heurystycznym wyszukiwaniem kierowanym: zaczynasz od stanu składającego się z zestawu zaakceptowanych przesłanek. Następnie zastosujesz każdą prawidłową logiczną regułę wnioskowania, aby wygenerować nowe przesłanki, które również muszą być prawdziwe, poszerzając posiadany zestaw wiedzy. W końcu możesz udowodnić pożądaną przesłankę, albo poprzez wyszukiwanie numeryczne, takie jak pierwsze wyszukiwanie szerokości lub iteracyjne pogłębianie , lub poprzez coś takiego jak A * z heurystykami specyficznymi dla domeny. Wiele solverów używa również tylko jednej reguły logicznej ( unifikacji ), ponieważ jest ona kompletna i zmniejsza współczynnik rozgałęzienia wyszukiwania.


Brak ludzi, którzy wciąż nad tym pracują, może być przyczyną braku innowacji. Nie powinniśmy odwieść Maxa tak szybko, zwłaszcza że zautomatyzowane twierdzenie potwierdzające pracę w pierwszych dniach LISP nie zastosowało szerszej gamy obecnie dostępnych technik. Czemu? O tym mówiłem w innym komentarzu. Ludzie systemu produkcyjnego nie wchodzili w interakcje z ludźmi z perceptronu. Były obelgi, ale zaangażowane uniwersytety usunęły je z publicznego widoku.
FauChristian
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.