Czy test Lovelace 2.0 był z powodzeniem stosowany w środowisku akademickim?

W październiku 2014 r. Dr Mark Riedl opublikował podejście do testowania inteligencji AI, zwane „Testem Lovelace 2.0” , po zainspirowaniu oryginalnym testem Lovelace (opublikowanym w 2001 r.). Mark uważał, że oryginalny test Lovelace'a nie będzie mógł przejść pomyślnie, dlatego zasugerował słabszą i bardziej praktyczną wersję.

Test Lovelace 2.0 zakłada, że aby sztuczna inteligencja była inteligentna, musi wykazywać kreatywność. Z samego papieru:

Test Lovelace 2.0 wygląda następująco: sztuczny środek a jest kwestionowany w następujący sposób:

musi stworzyć artefakt typu t;

o musi być zgodny z zestawem ograniczeń C, gdzie ci ∈ C jest dowolnym kryterium wyrażonym w języku naturalnym;

człowiek oceniający h, po wybraniu t i C, jest przekonany, że o jest prawidłową instancją ti spełnia C; i

sędzia ludzki r określa kombinację ti C, aby nie były nierealne dla przeciętnego człowieka.

Ponieważ człowiek oceniający może wymyślić dość łatwe ograniczenia do pokonania przez AI, oczekuje się, że oceniający będzie wymyślał coraz bardziej złożone ograniczenia dla AI, dopóki AI nie zawiedzie. Celem Lovelace Test 2.0 jest porównanie kreatywności różnych AI, a nie zapewnienie wyraźnej linii podziału między „inteligencją” a „nieinteligencją”, jak zrobiłby to Test Turinga.

Zastanawiam się jednak, czy test ten został rzeczywiście zastosowany w środowisku akademickim, czy w tej chwili jest postrzegany jedynie jako eksperyment myślowy. Test Lovelace'a wydaje się łatwy do zastosowania w środowisku akademickim (musisz jedynie opracować mierzalne ograniczenia, których możesz użyć do przetestowania sztucznego czynnika), ale może być również zbyt subiektywny (ludzie mogą nie zgadzać się co do zasadności pewnych ograniczeń i tego, czy kreatywny artefakt wyprodukowany przez AI faktycznie spełnia ostateczny wynik).

history intelligence-testing

— Left SE On 10_6_19
źródło

Nie.

TL; DR: Test Lovelace 2.0 jest bardzo niejasny, co czyni go nieodpowiednim do oceny inteligencji. Jest to również na ogół ignorowane przez badaczy kreatywności obliczeniowej, którzy mają już własne testy do oceny kreatywności.

Dłuższa odpowiedź: według Google Scholar istnieje 10 odniesień do artykułu „Lovelace Test 2.0”. Wszystkie te odniesienia istnieją jedynie w celu wskazania, że istnieje test Lovelace 2.0. W rzeczywistości co najmniej dwa z artykułów, z którymi się skonsultowałem ( Nowe podejście do identyfikacji samoświadomego zachowania podobnego do człowieka i FraMoTEC: Ramy modułowej konstrukcji zadania-środowisko dla oceny systemów kontroli adaptacyjnej ) zaproponowały własne testy.

Jeden z autorów, który napisał artykuł FraMoTEC, również napisał swoją pracę magisterską na temat FraMoTEC i pośrednio skrytykował test Lovelace 2.0 i inne podobne testy:

Problem z Piaget-MacGyver Room [Bringsjord i Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] i Problem z pudełkiem [Johnston, 2010] wiążą się z tym, że zdefiniowano je bardzo niejasno - te metody oceny mogą się pojawić z rozsądną oceną inteligencji, ale bardzo trudno jest porównać dwa różne agenty (lub kontrolery), które biorą udział w ich własnych ocenach specyficznych dla domeny, co często zdarza się, gdy agenci są dostosowani do przekazywania określonych ocen.

Innym ważnym problemem związanym z testem Lovelace 2.0 jest to, że istnieje wiele innych testów w celu „zmierzenia” kreatywności AI. Ocena oceny: Ocena postępu w obliczeniowych badaniach kreatywności , opublikowana przez Annę Jordanous w 2011 roku (3 lata przed wynalezieniem testu Lovelace'a 2.0) przeanalizowała prace badawcze na temat kreatywności AI i napisała:

Z 18 artykułów, które stosowały metodologie oceny kreatywności do oceny kreatywności swojego systemu, żadna metodologia nie pojawiła się jako standard w całej społeczności. Najczęściej używana była kreatywna konstrukcja statywu Coltona ( Colton 2008 ) (6 zastosowań), przy czym 4 prace wykorzystywały kryteria empiryczne Ritchiego ( Ritchie 2007 ).

To pozostawia 10 artykułów z różnymi metodami oceny kreatywności.

Celem „Ewaluacji ewaluacji” była standaryzacja procesu oceny kreatywności, aby uniknąć możliwości stagnacji w dziedzinie z powodu mnożenia się tak wielu testów kreatywności. Anna Jordanous nadal była zainteresowana oceną testów kreatywności, publikując artykuły takie jak „Cofanie się do postępów: ustanawianie standardów meta-oceny kreatywności obliczeniowej” oraz Cztery perspektywy PPP dotyczące kreatywności obliczeniowej .

„Ocena ewaluacji” zawiera komentarz do wyjaśnienia proliferacji systemów oceny kreatywności:

Standardy oceny nie są łatwe do zdefiniowania. Trudno jest oceniać kreatywność, a jeszcze trudniej opisać, jak oceniamy kreatywność, zarówno ludzką, jak i komputerową. W rzeczywistości nawet sama definicja kreatywności jest problematyczna (Plucker, Beghetto i Dow 2004). Trudno jest ustalić, co pociąga za sobą „bycie kreatywnym”, więc nie ma żadnych punktów odniesienia ani podstawowych prawd do porównania.

Fakt, że istnieje już tak wiele testów kreatywności (do tego stopnia, że Jordanous może zrobić karierę akademicką w ich studiowaniu) oznacza, że bardzo trudno jest zauważyć jakikolwiek nowy test (taki jak test Lovelace 2.0) (znacznie mniej cytowany ). Dlaczego miałbyś chcieć użyć czegoś takiego jak test Lovelace 2.0, skoro jest tyle innych testów, których możesz użyć zamiast tego?

— Left SE On 10_6_19
źródło