Czy uczenie maszynowe jest mniej przydatne do zrozumienia związku przyczynowego, a tym samym mniej interesujące dla nauk społecznych?


42

Rozumiem różnicę między uczeniem maszynowym / innymi statystycznymi technikami predykcyjnymi a rodzajem statystyk, które stosują naukowcy społeczni (np. Ekonomiści), że ekonomiści wydają się bardzo zainteresowani zrozumieniem efektu jednej lub kilku zmiennych - zarówno pod względem wielkość i wykrywanie, czy związek jest przyczynowy. W tym celu zajmujesz się metodami eksperymentalnymi i quasi-eksperymentalnymi itp.

Uczenie maszynowe lub modelowanie statystyczne, które jest predykcyjne, często całkowicie pomija ten aspekt, aw wielu przypadkach nie daje określonego stopnia, w jakim jedna zmienna wpływa na wynik (wydaje się, że logit i probit robią oba te elementy).

Powiązane pytanie dotyczy tego, w jakim stopniu modele ekonomiczne lub behawioralne inspirowane teoretycznie mają przewagę nad modelami ateoretycznymi podczas przewidywania nowych domen? Co powiedziałby krytyce uczenie maszynowe lub statystyki zorientowane na przewidywanie, że bez modelu ekonomicznego nie można poprawnie przewidzieć nowych próbek, w których zmienne towarzyszące byłyby bardzo różne.

Byłbym bardzo szczęśliwy, słysząc, jak ludzie podchodzą do tego ze wszystkich perspektyw.


Pytanie. Czy chciałeś napisać „modele ateoretyczne”, a jeśli tak, co miałeś na myśli? A może miałeś na myśli „teoretyczny”?
Faheem Mitha,

2
Być może patrzysz na modele generatywne kontra dyskryminacyjne? Uczenie maszynowe skłania do dyskryminacyjnych modeli i technik.
Wayne,

@FaheemMitha: „athoretical”: bez teorii.
naught101

Odpowiedzi:


32

IMHO nie ma formalnych różnic, które odróżniają uczenie maszynowe i statystyki na podstawowym poziomie dopasowania modeli do danych. Mogą istnieć różnice kulturowe w wyborze modeli, celach dopasowania modeli do danych, a w niektórych rozszerzeniach interpretacji.

W typowych przykładach, o których zawsze mogę myśleć

  • kolekcja modeli dla dla niektórych zestawów indeksów ,MiiII
  • i dla każdego nieznana składowa (parametry mogą być nieskończony wymiarowe) modelu .iθiMi

Dopasowywanie do danych jest prawie zawsze matematycznym problemem optymalizacji polegającym na znalezieniu optymalnego wyboru nieznanego komponentu aby dopasować do danych, mierzone przez jakąś ulubioną funkcję.MiθiMi

Wybór spośród modeli jest mniej standardowy i dostępny jest szereg technik. Jeśli cel dopasowania modelu jest czysto predykcyjny, wybór modelu odbywa się w celu uzyskania dobrej wydajności predykcyjnej, natomiast jeśli głównym celem jest interpretacja modeli wynikowych, łatwiej wybrać inne modele, nawet jeśli ich interpretacja jest łatwiejsza. moc przewidywania będzie gorsza.Mi

To, co można nazwać starą szkołą wyboru modelu statystycznego, opiera się na testach statystycznych, być może w połączeniu ze stopniowymi strategiami selekcji, podczas gdy wybór modelu uczenia maszynowego zazwyczaj koncentruje się na oczekiwanym błędzie uogólnienia, który jest często szacowany za pomocą walidacji krzyżowej. Wydaje się jednak, że obecny rozwój i rozumienie wyboru modeli zbliża się do bardziej powszechnej płaszczyzny, patrz na przykład wybór modelu i uśrednianie modelu .

Wnioskowanie o przyczynowości na podstawie modeli

Sednem sprawy jest to, jak możemy interpretować model? Jeśli uzyskane dane pochodzą ze starannie zaprojektowanego eksperymentu, a model jest wystarczający, prawdopodobne jest, że możemy interpretować wpływ zmiany zmiennej w modelu jako efekt przyczynowy, a jeśli powtórzymy eksperyment i zainterweniujemy w tę konkretną zmienną możemy spodziewać się zaobserwowanego efektu. Jeżeli jednak dane są obserwacyjne, nie możemy oczekiwać, że oszacowane efekty w modelu odpowiadają obserwowanym efektom interwencyjnym. Będzie to wymagało dodatkowych założeń niezależnie od tego, czy model jest „modelem uczenia maszynowego”, czy „klasycznym modelem statystycznym”.

Może się zdarzyć, że osoby przeszkolone w posługiwaniu się klasycznymi modelami statystycznymi, z naciskiem na szacunki parametrów jednowymiarowych i interpretacje wielkości efektu, mają wrażenie, że interpretacja przyczynowa jest bardziej aktualna w tych ramach niż w ramach uczenia maszynowego. Powiedziałbym, że nie.

Obszar wnioskowania przyczynowego w statystykach tak naprawdę nie usuwa problemu, ale czyni założenia, na których spoczywają jednoznaczne wnioski przyczynowe. Są one określane jako nietrwałe założenia . Artykuł Wnioskowanie przyczynowe w statystykach: przegląd autorstwa Judei Pearl to dobry artykuł do przeczytania. Głównym wnioskiem z wnioskowania przyczynowego jest zebranie metod szacowania skutków przyczynowych przy założeniach, w których faktycznie występują nieobserwowane pomieszania, co poza tym stanowi poważny problem. Patrz sekcja 3.3 powyżej w perłowym dokumencie. Bardziej zaawansowany przykład można znaleźć w artykule Marginal Structural Models i wnioskowanie przyczynowe w epidemiologii .

Pytanie dotyczy kwestii, czy istnieją nietrwałe założenia. Są one dokładnie niesprawdzalne, ponieważ nie możemy ich przetestować przy użyciu danych. Aby uzasadnić założenia, wymagane są inne argumenty.

Jako przykład spotkania uczenia maszynowego i wnioskowania przyczynowego, pomysły ukierunkowanego szacowania maksymalnego prawdopodobieństwa przedstawione w Docelowym uczeniu maksymalnego prawdopodobieństwa Mark van der Laan i Daniel Rubin zwykle wykorzystują techniki uczenia maszynowego do szacowania nieparametrycznego, a następnie „targetowanie „w kierunku parametru będącego przedmiotem zainteresowania. Ten ostatni może równie dobrze być parametrem o interpretacji przyczynowej. Pomysł w Super Learnerpolega w dużej mierze na technikach uczenia maszynowego w celu oszacowania interesujących parametrów. Mark van der Laan (komunikacja osobista) podkreśla, że ​​klasyczne, proste i „interpretowalne” modele statystyczne są często błędne, co prowadzi do stronniczych estymatorów i zbyt optymistycznej oceny niepewności szacunków.


Dzięki za tę niesamowitą odpowiedź ... Nie mogę się doczekać śledzenia wszystkich podanych linków. Jedno pytanie, które mam, dotyczy technik. Czy istnieje analog uczenia maszynowego czegoś w rodzaju zmiennych instrumentalnych dla danych obserwacyjnych? Ponadto - w przypadku randomizacji zmiennej, jaka byłaby alternatywa uczenia maszynowego w stosunku do prostego testu t różnic między zabiegami? Czy potrzebna jest technika uczenia maszynowego, jaką miałaby ona przewagę?
d_a_c321

@dchandler, moje doświadczenie ze zmiennymi instrumentalnymi jest bardzo ograniczone, ale znowu nie widzę żadnego formalnego powodu, aby odróżniać uczenie maszynowe od metodologii statystycznej dopasowania modelu , dlatego można bardzo dobrze uwzględnić zmienne instrumentalne, jeśli służy to celowi. Uważam, że najciekawszym zagadnieniem związanym z przyczynowością jest efekt interwencji. Zasadniczo jest to kwestia prognoz, ale być może nie rozkład danych obserwacyjnych.
NRH,

@dchandler, w przypadku drugiego pytania nie przedstawiłbym tego w ten sposób jako relacji jeden do jednego w metodach uczenia maszynowego i metodach statystycznych. -test obliczany jest odpowiedzieć na pytanie: Czy istnieją dowody w danych do odrzucenia hipotezy zerowej, że środki te są równe? Możemy długo dyskutować na temat tego, czy jest to interesujące, a nawet czy test i odpowiadająca mu wartość dają dobrą odpowiedź, ale nie sądzę, aby pytanie, czy istnieje alternatywa uczenia maszynowego, nie ma sensu. ttp
NRH,

Jednak po przeprowadzeniu interwencji, jakiego rodzaju statystyki wykorzysta uczenie maszynowe? Podstawowa statystyka projektowania eksperymentalnego jest na ogół prosta jak mózg (porównanie średnich za pomocą testu t). W ekonometrii, przy większym założeniu, możesz spróbować odzyskać różne kwantyle lub rozkład efektów leczenia. Co zrobiłaby analiza uczenia maszynowego poza porównywaniem?
d_a_c321

To, co jest nie do zniesienia łatwe, to obliczenie czegoś, co nie jest tak łatwe, to uzasadnienie wymaganych założeń. Podejście TMLE według Marka polega na oszacowaniu wielkości efektu (parametry będące przedmiotem zainteresowania, na ogół może efekty interwencyjne, może efekty obserwacyjne) i zapewnia uczciwe przedziały ufności przy mniej restrykcyjnych założeniach modelu. Elastyczne dopasowanie modelu z wyborem modelu na podstawie weryfikacji krzyżowej służy do uniknięcia restrykcyjnego i niewłaściwego modelu parametrycznego.
NRH,

10

Istnieje (dość ograniczony) zestaw narzędzi statystycznych do tak zwanego „wnioskowania przyczynowego”. Są one zaprojektowane do faktycznej oceny związków przyczynowych i udowodniono, że robią to poprawnie. Doskonałe, ale nie dla łagodnego serca (lub mózgu, jeśli o to chodzi).

Poza tym w wielu przypadkach zdolność do sugerowania przyczynowości jest bardziej konsekwencją twojego projektu niż technik, o których mowa: jeśli masz kontrolę nad „wszystkimi” zmiennymi w swoim eksperymencie i za każdym razem widzisz, że coś się dzieje ( tylko) zmień jedną zmienną, rozsądne jest nazywanie tego, co się dzieje, „konsekwencją” rzeczy, którą zmieniasz (niestety, w prawdziwych badaniach, te ekstremalne przypadki rzadko występują). Kolejne intuicyjne, ale rozsądne rozumowanie opiera się na czasie: jeśli losowo (ale w kontrolowany sposób) zmienisz zmienną, a inna zmieni się następnego dnia, przyczynowość jest również tuż za rogiem.

Cały mój drugi akapit zasadniczo działa niezależnie od tego, jakich metod używasz, aby znaleźć zmienne, które zmieniły się w jakich warunkach, więc przynajmniej teoretycznie nie ma powodu, dla którego Machine Learning (ML) byłby gorszy niż metody oparte na statystykach.

Uwaga : bardzo subiektywne śledzenie akapitów

Jednak z mojego doświadczenia wynika, że ​​zbyt często techniki ML są po prostu wypuszczane na kroplę danych, bez względu na to, skąd dane pochodzą i jak zostały zebrane (tj. Zignorowanie projektu). W takich przypadkach bardzo często wynik się kumuluje, ale niezwykle trudno będzie powiedzieć coś użytecznego o przyczynowości. To będziebądź dokładnie taki sam, gdy na tych samych danych uruchomiona zostanie jakaś statystycznie solidna metoda. Jednak ludzie z silnym doświadczeniem w dziedzinie statystyki są szkoleni, aby być krytycznym wobec tych kwestii, a jeśli wszystko pójdzie dobrze, unikną tych pułapek. Być może to właśnie sposób myślenia wczesnych (ale niechlujnych) osób stosujących techniki ML (zazwyczaj nie twórców nowych technik, ale tych, którzy chcą „udowodnić” niektóre z nich w swojej dziedzinie zainteresowań), dał ML złą reputację w tym zakresie konto. (zauważ, że nie mówię, że statystyki są lepsze niż ML, lub że wszyscy ludzie, którzy robią ML, są niechlujni, a ci, którzy robią statystyki, nie są)


Dziękuję bardzo za odpowiedź. Naprawdę podoba mi się twoje wyjaśnienie, w jaki sposób przyczynowość jest bardziej konsekwencją projektowania niż technik. Jedno pytanie, które zastanawiałem się nad technikami, brzmi: czy istnieje coś takiego jak zmienne instrumentalne do uczenia maszynowego. Ponadto - w przypadku randomizacji zmiennej, jaka byłaby alternatywa uczenia maszynowego w stosunku do prostego testu t różnic między zabiegami?
d_a_c321

9

Moim zdaniem modele stosowane w ekonomii i innych naukach społecznych są użyteczne tylko o tyle, o ile mają moc predykcyjną w świecie rzeczywistym - model, który nie przewiduje świata rzeczywistego, to tylko sprytna matematyka. Moje ulubione powiedzenie dla kolegów brzmi: „dane są królem”.

Wydaje mi się, że twoje pytanie rodzi dwie krytyki podejścia predykcyjnego. Po pierwsze, zwracasz uwagę, że modele wytworzone technikami uczenia maszynowego mogą nie być interpretowalne . Po drugie, sugerujesz, że metody stosowane w naukach społecznych są bardziej przydatne do odkrywania związków przyczynowych niż uczenie maszynowe.

Aby rozwiązać pierwszy punkt, podałbym następujący argument przeciwny. Obecna moda na uczenie maszynowe sprzyja metodom (takim jak SVM i NN), które nie są łatwe do zrozumienia dla laika. Nie oznacza to, że wszystkie techniki uczenia maszynowego mają tę właściwość. Na przykład, czcigodne drzewo decyzyjne C4.5 jest nadal szeroko stosowane 20 lat po osiągnięciu ostatniego etapu jego rozwoju i generuje szereg reguł klasyfikacji. Twierdziłbym, że takie reguły lepiej nadają się do interpretacji niż pojęcia takie jak iloraz szans, ale to subiektywne twierdzenie. W każdym razie takie modele interpretowalne.

Odnosząc się do drugiego punktu, przyznaję, że jeśli trenujesz model uczenia maszynowego w jednym środowisku i przetestujesz go w innym, prawdopodobnie zawiedzie, jednak nie ma powodu, aby przypuszczać z góry, że nie dotyczy to również bardziej konwencjonalny model: jeśli zbudujesz model zgodnie z jednym zestawem założeń, a następnie ocenisz go pod innym, otrzymasz złe wyniki. Aby dokończyć zdanie z programowania komputerowego: „wyrzucanie śmieci, wyrzucanie śmieci” stosuje się równie dobrze zarówno do uczenia maszynowego, jak i do zaprojektowanych modeli.


9

Nie. Wnioskowanie przyczynowe jest aktywnym obszarem badań w uczeniu maszynowym, na przykład zobacz przebieg tego warsztatu i tego . Chciałbym jednak zauważyć, że nawet jeśli wnioskowanie przyczynowe lub interpretacja modelu jest twoim głównym przedmiotem zainteresowania, nadal dobrym pomysłem jest wypróbowanie nieprzejrzystego, czysto predykcyjnego podejścia równolegle, abyś wiedział, czy istnieje znaczna kara za wydajność związana z naleganiem na model możliwy do interpretacji.


1
interpretowalny? Być może masz na myśli interpretowalne?
Faheem Mitha,

4

Nie będę powtarzał bardzo dobrych uwag przedstawionych już w innych odpowiedziach, ale chciałbym dodać nieco inną perspektywę. To, co mówię tutaj, jest nieco filozoficzne, niekoniecznie zaczerpnięte z doświadczenia zawodowego, ale z mieszanego doświadczenia w naukach fizycznych, teorii złożonych systemów i uczenia maszynowego (i, muszę przyznać, statystyki w dużej mierze licencjackie).

Jedną zasadniczą różnicą między uczeniem maszynowym a klasycznymi podejściami statystycznymi (o których jestem świadomy) jest zestaw przyjętych założeń. W statystyce klasycznej wiele założeń dotyczących leżących u podstaw procesów i rozkładów jest ustalonych i zwykle przyjmuje się je za pewnik. Jednak w uczeniu maszynowym założenia te są wyraźnie wybierane dla każdego modelu, co daje znacznie szerszy zestaw możliwości i być może większą świadomość przyjętych założeń.

Coraz częściej widzimy, że systemy w otaczającym nas świecie zachowują się w złożony, nieliniowy sposób, i że wiele procesów nie spełnia założeń normalności itp. Typowych dla statystyki klasycznej. Argumentowałbym, że ze względu na elastyczność i różnorodność założeń modelowych podejścia do uczenia maszynowego często prowadzą do stworzenia solidniejszego modelu w takich przypadkach.

Istnieją silne założenia modelu wbudowane w frazy, takie jak „wielkość efektu”, „związek przyczynowy” i „stopień, w jakim jedna zmienna wpływa na wynik”. W złożonym systemie (takim jak ekonomia) założenia te będą ważne tylko w określonym oknie możliwych stanów systemu. W przypadku niektórych obserwowalnych i procesów okno to może być duże, co prowadzi do stosunkowo solidnych modeli. W przypadku innych może być mały lub nawet pusty. Być może największym zagrożeniem jest środek: model może wydawać się działać, ale gdy system się zmienia, zawodzi nagle i zaskakująco.

Uczenie maszynowe nie jest panaceum. Widzę raczej, że jest to poszukiwanie nowych sposobów zbierania znaczenia z naszych obserwacji, szukanie nowych paradygmatów, które są potrzebne, aby skutecznie poradzić sobie ze złożonością, którą zaczynamy dostrzegać w otaczającym nas świecie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.