Bayesian: „Cześć, uczący się maszyny!”
Częstochowiec: „Witaj, uczący się maszyny!”
Machine Learning: „Słyszałem, że jesteście dobrzy w różnych rzeczach. Oto niektóre dane”.
F: „Tak, zapiszmy model, a następnie obliczmy MLE”.
n−1n
F: „Ach tak, dziękuję za przypomnienie. Często myślę, że mam używać MLE do wszystkiego, ale interesują mnie obiektywne estymatory i tak dalej.”
ML: „Ech, co to za filozofowanie? Czy to mi pomoże?”
÷(n−1)
ML: „Więc czym się przejmujesz?”
F: „Ocena”.
ML: „Podoba mi się to.”
θθθ
ML: „Brzmi świetnie! Wygląda na to, że częstokroć to ludzie pragmatyczni. Każdą czarną skrzynkę oceniasz na podstawie jej wyników. Kluczem jest ocena.”
F: „Rzeczywiście! Rozumiem, że przyjęliście podobne podejście. Weryfikacja krzyżowa czy coś takiego? Ale to wydaje mi się niechlujne.”
ML: „Bałagan?”
F: „Pomysł przetestowania estymatora na rzeczywistych danych wydaje mi się niebezpieczny. Dane empiryczne, z których korzystasz, mogą mieć z nim różnego rodzaju problemy i mogą nie zachowywać się zgodnie z modelem, który ustaliliśmy na potrzeby oceny”.
θ
F: „Tak. Chociaż twoja metoda mogła działać na jednym zbiorze danych (zbiorze danych z danymi pociągu i danych testowych), którego użyłeś do oceny, mogę udowodnić, że mój zawsze będzie działał”.
ML: „Dla wszystkich zestawów danych?”
F: „Nie”
ML: „Więc moja metoda została zweryfikowana krzyżowo na jednym zestawie danych. Nie przetestowałeś swojej na żadnym prawdziwym zestawie danych?”
F: „Zgadza się”.
ML: „To stawia mnie zatem na czele! Moja metoda jest lepsza od twojej. Przewiduje raka w 90% przypadków. Twój„ dowód ”jest ważny tylko wtedy, gdy cały zestaw danych zachowuje się zgodnie z założonym modelem.”
F: „Emm, tak, chyba.”
θ
F: „Zgadza się. O ile dane nie są naprawdę normalne (lub cokolwiek innego), mój dowód jest bezużyteczny.”
ML: „Więc moja ocena jest bardziej wiarygodna i wyczerpująca? Działa tylko na zestawach danych, które próbowałem do tej pory, ale przynajmniej są to prawdziwe zbiory danych, brodawki i tak dalej. Tam byłeś, próbując twierdzić, że jesteś bardziej„ konserwatywny ” i „dokładny” oraz że interesuje Cię sprawdzanie modeli i takie tam. ”
B: (wtrąca się) „Cześć chłopaki, przepraszam, że przeszkadzam. Chciałbym wkroczyć i zrównoważyć wszystko, być może demonstrując inne problemy, ale naprawdę uwielbiam patrzeć, jak mój kolega z zespołu często się wierci”.
F: „Łał!”
ML: „OK, dzieci. Chodziło o ocenę. Estymator to czarna skrzynka. Dane wchodzą, dane wychodzą. Zatwierdzamy lub odrzucamy estymator w oparciu o to, jak działa w trakcie oceny. Nie obchodzi nas to o stosowanych „przepisach” lub „zasadach projektowania”.
F: „Tak. Ale mamy bardzo różne pomysły na temat tego, które oceny są ważne. ML przeprowadzi szkolenie i przetestuje rzeczywiste dane. Podczas gdy ja dokonam oceny, która jest bardziej ogólna (ponieważ obejmuje szeroko stosowany dowód) i również bardziej ograniczone (ponieważ nie wiem, czy Twój zestaw danych jest rzeczywiście czerpany z założeń modelowania, których używam podczas projektowania mojej oceny). ”
ML: „Jakiej oceny używasz, B?”
F: (wtrąca się) „Hej. Nie rozśmieszaj mnie. Nic nie ocenia. Po prostu wykorzystuje swoje subiektywne przekonania i biegnie z nimi. Lub coś.”
B: „Jest to powszechna interpretacja. Ale możliwe jest również zdefiniowanie bayesianizmu na podstawie preferowanych ocen. Następnie możemy wykorzystać pogląd, że nikomu z nas nie zależy na tym, co jest w czarnej skrzynce, dbamy tylko o różne sposoby oceny”.
B kontynuuje: „Klasyczny przykład: badanie medyczne. Wynik badania krwi jest pozytywny lub negatywny. Częstotliwość zainteresuje się zdrowych ludzi, jaka część otrzyma wynik negatywny. Podobnie, jaki odsetek chorych będzie uzyskać wynik pozytywny. Częsty użytkownik obliczy je dla każdej rozważanej metody badania krwi, a następnie zaleci skorzystanie z testu, który uzyskał najlepszą parę wyników ”.
F: „Dokładnie. Czego więcej można chcieć?”
B: „A co z tymi osobami, które uzyskały pozytywny wynik testu? Będą chciały wiedzieć„ o tych, które uzyskają pozytywny wynik, ilu z nich zachoruje? ”. oraz „z tych, którzy uzyskali wynik negatywny, ilu jest zdrowych?” „
ML: „Ach tak, wydaje się, że jest to lepsza para pytań.”
F: „TUTAJ!”
B: „Znowu jedziemy. Nie lubi, dokąd to zmierza”.
ML: „Chodzi o„ priory ”, prawda?”
F: „Zło”.
B: „W każdym razie tak, masz rację ML. Aby obliczyć odsetek chorych z wynikiem dodatnim, którzy są chorzy, musisz wykonać jedną z dwóch czynności. Jedną z opcji jest przeprowadzenie testów na wielu ludziach i po prostu obserwowanie odpowiednie proporcje. Na przykład ilu z tych osób umiera z powodu tej choroby. ”
ML: „To brzmi jak to, co robię. Użyj treningu i testowania.”
B: „Możesz jednak obliczyć te liczby z wyprzedzeniem, jeśli zechcesz założyć, że wskaźnik zachorowań w populacji jest częsty. Częstotliwość dokonuje również wcześniej swoich wyliczeń, ale bez korzystania z tego wskaźnika zachorowalności na poziomie populacji”.
F: „WIĘCEJ NIEZGŁOSZONYCH ZAŁOŻEŃ”.
B: „Och, zamknij się. Wcześniej cię odkryto. ML odkrył, że tak samo lubisz nieuzasadnione założenia, jak każdy. Twoje„ udowodnione ”prawdopodobieństwo pokrycia nie będzie się układać w prawdziwym świecie, chyba że wszystkie twoje założenia się nie zmienią. Dlaczego moje wcześniejsze założenia są tak różne? Nazywasz mnie wariatem, ale udajesz, że twoje założenia są dziełem konserwatywnej, rzetelnej i pozbawionej założeń analizy ”.
B (kontynuuje): „W każdym razie, ML, jak mówiłem. Bayesianie lubią inny rodzaj oceny. Bardziej interesuje nas uwarunkowanie obserwowanych danych i odpowiednie obliczenie dokładności naszego estymatora. Nie możemy przeprowadzić tej oceny bez użycia a. Ciekawe jest to, że kiedy zdecydujemy się na tę formę oceny i kiedy wybieramy nasz przeor, mamy automatyczny „przepis”, aby stworzyć odpowiedni estymator. Częstotliwość nie ma takiego przepisu. Jeśli chce bezstronny estymator dla złożonego modelu, nie ma on żadnego automatycznego sposobu na zbudowanie odpowiedniego estymatora ”.
ML: „A ty robisz? Możesz automatycznie zbudować estymator?”
B: „Tak. Nie mam automatycznego sposobu na stworzenie bezstronnego estymatora, ponieważ myślę, że uprzedzenie jest złym sposobem oceny estymatora. Ale biorąc pod uwagę to, że podoba mi się ocena warunkowa na danych, a wcześniej mogę połączyć przeor i prawdopodobieństwo, że podam estymator ”.
ML: „W każdym razie podsumujmy. Wszyscy mamy różne sposoby oceny naszych metod i prawdopodobnie nigdy nie uzgodnimy, które metody są najlepsze.”
B: „Cóż, to niesprawiedliwe. Moglibyśmy je mieszać i dopasowywać. Jeśli któryś z nas ma dobrze oznaczone dane treningowe, prawdopodobnie powinniśmy je przetestować. Ogólnie rzecz biorąc, wszyscy powinniśmy przetestować tyle założeń, ile tylko możemy. „dowody mogą być również zabawne, przewidując wydajność przy założonym modelu generowania danych”.
F: „Tak, chłopaki. Bądźmy pragmatyczni w ocenie. I właściwie przestanę mieć obsesję na punkcie właściwości nieskończonej próbki. Poprosiłem naukowców, by dali mi nieskończoną próbkę, ale nadal tego nie zrobili. czas, abym skupił się ponownie na skończonych próbkach ”.
ML: „Mamy więc ostatnie pytanie. Dużo dyskutowaliśmy o tym, jak oceniać nasze metody, ale jak tworzymy nasze metody.”
B: „Ach. Jak się wcześniej zajmowałem, my Bayesianie mamy bardziej zaawansowaną ogólną metodę. Może to być skomplikowane, ale zawsze możemy napisać jakiś algorytm (być może naiwną formę MCMC), który pobierze próbki z naszego tylnej części ciała. „
F (wtrąca): „Ale może mieć tendencyjność”.
B: „Może i twoje metody. Czy potrzebuję przypomnieć, że MLE jest często stronniczy? Czasami masz duże trudności ze znalezieniem obiektywnych estymatorów, a nawet gdy masz głupi estymator (jak na naprawdę skomplikowany model), który powie wariancja jest negatywna. I nazywasz to bezstronnym. Bezstronny, tak. Ale przydatny, nie!
ML: „OK, chłopaki. Znowu się wściekasz. Pozwól, że zadam ci pytanie, F. Czy kiedykolwiek porównywałeś błąd swojej metody z błędem metody B, kiedy oboje pracowaliście nad tym samym problemem?”
F: „Tak. W rzeczywistości nie chcę tego przyznać, ale podejście B ma czasem mniejszą stronniczość i MSE niż mój estymator!”
ML: „Lekcja tutaj polega na tym, że choć nie zgadzamy się co do oceny, żaden z nas nie ma monopolu na to, jak stworzyć estymator, który ma pożądane właściwości”.
B: „Tak, powinniśmy czytać sobie nawzajem trochę więcej. Możemy dać sobie nawzajem inspirację dla estymatorów. Może się okazać, że estymatory drugiej osoby działają świetnie, od razu po wyjęciu z pudełka, na nasze własne problemy”.
F: „I powinienem przestać mieć obsesję na punkcie uprzedzeń. Bezstronny estymator może mieć absurdalną wariancję. Przypuszczam, że wszyscy musimy„ wziąć odpowiedzialność ”za wybory, których dokonujemy, oceniając i właściwości, które chcemy zobaczyć w naszych estymatorach. Nie możemy powstrzymać się od filozofii. Wypróbuj wszystkie oceny, jakie możesz. A ja będę dalej przyglądał się literaturze bayesowskiej, aby znaleźć nowe pomysły na estymatory! ”
B: „W rzeczywistości wiele osób tak naprawdę nie wie, jaka jest ich własna filozofia. Sam nawet nie jestem pewien. Jeśli użyję receptury bayesowskiej i udowodnię jakiś fajny wynik teoretyczny, to nie znaczy, że ja jestem częstym? Częstym dba o ponadprzeciętne dowody dotyczące wydajności, nie dba o przepisy. A jeśli zamiast tego zrobię kilka ćwiczeń i testów (czy też), czy to znaczy, że jestem uczniem maszyn? „
ML: „Wygląda na to, że wszyscy jesteśmy bardzo podobni.”