Jaka jest różnica między uczeniem się a wnioskowaniem?


20

Prace naukowe dotyczące uczenia maszynowego często traktują uczenie się i wnioskowanie jako dwa oddzielne zadania, ale nie jest dla mnie jasne, co to za rozróżnienie. Na przykład w tej książce wykorzystują statystyki bayesowskie do obu rodzajów zadań, ale nie stanowią motywacji do takiego rozróżnienia. Mam kilka niejasnych pomysłów, co to może być, ale chciałbym zobaczyć solidną definicję, a być może także obalenie lub rozszerzenie moich pomysłów:

  • Różnica między wnioskowaniem wartości zmiennych ukrytych dla określonego punktu danych a uczeniem się odpowiedniego modelu dla danych.
  • Różnica między wyodrębnianiem wariancji (wnioskowanie) a uczeniem się niezmienniczości, aby móc wyodrębnić wariancje (poprzez naukę dynamiki przestrzeni wejściowej / procesu / świata).
  • Neurobiologiczną analogią może być krótkotrwałe nasilenie / depresja (ślady pamięci) vs długotrwałe nasilenie / depresja.

4
Nie jestem pewien, czy to pomaga, ale w statystykach rozróżnia się między tym, czy chcesz myśleć o uczeniu się jako wnioskowanie (głównie Bayesa), czy jako oszacowanie (głównie Frequentist). W pierwszym przypadku wiedza o wszystkim - ukrytych zmiennych, parametrach, prognozach, modelach - jest wnioskowaniem (które zwraca rozkład). W przypadku tych drugich niektóre problemy z uczeniem się mogą być wnioskiem, a inne problemem oszacowania (który zwraca dla niego oszacowany i teoretycznie próbowany zakres niepewności).
conjugateprior

5
„Uczenie się” to tylko sugestywna metafora procesu szkolenia algorytmu uczenia maszynowego. Nie sądzę, aby można było tu uzyskać wiele wglądu.
Sycorax mówi Przywróć Monikę


1
@Winks Czytałaś połączoną pytanie w ogóle ? Żadna z odpowiedzi nie czyni wyraźnego rozróżnienia, o które proszę.
Lenar Hoyt,

1
@conjugateprior W uczeniu maszynowym nikt nie powiedziałby, że „poznawanie wszystkiego - ukrytych zmiennych, parametrów, prognoz, modeli - jest wnioskiem”. Uczenie się i wnioskowanie są uważane za całkowicie odrębne, mimo że oba mogą powodować dystrybucje.
Neil G,

Odpowiedzi:


11

Zgadzam się z odpowiedzią Neila G., ale być może to alternatywne sformułowanie pomaga również:

Rozważ ustawienie prostego modelu mieszanki Gaussa. Tutaj możemy myśleć o parametrach modelu jako o zestawie komponentów Gaussa modelu mieszanki (każdy z ich średnich i wariancji oraz waga każdego z nich w mieszance).

Biorąc pod uwagę zestaw parametrów modelu, wnioskowanie polega na rozpoznaniu, który komponent prawdopodobnie wygenerował jeden podany przykład, zwykle w formie „odpowiedzialności” za każdy komponent. Tutaj ukryte zmienne są tylko pojedynczym identyfikatorem, dla którego komponent wygenerował dany wektor, a my wnioskujemy, który komponent prawdopodobnie był. (W tym przypadku wnioskowanie jest proste, choć w bardziej złożonych modelach staje się dość skomplikowane).

Uczenie się jest procesem polegającym na identyfikowaniu parametrów modelu (lub rozkładu na parametry modelu), które najlepiej pasują do podanych danych: wybranie średnich, wariancji i wag Gaussa.

Algorytm uczenia się Expectation-Maximization można traktować jako przeprowadzanie wnioskowania dla zestawu szkoleniowego, a następnie uczenie się najlepszych parametrów, biorąc pod uwagę to wnioskowanie, a następnie powtarzanie. Wnioskowanie jest często stosowane w procesie uczenia się w ten sposób, ale ma również niezależne znaczenie, np. Wybór, który składnik wygenerował dany punkt danych w modelu mieszanki Gaussa, aby zdecydować o najbardziej prawdopodobnym stanie ukrytym w ukrytym modelu Markowa, przypisywać brakujące wartości w bardziej ogólnym modelu graficznym ...


1
I małe zastrzeżenie, które można przełożyć na naukę i wnioskowanie w ten sposób, ale można również zrobić wszystko, jak wnioskowanie: stats.stackexchange.com/questions/180582/...
sprzężonypri

Dlaczego tyle linii? Chcę zobaczyć prostą odpowiedź, która odróżnia je w dwóch zdaniach. Ponadto nie wszyscy znają GMM lub EM.
nro

9

Wnioskowanie polega na wybraniu konfiguracji opartej na pojedynczym wejściu. Nauka polega na wyborze parametrów na podstawie niektórych przykładów szkolenia.

W modelu opartym na energii (sposób patrzenia na prawie wszystkie architektury uczenia maszynowego) wnioskowanie wybiera konfigurację, aby zminimalizować funkcję energii przy zachowaniu ustalonych parametrów ; Uczenie wybiera parametry, aby zminimalizować funkcję strat .

Jak wskazuje sprzężonyprior, inni używają odmiennej terminologii do tego samego. Na przykład Bishop używa „wnioskowania” i „decyzji” odpowiednio do uczenia się i wnioskowania. Wnioskowanie przyczynowe oznacza uczenie się. Niezależnie od tego, które z nich wybierzesz, te dwa pojęcia są różne.

Neurologiczna analogia to wzór strzelających neuronów, to konfiguracja; zestaw sił łącza to parametry.


@mcb Nadal nie wiem, co rozumiesz przez „wariancje”. „Niezmienności” nie ma nawet słowa w słowniku. Tak, istnieje wiele algorytmów uczenia się, które opierają się na wnioskowanej konfiguracji, takiej jak EM, opisanej w odpowiedzi Dougala.
Neil G,

@mcb Nie rozumiem również twoich pytań; być może pomogłoby to określić przykładowy model i sprecyzować, o jakiej dystrybucji / wariancjach / niezmiennikach (?) mówisz.
Dougal,

Dziękuję za odpowiedzi. Być może coś źle zrozumiałem.
Lenar Hoyt,

@NeilG Wierzę, że ta terminologia jest najczęściej stosowana w pracach związanych z wizją ML, gdzie decyzje klasyfikacyjne powinny być „niezmienne” w odniesieniu do translacji, rotacji, przeskalowywania obiektów itp. Nie mogę znaleźć dobrego krótkiego odniesienia, ale jest to: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
sprzężonypri

@conjugateprior Miałem przeczucie, że o to mu chodzi, ale chciałem się przekonać, czy wyjaśni swoje pytanie.
Neil G,

4

Wygląda to na klasyczne zamieszanie w języku lingwistycznym. OP wydaje się wykorzystywać terminologię podobną do neuronauki, gdzie oba te terminy mogą mieć różne konotacje. Ale ponieważ Cross Validated ogólnie zajmuje się statystykami i uczeniem się obróbki mechanicznej, postaram się odpowiedzieć na pytanie w oparciu o powszechne użycie tych terminów w tych dziedzinach.

W klasycznej statystyce wnioskowanie jest po prostu czynnością polegającą na zebraniu tego, co wiesz o próbce i wykonaniu matematycznego stwierdzenia na temat populacji, z której jest ona (miejmy nadzieję) reprezentatywna. Z kanonicznego podręcznika Caselli i Bergera (2002): „Przedmiot teorii prawdopodobieństwa jest podstawą, na której zbudowane są wszystkie statystyki ... dzięki tym modelom statystycy są w stanie wyciągać wnioski na temat populacji, wnioski oparte na badaniu tylko część całości ". Tak więc w statystyce wnioskowanie jest szczególnie związane z wartościami p, statystykami testów i rozkładami próbkowania itp.

Jeśli chodzi o naukę, myślę, że tabela z Wasserman's All of Statistics (2003) może być pomocna:

wprowadź opis zdjęcia tutaj


Nie zgadza się to z wieloma innymi podręcznikami, w tym z książką Bishopa wspomnianą w komentarzach. Klasyfikacja jest rodzajem nadzorowanego uczenia się, gdy zmiennymi docelowymi są kategorie. Samo słowo „oszacowanie” jest niejasne: zwykle mamy na myśli „oszacowanie gęstości” lub „oszacowanie parametru” lub „oszacowanie sekwencyjne” lub „oszacowanie maksymalnego prawdopodobieństwa”.
Neil G,

1
Ponadto sieć Bayesa to nie tylko ukierunkowany wykres acykliczny! Jest to rodzaj sztyletu, którego węzły reprezentują zdania, a ich krawędzie reprezentują zależności probabilistyczne. Określa warunkowe relacje niezależności.
Neil G,

1
@NeilG Całkiem tak. Najbliższym tłumaczeniem statystyk byłby prawdopodobnie „model równania strukturalnego”
sprzężonyprior

2
W przerażającej ilości statystyk powinny istnieć dwie linie dotyczące danych: CS: dane treningowe, Statystyka: dane. CS: dane testowe, statystyki: wut?
conjugateprior

Stat 101: wut = kolejna (miejmy nadzieję losowa) próbka z twojej populacji ...
Zoë Clark

-1

Dziwne, że nikt o tym nie wspominał, ale można wnioskować tylko w przypadkach, w których istnieje rozkład prawdopodobieństwa. Tutaj, aby zacytować Wiki, która cytuje słownik Oxford:

Wnioskowanie statystyczne jest procesem wykorzystywania analizy danych do wywnioskowania właściwości leżącego u podstaw rozkładu prawdopodobieństwa (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistic_inference

W przypadku tradycyjnych sieci neuronowych, k-NN lub waniliowych maszyn SVM nie ma gęstości prawdopodobieństwa do oszacowania, ani założeń dotyczących jakiejkolwiek gęstości, a zatem nie ma tam wnioskowania statystycznego. Tylko szkolenie / nauka. Jednak w przypadku większości (wszystkich?) Procedur statystycznych można korzystać zarówno z wnioskowania ORAZ uczenia się, ponieważ procedury te zawierają pewne założenia dotyczące rozkładu populacji, o której mowa.


To jest źle. W każdym razie możesz interpretować sieci neuronowe jako wytwarzające dystrybucję, jeśli chcesz. Patrz np. Amari 1998.
Neil G

Nie jest źle, ani określić. MOŻESZ interpretować, ale pierwotnie nie ma takiej interpretacji.
SWIM S.

Jest to błędne, ponieważ ludzie używają pojęcia wnioskowania w modelach takich jak autoenci.
Neil G

Czy to źle, ponieważ jakaś grupa ludzi używa tego terminu niepoprawnie? Czy dlatego, że mają pewną probabilistyczną interpretację dla swoich NN (nie jestem do końca zaznajomiony z autoencoderami)? Logicznie uzasadniłem, dlaczego jeden termin różni się od drugiego. Biorąc pod uwagę powyższą definicję, widzę, że ci, którzy używają terminu wnioskowania z NN, k-NN lub SVM (chyba że z interpretacją probabilistyczną), nadużywają notacji.
SWIM S.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.