Jaka jest różnica między regresją logistyczną a sieciami neuronowymi?


32

Jak wyjaśnimy różnicę między regresją logistyczną a siecią neuronową odbiorcom, którzy nie mają doświadczenia w statystyce?


7
Czy ktoś bez doświadczenia w statystyce naprawdę chciałby wiedzieć? A co stanowi akceptowalne wyjaśnienie różnicy? Być może metafora. Z pewnością nie ma żadnej z poniższych odpowiedzi (do tej pory), które całkowicie pomijają wymóg „bez tła”.
rolando2

3
P: „Jak wyjaśnimy różnicę między regresją logistyczną a siecią neuronową odbiorcom, którzy nie mają doświadczenia w statystyce?” Odp .: Najpierw musisz dać im podstawy w statystykach.
Firebug

2
Nie widzę powodu, dla którego nie powinno to pozostać otwarte. Nie musimy brać dosłownie „wyjaśnić ... brak tła w statystykach”. Często pyta się o wyjaśnienia, które byłyby odpowiednie dla „5-latka” lub „twojej babci”. Są to tylko kolokwialne sposoby zadawania nie-(lub przynajmniej mniej ) technicznych odpowiedzi. Mówiąc dokładniej, odpowiedzi zawsze starają się spełnić wiele ograniczeń jednocześnie, takich jak dokładność i zwięzłość; tutaj dodajemy minimalizując, jak to jest techniczne. Nie ma powodu, dla którego nie możemy mieć pytania o mniej techniczne wyjaśnienie różnicy między LR i ANN.
gung - Przywróć Monikę

2
@mbq Zabawne, że w listopadzie 2012 roku można było opisać sieci neuronowe jako przestarzałe.
littleO

2
@littleO To prawie nadal stoi; porównaj NNs'18 z NNs'12, a zobaczysz postępy w usuwaniu podobieństwa do rzeczywistych sieci i rzeczywistych neuronów, zamiast przechodzenia dalej w zespoły operacji algebraicznych z optymalizacją stochastyczną. Ale oczywiście, najwyraźniej znak towarowy NN okazał się tak potężny, że będzie żył długo i dobrze, niezależnie od tego, co to oznacza.

Odpowiedzi:


27

Zakładam, że myślisz o tym, co kiedyś było, i być może nadal są określane jako „wielowarstwowe perceptrony” w pytaniu dotyczącym sieci neuronowych. Jeśli tak, to wyjaśnię całość elastycznością dotyczącą formy granicy decyzji w funkcji zmiennych objaśniających. W szczególności dla tej grupy odbiorców nie wspomniałbym o funkcjach linków / logarytmach itp. Po prostu trzymaj się idei, że prawdopodobieństwo zdarzenia jest przewidywane na podstawie niektórych obserwacji.

Oto możliwa sekwencja:

  • Upewnij się, że wiedzą, jakie jest przewidywane prawdopodobieństwo z punktu widzenia koncepcji. Pokaż ją jako funkcję jednej zmiennej w kontekście niektórych znanych danych. Wyjaśnij kontekst decyzyjny, który będzie współdzielony przez regresję logistyczną i sieci neuronowe.
  • Zacznij od regresji logistycznej. Podaj, że jest to przypadek liniowy, ale pokaż liniowość wynikowej granicy decyzji przy użyciu wykresu ciepła lub konturu prawdopodobieństw wyjściowych z dwiema zmiennymi objaśniającymi.
  • Zauważ, że dwie klasy mogą nie być dobrze rozdzielone przez granice, które widzą, i motywują bardziej elastyczny model do stworzenia bardziej zakrzywionej granicy. W razie potrzeby pokaż niektóre dane, które można by w ten sposób dobrze rozróżnić. (Dlatego zaczynasz od 2 zmiennych)
  • Zauważ, że mógłby zacząć komplikuje oryginalny model liniowy z dodatkowymi warunkami, na przykład kwadratów lub innych przekształceń, i może pokazać, że granice te generują.
  • Ale odrzuć je, zauważając, że nie wiesz z góry, jaka powinna być forma funkcji i wolisz uczyć się na podstawie danych. Tak jak entuzjastycznie podchodzą do tego, zwróć uwagę na niemożność tego z całkowitą ogólnością i sugeruj, że z przyjemnością zakładasz, że powinna ona być co najmniej „gładka”, a nie „niepewna”, ale w inny sposób określona przez dane. (Zapewnij, że prawdopodobnie myśleli już tylko o gładkich granicach, tak jak przez całe życie mówili prozą).
  • Pokaż wyniki uogólnionego modelu addytywnego, w którym prawdopodobieństwo wyjściowe jest wspólną funkcją pary pierwotnych zmiennych, a nie prawdziwą kombinacją addytywną - służy to wyłącznie celom demonstracyjnym. Co ważne, nazwij to płynniej, ponieważ jest to miłe i ogólne i opisuje wszystko intuicyjnie. Zademonstruj nieliniową granicę decyzyjną na zdjęciu, jak poprzednio.
  • Zauważ, że ta (obecnie anonimowa) funkcja wygładzania ma parametr gładkości, który kontroluje, jak naprawdę jest ona gładka, na marginesie określ to jako wcześniejsze przekonanie o gładkości funkcji zmieniającej zmienne objaśniające w przewidywane prawdopodobieństwo. Może pokaż konsekwencje różnych ustawień gładkości na granicy decyzji.
  • Teraz wprowadź sieć neuronową jako schemat. Wskaż, że druga warstwa jest tylko modelem regresji logistycznej, ale zwróć również uwagę na nieliniową transformację zachodzącą w ukrytych jednostkach. Przypomnij publiczności, że jest to kolejna funkcja od wejścia do wyjścia, która będzie nieliniowa w granicach decyzji.
  • Zauważ, że ma wiele parametrów i że niektóre z nich muszą być ograniczone, aby umożliwić płynne podejmowanie decyzji - przywróć ideę liczby, która kontroluje gładkość tak samo (mówiąc koncepcyjnie) liczba, która utrzymuje parametry powiązane ze sobą z dala od Ekstremalne wartości. Zauważ też, że im więcej ukrytych jednostek, tym więcej różnych rodzajów funkcjonalnych form może realizować. Aby zachować intuicję, mów o ukrytych jednostkach pod względem elastyczności i ograniczenia parametrów pod względem gładkości (pomimo matematycznej niechlujstwa tej charakterystyki)
  • Następnie zaskocz ich, twierdząc, że nadal nie znasz funkcjonalnej formy, więc chcesz być nieskończenie elastyczny, dodając nieskończoną liczbę ukrytych jednostek. Niech praktyczna niemożność tego zatonięcia za chwilę. Następnie zauważ, że ten limit można wziąć w matematyce, i zapytaj (retorycznie), jak by to wyglądało.
  • Odpowiedz, że znów będzie gładszy (proces Gaussa, jak to się dzieje; Neal, 1996, ale ten szczegół nie jest ważny), jak ten, który widzieli wcześniej. Zauważ, że znowu istnieje ilość, która kontroluje gładkość, ale nie ma innych szczególnych parametrów (zintegrowanych, dla tych, którzy dbają o tego rodzaju rzeczy).
  • Wniosek, że sieci neuronowe są szczególnymi, domyślnie ograniczonymi, implementacjami zwykłych wygładzaczy, które są nieliniowymi, niekoniecznie addytywnymi rozszerzeniami modelu regresji logistycznej. Następnie zrób to w drugą stronę, stwierdzając, że regresja logistyczna jest równoważna modelowi sieci neuronowej lub bardziej płynna z parametrem wygładzania ustawionym na „wyjątkowo ekstra gładki”, tj. Liniowy.

Zaletą tego podejścia jest to, że tak naprawdę nie musisz wnikać w żaden matematyczny szczegół, aby podać właściwy pomysł. W rzeczywistości nie muszą już rozumieć regresji logistycznej ani sieci neuronowych, aby zrozumieć podobieństwa i różnice.

Wadą tego podejścia jest to, że musisz zrobić dużo zdjęć i zdecydowanie oprzeć się pokusie zejścia do algebry, aby wyjaśnić różne rzeczy.


14

Dla prostszego podsumowania:

Regresja logistyczna: najprostsza forma sieci neuronowej, która powoduje, że granice decyzji są linią prostą

wprowadź opis zdjęcia tutaj

Sieci neuronowe: nadzbiór, który obejmuje regresję logistyczną, a także inne klasyfikatory, które mogą generować bardziej złożone granice decyzyjne.

wprowadź opis zdjęcia tutaj

(uwaga: mam na myśli „prostą” regresję logistyczną, bez pomocy zintegrowanych jąder)

(odniesienie: kursy deeplearning.ai Andrew Ng, „Regresja logistyczna jako sieć neuronowa” i „Klasyfikacja danych planarnych z jedną ukrytą warstwą”)


1
Ze wszystkich obecnych odpowiedzi wydaje mi się, że jest to najbardziej realistyczne wyjaśnienie pojęć osobie bez doświadczenia statystycznego.
Firebug

1
A zatem logistyczny klasyfikator regresji logistycznej JEST Siecią neuronową? To ma sens.
Björn Lindqvist

8

Przyjmę pytanie dosłownie: ktoś bez doświadczenia w statystyce. I nie zamierzam dać tej osobie tła w statystykach. Załóżmy na przykład, że musisz wyjaśnić różnicę prezesowi firmy lub coś w tym rodzaju.

Zatem: Regresja logistyczna jest narzędziem do modelowania zmiennej kategorialnej pod względem innych zmiennych. Daje to sposoby, aby dowiedzieć się, jak zmiany w każdej z „innych” zmiennych wpływają na szanse różnych wyników w pierwszej zmiennej. Wynik jest dość łatwy do interpretacji.

Sieci neuronowe to zestaw metod pozwalających komputerowi uczyć się na przykładach w sposób, który niejasno przypomina sposób, w jaki ludzie dowiadują się o rzeczach. Może to skutkować modelami, które są dobrymi predyktorami, ale zwykle są znacznie bardziej nieprzejrzyste niż modele z regresji logistycznej.


5
+1 Jest to dobry początkowy wysiłek, aby sprostać pierwotnemu wyzwaniu, jakim jest udzielenie wyjaśnienia, które może być zrozumiałe dla laika, ale jest w miarę jasne i dokładne.
whuber

2
Musisz wyjaśnić, czym są „kategoryczne”, „zmienne”, „szanse”. Ponadto sztuczne sieci neuronowe są jedynie inspirowane prawdziwymi sieciami neuronowymi. O ile wiemy, nasz mózg nie może się uczyć poprzez propagację wsteczną. Więc tak, to głównie fajne określenie na stosunkowo uproszczoną koncepcję. Ponadto regresja logistyczna jest formą sieci neuronowej, więc też jest.
Firebug

7

Nauczono mnie, że można myśleć o sieciach neuronowych (z funkcjami aktywacji logistycznej) jako o średniej ważonej funkcji logit, z oszacowaniem samych wag. Wybierając dużą liczbę logów, możesz dopasować dowolną formę funkcjonalną. W blogu Econometric Sense jest trochę intuicji graficznej .


6

Inne odpowiedzi są świetne. Dodałbym tylko kilka zdjęć pokazujących, że można myśleć o regresji logistycznej i regresji logistycznej wielu klas (aka maxent, wielomianowa regresja logistyczna, regresja softmax, klasyfikator maksymalnej entropii) jako specjalnej architekturze sieci neuronowych.

Od Sebastiana Raschki z Michigan State University na temat KDnuggets :

wprowadź opis zdjęcia tutaj


Jeszcze kilka ilustracji dla wieloklasowej regresji logistycznej:

wprowadź opis zdjęcia tutaj

Podobna ilustracja pochodzi z http://www.deeplearningbook.org/ rozdział 1:

wprowadź opis zdjęcia tutaj

I jeszcze jeden z samouczków TensorFlow :

wprowadź opis zdjęcia tutaj

Np. W Caffe zaimplementowałbyś regresję logistyczną w następujący sposób :

wprowadź opis zdjęcia tutaj


2
Czy zatem propagacja wsteczna w takiej sieci neuronowej oblicza takie same wagi jak regresja logistyczna?
Mitch

1
@ Mitch - Mogę się spóźnić do gry, aby coś wnieść. Jedną kluczową różnicą jest to, że dla regresji logistycznej używa się mle, aby uzyskać współczynniki. W istocie jest to wybór konkretnej funkcji błędu lub straty. W przypadku sieci neuronowej funkcja utraty jest jednym z wyborów. Tak więc przy prawidłowej stracie fn (myślę, że to szczyt mojej głowy, jest to standardowa norma L ^ 2) tak właśnie jest.
aginensky

Zatem regresję logistyczną można sformułować dokładnie tak, jak ADALINE (jednowarstwowa sieć neuronowa, która wykorzystuje wsadowe / stochastyczne zejście gradientu), przy czym jedyne kluczowe różnice to zmiana funkcji aktywacji na sigmoid zamiast liniowej, a funkcja predykcji zmienia się na> = 0,5 za pomocą 0,1 etykiet zamiast> = 0 z etykietami -1,1. Inną zdecydowanie preferowaną, ale opcjonalną różnicą jest zmiana funkcji kosztu z RSS na funkcję kosztów logistycznych, ponieważ aktywacja sigmoid powoduje, że RSS nie jest wypukły, więc RSS może utknąć w lokalnych minimach.
Austin,

5

Chciałbym skorzystać z przykładu skomplikowanego, ale konkretnego problemu, który rozumie publiczność. Używaj ukrytych węzłów, których interpretacje nie są szkolone, ale mają szczególne znaczenie.

Jeśli użyjesz pozycji szachowych (przewidując, czy biały wygra), możesz pozwolić, aby dane wejściowe były reprezentacją planszy (zignoruj, czy możesz zamykać lub przechwytywać en passant, a nawet czyje to ruchy), powiedz 64×12 dane binarne wskazujące, czy na każdym kwadracie znajduje się element każdego typu.

Regresja liniowa określa, jak dobrze mieć białego rycerza na h4. Może nie być oczywiste, że jest w ogóle dobry, ale jeśli jest na h4, nie został przechwycony, co prawdopodobnie przeważa nad innymi względami. Regresja liniowa prawdopodobnie odzyskuje przybliżone wartości pionów i że lepiej jest trzymać je w kierunku środka planszy i po stronie przeciwnika. Regresja liniowa nie jest w stanie wycenić kombinacji, na przykład twoja królowa na b2 staje się nagle bardziej wartościowa, jeśli przeciwny król jest na a1.

Sieć neuronowa mogłaby mieć ukryte węzły dla pojęć, takich jak „przewaga materialna”, „bezpieczeństwo czarnego króla”, „kontrola centrum”, „obie wieże na teczce d”, „izolowany pion gawron królowej” lub „biskup” ruchliwość." Niektóre z nich można oszacować tylko na podstawie danych wejściowych płytki, podczas gdy inne mogą wymagać ukrytej warstwy. Sieć neuronowa może wykorzystać je jako dane wejściowe do ostatecznej oceny pozycji. Te pojęcia pomagają ekspertowi ocenić pozycję, więc sieć neuronowa powinna być w stanie dokonywać dokładniejszych ocen niż regresja liniowa. Jednak utworzenie sieci neuronowej wymaga więcej pracy, ponieważ musisz wybrać jej strukturę i trzeba trenować o wiele więcej parametrów.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.