Jaka jest różnica między prognozowaniem a wnioskowaniem?


37

Czytam poprzez „ Wprowadzenie do uczenia statystycznego ”. W rozdziale 2 omawiają powód oszacowania funkcji .f

2.1.1 Dlaczego oszacowanie ?f

Są dwa główne powody, dla których możemy chcieć oszacować f : przewidywanie i wnioskowanie . Każdego z nich dyskutujemy.

Przeczytałem go kilka razy, ale nadal jestem częściowo niejasny co do różnicy między prognozowaniem a wnioskowaniem. Czy ktoś mógłby podać (praktyczny) przykład różnic?


5
Autorzy An Introduction to Statistics Learning zrobili nam krzywdę. Wnioskuje się na podstawie prognoz, tak jak wnioskuje się, aby zrozumieć przyczyny i skutki. Merriam-webster.com definiuje „wnioskować” głównie jako „wywodzić się z wniosków na podstawie faktów lub przesłanek”. Dotyczy to zarówno rozumowania przyczynowego, jak i predykcyjnego. Wprowadzanie w błąd, wprowadzanie w błąd i sprzeciwianie się długoterminowemu standardowemu użyciu jest zawężenie definicji „wnioskowania” w celu uwzględnienia jedynie spraw przyczynowości. Zatem: przeciwstawmy wnioskowanie predykcyjne z wnioskiem przyczynowym.
rolando2,

2
@ rolando2: Wydaje mi się, że potrzebujemy również wnioskowania opisowego , czyli wnioskowania o parametrach w modelach opisowych (nie przyczynowych).
kjetil b halvorsen

Odpowiedzi:


29

Wnioskowanie: na podstawie zestawu danych chcesz wywnioskować, w jaki sposób dane wyjściowe są generowane jako funkcja danych.

Prognozowanie: Biorąc pod uwagę nowy pomiar, chcesz użyć istniejącego zestawu danych do zbudowania modelu, który niezawodnie wybiera prawidłowy identyfikator z zestawu wyników.


Wnioskowanie: Chcesz dowiedzieć się, jaki wpływ Wiek, Klasa Pasażera i Płeć ma na przetrwanie katastrofy Titanica. Możesz wprowadzić regresję logistyczną i wywnioskować wpływ, jaki każda cecha pasażera ma na przeżycie.

Przewidywanie: Biorąc pod uwagę pewne informacje na temat pasażera Titanica, chcesz wybrać z zestawu i być poprawnym tak często, jak to możliwe. (Zobacz kompromis wariancji odchylenia dla prognozowania, jeśli zastanawiasz się, jak być poprawnym tak często, jak to możliwe).{lives,dies}


Prognozy nie obracają się wokół ustanowienia najdokładniejszej relacji między danymi wejściowymi i wyjściowymi, dokładne przewidywanie dba o to, by nowe obserwacje trafiały do ​​odpowiedniej klasy tak często, jak to możliwe.

Tak więc „praktyczny przykład” sprowadza się zasadniczo do następującej różnicy: Biorąc pod uwagę zbiór danych pasażerów dotyczących jednego pasażera, podejście wnioskowania daje prawdopodobieństwo przeżycia, klasyfikator daje wybór między życiem lub śmiercią.

Strojenie klasyfikatorów jest bardzo interesującym i kluczowym tematem w taki sam sposób, jak poprawna interpretacja wartości p i przedziałów ufności.


1
Dobra odpowiedź. Ale kiedy niektórzy ludzie słyszą słowo „wnioskowanie”, myślą „wnioskowanie przyczynowe”. Możesz też coś o tym powiedzieć, nawet jeśli (a może szczególnie dlatego, że) ISLR nie jest na tym skupiony.
generic_user

1
Myślę, że w świecie głębokiego uczenia się wnioskowanie jest prawie takie samo jak przewidywanie np. blogs.nvidia.com/blog/2016/08/22/…
user1893354

1
To wydaje mi się doskonałą odpowiedzią.
gung - Przywróć Monikę

3
Uważam, że ta odpowiedź jest błędna, w szczególności „podejście wnioskowania daje prawdopodobieństwo przetrwania, klasyfikator daje wybór między życiem lub śmiercią”, a dokładniej pierwszą częścią. Obliczanie prawdopodobieństwa przeżycia pasażera jest prognozą, a konkretnie probabilistyczną. W przypadku ciągłym byłaby to prognoza gęstości. Możemy wówczas przekroczyć to przewidywane prawdopodobieństwo uzyskania twardej klasyfikacji , tak. ...
S. Kolassa - Przywróć Monikę

3
... Podczas gdy przewidywanie dotyczy przewidywania wyników , wnioskowanie dotyczy zrozumienia związku danych wejściowych z wynikiem: które dane wejściowe mają taki związek i jak możemy odróżnić „prawdziwą” relację od kowariacji losowej (gdzie są wartości p Wejdź)? Czy ktoś może mi wyjaśnić, gdzie się mylę?
S. Kolassa - Przywróć Monikę

11

Zasadniczo podczas analizy danych wyobrażamy sobie, że istnieje pewien rodzaj „procesu generowania danych”, który powoduje powstanie danych, a wnioskowanie odnosi się do poznania struktury tego procesu, podczas gdy prognozowanie oznacza możliwość faktycznego prognozowania danych, które z niego pochodzą . Często te dwie rzeczy idą w parze, ale nie zawsze.

Przykładem, w którym oba te elementy idą w parze, byłby prosty model regresji liniowej

Yi=β0+β1xi+ϵi.

Wnioskowanie w tym przypadku oznaczałoby oszacowanie parametrów modelu i a nasze przewidywania zostałyby po prostu obliczone na podstawie naszych oszacowań tych parametrów. Istnieją jednak inne typy modeli, w których można dokonywać rozsądnych prognoz, ale model ten niekoniecznie prowadzi do znaczącego wglądu w to, co dzieje się za kulisami. Niektóre przykłady tego rodzaju modeli byłyby skomplikowanymi metodami złożonymi, które mogą prowadzić do dobrych prognoz, ale czasami są trudne lub niemożliwe do zrozumienia.β 1β0β1


3
„ale model niekoniecznie prowadzi do znaczącego wglądu w to, co dzieje się za kulisami”. Przychodzi na myśl pojęcie „ czarnej skrzynki ”. :)
Alexis,

lub wielowarstwowe sieci neuronowe
Shihab Shahriar Khan,

„Ale istnieją inne typy modeli, w których można dokonywać rozsądnych prognoz, ale model niekoniecznie prowadzi do znaczących wglądów w to, co dzieje się za kulisami.”, Kogo to obchodzi? Problem wnioskowania, tak jak go zdefiniowałeś, nadal polega na określaniu parametrów modelu. Nie rozumiem, dlaczego zaczynasz to zdanie od „Ale” i dlaczego nawet napisałeś to zdanie, w odniesieniu do twojej definicji wnioskowania i przewidywania.
nro

1
Stosowanie „ale” jest dlatego zarówno opis poprzednich i następujących modeli są poprawne, jednak następujący model różni się od natury były w sposób, który nie mógł się spodziewać aż uchwycić różnicę między przewidywania i wnioskowania to jest ilustrowane. Znam już to rozróżnienie, jednak uważam ten przykład za wnikliwy i pomocny. +1
Gung - Przywróć Monikę

10

Na stronie 20 książki autorzy podają piękny przykład, który pozwolił mi zrozumieć różnicę.

Oto akapit z książki: Wprowadzenie do uczenia statystycznego

„Na przykład w nieruchomościach można starać się powiązać wartości domów z danymi wejściowymi, takimi jak wskaźnik przestępczości, podział na strefy, odległość od rzeki, jakość powietrza, szkoły, poziom dochodów społeczności, wielkość domów i tak dalej. W tym przypadku można być zainteresowanym tym, jak poszczególne zmienne wejściowe wpływają na ceny - czyli o ile więcej będzie wart dom, jeśli ma widok na rzekę? To jest problem wnioskowania . Alternatywnie, można po prostu być zainteresowany w przewidywaniu wartości domu, biorąc pod uwagę jego cechy: czy ten dom jest niedoceniany lub zawyżany? Jest to problem z prognozowaniem ”.


5

ytx1,tx2,t

yt=f(x1,t1,x2,t1)+εt

Teraz, jeśli uzyskasz dane dotyczące dochodu, powiedzmy szereg osobistych dochodów do dyspozycji od BEA, i skonstruujesz zmienną pory roku, możesz oszacować funkcję f , a następnie podłączyć najnowsze wartości dochodu ludności i pory roku do tego funkcjonować. To da prognozę na następny kwartał przychodów ze sklepu.

f/x2tβ2x2,t1

xsą skorelowane, trudniej jest oddzielić wpływ predyktora od wpływu innych predyktorów. W przypadku prognoz nie ma to znaczenia, liczy się tylko jakość prognozy.


3

Wyobraź sobie, że jesteś lekarzem na oddziale intensywnej terapii. Masz pacjenta z silną gorączką, daną liczbą komórek krwi i daną masą ciała oraz setką różnych danych i chcesz przewidzieć, czy on lub ona przeżyje. Jeśli tak, ukryje tę historię o swoim drugim dziecku dla swojej żony, jeśli nie, ważne jest, aby ujawnił ją, póki może.

Lekarz może dokonać tej prognozy na podstawie danych byłych pacjentów, których miał na oddziale. W oparciu o swoją wiedzę na temat oprogramowania potrafi przewidywać za pomocą uogólnionej regresji liniowej (glm) lub za pomocą sieci neuronowej (nn).

1. Uogólniony model liniowy

Istnieje wiele skorelowanych parametrów dla glm, więc aby dojść do wyniku, lekarz będzie musiał przyjąć założenia (liniowość itp.) I decyzje, które parametry mogą mieć wpływ. GLM nagrodzi go testem t istotności dla każdego z jego parametrów, aby mógł zebrać mocne dowody, że płeć i gorączka mają znaczący wpływ, niekoniecznie tak.

2. Sieć neuronowa

Sieć neuronowa połknie i przetrawi wszystkie informacje znajdujące się w próbce byłych pacjentów. Nie będzie miało znaczenia, czy predyktory są skorelowane i nie ujawni tylu informacji, czy wpływ masy ciała wydaje się być ważny tylko w danej próbce, czy ogólnie (przynajmniej nie na poziomie wiedzy specjalistycznej, którą lekarz ma do zaoferowania). Po prostu obliczy wynik.

Co lepsze

Wybór metody zależy od kąta patrzenia na problem: jako pacjent wolałbym sieć neuronową, która wykorzystuje wszystkie dostępne dane, aby odgadnąć, co się ze mną stanie bez silnych i oczywiście błędnych założeń, takich jak liniowość. Jako lekarz, który chce przedstawić pewne dane w czasopiśmie, potrzebuje p-wartości. Medycyna jest bardzo konserwatywna: będą prosić o wartości p. Lekarz chce więc poinformować, że w takiej sytuacji płeć ma znaczący wpływ. Dla pacjenta, to nie ma znaczenia, wystarczy użyć dowolnego wpływu, jaki próbka sugeruje jako najbardziej prawdopodobna.

W tym przykładzie pacjent chce przewidywać, strona naukowa lekarza chce wnioskować. W większości przypadków, gdy chcesz zrozumieć system, wnioskowanie jest dobre. Jeśli musisz podjąć decyzję, w której nie rozumiesz systemu, przewidywanie będzie wystarczające.


1
„Jako pacjent wolałbym sieć neuronową ...” Wydaje się, że ignorujesz fakt, że w badaniach klinicznych bardzo trudno jest zdobyć duże ilości danych. Zbiory danych zawierające zaledwie kilka obserwacji na grupę nie są rzadkie ze względu na bezpieczeństwo, prywatność i kwestie etyczne. Jeśli możesz przyjąć uzasadnione założenia dotyczące procesu generowania danych, możesz znacznie efektywniej wykorzystać dane.
Frans Rodenburg,

To miał być hipotetyczny scenariusz, w którym łatwo można odnieść się do tego, dlaczego na pozór ten sam problem może powodować pytania wnioskowania i problemy z prognozowaniem i dlaczego nie są one takie same. Nie proponowałem metod umożliwiających przewidywanie szans na przeżycie pacjenta i tak, doskonale zdaję sobie sprawę z tego, jak trudno jest uzyskać wiarygodne dane kliniczne o zauważalnej wielkości. Dobre założenia / znajomość procesu generowania danych IMHO pomogą przewidywać, a także wnioskować, a zatem nie mają wielkiego znaczenia w rozróżnianiu obu.
Bernhard

1

Nie jesteś tu sam. Po przeczytaniu odpowiedzi nie jestem już zdezorientowany - nie dlatego, że rozumiem różnicę, ale ponieważ rozumiem, że jest to w oczach patrzącego i wywołane słownie. Jestem pewien, że teraz te dwa terminy są bardziej definicjami politycznymi niż naukowymi. Weźmy na przykład wyjaśnienie z książki, którą uczelnie próbowały wykorzystać jako dobrą: „ile więcej będzie wart dom, jeśli ma widok na rzekę? To jest problem wnioskowania”. Z mojego punktu widzenia jest to absolutnie problem prognozowania. Jesteś właścicielem firmy budowlanej i chcesz wybrać najlepszy grunt pod budowę kolejnego zestawu domów. Musisz wybrać jedną z dwóch lokalizacji w tym samym mieście, jedną w pobliżu rzeki, drugą w pobliżu dworca kolejowego. Chcesz przewidziećceny dla obu lokalizacji. Lub chcesz wnioskować . Zamierzasz zastosować dokładne metody statystyki, ale nazywasz ten proces. :)


Pomysł, że widok rzeki będzie wymagał określonej ceny, jest interpretacją przyczynową . Prognozowanie jest agnostyczne pod względem przyczynowości: potrafię przewidzieć skutki z przyczyn, przyczyny ze skutków lub 1 efekt z innego efektu z podobnymi przyczynami. Rozważmy mojego przyjaciela Billy'ego, który ma 5'10 cali i który ma identycznego bliźniaka, Bobby, którego nigdy nie spotkałem. Mimo to mogę przewidzieć, że Bobby ma 5'10 cali, ale jeśli zwiększę Billy'ego, dając mu buty do windy, Nie mogę przewidzieć, że Billy również będzie wyższy.
gung - Przywróć Monikę

Przytaczany przez ciebie przykład jest po prostu kiepskim przykładem, dlatego jest mylący. Różnica między wnioskowaniem a predykcją jest zdecydowanie większa niż „polityka”.
Richard Hardy

1

Istnieją dobre badania wskazujące, że silnym predyktorem tego, czy pożyczkobiorcy spłacą pożyczki, jest to, czy używają filcu, aby chronić podłogi przed zadrapaniem przez nogi mebli. Ta „odczuwalna” zmienna będzie wyraźną pomocą dla modelu predykcyjnego, w którym wynikiem jest spłata vs. niewykonanie zobowiązania. Jednakże, jeśli pożyczkodawcy chcą uzyskać większą dźwignię w stosunku do tego wyniku, nie będą myśleć, że mogą to zrobić, dystrybuując filc tak szeroko, jak to możliwe.

„Jak prawdopodobne jest, że pożyczkobiorca spłaci?” jest problemem prognostycznym; „Jak mogę wpłynąć na wynik?” jest problemem wnioskowania przyczynowego.


-1

y = f (x) następnie

predykcja (jaka jest wartość Y o danej wartości x: jeśli konkretna wartość x, co może być wartością Y

wnioskowanie (jak y zmienia się wraz ze zmianą x): jaki może być wpływ na Y, jeśli x się zmienia

Przykład prognozy: załóżmy, że y reprezentuje wynagrodzenie osoby, jeśli więc dostarczymy dane wejściowe, takie jak lata doświadczenia, stopień jako zmienne wejściowe, wówczas nasza funkcja przewiduje wynagrodzenie pracownika.

Przykład wnioskowania: załóżmy, że koszt utrzymania zmienia się wtedy, ile wynosi zmiana wynagrodzenia


Nie rozumiem, dlaczego ta odpowiedź zasługuje na dwa zdania negatywne.
gung - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.