W analizie regresji jaka jest różnica między „procesem generowania danych” a „modelem”?
W analizie regresji jaka jest różnica między „procesem generowania danych” a „modelem”?
Odpowiedzi:
Wszyscy dobrze rozumiemy, co może oznaczać „model”, chociaż jego definicja techniczna będzie się różnić w zależności od dyscypliny. Aby porównać to z DGP, zacząłem od spojrzenia na pięć pierwszych trafień (licząc dwa trafienia z tym samym autorem co jeden) w „procesie generowania danych” Googlinga.
Papier , w jaki sposób US Air Force w rzeczywistości tworzy dane wsparcia logistycznego.
Streszczenie artykułu opublikowanego w Environment and Planning A dotyczącego sposobu tworzenia „syntetycznych mikropopulacji” za pomocą komputerowych „modeli symulacyjnych”.
Strona internetowa na „syntetycznego generowania danych”; czyli symulacja „w celu zbadania wpływu niektórych cech danych na ... modele”.
Streszczenie artykułu konferencyjnego na temat eksploracji danych, w którym stwierdzono, że „dane w bazach danych są wynikiem leżącego u ich podstaw procesu generowania danych (dgp)”.
Rozdział książki , która charakteryzuje dane interesów jako „wynikająca z jakiejś transformacji bazowego [] stochastycznego procesu ... niektóre lub wszystkie [którego] może być zauważony ...”V t
Te linki wykazują trzy nieco różne, ale ściśle powiązane zastosowania terminu „proces generowania danych”. Najczęstszy jest w kontekście symulacji statystycznej. Pozostałe odnoszą się do faktycznych środków, za pomocą których dane są tworzone w bieżącej sytuacji (logistyka) oraz do modelu prawdopodobieństwa dla procedury ciągłego tworzenia danych, który nie ma być analizowany bezpośrednio. W ostatnim przypadku tekst odróżnia nieobserwowalny proces stochastyczny, który mimo to jest modelowany matematycznie, od rzeczywistych liczb, które zostaną przeanalizowane.
Sugerują one, że możliwe są dwie nieznacznie różne odpowiedzi:
W kontekście symulacji lub tworzenia „syntetycznych” danych do analizy „proces generowania danych” jest sposobem na tworzenie danych do późniejszych badań, zwykle za pomocą komputerowego generatora liczb pseudolosowych. Analiza domyślnie przyjmie pewien model opisujący matematyczne właściwości tego MZD.
W kontekście analizy statystycznej możemy chcieć odróżnić zjawisko w świecie rzeczywistym (MZD) od obserwacji, które będą analizowane. Mamy modele zarówno zjawiska, jak i obserwacji, a także model ich połączenia.
W regresji MZD zwykle opisuje, w jaki sposób zbiór danych = , zakłada się zostało wygenerowane. Np . może zostać ustawione przez eksperymentatora lub można je w jakiś sposób zaobserwować, a następnie założyć, że powodują lub są powiązane z wartościami . Modelu opisałby możliwe sposoby, w jaki te dane mogą być matematycznie związanych; np. możemy powiedzieć, że każde jest zmienną losową z oczekiwaniami ( X 1 i , X 2 i , … , X p i , Y i ) i = 1 , 2 , … , n X j i Y i Y i X β σ 2 β σ i wariancja dla nieznanych parametrów i .
MZD jest prawdziwym modelem. Model ten staraliśmy się, wykorzystując nasze najlepsze umiejętności, aby przedstawić prawdziwy stan przyrody. Na MZD ma wpływ „hałas”. Hałas może być różnego rodzaju:
Jeśli nie kontrolujesz tych 6 elementów, twoja zdolność do rozpoznania prawdziwej MZD jest zmniejszona.
Odpowiedź Whubera jest doskonała, ale warto podkreślić, że model statystyczny nie musi pod każdym względem przypominać modelu generującego dane, aby być odpowiednim modelem do wnioskowania o eksplorację danych. Liu i Meng wyjaśniają tę kwestię z wielką jasnością w swoim ostatnim artykule ArXived ( http://arxiv.org/abs/1510.08539 ):
Błędne przekonanie 1. Model prawdopodobieństwa musi opisywać generowanie danych.
). Nigdzie nie jest to bardziej zrozumiałe niż w aplikacjach obejmujących eksperymenty komputerowe, w których do opisania danych stosuje się wzór probabilistyczny zgodnie ze znanym (ale bardzo skomplikowanym) wzorem deterministycznym (Kennedy i O'Hagan, 2001; Conti i in., 2009). Potrzebujemy modelu opisowego, niekoniecznie modelu generatywnego. Zobacz Lehmann (1990), Breiman (2001) oraz Hansen i Yu (2001), aby uzyskać więcej informacji na ten temat.
DGP to rzeczywistość wirtualna i unikalny przepis na symulację. Model to zbiór MZD lub możliwych sposobów wygenerowania danych.
Przeczytaj pierwszą stronę tego mini kursu Russella Davidsona:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf