Czy model jest dopasowany do danych, czy dane są dopasowane do modelu?

20

Czy istnieje różnica koncepcyjna lub proceduralna między dopasowaniem modelu do danych a dopasowaniem danych do modelu? Przykład pierwszego sformułowania można znaleźć w https://courses.washington.edu/matlab1/ModelFitting.html , a drugiego w https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

terminology

— enjayes
źródło

7

+1 Nie jestem pod wrażeniem drugiego łącza, ale jestem zabawny.

— The Laconic

Wiele modeli pasuje do aktualnych danych, ale dane zwykle najlepiej pasują do jednego modelu

— Agnius Vasiliauskas

35

Niemal każde źródło lub osoba, z którą kiedykolwiek miałem kontakt, z wyjątkiem źródła Wolfram, do którego podłączyłeś, określa ten proces jako dopasowanie modelu do danych . Ma to sens, ponieważ model jest obiektem dynamicznym, a dane są statyczne (inaczej stałe i stałe).

Mówiąc o tym, podoba mi się podejście Larry'ego Wassermana do tego. Jego zdaniem model statystyczny jest zbiorem rozkładów. Na przykład zbiór wszystkich normalnych dystrybucji:

{Normal (μ, σ) : μ, σ \in R, σ > 0}

$\{ \text{Normal}(\mu, \sigma) : \mu, \sigma \in R, \sigma > 0 \}$

lub zbiór wszystkich rozkładów Poissona:

{Poisson (λ) : λ \in R, λ > 0}

$\{ \text{Poisson}(\lambda) : \lambda \in R, \lambda > 0 \}$

Dopasowywanie rozkładu do danych to dowolny algorytm, który łączy model statystyczny z zestawem danych (dane są ustalone) i wybiera dokładnie jedną z rozkładów z modelu jako taką, która „najlepiej” odzwierciedla dane.

Model zmienia się (w pewnym sensie): łączymy go z całej kolekcji możliwości w jeden najlepszy wybór. Dane to tylko dane; nic się z tym nie dzieje.

— Matthew Drury
źródło

16

W dziedzinie modelowania Rasch często dopasowuje się dane do modelu. Zakłada się, że model jest poprawny i zadaniem analityka jest znalezienie danych, które są z nim zgodne. Artykuł Wikipedii na temat Rasch zawiera więcej szczegółów na temat tego, jak i dlaczego.

Ale zgadzam się z innymi, że ogólnie w statystyce dopasowujemy model do danych, ponieważ możemy go zmienić, ale wydaje się, że wybór lub modyfikacja danych jest złą formą.

— mdewey
źródło

7

Zazwyczaj obserwowane dane są ustalane, gdy model jest zmienny (np. Ponieważ parametry są szacowane), więc model jest dopasowywany do danych, a nie na odwrót . (Zwykle ludzie mają na myśli ten przypadek, gdy wypowiadają którekolwiek z nich.)

Kiedy ludzie mówią, że dopasowują dane do modelu, próbuję dowiedzieć się, co do cholery zrobili z danymi? .

[Teraz, jeśli przekształcasz dane , prawdopodobnie byłoby to „dopasowanie danych do modelu”, ale ludzie prawie nigdy tego nie mówią w tym przypadku.]

— Glen_b - Przywróć Monikę
źródło

5

Usunięcie wartości odstających oznaczałoby również (prawdopodobnie) „dopasowanie danych do modelu”.

— Federico Poloni

1

Frazowanie może mieć sens, jeśli uważają to za „dopasowanie (dane do modelu)”. Oznacza to, że wykonujesz proces dopasowywania, a ten proces dopasowywania rozpoczyna się od danych i przekształca je w model. Zgadzam się, że jest to mniej powszechna / dokładna interpretacja w porównaniu do analizy „(dopasowanie X) do Y”, ale przedstawiłem ją jako uzasadnienie, dlaczego ktoś mógłby to logicznie powiedzieć.

— RM

1

@FedericoPoloni Wartości odstające są zwykle definiowane niezależnie od modelu, którego później chcesz użyć. Więc nawet gdybyśmy chcieli nazwać to dopasowaniem danych, nie byłby to model, ale coś innego.

— BartoszKP

1

+1. Jest powód, dla którego nazywa się to „danymi” - tak się podaje , zobacz łacińskie pochodzenie słowa: latindictionary.wikidot.com/verb:dare

— Christoph Hanck

2

Zazwyczaj zakładamy, że nasze dane odpowiadają „rzeczywistemu światu”, a wszelkie modyfikacje oznaczają, że odchodzimy od modelowania „prawdziwego świata”. Na przykład trzeba uważać, aby usunąć wartości odstające, ponieważ nawet jeśli obliczenia te są przyjemniejsze, wartości odstające nadal były częścią naszych danych.

Podczas testowania modelu lub szacowania właściwości estymatora za pomocą ładowania początkowego lub innych technik ponownego próbkowania możemy symulować nowe dane przy użyciu modelu szacunkowego i naszych oryginalnych danych. To powoduje, że model jest poprawny i nie modyfikujemy naszych oryginalnych danych.

— qwr
źródło