Jeśli publiczność naprawdę nie ma podstaw statystycznych, myślę, że postaram się nieco uprościć wyjaśnienie. Najpierw narysowałbym płaszczyznę współrzędnych na planszy z linią na niej w następujący sposób:
Wszyscy podczas rozmowy będą zaznajomieni z równaniem prostej linii, y = m x + b , ponieważ tego się uczy w szkole podstawowej. Więc pokazałbym to obok rysunku. Pisałbym to jednak wstecz: y= m x + b
m x + b = y
Powiedziałbym, że to równanie jest przykładem prostej regresji liniowej. Wyjaśniłbym wtedy, jak ty (lub komputer) możesz dopasować takie równanie do wykresu punktowego punktów danych, takiego jak ten pokazany na tym obrazie:
Powiedziałbym, że wykorzystujemy wiek badanego organizmu, aby przewidzieć, jak duży jest on, i że otrzymane równanie regresji liniowej, które otrzymujemy (pokazane na zdjęciu), można wykorzystać do przewidzenia, jak duży organizm jest, jeśli znamy jego wiek.
m x + b = y
Następnie wyjaśniłbym ponownie, że był to przykład prostego równania regresji liniowej i że istnieją w rzeczywistości bardziej skomplikowane odmiany. Na przykład, w odmianie zwanej regresją logistyczną , y mogą przyjmować tylko 1 lub 0. Ktoś może chcieć użyć tego typu modelu, jeśli próbujesz przewidzieć odpowiedź „tak” lub „nie”, na przykład, czy ktoś ma chorobę. Kolejną specjalną odmianą jest coś, co nazywa się regresją Poissona , która jest używana do analizy danych „zliczania” lub „zdarzeń” (nie zagłębiłbym się w to, chyba że naprawdę konieczne).
Wyjaśniłbym wtedy, że regresja liniowa, regresja logistyczna i regresja Poissona są naprawdę szczególnymi przykładami bardziej ogólnej metody, zwanej „uogólnionym modelem liniowym”. Wspaniałą rzeczą w „uogólnionych modelach liniowych” jest to, że pozwalają nam one korzystać z danych „odpowiedzi”, które mogą przyjąć dowolną wartość (na przykład, jak duży organizm jest w regresji liniowej), przyjmować tylko 1 lub 0 (np. Czy ktoś ma choroba w regresji logistycznej) lub zliczaj dyskretnie (np. liczbę zdarzeń w regresji Poissona).
Powiedziałbym wtedy, że w tego rodzaju równaniach x (predyktory) są połączone z y (odpowiedzi) za pomocą czegoś, co statystycy nazywają „funkcją łącza”. Używamy tych „funkcji łączenia” w przypadkach, w których x nie są powiązane z y w sposób liniowy.
W każdym razie to moje dwa centy w tej sprawie! Być może moje proponowane wyjaśnienie brzmi trochę głupio i głupio, ale jeśli celem tego ćwiczenia jest przekazanie „istoty” całej publiczności, być może takie wyjaśnienie nie jest takie złe. Myślę, że ważne jest, aby wyjaśnić tę koncepcję w sposób intuicyjny i unikać rzucania wokół słów takich jak „element losowy”, „element systematyczny”, „funkcja łącza”, „deterministyczny”, „funkcja logit” itp. Jeśli „ Gdy rozmawiam z ludźmi, którzy naprawdę nie mają podstaw statystycznych, jak typowy biolog lub lekarz, ich oczy po prostu oszaleją na dźwięk tych słów. Nie wiedzą, co to jest rozkład prawdopodobieństwa, nigdy nie słyszeli o funkcji linku i nie wiedzą, co to jest „logit”
W twoim wyjaśnieniu dla odbiorców niestatystycznych skupiłbym się również na tym, kiedy użyć jakiej różnorodności modelu. Mógłbym porozmawiać o tym, ile predyktorów możesz uwzględnić po lewej stronie równania (słyszałem zasady, jak nie więcej niż wielkość próbki podzielona przez dziesięć). Przydałoby się również dołączyć przykładowy arkusz kalkulacyjny z danymi i wyjaśnić odbiorcom, jak korzystać z pakietu oprogramowania statystycznego do generowania modelu. Następnie krok po kroku przeglądałem dane wyjściowe tego modelu i próbowałem wyjaśnić, co oznaczają wszystkie różne litery i cyfry. Biolodzy nie mają pojęcia o tych rzeczach i są bardziej zainteresowani nauką, jakiego testu użyć, zamiast faktycznie rozumieć matematykę graficznego interfejsu użytkownika SPSS!
Byłbym wdzięczny za wszelkie uwagi lub sugestie dotyczące mojego proponowanego wyjaśnienia, szczególnie jeśli ktoś zauważy błędy lub pomyśli o lepszym sposobie wyjaśnienia!