Zwykle w badaniach biomedycznych nie używamy zestawu szkoleniowego - po prostu stosujemy regresję logistyczną w pełnym zbiorze danych, aby zobaczyć, które predyktory są znaczącymi czynnikami ryzyka dla wyniku, na który patrzymy; lub spojrzeć na jeden predyktor będący przedmiotem zainteresowania, kontrolując wpływ innych możliwych predyktorów na wynik.
Nie jestem do końca pewien, co rozumiesz przez wartości progowe, ale istnieją różne parametry, które można próbować zoptymalizować: AUC, wartości odcięcia dla dychotomizacji ciągłej zmiennej predykcyjnej, dodatnie i ujemne wartości predykcyjne, przedziały ufności i wartości p, fałszywie dodatnie i fałszywie ujemne wskaźniki. Regresja logistyczna analizuje populację badanych i ocenia siłę i kierunek przyczynowy czynników ryzyka, które przyczyniają się do wyniku zainteresowania tą populacją. Można także „odwrócić”, że tak powiem, i określić ryzyko danej osoby w związku z jej czynnikami ryzyka. Regresja logistyczna przypisuje każdej osobie ryzyko wyniku na podstawie ich indywidualnych czynników ryzyka, a domyślnie wynosi 0,5. Jeśli temat ” Prawdopodobieństwo uzyskania wyniku (na podstawie wszystkich danych i podmiotów w twoim modelu) wynosi 0,5 lub więcej, przewiduje, że będzie on miał wynik; jeśli poniżej 0,5, to przewiduje, że nie. Możesz jednak dostosować ten poziom odcięcia, na przykład, aby oznaczyć większą liczbę osób, które mogą być narażone na ryzyko wyniku, aczkolwiek za cenę przewidywania przez model więcej fałszywych trafień. Możesz dostosować ten poziom odcięcia, aby zoptymalizować decyzje dotyczące badań przesiewowych, aby przewidzieć, które osoby powinny na przykład mieć dalsze badania lekarskie; oraz do skonstruowania dodatniej wartości predykcyjnej, ujemnej wartości predykcyjnej oraz współczynników fałszywie ujemnych i fałszywie dodatnich dla testu przesiewowego opartego na modelu regresji logistycznej. Możesz opracować model na połowie swojego zestawu danych i przetestować go na drugiej połowie, ale nie Naprawdę muszę (a dzięki temu zmniejszysz swoje dane „treningowe” o połowę, a tym samym zmniejszysz moc znajdowania znaczących predyktorów w modelu). Więc tak, możesz „trenować wszystko od końca do końca”. Oczywiście w badaniach biomedycznych chciałbyś sprawdzić to na innej populacji, inny zestaw danych przed stwierdzeniem, że twoje wyniki można uogólnić na większą populację. Innym podejściem jest zastosowanie podejścia typu ładowania początkowego, w którym uruchamiasz swój model na podpróbce populacji badanej, a następnie zastępujesz badanych z powrotem do puli i powtarzasz z inną próbką wiele razy (zwykle 1000 razy). Jeśli uzyskasz znaczące wyniki przez zalecaną większość czasu (np. 95% czasu), wówczas twój model można uznać za zatwierdzony --- przynajmniej na podstawie własnych danych. Ale znowu, im mniejsza populacja badawcza, na której działa Twój model, tym mniej prawdopodobne jest, że niektóre predyktory będą statystycznie znaczącymi czynnikami ryzyka dla wyniku. Jest to szczególnie prawdziwe w przypadku badań biomedycznych z ograniczoną liczbą uczestników.
Wykorzystanie połowy danych do „wytrenowania” modelu, a następnie „sprawdzenie” jego w drugiej połowie jest niepotrzebnym obciążeniem. Nie robisz tego dla testów t lub regresji liniowej, więc po co to robić w regresji logistycznej? Wystarczy, że powie „tak, to działa”, ale jeśli użyjesz pełnego zestawu danych, i tak to określisz. Podział danych na mniejsze zestawy danych wiąże się z ryzykiem niewykrycia znaczących czynników ryzyka w populacji badanej (LUB populacji weryfikacyjnej), gdy są one faktycznie obecne, ze względu na małą wielkość próby, zbyt wiele predyktorów dla wielkości badania i możliwość że twoja „próbka walidacyjna” nie pokaże żadnych skojarzeń z przypadku. Logika podejścia „pociągnij, a następnie zweryfikuj” wydaje się polegać na tym, że jeśli czynniki ryzyka określone jako znaczące nie są wystarczająco silne, nie będą one miały znaczenia statystycznego, gdy zostaną modelowane na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, podobnie jak w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. być statystycznie znaczący, gdy jest wzorowany na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. być statystycznie znaczący, gdy jest wzorowany na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. s wielkości czynników ryzyka ORAZ ich istotności statystycznej, która decyduje o ich znaczeniu, dlatego najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. s wielkości czynników ryzyka ORAZ ich istotności statystycznej, która decyduje o ich znaczeniu, dlatego najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania.