Jak znacząca jest wartość w porównaniu do listy wartości? W większości przypadków testy statystyczne obejmują porównanie zestawu próbek z populacją. W moim przypadku próbka składa się z jednej wartości i porównujemy ją z populacją.
Jestem dyletantem w testowaniu hipotez statystycznych w obliczu chyba najbardziej podstawowego problemu. To nie tylko jeden test, ale setki z nich. Mam przestrzeń parametrów i muszę wykonać test istotności dla każdego punktu. Zarówno wartość, jak i lista w tle (populacja) są generowane dla każdej kombinacji parametrów. Następnie zamawiam to według wartości p i znajduję ciekawe kombinacje parametrów. Istotne jest także znalezienie kombinacji parametrów, w których ta wartość p jest wysoka (nieistotna).
Weźmy więc jeden pojedynczy test: mam wyliczoną wartość wygenerowaną z wybranego zestawu i zestaw wartości w tle obliczonych przez wybór losowego zestawu treningowego. Obliczona wartość wynosi 0,35, a zestaw tła jest (prawdopodobnie?) Normalnie rozłożony ze średnią 0,25 i bardzo wąskim standardem (e-7). Właściwie nie mam wiedzy na temat dystrybucji, ponieważ próbki są obliczane z czegoś innego, nie są to próbki liczb losowych z jakiejś dystrybucji, więc tło jest do tego właściwym słowem.
Hipoteza zerowa byłaby taka, że „średnia z testu próbki równa się mojej obliczonej wartości 0,35”. Kiedy powinienem uznać to za test Z lub test T? Chcę, aby wartość była znacznie wyższa niż średnia populacji, dlatego jest to test jednostronny.
Jestem trochę zdezorientowany co do tego, co uważać za próbkę: albo mam próbkę jednego (obserwacja) i listę tła, ponieważ populacja LUB moja próbka jest listą tła i porównuję to do całości (niespróbkowane) populacja, która zgodnie z hipotezą zerową powinna mieć tę samą średnią. Po podjęciu decyzji, jak sądzę, test idzie w różnych kierunkach.
Jeśli jest to test T, jak obliczyć jego wartość p? Chciałbym to obliczyć sam, zamiast używać funkcji R / Python / Excel (już wiem, jak to zrobić), dlatego najpierw muszę ustalić poprawną formułę.
- Jak obliczyć wartość p? (tzn. nie używam funkcji R / Python / Excel lub wyszukiwania tabeli wartości p, ale faktycznie obliczam ją na podstawie formuły, ponieważ chcę wiedzieć, co robię)
- Jak zdecydować o progu istotności na podstawie wielkości mojej próbki? (formuła byłaby miła)