Próbuję oddzielić dwie grupy wartości od jednego zestawu danych. Mogę założyć, że jedna z populacji jest normalnie rozmieszczona i ma co najmniej połowę wielkości próbki. Wartości drugiego są zarówno niższe, jak i wyższe niż wartości pierwszego (rozkład jest nieznany). Staram się znaleźć górne i dolne granice, które obejmowałyby normalnie rozłożoną populację od drugiej.
Moje założenie zapewnia mi punkt wyjścia:
- wszystkie punkty w zakresie międzykwartylowym próbki pochodzą z populacji normalnie rozmieszczonej.
Próbuję przetestować pod kątem wartości odstających, pobierając je z reszty próbki, dopóki nie zmieszczą się w 3 st.dev normalnie rozłożonej populacji. Co nie jest idealne, ale wydaje się, że daje wystarczająco rozsądny wynik.
Czy moje założenie jest uzasadnione statystycznie? Jaki byłby lepszy sposób na to?
ps proszę naprawić tagi kogoś.