Byłbym bardzo wdzięczny za twoje porady dotyczące następującego problemu:
Mam duży ciągły zestaw danych z dużą ilością zer (~ 95%) i muszę znaleźć najlepszy sposób, aby sprawdzić, czy niektóre jego podzbiory są „interesujące”, tj. Nie wydają się pochodzić z tego samego rozkładu co reszta. Zero inflacji wynika z faktu, że każdy punkt danych opiera się na pomiarze zliczenia zarówno z zerami rzeczywistymi, jak i zerowymi próbkowania, ale wynik jest ciągły, ponieważ uwzględnia pewne inne parametry ważone przez liczbę (a więc jeśli liczba wynosi zero, wynik jest również zerowy).
Jaki byłby najlepszy sposób to zrobić? Mam wrażenie, że testy permutacji Wilcoxona, a nawet brutalnej siły, są nieodpowiednie, ponieważ są one wypaczane przez te zera. Koncentrowanie się na pomiarach niezerowych powoduje również usunięcie prawdziwych zer, które są niezwykle ważne. Modele z zerowym napompowaniem danych zliczania są dobrze rozwinięte, ale w moim przypadku nie są odpowiednie.
Rozważałem dopasowanie dystrybucji Tweedie do danych, a następnie dopasowanie glm przy odpowiedzi = f (subset_label). Teoretycznie wydaje się to wykonalne, ale zastanawiam się, czy (a) to przesada i (b) nadal domyślnie zakładałby, że wszystkie zera są zerami próbki, tj. Czy byłby stronniczy w ten sam sposób (w najlepszym wypadku) jak permutacja?
Intuicyjnie wygląda na to, że ma jakiś projekt hierarchiczny, który łączy statystyki dwumianowe oparte na proporcji zer i, powiedzmy, statystyki Wilcoxona obliczone na wartościach niezerowych (lub, co więcej, wartości niezerowych uzupełnione ułamkiem zera na podstawie niektórych wcześniejszych). Brzmi jak sieć bayesowska ...
Mam nadzieję, że nie jestem pierwszym, który ma ten problem, więc byłbym bardzo wdzięczny, gdybyś mógł wskazać mi odpowiednie istniejące techniki ...
Wielkie dzięki!