Jak porównać obserwowane i oczekiwane zdarzenia?


9

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć oczekiwane częstotliwości zdarzeń, prawda?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Jak mogę porównać zaobserwowane wartości z wartościami oczekiwanymi? sprawdzić, czy moje obliczone prawdopodobieństwa są dobrymi predyktorami?

Myślałem o teście chi-kwadrat, ale wynik zmienia się wraz z rozmiarem próbki (n = 18), to znaczy, jeśli pomnożę obserwowane wartości przez 1342 i użyję tej samej metody, wynik będzie inny. Może test sparowany z Wilcoxem działa, ale co sugerujesz?

Jeśli można zasugerować w R, byłoby lepiej.

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Odpowiedzi:


4

Wspominasz, że otrzymujesz różne wyniki, jeśli pomnożysz wszystkie wartości przez . To nie jest problem. Państwo powinno być bardzo różne wyniki. Jeśli rzucisz monetą i wyskoczy ona do głów, nie mówi to wiele. Jeśli rzucisz monetą razy i za każdym razem dostajesz głowy, masz o wiele więcej informacji sugerujących, że moneta jest niesprawiedliwa.13421342

Zwykle chcesz zastosować alternatywy dla gdy spodziewana liczba wystąpień jest tak niska (powiedzmy poniżej ) w dużym odsetku twoich kategorii (powiedzmy, co najmniej ). Jedną z możliwości jest dokładny test Fishera , który jest realizowany w R . Możesz zobaczyć test jako przybliżenie dokładnego testu Fishera, a przybliżenie jest dobre tylko wtedy, gdy więcej oczekiwanych zliczeń jest dużych.χ2520%χ2


Dziękuję, który z nich jest lepszy: tylko test Fishera? czy test Fishera z p symulowaną wartością? i dlaczego?
Juan

Symulacja wprowadza błędy, które mogą być małe, ale nie powinny być konieczne w przypadku małych wartości. Jeśli masz kategorii i obiektów, liczba możliwych wyników wynosi . Gdy jest to małe jak na standardy komputerów (być może mniej niż ), użyłbym tylko dokładnych obliczeń. Jeśli dokładne obliczenia są powolne, sprawdź błędy symulacji i sprawdź, czy są one dopuszczalne do zwiększenia prędkości. kn(n+k1n)107
Douglas Zare
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.