Statystyki i duże zbiory danych chi-squared

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Który model głębokiego uczenia może klasyfikować kategorie, które nie wykluczają się wzajemnie

Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

Alternatywy dla testu chi-kwadrat dla niezależności dla tabel większych niż 2 x 2

Jakie są alternatywy dla testu chi-kwadrat dla zmiennych kategorialnych z tabelami większymi niż 2 x 2 i komórkami o liczbie mniejszej niż 5, jeśli nie chcę scalać klas?

9 chi-squared fishers-exact

1

Jak znaleźć i ocenić optymalną dyskretyzację zmiennej ciągłej z kryterium ?

Mam zestaw danych ze zmienną ciągłą i binarną zmienną docelową (0 i 1). Muszę zdyskretyzować zmienne ciągłe (w przypadku regresji logistycznej) w odniesieniu do zmiennej docelowej oraz z ograniczeniem, że częstotliwość obserwacji w każdym przedziale powinna być zrównoważona. Próbowałem algorytmów uczenia maszynowego, takich jak Chi Merge, drzewa decyzyjne. Scalanie chi …

9 r machine-learning chi-squared discrete-data supervised-learning

1

Dziwny sposób obliczania chi-kwadrat w Excelu vs R.

Patrzę na arkusz programu Excel, który twierdzi, że oblicza χ2)χ2\chi^2, ale nie rozpoznaję tego sposobu i zastanawiałem się, czy coś mi umknęło. Oto dane, które analizuje: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | …

9 r chi-squared excel

1

Zasady stosowania symulacji Monte Carlo wartości p dla testu chi-kwadrat

Chciałbym zrozumieć zastosowanie symulacji Monte Carlo w chisq.test()funkcji w R. Mam zmienną jakościową, która ma 128 poziomów / klas. Moja próbka to 26 (nie mogłem próbkować więcej „osób”). Więc oczywiście będę mieć kilka poziomów z 0 „osobami”. Ale faktem jest, że mam bardzo małą liczbę klas reprezentowanych z 127 możliwych. …

9 r chi-squared monte-carlo

2

Czy uzasadnione są założenia dotyczące zależności Benjaminiego-Hochberga?

Mam zestaw danych, w którym testuję pod kątem znaczących różnic między trzema populacjami w odniesieniu do około 50 różnych zmiennych. Robię to z jednej strony za pomocą testów Kruskala-Wallisa, az drugiej za pomocą testów współczynnika prawdopodobieństwa zagnieżdżonych modeli GLM (z populacją i bez jako niezależna zmienna). W rezultacie, mam listę …

9 chi-squared multiple-comparisons likelihood-ratio kruskal-wallis false-discovery-rate

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Oblicz krzywą ROC dla danych

Mam więc 16 prób, w których próbuję uwierzytelnić osobę z cechy biometrycznej za pomocą Hamminga. Mój próg jest ustawiony na 3,5. Moje dane są poniżej i tylko próba 1 jest prawdziwie pozytywna: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Korekta ciągłości Yatesa dla tabel awaryjności 2 x 2

Chciałbym zebrać informacje od ludzi w terenie na temat korekty ciągłości Yatesa dla tabel awaryjności 2 x 2. Artykuł w Wikipedii wspomina, że może się za bardzo dostosować, dlatego jest używany tylko w ograniczonym sensie. Związane post tutaj nie oferuje znacznie głębszy wgląd. Więc co myślisz o ludziach, którzy regularnie …

9 categorical-data chi-squared yates-correction

2

Czy ktoś użył procedury Marascuilo do porównania wielu proporcji?

Opisana tutaj procedura Marascuilo wydaje się być testem, który rozwiązuje problem wielokrotnych porównań proporcji, gdy chcesz sprawdzić, które konkretne proporcje różnią się od siebie po odrzuceniu wartości zerowej w ogólnym teście chi-kwadrat. Jednak nie znam tego testu. Więc moje pytania: O jakie niuanse (jeśli w ogóle) powinienem się martwić podczas …

9 multiple-comparisons chi-squared

Pytania otagowane jako chi-squared