Statystyki i duże zbiory danych

8

Jakie są praktyczne zastrzeżenia do stosowania bayesowskich metod statystycznych w jakimkolwiek kontekście? Nie, nie mam na myśli zwykłego dbania o wybór przeora. Będę zachwycony, jeśli nie otrzyma odpowiedzi.

44 bayesian

4

Ściągawka modeli statystycznych

Zastanawiałem się, czy istnieje model statystyczny „ściągawki”, który zawiera jakieś lub więcej informacji: kiedy używać modelu kiedy nie należy używać modelu wymagane i opcjonalne dane wejściowe oczekiwane wyniki czy model został przetestowany w różnych dziedzinach (polityka, bio, inżynieria, produkcja itp.)? czy jest to akceptowane w praktyce lub badaniach? oczekiwana zmiana …

44 references modeling

6

Jak wykonać test przy użyciu R, aby sprawdzić, czy dane mają rozkład normalny

Mam zestaw danych o następującej strukturze: a word | number of occurrence of a word in a document | a document id Jak mogę wykonać test normalnej dystrybucji w R? Prawdopodobnie jest to łatwe pytanie, ale jestem początkującym R.

44 r distributions normality-assumption

8

Rygorystyczna definicja wartości odstającej?

Ludzie często mówią o radzeniu sobie z wartościami odstającymi w statystykach. Niepokoi mnie to, że o ile mogę stwierdzić, definicja wartości odstającej jest całkowicie subiektywna. Na przykład, jeśli prawdziwy rozkład jakiejś zmiennej losowej jest bardzo gruboogonowy lub bimodalny, każda standardowa wizualizacja lub statystyka podsumowująca do wykrywania wartości odstających niepoprawnie usunie …

44 outliers definition

5

Dlaczego wielokrotne porównanie stanowi problem?

Trudno mi zrozumieć, na czym tak naprawdę polega problem z wieloma porównaniami . Z prostą analogią mówi się, że osoba, która podejmie wiele decyzji, popełni wiele błędów. Stosuje się więc bardzo konserwatywne środki ostrożności, takie jak korekcja Bonferroniego, aby prawdopodobieństwo, że osoba ta popełni jakikolwiek błąd, na jak najniższym poziomie. …

44 hypothesis-testing multiple-comparisons

6

Dlaczego wielokoliniowość nie jest sprawdzana we współczesnych statystykach / uczeniu maszynowym

W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego to robimy?

44 regression machine-learning multicollinearity regularization vif

4

Czy istnieje test pozwalający ustalić, czy nadmierna dyspersja GLM jest znacząca?

Tworzę Poissona GLM w R. Aby sprawdzić, czy występuje nadmierna dyspersja, przyglądam się stosunkowi odchylenia resztkowego do stopni swobody podanych przez summary(model.name). Czy istnieje wartość graniczna lub test dla tego stosunku, który należy uznać za „znaczący”? Wiem, że jeśli jest> 1, to dane są rozproszone, ale jeśli mam współczynniki względnie …

44 statistical-significance overdispersion

2

Czy potrzebna jest normalizacja średnia i skalowanie funkcji dla grupowania k-średnich?

Jakie są najlepsze (zalecane) kroki przetwarzania wstępnego przed wykonaniem k-średnich?

44 clustering normalization k-means

6

Jak uniknąć nakładania się etykiet na wykresie R? [Zamknięte]

Próbuję oznaczyć dość prosty wykres rozrzutu w R. Oto, czego używam: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Wynik jest mierny, jak widać (kliknij, aby powiększyć): Próbowałem to zrekompensować za pomocą textxyfunkcji, ale nie jest lepiej . Powiększanie samego obrazu nie działa w przypadku gęstych klastrów. Czy jest jakaś funkcja …

44 r data-visualization scatterplot

4

Która funkcja aktywacji dla warstwy wyjściowej?

Chociaż wybór funkcji aktywacji dla ukrytej warstwy jest dość jasny (głównie sigmoid lub tanh), zastanawiam się, jak zdecydować o funkcji aktywacji dla warstwy wyjściowej. Często wybierane są funkcje liniowe, funkcje sigmoidalne i funkcje softmax. Kiedy jednak powinienem użyć tego?

44 neural-networks

5

Czy ważne jest skalowanie danych przed grupowaniem?

Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane. :)

44 clustering k-means

3

Testowanie równości współczynników z dwóch różnych regresji

Wydaje się to być podstawową kwestią, ale właśnie zdałem sobie sprawę, że tak naprawdę nie wiem, jak przetestować równość współczynników z dwóch różnych regresji. Czy ktoś może rzucić na to trochę światła? Bardziej formalnie, załóżmy, że uruchomiłem następujące dwie regresje: i gdzie odnosi się do macierzy projektowej regresji , a …

44 hypothesis-testing inference

4

Błąd standardowy dla średniej próbki dwumianowych zmiennych losowych

Załóżmy, że przeprowadzam eksperyment, który może mieć 2 wyniki i zakładam, że leżący u podstaw „prawdziwy” rozkład 2 wyników jest rozkładem dwumianowym o parametrach i : .p B i n o m i a l ( n , p )nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Mogę obliczyć błąd standardowy, , z postaci wariancji …

44 binomial standard-error

5

Jaka jest różnica między algorytmami do przodu i do tyłu i algorytmami Viterbi?

Chcę wiedzieć, jakie są różnice między algorytmem do przodu i do tyłu i algorytmem Viterbiego do wnioskowania w ukrytych modelach Markowa (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

4

Dlaczego naturalne zmiany dziennika są zmianami procentowymi? Co takiego sprawia, że logi?

Czy ktoś może wyjaśnić, w jaki sposób sprawiają to logi, aby można było wykonać logiczne regresje, w których współczynniki są interpretowane jako zmiany procentowe?

43 regression logarithm mathematical-statistics