Statystyki i duże zbiory danych sample

4

Jak pobrać wiele próbek 10 z dużej listy, bez ogólnej wymiany

Mam duży zestaw danych (20 000 punktów danych), z których chcę pobrać powtarzane próbki 10 punktów danych. Jednak po wybraniu tych 10 punktów danych chcę, aby nie były ponownie wybierane. Próbowałem użyć tej samplefunkcji, ale wydaje się, że nie ma opcji próbkowania bez zamiany przez wiele wywołań funkcji. Czy istnieje …

12 r sample

1

Oszacuj wariancję populacji, jeśli znana jest średnia populacji

Wiem, że używamy do oszacowania wariancji populacji. Pamiętam wideo z Khan Academy, w którym podana intuicja była taka, że nasza szacunkowa średnia jest prawdopodobnie nieco mniejsza od rzeczywistej, więc odległości byłyby faktycznie większe, więc dzielimy przez mniej ( zamiast ) aby uzyskać większą wartość, co skutkuje lepszym oszacowaniem. Pamiętam gdzieś …

11 variance sample

5

Jeśli nie jest Poissonem, to co to za dystrybucja?

Mam zestaw danych zawierający liczbę działań wykonanych przez osoby w ciągu 7 dni. Konkretne działanie nie powinno być istotne dla tego pytania. Oto kilka statystyk opisowych dla zestawu danych: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & …

11 r distributions poisson-distribution mean sample

1

Czy SurveyMonkey ignoruje fakt, że otrzymujesz nieprzypadkową próbkę?

SurveyMonkey ma kroki i tabelę, aby dowiedzieć się, jaki rozmiar próby jest potrzebny dla danego marginesu błędu lub przedziału ufności, na podstawie wielkości populacji. Wielkość próby SurveyMonkey Czy ta tabela po prostu ignoruje fakt, że nie otrzymasz losowej próbki, ponieważ tylko osoby, które zawracają sobie głowę odpowiedzią na ankietę? Zostaję …

11 confidence-interval sample-size survey sample

1

Dlaczego proporcja próbki nie ma również rozkładu dwumianowego

W ustawieniu dwumianowym zmienna losowa X, która podaje liczbę sukcesów, jest rozkładana dwumianowo. Proporcję próbki można następnie obliczyć jako gdzie jest rozmiarem próbki. Mój podręcznik to stwierdzaXnXn\frac{X}{n}nnn Ta proporcja nie ma rozkładu dwumianowego jednak skoro jest po prostu skalowaną wersją losowo zmiennej losowej rozkładzie dwumianowym , czy nie powinien mieć …

10 distributions binomial proportion sample

2

Szacowanie rozmiaru przecięcia wielu zestawów za pomocą próbki jednego zestawu

Pracuję nad algorytmem, który musi obliczyć rozmiar zestawu wygenerowanego przez przecięcie co najmniej 2 zestawów. Dokładniej: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Przecinane zestawy są generowane przez zapytania SQL i starając się utrzymać szybkość, otrzymuję z wyprzedzeniem liczbę każdego zapytania, a następnie biorę zestaw o …

10 error sample

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Jak zdefiniować, czym jest „próbka”?

Jeśli podam trzy liczby, które są niezależnie i identycznie wyprowadzone ze standardowego rozkładu normalnego, to czy dałem ci trzy próbki lub jedną próbkę? Jeśli odpowiedź to jedna próbka, czy istnieje krótka nazwa tego, co dałem wam trzy?

9 sample terminology definition

2

Oblicz krzywą ROC dla danych

Mam więc 16 prób, w których próbuję uwierzytelnić osobę z cechy biometrycznej za pomocą Hamminga. Mój próg jest ustawiony na 3,5. Moje dane są poniżej i tylko próba 1 jest prawdziwie pozytywna: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Obliczanie stosunku przykładowych danych wykorzystywanych do dopasowania / szkolenia modelu i walidacji

Podano wielkość próby „N”, której planuję użyć do prognozowania danych. Jakie są niektóre sposoby podziału danych, aby wykorzystać niektóre z nich do ustanowienia modelu, a pozostałe dane do zweryfikowania modelu? Wiem, że nie ma czarno-białej odpowiedzi na to pytanie, ale byłoby interesujące znać pewne „ogólne zasady” lub zwykle używane proporcje. …

9 machine-learning modeling sample validation

Pytania otagowane jako sample