Statystyki i duże zbiory danych dataset

3

Czy wyboru funkcji należy dokonywać tylko na danych treningowych (lub wszystkich danych)?

Czy wybór funkcji powinien być wykonywany tylko na danych treningowych (lub wszystkich danych)? Przeszedłem kilka dyskusji i artykułów, takich jak Guyon (2003) i Singhi i Liu (2006) , ale wciąż nie jestem pewien, czy odpowiedź jest prawidłowa. Moja konfiguracja eksperymentu wygląda następująco: Zestaw danych: 50 zdrowych kontroli i 50 pacjentów …

10 dataset cross-validation experiment-design feature-selection

3

Jaki jest najbardziej efektywny sposób szkolenia danych przy użyciu najmniejszej ilości pamięci?

Oto moje dane treningowe: 200 000 przykładów x 10 000 funkcji. Zatem moja macierz danych treningowych wynosi - 200 000 x 10 000. Udało mi się zapisać to w płaskim pliku bez problemów z pamięcią, zapisując każdy zestaw danych jeden po drugim (jeden przykład po drugim) podczas generowania funkcji dla …

10 machine-learning dataset algorithms python

3

Edukacja statystyczna dzieci w różnych krajach?

Chcę wiedzieć, jaki poziom statystyk uczą się dzieci w różnych krajach na całym świecie. Czy mógłby Pan zasugerować dane / linki, które rzucają światło na to, co dzieje się w tym zakresie? Zacznę. Izrael: Studenci, którzy uczą się zaawansowanej matematyki, mniej więcej - średnia, sd, histogram, rozkład normalny, bardzo podstawowe …

10 dataset teaching

3

Używanie regresji do wyświetlania poza zakresem danych, dobrze? nigdy ok? czasami ok?

Co sądzisz o używaniu regresji do wyświetlania poza zakresem danych? Jeśli jesteśmy pewni, że podąża za kształtem liniowym lub potęgowym, czy model nie byłby przydatny poza zakresem danych? Na przykład mam wolumen napędzany przez cenę. Uważamy, że powinniśmy być w stanie prognozować ceny poza zakresem danych. Twoje myśli? VOL PRICE …

10 regression dataset linear-model

2

Co to jest kubizacja?

Chodziłem dookoła, by znaleźć jasne wytłumaczenie „kubalizacji” w uczeniu maszynowym bez powodzenia. Jak dotąd rozumiem, że kubetyzacja jest podobna do kwantyzacji w cyfrowym przetwarzaniu sygnału, w którym zakres ciągłych wartości jest zastępowany jedną dyskretną wartością. Czy to jest poprawne? Jakie są zalety i wady (oprócz oczywistego wpływu utraty informacji) stosowania …

10 machine-learning dataset data-preprocessing

2

Maksymalna i często zamykana - odpowiedź w zestawie

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4 : A , C., D , E4:A,C,D,E4:A,C,D,E 5 : C , D , E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Chcę znaleźć …

10 data-mining dataset association-rules

2

Uczenie się na podstawie danych relacyjnych

Ustawienia Wiele algorytmów działa na jednej relacji lub tabeli, podczas gdy wiele rzeczywistych baz danych przechowuje informacje w wielu tabelach (Domingos, 2003). Pytanie Jakie typy algorytmów uczą się dobrze z wielu (relacyjnych) tabel. W szczególności interesują mnie algorytmy, które mają zastosowanie do zadań regresji i klasyfikacji (nie te zorientowane na …

9 regression machine-learning classification dataset

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Gdzie mogę znaleźć zestawy danych przydatne do testowania własnych wdrożeń uczenia maszynowego? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 6 lat temu . Obecnie próbuję samodzielnie wdrożyć niektóre algorytmy uczenia maszynowego. Wiele z nich ma tę nieprzyjemną właściwość, że jest trudna do debugowania, niektóre …

9 dataset

1

Jak oszacować nieistotność statystyczną?

Jestem stosunkowo nowy w statystyce i rozumiem, że moje pytanie może być całkowicie błędnie sformułowane. Testuję własny algorytm w porównaniu z innym. Chociaż wyniki nie są identyczne, chcę pokazać, że różnice są „statystycznie nieistotne”. Jak mogę to wyrazić ilościowo, aby wyrazić swoje zdanie?

9 correlation statistical-significance dataset

4

Jak radzić sobie z lukami / danymi NaN w danych szeregów czasowych, gdy używasz Matlaba do autokorelacji i sieci neuronowych?

Mam szereg czasowy pomiarów (wysokości-jednowymiarowy szereg). W okresie obserwacji proces pomiaru spadł o kilka punktów czasowych. Tak więc dane wynikowe są wektorem z NaN, w których występują luki w danych. Korzystanie z MATLAB-a powoduje mi problem podczas obliczania autokorelacji ( autocorr) i stosowania sieci neuronowych ( nnstart). Jak należy sobie …

9 time-series dataset matlab autocorrelation missing-data

7

Poszukuję sztucznych danych 2D w celu wykazania właściwości algorytmów klastrowania

Szukam zestawów danych 2-wymiarowych punktów danych (każdy punkt danych jest wektorem dwóch wartości (x, y)) o różnych rozkładach i formach. Pomocny byłby również kod do generowania takich danych. Chcę ich użyć do wykreślenia / wizualizacji działania niektórych algorytmów klastrowych. Oto kilka przykładów: gwiazda jak dane w chmurze cztery klastry, jedna …

9 distributions data-visualization clustering dataset

7

Zestawy danych do przykładów wizualizacji danych, nauczania i badań

Szukam istniejących zestawów danych, których możemy użyć do przetestowania kilku technik danych, które badamy. Znam kilka zasobów, takich jak te zawarte w R (spróbuj plot(Orange)lub zobacz tutaj ). Ale chciałbym zrobić krok do przodu: Jakie są najlepsze zestawy danych w świecie rzeczywistym do testowania narzędzia do wizualizacji? Z jakich zestawów …

9 data-visualization dataset teaching

2

Oblicz krzywą ROC dla danych

Mam więc 16 prób, w których próbuję uwierzytelnić osobę z cechy biometrycznej za pomocą Hamminga. Mój próg jest ustawiony na 3,5. Moje dane są poniżej i tylko próba 1 jest prawdziwie pozytywna: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Pytania otagowane jako dataset