Pytania otagowane jako dataset

Żądania dotyczące zestawów danych są w tej witrynie nie na temat. Użyj tego znacznika do pytań dotyczących tworzenia, przetwarzania lub utrzymywania zestawów danych.

5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Jakie aspekty zestawu danych „Iris” sprawiają, że jest tak skuteczny jak zestaw danych przykładowych / dydaktycznych / testowych
Zestaw danych „Iris” jest prawdopodobnie znany tutaj większości ludzi - jest to jeden z kanonicznych zestawów danych testowych i przykładowy zestaw danych dla wszystkiego, od wizualizacji danych do uczenia maszynowego. Na przykład wszyscy w tym pytaniu ostatecznie wykorzystali go do dyskusji na temat wykresów rozrzutu oddzielonych przez leczenie. Co sprawia, …
28 dataset 

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
Czy jako recenzent mogę uzasadnić żądanie podania danych i kodu, nawet jeśli czasopismo tego nie robi?
Ponieważ nauka musi być odtwarzalna, z definicji coraz częściej uznaje się, że dane i kod są zasadniczym składnikiem odtwarzalności, o czym dyskutuje Okrągły Stół Yale do udostępniania danych i kodów . Czy przeglądając manuskrypt czasopisma, który nie wymaga udostępniania danych i kodu, mogę poprosić o udostępnienie danych i kodu do …

2
Techniki powiększania danych dla ogólnych zestawów danych?
W wielu aplikacjach uczenia maszynowego tak zwane metody powiększania danych pozwoliły na zbudowanie lepszych modeli. Załóżmy na przykład zestaw szkoleniowy zawierający zdjęć kotów i psów. Obracając, odbijając, dostosowując kontrast itp. Można wygenerować dodatkowe obrazy z oryginalnych.100100100 W przypadku obrazów powiększanie danych jest stosunkowo proste. Załóżmy jednak (na przykład), że jeden …

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

9
Niedopasowanie i niedopasowanie
Przeprowadziłem pewne badania na temat niedopasowania i niedopasowania i zrozumiałem, czym dokładnie są, ale nie mogę znaleźć powodów. Jakie są główne powody niedopasowania i niedopasowania? Dlaczego napotykamy te dwa problemy podczas szkolenia modelu?

1
Różnica między brakującymi danymi a danymi rzadkimi w algorytmach uczenia maszynowego
Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.

1
Odległy nadzór: nadzorowany, częściowo nadzorowany, czy oba?
„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …

5
Jakie są dobre zestawy danych do nauki podstawowych algorytmów uczenia maszynowego i dlaczego?
Jestem nowy w uczeniu maszynowym i szukam niektórych zestawów danych, za pomocą których mogę porównywać i kontrastować różnice między różnymi algorytmami uczenia maszynowego (drzewa decyzyjne, przyspieszenie, SVM i sieci neuronowe) Gdzie mogę znaleźć takie zbiory danych? Czego powinienem szukać podczas rozważania zestawu danych? Byłoby wspaniale, gdybyś mógł wskazać kilka dobrych …

4
Potrzebny jest dobry przykład danych z zmienną towarzyszącą poddaną leczeniu
Przejrzałem wiele zestawów danych R, wpisów w DASL i innych miejscach i nie znajduję zbyt wielu dobrych przykładów interesujących zestawów danych ilustrujących analizę kowariancji danych eksperymentalnych. Istnieje wiele „zabawkowych” zbiorów danych z wymyślonymi danymi w podręcznikach statystycznych. Chciałbym mieć przykład, w którym: Dane są prawdziwe, z ciekawą historią Istnieje co …


2
Testowanie klasyfikacji danych o nadmiernie próbkowanych zakłóceniach
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.