Pytania otagowane jako predictive-models

Modele predykcyjne to modele statystyczne, których głównym celem jest optymalne przewidywanie innych obserwacji systemu, w przeciwieństwie do modeli, których celem jest sprawdzenie konkretnej hipotezy lub wyjaśnienie zjawiska mechanicznie. Jako takie, modele predykcyjne kładą mniejszy nacisk na interpretację, a większy nacisk na wydajność.

2
Czy to najnowocześniejsza metodologia regresji?
Od dłuższego czasu obserwuję zawody Kaggle i zdaję sobie sprawę, że wiele zwycięskich strategii wymaga użycia co najmniej jednego z „wielkich trójek”: workowania, wzmacniania i układania. W przypadku regresji zamiast koncentrowania się na budowaniu jednego najlepszego możliwego modelu regresji, budowanie wielu modeli regresji, takich jak (Uogólniona) regresja liniowa, losowe modele …


6
Czy parsimony naprawdę powinno być złotym standardem?
Tylko myśl: Modele oszczędne zawsze były domyślnym wyborem przy wyborze modelu, ale w jakim stopniu to podejście jest przestarzałe? Jestem ciekawy, jak bardzo nasza skłonność do parsimony jest reliktem czasów zasad abaci i slajdu (lub, mówiąc poważniej, nienowoczesnych komputerów). Dzisiejsza moc obliczeniowa pozwala nam budować coraz bardziej złożone modele o …

3
Jaka jest podstawowa przyczyna problemu braku równowagi klas?
Ostatnio dużo myślałem o „problemie nierównowagi klas” w uczeniu maszynowym / statystycznym i coraz głębiej odczuwam, że po prostu nie rozumiem, co się dzieje. Najpierw pozwól mi zdefiniować (lub spróbować) zdefiniować moje warunki: Problemem klasa nierównowaga w maszyny / uczenia statystycznego jest obserwacja, że niektóre klasyfikacji binarnej (*) algorytmy nie …

3
czy przeskalować wskaźnik / binarne / obojętne predyktory dla LASSO
W przypadku LASSO (i innych procedur wyboru modelu) kluczowe jest przeskalowanie predyktorów. Ogólna rekomendacja śledzę to po prostu użyć 0, 1 średni normalizację standardowego odchylenia dla zmiennych ciągłych. Ale co to ma wspólnego z manekinami? Np. Niektóre zastosowane przykłady z tej samej (doskonałej) szkoły letniej powiązałem z przeskalowaniem zmiennych ciągłych, …

2
Dlaczego wartości p wprowadzają w błąd po dokonaniu selekcji stopniowej?
Rozważmy na przykład model regresji liniowej. Słyszałem, że w eksploracji danych, po przeprowadzeniu selekcji krokowej na podstawie kryterium AIC, mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero. Słyszałem, że należy rozważyć wszystkie zmienne pozostawione w modelu jako mające prawdziwy współczynnik …

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
Prognozowanie za pomocą funkcji ciągłych i kategorycznych
Niektóre techniki modelowania predykcyjnego są bardziej zaprojektowane do obsługi ciągłych predyktorów, podczas gdy inne są lepsze do obsługi zmiennych jakościowych lub dyskretnych. Oczywiście istnieją techniki przekształcania jednego typu na inny (dyskretyzacja, zmienne fikcyjne itp.). Czy są jednak jakieś techniki modelowania predykcyjnego, które zostały zaprojektowane do obsługi obu typów danych wejściowych …

1
Czy istnieje algorytm łączący klasyfikację i regresję?
Zastanawiam się, czy istnieje jakiś algorytm, który mógłby dokonać klasyfikacji i regresji w tym samym czasie. Na przykład chciałbym, aby algorytm nauczył się klasyfikatora, a jednocześnie w ramach każdej etykiety uczy się również ciągłego celu. Zatem dla każdego przykładu szkolenia ma kategoryczną etykietę i ciągłą wartość. Mógłbym najpierw wyszkolić klasyfikatora, …

4
Jaki problem rozwiązuje oversampling, undersampling i SMOTE?
W ostatnim dobrze odebranym pytaniu Tim pyta, kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym ? Przesłanka tego pytania polega na tym, że istnieje wiele literatury dotyczącej uczenia maszynowego, która omawia równowagę klas i problem niezrównoważonych klas . Chodzi o to, że zestawy danych z nierównowagą między klasą dodatnią …

2
Czy modele mieszane są przydatne jako modele predykcyjne?
Jestem trochę zdezorientowany co do zalet mieszanych modeli w zakresie modelowania predykcyjnego. Ponieważ modele predykcyjne mają zwykle przewidywać wartości wcześniej nieznanych obserwacji, wydaje mi się oczywiste, że jedynym sposobem, w jaki model mieszany może być użyteczny, jest jego zdolność do przewidywania na poziomie populacji (to znaczy bez dodawania żadnych efektów …

3
Cross-validation lub bootstrapping w celu oceny wydajności klasyfikacji?
Jaka jest najbardziej odpowiednia metoda próbkowania do oceny wydajności klasyfikatora na określonym zbiorze danych i porównania go z innymi klasyfikatorami? Cross-validation wydaje się być standardową praktyką, ale przeczytałem, że metody takie jak bootstrap .632 są lepszym wyborem. W następstwie: czy wybór metryki wydajności wpływa na odpowiedź (jeśli użyję AUC zamiast …

3
Jak interpretować macierz nieporozumień Sklearn
Korzystam z macierzy zamieszania, aby sprawdzić wydajność mojego klasyfikatora. Używam Scikit-Learn, jestem trochę zdezorientowany. Jak mogę zinterpretować wynik from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.