Pytania otagowane jako scikit-learn

Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.

1
Jak podzielić zestaw danych w celu weryfikacji krzyżowej, krzywej uczenia się i oceny końcowej?
Jaka jest odpowiednia strategia podziału zestawu danych? Pytam o opinie na następujące podejście (nie na poszczególnych parametrów, takich jak test_sizeczy n_iter, ale jeśli kiedyś X, y, X_train, y_train, X_test, a y_testwłaściwie i czy sekwencja ma sens): (rozszerzenie tego przykładu z dokumentacji scikit-learn) 1. Załaduj zestaw danych from sklearn.datasets import load_digits …


5
Jak interpretować wagi funkcji SVM?
Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?

2
Pandy / Statsmodel / Scikit-learn
Czy Pandy, Statsmodels i Scikit-learning uczą się różnych wdrożeń uczenia maszynowego / operacji statystycznych, czy też wzajemnie się uzupełniają? Który z nich ma najbardziej kompleksową funkcjonalność? Który jest aktywnie rozwijany i / lub wspierany? Muszę wdrożyć regresję logistyczną. Wszelkie sugestie, które z nich powinienem zastosować?

2
Regresja logistyczna: Scikit Learn vs Statsmodels
Próbuję zrozumieć, dlaczego wyniki regresji logistycznej tych dwóch bibliotek dają różne wyniki. Używam zestawu danych z UCLA Idre poradnik , przewidywania admitna podstawie gre, gpai rank. rankjest traktowany jako zmienna kategorialna, dlatego najpierw jest konwertowany na zmienną fikcyjną rank_1. Dodano także kolumnę przechwytującą. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit …

3
Regresja wielomianowa za pomocą scikit-learn
Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …

1
co oznaczają liczby w raporcie klasyfikacyjnym sklearn?
Mam poniżej przykład, który wyciągnąłem ze sklearn.metrics.classification_report dokumentacji sklearn. Nie rozumiem, dlaczego istnieją wartości f1-score, precyzja i przywołanie dla każdej klasy, w której moim zdaniem klasa jest etykietą predyktora? Myślałem, że wynik f1 mówi o ogólnej dokładności modelu. Co również mówi nam kolumna wsparcia? Nie mogłem znaleźć żadnych informacji na …

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
Obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR) i Średnia precyzja (AP)
Czy średnia precyzja (AP) to obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR)? EDYTOWAĆ: oto komentarz na temat różnicy w AUC PR i AP. AUC jest uzyskiwane przez trapezoidalną interpolację precyzji. Alternatywnym i zwykle prawie równoważnym miernikiem jest średnia precyzja (AP), zwracana jako info.ap. Jest to średnia precyzji uzyskanej za każdym …

4
Zespół różnych rodzajów regresorów wykorzystujących scikit-learn (lub dowolną inną platformę python)
Próbuję rozwiązać zadanie regresji. Dowiedziałem się, że 3 modele działają dobrze dla różnych podzbiorów danych: LassoLARS, SVR i Gradient Tree Boosting. Zauważyłem, że kiedy robię prognozy na podstawie tych wszystkich 3 modeli, a następnie tworzę tabelę „rzeczywistych wyników” i wyników moich 3 modeli, widzę, że za każdym razem przynajmniej jeden …

2
Dlaczego LDA Python scikit-learn LDA nie działa poprawnie i jak oblicza LDA przez SVD?
Użyłem liniowej analizy dyskryminacyjnej (LDA) z scikit-learnbiblioteki uczenia maszynowego (Python) do redukcji wymiarów i byłem trochę ciekawy wyników. Zastanawiam się teraz, czym scikit-learnzajmuje się LDA, aby wyniki wyglądały inaczej niż np. Ręczne podejście lub LDA wykonane w R. Byłoby wspaniale, gdyby ktoś mógł dać mi tutaj jakieś spostrzeżenia. Zasadniczo najbardziej …


5
Przekroczenie: Brak srebrnej kuli?
Rozumiem, że nawet przy przestrzeganiu odpowiednich procedur walidacji krzyżowej i wyboru modelu, nadmierne dopasowanie nastąpi, jeśli ktoś będzie szukał wystarczająco modelu , chyba że nałoży ograniczenia na złożoność modelu, okres. Co więcej, często ludzie próbują nauczyć się kar za złożoność modelu na podstawie danych, które podważają ochronę, którą mogą zapewnić. …

2
PCA w numpy i sklearn daje różne wyniki
Czy coś nie rozumiem? To jest mój kod za pomocą sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Wynik: array([[ …

2
Jak korzystać z funkcji weryfikacji krzyżowej scikit-learn w klasyfikatorach z wieloma etykietami
Testuję różne klasyfikatory na zbiorze danych, w którym jest 5 klas, a każda instancja może należeć do jednej lub więcej z tych klas, więc w szczególności używam klasyfikatorów wieloznakowych scikit-learn sklearn.multiclass.OneVsRestClassifier. Teraz chcę przeprowadzić weryfikację krzyżową za pomocą sklearn.cross_validation.StratifiedKFold. Powoduje to następujący błąd: Traceback (most recent call last): File "mlfromcsv.py", …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.