Statystyki i duże zbiory danych scikit-learn

1

Jak podzielić zestaw danych w celu weryfikacji krzyżowej, krzywej uczenia się i oceny końcowej?

Jaka jest odpowiednia strategia podziału zestawu danych? Pytam o opinie na następujące podejście (nie na poszczególnych parametrów, takich jak test_sizeczy n_iter, ale jeśli kiedyś X, y, X_train, y_train, X_test, a y_testwłaściwie i czy sekwencja ma sens): (rozszerzenie tego przykładu z dokumentacji scikit-learn) 1. Załaduj zestaw danych from sklearn.datasets import load_digits …

69 machine-learning cross-validation python scikit-learn

1

Kodowanie typu hot-man vs dummy w Scikit-learn

Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

5

Jak interpretować wagi funkcji SVM?

Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?

42 svm feature-selection python scikit-learn

2

Pandy / Statsmodel / Scikit-learn

Czy Pandy, Statsmodels i Scikit-learning uczą się różnych wdrożeń uczenia maszynowego / operacji statystycznych, czy też wzajemnie się uzupełniają? Który z nich ma najbardziej kompleksową funkcjonalność? Który jest aktywnie rozwijany i / lub wspierany? Muszę wdrożyć regresję logistyczną. Wszelkie sugestie, które z nich powinienem zastosować?

41 machine-learning python scikit-learn statsmodels pandas

2

Regresja logistyczna: Scikit Learn vs Statsmodels

Próbuję zrozumieć, dlaczego wyniki regresji logistycznej tych dwóch bibliotek dają różne wyniki. Używam zestawu danych z UCLA Idre poradnik , przewidywania admitna podstawie gre, gpai rank. rankjest traktowany jako zmienna kategorialna, dlatego najpierw jest konwertowany na zmienną fikcyjną rank_1. Dodano także kolumnę przechwytującą. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit …

31 regression logistic python scikit-learn statsmodels

3

Regresja wielomianowa za pomocą scikit-learn

Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …

29 regression machine-learning large-data polynomial scikit-learn

1

co oznaczają liczby w raporcie klasyfikacyjnym sklearn?

Mam poniżej przykład, który wyciągnąłem ze sklearn.metrics.classification_report dokumentacji sklearn. Nie rozumiem, dlaczego istnieją wartości f1-score, precyzja i przywołanie dla każdej klasy, w której moim zdaniem klasa jest etykietą predyktora? Myślałem, że wynik f1 mówi o ogólnej dokładności modelu. Co również mówi nam kolumna wsparcia? Nie mogłem znaleźć żadnych informacji na …

29 machine-learning python scikit-learn precision-recall

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR) i Średnia precyzja (AP)

Czy średnia precyzja (AP) to obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR)? EDYTOWAĆ: oto komentarz na temat różnicy w AUC PR i AP. AUC jest uzyskiwane przez trapezoidalną interpolację precyzji. Alternatywnym i zwykle prawie równoważnym miernikiem jest średnia precyzja (AP), zwracana jako info.ap. Jest to średnia precyzji uzyskanej za każdym …

27 scikit-learn precision-recall auc average-precision

4

Zespół różnych rodzajów regresorów wykorzystujących scikit-learn (lub dowolną inną platformę python)

Próbuję rozwiązać zadanie regresji. Dowiedziałem się, że 3 modele działają dobrze dla różnych podzbiorów danych: LassoLARS, SVR i Gradient Tree Boosting. Zauważyłem, że kiedy robię prognozy na podstawie tych wszystkich 3 modeli, a następnie tworzę tabelę „rzeczywistych wyników” i wyników moich 3 modeli, widzę, że za każdym razem przynajmniej jeden …

27 regression scikit-learn ensemble

2

Dlaczego LDA Python scikit-learn LDA nie działa poprawnie i jak oblicza LDA przez SVD?

Użyłem liniowej analizy dyskryminacyjnej (LDA) z scikit-learnbiblioteki uczenia maszynowego (Python) do redukcji wymiarów i byłem trochę ciekawy wyników. Zastanawiam się teraz, czym scikit-learnzajmuje się LDA, aby wyniki wyglądały inaczej niż np. Ręczne podejście lub LDA wykonane w R. Byłoby wspaniale, gdyby ktoś mógł dać mi tutaj jakieś spostrzeżenia. Zasadniczo najbardziej …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Średni bezwzględny błąd procentowy (MAPE) w Scikit-learn [zamknięty]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Jak obliczyć średni bezwzględny błąd procentowy (MAPE) naszych prognoz za pomocą Pythona i scikit-learn? Z dokumentów mamy tylko te 4 …

24 predictive-models python scikit-learn mape

5

Przekroczenie: Brak srebrnej kuli?

Rozumiem, że nawet przy przestrzeganiu odpowiednich procedur walidacji krzyżowej i wyboru modelu, nadmierne dopasowanie nastąpi, jeśli ktoś będzie szukał wystarczająco modelu , chyba że nałoży ograniczenia na złożoność modelu, okres. Co więcej, często ludzie próbują nauczyć się kar za złożoność modelu na podstawie danych, które podważają ochronę, którą mogą zapewnić. …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

PCA w numpy i sklearn daje różne wyniki

Czy coś nie rozumiem? To jest mój kod za pomocą sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Wynik: array([[ …

21 pca python scikit-learn

2

Jak korzystać z funkcji weryfikacji krzyżowej scikit-learn w klasyfikatorach z wieloma etykietami

Testuję różne klasyfikatory na zbiorze danych, w którym jest 5 klas, a każda instancja może należeć do jednej lub więcej z tych klas, więc w szczególności używam klasyfikatorów wieloznakowych scikit-learn sklearn.multiclass.OneVsRestClassifier. Teraz chcę przeprowadzić weryfikację krzyżową za pomocą sklearn.cross_validation.StratifiedKFold. Powoduje to następujący błąd: Traceback (most recent call last): File "mlfromcsv.py", …

20 cross-validation python multi-class scikit-learn multilabel

Pytania otagowane jako scikit-learn