Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.
Jaka jest odpowiednia strategia podziału zestawu danych? Pytam o opinie na następujące podejście (nie na poszczególnych parametrów, takich jak test_sizeczy n_iter, ale jeśli kiedyś X, y, X_train, y_train, X_test, a y_testwłaściwie i czy sekwencja ma sens): (rozszerzenie tego przykładu z dokumentacji scikit-learn) 1. Załaduj zestaw danych from sklearn.datasets import load_digits …
Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …
Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?
Czy Pandy, Statsmodels i Scikit-learning uczą się różnych wdrożeń uczenia maszynowego / operacji statystycznych, czy też wzajemnie się uzupełniają? Który z nich ma najbardziej kompleksową funkcjonalność? Który jest aktywnie rozwijany i / lub wspierany? Muszę wdrożyć regresję logistyczną. Wszelkie sugestie, które z nich powinienem zastosować?
Próbuję zrozumieć, dlaczego wyniki regresji logistycznej tych dwóch bibliotek dają różne wyniki. Używam zestawu danych z UCLA Idre poradnik , przewidywania admitna podstawie gre, gpai rank. rankjest traktowany jako zmienna kategorialna, dlatego najpierw jest konwertowany na zmienną fikcyjną rank_1. Dodano także kolumnę przechwytującą. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit …
Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …
Mam poniżej przykład, który wyciągnąłem ze sklearn.metrics.classification_report dokumentacji sklearn. Nie rozumiem, dlaczego istnieją wartości f1-score, precyzja i przywołanie dla każdej klasy, w której moim zdaniem klasa jest etykietą predyktora? Myślałem, że wynik f1 mówi o ogólnej dokładności modelu. Co również mówi nam kolumna wsparcia? Nie mogłem znaleźć żadnych informacji na …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Czy średnia precyzja (AP) to obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR)? EDYTOWAĆ: oto komentarz na temat różnicy w AUC PR i AP. AUC jest uzyskiwane przez trapezoidalną interpolację precyzji. Alternatywnym i zwykle prawie równoważnym miernikiem jest średnia precyzja (AP), zwracana jako info.ap. Jest to średnia precyzji uzyskanej za każdym …
Próbuję rozwiązać zadanie regresji. Dowiedziałem się, że 3 modele działają dobrze dla różnych podzbiorów danych: LassoLARS, SVR i Gradient Tree Boosting. Zauważyłem, że kiedy robię prognozy na podstawie tych wszystkich 3 modeli, a następnie tworzę tabelę „rzeczywistych wyników” i wyników moich 3 modeli, widzę, że za każdym razem przynajmniej jeden …
Użyłem liniowej analizy dyskryminacyjnej (LDA) z scikit-learnbiblioteki uczenia maszynowego (Python) do redukcji wymiarów i byłem trochę ciekawy wyników. Zastanawiam się teraz, czym scikit-learnzajmuje się LDA, aby wyniki wyglądały inaczej niż np. Ręczne podejście lub LDA wykonane w R. Byłoby wspaniale, gdyby ktoś mógł dać mi tutaj jakieś spostrzeżenia. Zasadniczo najbardziej …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Jak obliczyć średni bezwzględny błąd procentowy (MAPE) naszych prognoz za pomocą Pythona i scikit-learn? Z dokumentów mamy tylko te 4 …
Rozumiem, że nawet przy przestrzeganiu odpowiednich procedur walidacji krzyżowej i wyboru modelu, nadmierne dopasowanie nastąpi, jeśli ktoś będzie szukał wystarczająco modelu , chyba że nałoży ograniczenia na złożoność modelu, okres. Co więcej, często ludzie próbują nauczyć się kar za złożoność modelu na podstawie danych, które podważają ochronę, którą mogą zapewnić. …
Czy coś nie rozumiem? To jest mój kod za pomocą sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Wynik: array([[ …
Testuję różne klasyfikatory na zbiorze danych, w którym jest 5 klas, a każda instancja może należeć do jednej lub więcej z tych klas, więc w szczególności używam klasyfikatorów wieloznakowych scikit-learn sklearn.multiclass.OneVsRestClassifier. Teraz chcę przeprowadzić weryfikację krzyżową za pomocą sklearn.cross_validation.StratifiedKFold. Powoduje to następujący błąd: Traceback (most recent call last): File "mlfromcsv.py", …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.