Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.
Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten artykuł http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Wydaje mi się, że wynik …
Usiłuję zbudować klasyfikator z wieloma etykietami, aby przypisywać tematy do istniejących dokumentów za pomocą programu scikit Ja przetwarzanie moich dokumentów przepuszczanie ich przez TfidfVectorizeretykiet poprzez podjęcie działań MultiLabelBinarizeri stworzył OneVsRestClassifierze związkiem SGDClassifierjako estymatora. Jednak podczas testowania mojego klasyfikatora otrzymuję tylko wyniki do 0,29, które z tego, co przeczytałem, są dość …
Eksperymentuję z losowymi lasami za pomocą scikit-learn i uzyskuję świetne wyniki mojego zestawu treningowego, ale stosunkowo słabe wyniki na moim zestawie testowym ... Oto problem (inspirowany pokerem), który próbuję rozwiązać: biorąc pod uwagę karty własne gracza A, karty własne gracza B i flop (3 karty), który gracz ma najlepszą rękę? …
Korzystam ze scikit-learn Pythona do trenowania i testowania regresji logistycznej. scikit-learn zwraca współczynniki regresji zmiennych niezależnych, ale nie podaje standardowych błędów współczynników. Potrzebuję tych standardowych błędów, aby obliczyć statystykę Walda dla każdego współczynnika i z kolei porównać te współczynniki ze sobą. Znalazłem jeden opis, w jaki sposób obliczyć standardowe błędy …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Do tej pory usunąłem zmienne współliniowe w ramach procesu przygotowania danych, patrząc na tabele korelacji i eliminując zmienne, które przekraczają pewien …
Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Dlaczego więc ich nie użyć? Zakładam, …
Przeczytałem następujące posty dotyczące sprawdzania poprawności krzyżowania zagnieżdżonego i wciąż nie jestem w 100% pewien, co mam zrobić z wyborem modelu za pomocą sprawdzania poprawności krzyżowania zagnieżdżonego: Zagnieżdżone sprawdzanie poprawności wyboru modelu Wybór modelu i walidacja krzyżowa: właściwa droga Aby wyjaśnić moje zamieszanie, pozwól mi przejść krok po kroku przez …
Trenuję wieloklasowy klasyfikator LDA z 8 klasami danych. Podczas treningu otrzymuję ostrzeżenie: „ Zmienne są współliniowe ” Dostaję dokładność szkolenia ponad 90% . Korzystam z biblioteki scikits-learn w Pythonie do trenowania i testowania danych Multi-class. Dostaję też przyzwoitą dokładność testowania (około 85% -95% ). Nie rozumiem, co oznacza błąd / …
Bardziej ogólne pytanie. Korzystam z SVM rbf do modelowania predykcyjnego. Myślę, że mój obecny program zdecydowanie potrzebuje przyspieszenia. Używam scikit learning z prostym do dokładnego wyszukiwania siatki + sprawdzania poprawności. Każdy przebieg SVM zajmuje około minuty, ale mimo wszystkich iteracji wciąż uważam, że jest zbyt wolny. Zakładając, że w końcu …
Scikit ma CalibratedClassifierCV , co pozwala nam skalibrować nasze modele na konkretnej parze X, y. Stwierdza to również jasnodata for fitting the classifier and for calibrating it must be disjoint. Jeśli muszą być rozłączne, czy uzasadnione jest przeszkolenie klasyfikatora w następujących kwestiach? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Obawiam się, że …
Mam pytanie dotyczące dwóch różnych metod z różnych bibliotek, które wydają się wykonywać tę samą pracę. Próbuję stworzyć model regresji liniowej. Oto kod, który używam biblioteki statsmodel z OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT …
Czy porównywanie cech przy użyciu F-regressiontego samego, co korelowanie elementów z etykietą indywidualnie i obserwowanie wartości ?R2)R2R^2 Często widziałem, jak moi koledzy używają F regressiondo wyboru funkcji w procesie uczenia maszynowego z sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Proszę, proszę, powiedz mi - dlaczego daje takie same wyniki, jak skorelowanie go ze zmienną etykieta …
Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam po wypróbowaniu kilku kombinacji parametrów: rf …
Próbuję powielić wyniki z sklearnbiblioteki regresji logistycznej przy użyciu glmnetpakietu w języku R. Z dokumentacjisklearn regresji logistycznej próbuje zminimalizować funkcję kosztu w ramach kary l2 minw , c12)wT.w + C∑i = 1N.log( exp( - yja( XT.jaw + c ) ) + 1 )minw,do12)wT.w+do∑ja=1N.log(exp(-yja(XjaT.w+do))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) …
Praktycznie każda baza danych, w której chcemy przewidywać za pomocą algorytmów uczenia maszynowego, znajdzie brakujące wartości niektórych cech. Istnieje kilka podejść do rozwiązania tego problemu, aby wykluczyć linie, w których brakuje wartości, dopóki nie wypełnią się średnimi wartościami cech. Chciałbym zastosować nieco bardziej niezawodne podejście, które zasadniczo uruchomiłoby regresję (lub …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.