Statystyki i duże zbiory danych scikit-learn

3

Drzewa wzmocnione gradientem XGBoost kontra Python Sklearn

Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten artykuł http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Wydaje mi się, że wynik …

20 scikit-learn boosting gbm xgboost

2

Wielopłaszczyznowe wskaźniki klasyfikacji w programie scikit

Usiłuję zbudować klasyfikator z wieloma etykietami, aby przypisywać tematy do istniejących dokumentów za pomocą programu scikit Ja przetwarzanie moich dokumentów przepuszczanie ich przez TfidfVectorizeretykiet poprzez podjęcie działań MultiLabelBinarizeri stworzył OneVsRestClassifierze związkiem SGDClassifierjako estymatora. Jednak podczas testowania mojego klasyfikatora otrzymuję tylko wyniki do 0,29, które z tego, co przeczytałem, są dość …

19 scikit-learn multi-class multilabel

2

Losowy las jest zbyt dobry?

Eksperymentuję z losowymi lasami za pomocą scikit-learn i uzyskuję świetne wyniki mojego zestawu treningowego, ale stosunkowo słabe wyniki na moim zestawie testowym ... Oto problem (inspirowany pokerem), który próbuję rozwiązać: biorąc pod uwagę karty własne gracza A, karty własne gracza B i flop (3 karty), który gracz ma najlepszą rękę? …

19 classification random-forest scikit-learn

3

Jak obliczyć standardowe błędy współczynników regresji logistycznej

Korzystam ze scikit-learn Pythona do trenowania i testowania regresji logistycznej. scikit-learn zwraca współczynniki regresji zmiennych niezależnych, ale nie podaje standardowych błędów współczynników. Potrzebuję tych standardowych błędów, aby obliczyć statystykę Walda dla każdego współczynnika i z kolei porównać te współczynniki ze sobą. Znalazłem jeden opis, w jaki sposób obliczyć standardowe błędy …

18 logistic python standard-error regression-coefficients scikit-learn

3

Jak systematycznie usuwać zmienne współliniowe w Pythonie? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Do tej pory usunąłem zmienne współliniowe w ramach procesu przygotowania danych, patrząc na tabele korelacji i eliminując zmienne, które przekraczają pewien …

18 python multicollinearity scikit-learn

3

Dlaczego nie skorzystać z „równań normalnych”, aby znaleźć proste współczynniki najmniejszych kwadratów?

Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Dlaczego więc ich nie użyć? Zakładam, …

17 regression least-squares scikit-learn

3

Jak uzyskać hiper parametry w sprawdzaniu poprawności zagnieżdżonej?

Przeczytałem następujące posty dotyczące sprawdzania poprawności krzyżowania zagnieżdżonego i wciąż nie jestem w 100% pewien, co mam zrobić z wyborem modelu za pomocą sprawdzania poprawności krzyżowania zagnieżdżonego: Zagnieżdżone sprawdzanie poprawności wyboru modelu Wybór modelu i walidacja krzyżowa: właściwa droga Aby wyjaśnić moje zamieszanie, pozwól mi przejść krok po kroku przez …

17 cross-validation scikit-learn hyperparameter

3

Zmienne współliniowe w szkoleniu Multlass LDA

Trenuję wieloklasowy klasyfikator LDA z 8 klasami danych. Podczas treningu otrzymuję ostrzeżenie: „ Zmienne są współliniowe ” Dostaję dokładność szkolenia ponad 90% . Korzystam z biblioteki scikits-learn w Pythonie do trenowania i testowania danych Multi-class. Dostaję też przyzwoitą dokładność testowania (około 85% -95% ). Nie rozumiem, co oznacza błąd / …

16 machine-learning classification python scikit-learn discriminant-analysis

6

Najszybsza implementacja SVM

Bardziej ogólne pytanie. Korzystam z SVM rbf do modelowania predykcyjnego. Myślę, że mój obecny program zdecydowanie potrzebuje przyspieszenia. Używam scikit learning z prostym do dokładnego wyszukiwania siatki + sprawdzania poprawności. Każdy przebieg SVM zajmuje około minuty, ale mimo wszystkich iteracji wciąż uważam, że jest zbyt wolny. Zakładając, że w końcu …

16 machine-learning svm predictive-models scikit-learn kernel-trick

2

Scikit poprawny sposób kalibracji klasyfikatorów za pomocą CalibratedClassifierCV

Scikit ma CalibratedClassifierCV , co pozwala nam skalibrować nasze modele na konkretnej parze X, y. Stwierdza to również jasnodata for fitting the classifier and for calibrating it must be disjoint. Jeśli muszą być rozłączne, czy uzasadnione jest przeszkolenie klasyfikatora w następujących kwestiach? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Obawiam się, że …

16 cross-validation scikit-learn validation train calibration

3

Różnica między statsmodel OLS a regresją liniową scikit

Mam pytanie dotyczące dwóch różnych metod z różnych bibliotek, które wydają się wykonywać tę samą pracę. Próbuję stworzyć model regresji liniowej. Oto kod, który używam biblioteki statsmodel z OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT …

16 regression python scikit-learn statsmodels

2

Różnica pomiędzy wybór funkcji oparty na „F” i regresji na podstawie

Czy porównywanie cech przy użyciu F-regressiontego samego, co korelowanie elementów z etykietą indywidualnie i obserwowanie wartości ?R2)R2R^2 Często widziałem, jak moi koledzy używają F regressiondo wyboru funkcji w procesie uczenia maszynowego z sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Proszę, proszę, powiedz mi - dlaczego daje takie same wyniki, jak skorelowanie go ze zmienną etykieta …

16 feature-selection python scikit-learn r-squared f-test

7

Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam po wypróbowaniu kilku kombinacji parametrów: rf …

15 regression random-forest scikit-learn

3

Regresja logistyczna: Scikit Learn vs glmnet

Próbuję powielić wyniki z sklearnbiblioteki regresji logistycznej przy użyciu glmnetpakietu w języku R. Z dokumentacjisklearn regresji logistycznej próbuje zminimalizować funkcję kosztu w ramach kary l2 minw , c12)wT.w + C∑i = 1N.log( exp( - yja( XT.jaw + c ) ) + 1 )minw,do12)wT.w+do∑ja=1N.log⁡(exp⁡(-yja(XjaT.w+do))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) …

15 r logistic python scikit-learn glmnet

3

Metody obejścia problemu braku danych w uczeniu maszynowym

Praktycznie każda baza danych, w której chcemy przewidywać za pomocą algorytmów uczenia maszynowego, znajdzie brakujące wartości niektórych cech. Istnieje kilka podejść do rozwiązania tego problemu, aby wykluczyć linie, w których brakuje wartości, dopóki nie wypełnią się średnimi wartościami cech. Chciałbym zastosować nieco bardziej niezawodne podejście, które zasadniczo uruchomiłoby regresję (lub …

15 machine-learning scikit-learn data-imputation

Pytania otagowane jako scikit-learn