Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.
Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …
Strona Scikit Learn na temat wyboru modelu wspomina o zagnieżdżonej weryfikacji krzyżowej: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dwie pętle wzajemnej weryfikacji są wykonywane równolegle: jedna przez estymator GridSearchCV, aby ustawić gamma, a druga przez cross_val_score, aby zmierzyć wydajność predykcji estymatora. Wynikowe wyniki są obiektywnymi …
Przewidywane klasy z (binarnej) regresji logistycznej są określane przy użyciu progu prawdopodobieństwa członkostwa w klasie generowanego przez model. Jak rozumiem, domyślnie używa się zwykle 0,5. Ale zmiana progu zmieni przewidywane klasyfikacje. Czy to oznacza, że próg jest hiperparametrem? Jeśli tak, dlaczego (na przykład) nie jest możliwe łatwe przeszukiwanie siatki progów …
Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe klastraiii xjxjx_j i …
Korzystam ze scikit-learn, aby przeprowadzić regresję logistyczną z weryfikacją krzyżową na zestawie danych (około 14 parametrów z> 7000 znormalizowanych obserwacji). Mam również docelowy klasyfikator, który ma wartość 1 lub 0. Problem, jaki mam, polega na tym, że niezależnie od używanego solwera wciąż otrzymuję ostrzeżenia o konwergencji ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Rozumiem związek między analizą głównych składników a rozkładem wartości osobliwych na poziomie algebraicznym / dokładnym. Moje pytanie dotyczy implementacji scikit-learn . Dokumentacja mówi: „ [TruncatedSVD] jest bardzo podobny do PCA, ale działa bezpośrednio na przykładowe wektory, zamiast na macierz kowariancji. ”, Co odzwierciedlałoby różnicę algebraiczną między obydwoma podejściami. Jednak później …
Pracuję z biblioteką scikit-learn w Pythonie. W poniższym kodzie przewiduję prawdopodobieństwo, ale nie wiem, jak odczytać wynik. Testowanie danych from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Podziel zestaw danych X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) Oblicz prawdopodobieństwo clf …
Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś widział gdzieś implementacje dla …
Czytałam o metryki regresji w pytona scikit-learn obsługi i choć każdy z nich ma swoją własną formułę, nie mogę powiedzieć intuicyjnie, jaka jest różnica między R2R2)R^2 i wynik wariancji, a zatem kiedy używać jednego lub inny ocenić mój modele.
Czytałem o metodzie Nyström do aproksymacji jądra niskiej rangi. Ta metoda jest zaimplementowana w scikit-learn [1] jako metoda rzutowania próbek danych na przybliżenie niskiego rzędu mapowania cech jądra. Zgodnie z moją najlepszą wiedzą, biorąc pod uwagę zestaw szkoleniowy i funkcję jądra, generuje przybliżenie niskiego rzędu macierzy jądra poprzez zastosowanie SVD …
Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... gdzie num_cvsbyło zróżnicowane. Ustawić test_sizena 1/num_cvslustro pociągu …
Czy ktoś próbował sprawdzić, czy dopasowanie modelu elastycznej sieci ElasticNetw scikit-learn w Pythonie i glmnetR do tego samego zestawu danych daje identyczne wyniki arytmetyczne? Eksperymentowałem z wieloma kombinacjami parametrów (ponieważ dwie funkcje różnią się wartościami domyślnymi, które przekazują argumentom), a także skalowaniem danych, ale wydaje się, że nic nie daje …
Przeglądam sekcję LAB §6.6 na temat regresji grzbietu / Lasso w książce „An Introduction to Statistics Learning with Applications in R” Jamesa, Witten, Hastie, Tibshirani (2013). Mówiąc dokładniej, próbuję zastosować model scikit-learn Ridgedo zestawu danych „Hitters” z pakietu R „ISLR”. Stworzyłem ten sam zestaw funkcji, jak pokazano w kodzie R. …
Tutaj pytam o to, co inni często robią, aby użyć testu chi-kwadrat do wyboru funkcji w wyniku uczenia się nadzorowanego. Jeśli dobrze rozumiem, czy testują niezależność między każdą cechą a wynikiem i porównują wartości p między testami dla każdej cechy? W http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Test chi-kwadrat Pearsona jest testem statystycznym stosowanym …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.