Pytania otagowane jako scikit-learn

Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.

2
Dlaczego funkcja bootstrap scikit-learn ponownie próbkuje zestaw testowy?
Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …

2
Zastosowanie zagnieżdżonej weryfikacji krzyżowej
Strona Scikit Learn na temat wyboru modelu wspomina o zagnieżdżonej weryfikacji krzyżowej: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dwie pętle wzajemnej weryfikacji są wykonywane równolegle: jedna przez estymator GridSearchCV, aby ustawić gamma, a druga przez cross_val_score, aby zmierzyć wydajność predykcji estymatora. Wynikowe wyniki są obiektywnymi …

2
Czy próg decyzyjny jest hiperparametrem w regresji logistycznej?
Przewidywane klasy z (binarnej) regresji logistycznej są określane przy użyciu progu prawdopodobieństwa członkostwa w klasie generowanego przez model. Jak rozumiem, domyślnie używa się zwykle 0,5. Ale zmiana progu zmieni przewidywane klasyfikacje. Czy to oznacza, że ​​próg jest hiperparametrem? Jeśli tak, dlaczego (na przykład) nie jest możliwe łatwe przeszukiwanie siatki progów …

2
Wykorzystanie BIC do oszacowania liczby k w KMEANS
Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe klastraiii xjxjx_j i …

1
Jak naprawić brak konwergencji w LogisticRegressionCV
Korzystam ze scikit-learn, aby przeprowadzić regresję logistyczną z weryfikacją krzyżową na zestawie danych (około 14 parametrów z> 7000 znormalizowanych obserwacji). Mam również docelowy klasyfikator, który ma wartość 1 lub 0. Problem, jaki mam, polega na tym, że niezależnie od używanego solwera wciąż otrzymuję ostrzeżenia o konwergencji ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Różnica między implementacjami PCA i TruncatedSVD w scikit-learn
Rozumiem związek między analizą głównych składników a rozkładem wartości osobliwych na poziomie algebraicznym / dokładnym. Moje pytanie dotyczy implementacji scikit-learn . Dokumentacja mówi: „ [TruncatedSVD] jest bardzo podobny do PCA, ale działa bezpośrednio na przykładowe wektory, zamiast na macierz kowariancji. ”, Co odzwierciedlałoby różnicę algebraiczną między obydwoma podejściami. Jednak później …
12 pca  scikit-learn  svd  scipy 

1
Scikit przewiduje interpretację wyników wyjściowych
Pracuję z biblioteką scikit-learn w Pythonie. W poniższym kodzie przewiduję prawdopodobieństwo, ale nie wiem, jak odczytać wynik. Testowanie danych from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Podziel zestaw danych X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) Oblicz prawdopodobieństwo clf …

2
Czy można oceniać GLM w Python / scikit-learn przy użyciu rozkładów Poissona, Gammy lub Tweedie jako rodziny dla rozkładu błędów?
Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś widział gdzieś implementacje dla …


1
Metoda Nystroem dla aproksymacji jądra
Czytałem o metodzie Nyström do aproksymacji jądra niskiej rangi. Ta metoda jest zaimplementowana w scikit-learn [1] jako metoda rzutowania próbek danych na przybliżenie niskiego rzędu mapowania cech jądra. Zgodnie z moją najlepszą wiedzą, biorąc pod uwagę zestaw szkoleniowy i funkcję jądra, generuje przybliżenie niskiego rzędu macierzy jądra poprzez zastosowanie SVD …

1
Dlaczego duży wybór K obniża mój wynik weryfikacji krzyżowej?
Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... gdzie num_cvsbyło zróżnicowane. Ustawić test_sizena 1/num_cvslustro pociągu …

1
Różnica między ElasticNet w scikit-learn Python i Glmnet w R.
Czy ktoś próbował sprawdzić, czy dopasowanie modelu elastycznej sieci ElasticNetw scikit-learn w Pythonie i glmnetR do tego samego zestawu danych daje identyczne wyniki arytmetyczne? Eksperymentowałem z wieloma kombinacjami parametrów (ponieważ dwie funkcje różnią się wartościami domyślnymi, które przekazują argumentom), a także skalowaniem danych, ale wydaje się, że nic nie daje …

2
Jakie są różnice między regresją Ridge'a przy użyciu glmnet R i scikit-learn Pythona?
Przeglądam sekcję LAB §6.6 na temat regresji grzbietu / Lasso w książce „An Introduction to Statistics Learning with Applications in R” Jamesa, Witten, Hastie, Tibshirani (2013). Mówiąc dokładniej, próbuję zastosować model scikit-learn Ridgedo zestawu danych „Hitters” z pakietu R „ISLR”. Stworzyłem ten sam zestaw funkcji, jak pokazano w kodzie R. …

1
Do jakiego rodzaju wyboru funkcji można zastosować test Chi kwadrat?
Tutaj pytam o to, co inni często robią, aby użyć testu chi-kwadrat do wyboru funkcji w wyniku uczenia się nadzorowanego. Jeśli dobrze rozumiem, czy testują niezależność między każdą cechą a wynikiem i porównują wartości p między testami dla każdej cechy? W http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Test chi-kwadrat Pearsona jest testem statystycznym stosowanym …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.