Biblioteka uczenia maszynowego dla Pythona. Użyj tego znacznika do każdego pytania na temat, które (a) obejmuje scikit-learn, albo jako krytyczną część pytania, albo oczekiwaną odpowiedź, a (b) nie dotyczy tylko tego, jak korzystać z scikit-learn.
Jak zrozumiałem, k-NN jest algorytmem leniwego ucznia i nie wymaga fazy szkolenia. Dlaczego więc musimy używać .fit()sklearn i co się dzieje, gdy go używamy?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
Pracuję nad opracowaniem modelu przewidywania ryzyka ubezpieczeniowego. Modele te mają „rzadkie zdarzenia”, takie jak przewidywanie braku linii lotniczych, wykrywanie usterek sprzętowych itp. Przygotowując zestaw danych, próbowałem zastosować klasyfikację, ale nie mogłem uzyskać przydatnych klasyfikatorów z powodu dużej liczby przypadków negatywnych . Nie mam dużego doświadczenia w statystyce i modelowaniu danych …
Próbuję wymyślić, jak odtworzyć w Pythonie niektóre prace, które wykonałem w SAS. Korzystając z tego zestawu danych , gdzie problemem jest wielokoliniowość, chciałbym przeprowadzić analizę głównych składników w Pythonie. Przyjrzałem się scikit-learn i statsmodels, ale nie jestem pewien, jak wykorzystać ich dane wyjściowe i przekonwertować je na tę samą strukturę …
Niedawno dowiedziałem się o cudownym PCA i zrobiłem przykład opisany w dokumentacji scikit-learn . Chcę wiedzieć, jak mogę zastosować PCA do nowych punktów danych do celów klasyfikacji. Po wizualizacji PCA w płaszczyźnie dwuwymiarowej (oś x, y) widzę, że prawdopodobnie mogę narysować linię, aby oddzielić punkty danych, tak aby jedna strona …
Wydaje się, że scikit uczy się przewidywania probabilistycznego zamiast głosowania większością za techniką agregacji modelu bez wyjaśnienia, dlaczego (1.9.2.1. Losowe lasy). Czy istnieje jasne wyjaśnienie, dlaczego? Czy jest też dobry artykuł lub artykuł przeglądowy na temat różnych technik agregacji modeli, które można zastosować do tworzenia worków w Losowym lesie? Dzięki!
Obecnie używam Scikit Learn z następującym kodem: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') a następnie dopasuj i przewiduj zestaw danych z 7 różnymi etykietami. Mam dziwny wynik. Bez względu na to, jaką technikę walidacji krzyżowej używam przewidywanej etykiety w zestawie walidacyjnym, zawsze będzie to etykieta 7. Próbuję kilku …
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
Przeglądałem dokumentację sklearn, ale nie jestem w stanie zrozumieć celu tych funkcji w kontekście regresji logistycznej. Dla decision_functionniego mówi, że jego odległość między hiperpłaszczyznę i instancji testowej. w jaki sposób te konkretne informacje są przydatne? i jak to się odnosi predicti predict-probametody?
Usiłuję ocenić wydajność klastrowania. Czytałem dokumentację skiscit-learn dotyczącą metryk . Nie rozumiem różnicy między ARI a AMI. Wydaje mi się, że robią to samo na dwa różne sposoby. Cytowanie z dokumentacji: Biorąc pod uwagę znajomość podstawowych przypisań do klasy prawdy label_true i nasz algorytm grupowania tych samych próbek label_pred, skorygowany …
Oto mój kod metody wyboru funkcji w Pythonie: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ale po uzyskaniu nowego X (zmienna zależna - X_new), skąd mam wiedzieć, które zmienne …
Próbuję dowiedzieć się, czy moje rozumienie zagnieżdżonej weryfikacji krzyżowej jest prawidłowe, dlatego napisałem ten zabawkowy przykład, aby sprawdzić, czy mam rację: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …
Nie znalazłem żadnej literatury na temat zastosowania Losowych Lasów do MNIST, CIFAR, STL-10 itp., Więc pomyślałem, że sam spróbuję ich z MNIST niezmienniczymi permutacjami. W R próbowałem: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Trwało to 2 godziny i wystąpił błąd testu 2,8%. Próbowałem też scikit-learn , z RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) Po …
Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.