Służy do pytań dotyczących analizy danych związanych z językiem programowania Python. Nie jest przeznaczony do ogólnych pytań związanych z kodowaniem (-> stackoverflow).
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …
Korzystam ze standardowej regresji liniowej za pomocą scikit-learn w python. Chciałbym jednak wymusić, aby wagi były dodatnie dla każdej cechy (nie ujemne), czy jest jakiś sposób, aby to osiągnąć? Szukałem w dokumentacji, ale nie mogłem znaleźć sposobu na osiągnięcie tego. Rozumiem, że nie mogę znaleźć najlepszego rozwiązania, ale potrzebuję, aby …
Zarówno PyTorch, jak i Tensorflow Fold są platformami do głębokiego uczenia się, przeznaczonymi do radzenia sobie w sytuacjach, w których dane wejściowe mają niejednorodną długość lub wymiary (to znaczy sytuacje, w których dynamiczne wykresy są przydatne lub potrzebne). Chciałbym wiedzieć, jak się porównują, w sensie paradygmatów, na których się opierają …
Opracowałem model uczenia maszynowego za pomocą Pythona (Anaconda + Flask) na mojej stacji roboczej i wszystko idzie dobrze. Później próbowałem wysłać ten program na inną maszynę, na której oczywiście próbowałem skonfigurować to samo środowisko, ale program nie działa. Skopiowałem program na inne maszyny, na których również działa płynnie. Nie mogę …
Próbuję scalić dwa modele Keras w jeden model i nie jestem w stanie tego osiągnąć. Na przykład na załączonym rysunku chciałbym pobrać środkową warstwę o wymiarze 8 i użyć jej jako danych wejściowych do warstwy (ponownie o wymiarze 8) w Modelu a następnie połączyć Model i Model jako jeden Model.B …
Mam bazę danych z mojej aplikacji na Facebooku i staram się używać uczenia maszynowego do szacowania wieku użytkowników na podstawie tego, co lubią na Facebooku. Istnieją trzy kluczowe cechy mojej bazy danych: rozkład wieku w moim zestawie szkoleniowym (łącznie 12 tys. użytkowników) jest przekrzywiony w stosunku do młodszych użytkowników (tj. …
Mam program do modelowania i oceniania, który intensywnie wykorzystuje DataFrame.isinfunkcję pand, przeszukując listy „podobnych” rejestrów Facebooka dla poszczególnych użytkowników dla każdej z kilku tysięcy konkretnych stron. Jest to najbardziej czasochłonna część programu, bardziej niż modelowanie lub ocenianie elementów, po prostu dlatego, że działa tylko na jednym rdzeniu, podczas gdy reszta …
Chcę użyć implementacji word2vec Google do zbudowania systemu rozpoznawania nazwanych jednostek. Słyszałem, że rekurencyjne sieci neuronowe z wsteczną propagacją przez strukturę dobrze nadają się do zadań rozpoznawania nazwanych bytów, ale nie byłem w stanie znaleźć porządnej implementacji lub przyzwoitego samouczka dla tego typu modelu. Ponieważ pracuję z nietypowym korpusem, standardowe …
Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …
Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …
Jakie są najlepsze praktyki zapisywania, przechowywania i udostępniania modeli uczenia maszynowego? W Pythonie przechowujemy binarną reprezentację modelu za pomocą marynaty lub joblib. Modele w moim przypadku mogą być ~ 100 milionów dużych. Joblib może również zapisać jeden model do wielu plików, chyba że ustawisz compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Ale jeśli …
Czy przed klastrowaniem konieczna jest standaryzacja danych? W przykładzie z scikit learnokoło DBSCAN tutaj robią to w wierszu: X = StandardScaler().fit_transform(X) Ale nie rozumiem, dlaczego jest to konieczne. W końcu klastrowanie nie zakłada żadnej szczególnej dystrybucji danych - jest to metoda uczenia się bez nadzoru, więc jej celem jest eksploracja …
Jestem raczej nowy i nie mogę powiedzieć, że mam pełne zrozumienie teoretycznych pojęć. Próbuję obliczyć dywergencję KL między kilkoma listami punktów w Pythonie. Korzystam z http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, aby spróbować to zrobić. Problem, na który napotykam, polega na tym, że zwracana wartość jest taka sama dla 2 dowolnych list liczb (jej 1.3862943611198906). …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.