Pytania otagowane jako python

Służy do pytań dotyczących analizy danych związanych z językiem programowania Python. Nie jest przeznaczony do ogólnych pytań związanych z kodowaniem (-> stackoverflow).


1
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Parametry Hypertuning XGBoost
XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …
27 r  python  xgboost 

3
Jak wymusić, aby wagi były nieujemne w regresji liniowej
Korzystam ze standardowej regresji liniowej za pomocą scikit-learn w python. Chciałbym jednak wymusić, aby wagi były dodatnie dla każdej cechy (nie ujemne), czy jest jakiś sposób, aby to osiągnąć? Szukałem w dokumentacji, ale nie mogłem znaleźć sposobu na osiągnięcie tego. Rozumiem, że nie mogę znaleźć najlepszego rozwiązania, ale potrzebuję, aby …

1
PyTorch vs. Tensorflow Fold
Zarówno PyTorch, jak i Tensorflow Fold są platformami do głębokiego uczenia się, przeznaczonymi do radzenia sobie w sytuacjach, w których dane wejściowe mają niejednorodną długość lub wymiary (to znaczy sytuacje, w których dynamiczne wykresy są przydatne lub potrzebne). Chciałbym wiedzieć, jak się porównują, w sensie paradygmatów, na których się opierają …

7
Jak sklonować środowisko robocze Python na innym komputerze?
Opracowałem model uczenia maszynowego za pomocą Pythona (Anaconda + Flask) na mojej stacji roboczej i wszystko idzie dobrze. Później próbowałem wysłać ten program na inną maszynę, na której oczywiście próbowałem skonfigurować to samo środowisko, ale program nie działa. Skopiowałem program na inne maszyny, na których również działa płynnie. Nie mogę …
26 python  anaconda 


6
Techniki uczenia maszynowego do szacowania wieku użytkowników na podstawie ulubionych stron na Facebooku
Mam bazę danych z mojej aplikacji na Facebooku i staram się używać uczenia maszynowego do szacowania wieku użytkowników na podstawie tego, co lubią na Facebooku. Istnieją trzy kluczowe cechy mojej bazy danych: rozkład wieku w moim zestawie szkoleniowym (łącznie 12 tys. użytkowników) jest przekrzywiony w stosunku do młodszych użytkowników (tj. …

4
Czy istnieje prosty sposób na równoległe uruchamianie pandas.DataFrame.isin?
Mam program do modelowania i oceniania, który intensywnie wykorzystuje DataFrame.isinfunkcję pand, przeszukując listy „podobnych” rejestrów Facebooka dla poszczególnych użytkowników dla każdej z kilku tysięcy konkretnych stron. Jest to najbardziej czasochłonna część programu, bardziej niż modelowanie lub ocenianie elementów, po prostu dlatego, że działa tylko na jednym rdzeniu, podczas gdy reszta …

4
Word2Vec do rozpoznawania nazwanych jednostek
Chcę użyć implementacji word2vec Google do zbudowania systemu rozpoznawania nazwanych jednostek. Słyszałem, że rekurencyjne sieci neuronowe z wsteczną propagacją przez strukturę dobrze nadają się do zadań rozpoznawania nazwanych bytów, ale nie byłem w stanie znaleźć porządnej implementacji lub przyzwoitego samouczka dla tego typu modelu. Ponieważ pracuję z nietypowym korpusem, standardowe …

5
Obraz maszyny wirtualnej dla projektów związanych z nauką danych
Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …
24 python  r  tools 

4
Scikit-learn: Jak SGDClassifier przewidział, a także regresję logistyczną
Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …

3
Najlepsze praktyki przechowywania modeli uczenia maszynowego w języku Python
Jakie są najlepsze praktyki zapisywania, przechowywania i udostępniania modeli uczenia maszynowego? W Pythonie przechowujemy binarną reprezentację modelu za pomocą marynaty lub joblib. Modele w moim przypadku mogą być ~ 100 milionów dużych. Joblib może również zapisać jeden model do wielu plików, chyba że ustawisz compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Ale jeśli …


5
Obliczanie dywergencji KL w Pythonie
Jestem raczej nowy i nie mogę powiedzieć, że mam pełne zrozumienie teoretycznych pojęć. Próbuję obliczyć dywergencję KL między kilkoma listami punktów w Pythonie. Korzystam z http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, aby spróbować to zrobić. Problem, na który napotykam, polega na tym, że zwracana wartość jest taka sama dla 2 dowolnych list liczb (jej 1.3862943611198906). …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.