Pytania otagowane jako scraping

1
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
Etyczne i ekonomiczne skalowanie skalowania danych
Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach. Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTKdla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na lokalizacji za pomocą adresów IP lub adresów, a pakiet tm.webmining.pluginfor …

7
Pozyskiwanie danych z LinkedIn
Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …

4
Jak zeskrobać stronę IMDB?
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.