Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

8
Czy Python nadaje się do dużych zbiorów danych
Czytam w tym poście Czy język R jest odpowiedni dla dużych 5TBzbiorów danych, które stanowią duże zbiory danych , i chociaż dobrze się spisuje, dostarczając informacji o możliwościach pracy z tego typu danymi w Rnim, zapewnia bardzo mało informacji na jego temat Python. Zastanawiałem się, czy Pythonmoże pracować z tak …
14 bigdata  python 


2
Jak pasują modele rankingowe w xgBoost?
O ile mi wiadomo, aby trenować naukę rangowania modeli, musisz mieć w zestawie danych trzy rzeczy: etykieta lub trafność identyfikator grupy lub zapytania wektor funkcji Na przykład zestaw danych Microsoft Learning to Rank korzysta z tego formatu (etykieta, identyfikator grupy i funkcje). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 …
14 search  ranking  xgboost  gbm 


3
Co oznacza wynik działania funkcji model.predict z Keras?
Zbudowałem model LSTM, aby przewidzieć duplikaty pytań w oficjalnym zbiorze danych Quora. Etykiety testowe mają wartość 0 lub 1. 1 oznacza, że ​​para pytań jest zduplikowana. Po zbudowaniu modelu za pomocą model.fit, testuję model za pomocą model.predictdanych testowych. Dane wyjściowe to tablica wartości, takich jak poniżej: [ 0.00514298] [ 0.15161049] …


4
Liczba epok w implementacji Gensim Word2Vec
W implementacji Word2Vec znajduje się iterparametrgensim klasa gensim.models.word2vec.Word2Vec (zdania = brak, rozmiar = 100, alfa = 0,025, okno = 5, liczba_minimalna = 5, max_vocab_size = brak, próbka = 0, seed = 1, pracownicy = 1, min_alpha = 0,0001, sg = 1, hs = 1, ujemny = 0, cbow_mean = 0, …

2
Jak stosować SMOTE do klasyfikacji tekstu?
Syntetyczna technika nadpróbkowania mniejszości (SMOTE) to technika nadpróbkowania stosowana w przypadku problemu z niezrównoważonym zestawem danych. Do tej pory mam pomysł, jak zastosować go do ogólnych, ustrukturyzowanych danych. Ale czy można go zastosować do problemu klasyfikacji tekstu? Którą część danych potrzebujesz nadpróbkować? Jest już inne pytanie , ale nie ma …

3
Pandas Dataframe do DMatrix
Próbuję uruchomić xgboost w scikit learn. I używam tylko Pand do ładowania danych do ramki danych. Jak mam używać pand df z xgboost. Jestem zdezorientowany procedurą DMatrix wymaganą do uruchomienia xgboost algo.



2
Dlaczego algorytmy genetyczne nie są wykorzystywane do optymalizacji sieci neuronowych?
Z mojego zrozumienia, Algorytmy genetyczne są potężnymi narzędziami do optymalizacji wielu celów. Ponadto szkolenie sieci neuronowych (szczególnie głębokich) jest trudne i wiąże się z wieloma problemami (funkcje kosztów niewypukłych - lokalne minima, zanikanie i eksplodowanie gradientów itp.). Również jestem konceptualny, że szkolenie NN z GA jest wykonalne. Zastanawiałem się, dlaczego …



1
XGBRegressor vs. xgboost.train ogromna różnica prędkości?
Jeśli trenuję mój model przy użyciu następującego kodu: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) kończy się za około 1 minutę. Jeśli trenuję mój model przy użyciu metody …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.