Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

1
Drzewo wzmocnienia gradientu: „im więcej zmiennych, tym lepiej”?
Z samouczka XGBoost myślę, że gdy każde drzewo rośnie, wszystkie zmienne są skanowane w celu wybrania w celu podzielenia węzłów i zostanie wybrana ta z podziałem maksymalnego wzmocnienia. Więc moje pytanie brzmi: co jeśli dodam jakieś zmienne szumu do zbioru danych, czy te zmienne szumu wpłyną na wybór zmiennych (dla …

4
Uczenie maszynowe a uczenie głębokie
Jestem trochę zdezorientowany różnicą między terminami „Machine Learning” i „Deep Learning”. Przejrzałem go i przeczytałem wiele artykułów, ale wciąż nie jest to dla mnie jasne. Znana definicja uczenia maszynowego przez Toma Mitchella to: Program komputerowy mówi się nauczyć z doświadczeń E w odniesieniu do pewnej klasy zadań T i zmierzyć …

4
Miara wydajności: Dlaczego nazywa się to wycofaniem?
precyzja to ułamek odzyskanych wystąpień, które są istotne, podczas gdy przywołanie (znane również jako wrażliwość) to ułamek odpowiednich odzyskanych wystąpień. Znam ich znaczenie, ale nie wiem, dlaczego nazywa się to wycofaniem ? Nie jestem ojczystym językiem angielskim. Wiem, że pamiętanie oznacza zapamiętaj, to nie wiem, jak ważne jest to znaczenie …


1
Niepoprawne wyjście regresji liniowej XGBoost
Jestem nowicjuszem w XGBoost, więc wybacz moją ignorancję. Oto kod python: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred Dane wyjściowe to: [ 24.126194 …


1
Intuicja parametru regularyzacji w SVM
W jaki sposób zmiana parametru regularyzacji w SVM zmienia granicę decyzyjną dla nierozdzielalnego zestawu danych? Bardzo pomocna byłaby wizualna odpowiedź i / lub komentarz na temat zachowań ograniczających (w przypadku dużej i małej regularyzacji).
11 svm 

6
Czy program Excel jest wystarczający do analizy danych?
Jestem w trakcie przygotowywania się do wprowadzenia kursu wprowadzającego na temat danych z wykorzystaniem języka programowania R. Moją publicznością są studenci studiów licencjackich specjalizujących się w tematyce biznesowej. Typowy student biznesu nie ma żadnego doświadczenia w programowaniu komputerowym, ale wziął kilka klas, które korzystają z Excela. Osobiście bardzo dobrze czuję …


2
Regresja liniowa i skalowanie danych
Poniższy wykres pokazuje współczynniki uzyskane z regresją liniową (ze mpgzmienną docelową i wszystkimi innymi jako predyktorami). Dla zestawu danych mtcars ( tu i tutaj ) zarówno ze skalowaniem danych, jak i bez: Jak interpretować te wyniki? Zmienne hpi dispsą ważne tylko wtedy, gdy dane są skalowane. Czy ami qsecrównie ważne …

3
Najlepsze języki do obliczeń naukowych [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Wczesne zatrzymanie w przypadku utraty weryfikacji lub dokładności?
Obecnie uczę sieci neuronowej i nie mogę zdecydować, którego użyć, aby wdrożyć moje kryteria wczesnego zatrzymania: utratę walidacji lub mierniki takie jak dokładność / f1score / auc / cokolwiek obliczone na zestawie walidacyjnym. W swoich badaniach natknąłem się na artykuły broniące obu punktów widzenia. Wygląda na to, że Keras domyślnie …

3
Jak mogę dokonać klasyfikacji za pomocą danych kategorycznych, które nie zostały naprawione?
Mam problem z klasyfikacją zarówno danych kategorycznych, jak i liczbowych. Problem, z którym się zmagam, polega na tym, że moje dane kategoryczne nie są naprawione, co oznacza, że ​​nowy kandydat, którego etykietę chcę przewidzieć, może mieć nową kategorię, która nie była wcześniej obserwowana. Na przykład, jeśli moje dane kategoryczne sexbyłyby …

3
XGboost - wybór według modelu
Używam XGboost, aby przewidzieć zmienną docelową 2 klas dotyczącą roszczeń ubezpieczeniowych. Mam model (szkolenie z walidacją krzyżową, dostrajanie hiper parametrów itp.) Uruchomiłem na innym zestawie danych. Moje pytanie brzmi : czy istnieje sposób, aby dowiedzieć się, dlaczego dane roszczenie wpłynęło na jedną klasę, tj. cechy, które wyjaśniają wybór dokonany przez …
10 xgboost 


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.