Nauka danych

5

Jak narysować diagramy architektury uczenia głębokiego?

Zbudowałem swój model. Teraz chcę narysować schemat architektury sieci dla mojego artykułu badawczego. Przykład pokazano poniżej:

77 machine-learning neural-network deep-learning svm software-recommendation

11

SVM za pomocą scikit learn działa bez końca i nigdy nie kończy wykonywania

Próbuję uruchomić SVR przy użyciu scikit learn (python) na zbiorze danych szkoleniowych posiadającym 595605 wierszy i 5 kolumn (funkcji) oraz testowym zbiorze danych posiadającym 397070 wierszy. Dane zostały wstępnie przetworzone i uregulowane. Jestem w stanie z powodzeniem uruchomić przykłady testowe, ale po uruchomieniu przy użyciu mojego zestawu danych i pozostawieniu …

76 python svm scikit-learn

5

Dlaczego funkcje kosztów wykorzystują błąd kwadratowy?

Właśnie zaczynam od uczenia maszynowego i do tej pory zajmowałem się regresją liniową względem jednej zmiennej. Nauczyłem się, że istnieje hipoteza, która brzmi: hθ( x ) = θ0+ θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Aby znaleźć dobre wartości dla parametrów i , chcemy zminimalizować różnicę między obliczonym wynikiem a rzeczywistym wynikiem naszych danych testowych. Więc …

73 machine-learning linear-regression loss-function

11

Dlaczego ludzie wolą Pandy niż SQL?

Używam SQL od 1996 roku, więc mogę być stronniczy. Korzystałem intensywnie z MySQL i SQLite 3, ale także Microsoft SQL Server i Oracle. Zdecydowaną większość operacji, które widziałem, wykonałem za pomocą Pandas, można łatwiej wykonać za pomocą SQL. Obejmuje to filtrowanie zestawu danych, wybieranie określonych kolumn do wyświetlenia, zastosowanie funkcji …

69 pandas sql

1

Różnica między isna () i isnull () w pandach

Od dłuższego czasu używam pand. Ale, że nie rozumie, co jest różnica między isna()i isnull()w pand. I, co ważniejsze, którego użyć do zidentyfikowania brakujących wartości w ramce danych. Jaka jest podstawowa różnica bazowy jak wartość nie jest wykrywany jako albo naalbo null?

69 python pandas dataframe

8

Kiedy powinienem używać Gini Impurity zamiast Gain Information?

Czy ktoś może praktycznie wyjaśnić uzasadnienie nieczystości Giniego w stosunku do zdobywania informacji (na podstawie Entropii)? Której metryki lepiej użyć w różnych scenariuszach podczas korzystania z drzew decyzyjnych?

66 machine-learning decision-trees

8

Naukowiec danych a inżynier uczenia maszynowego

Jakie są ewentualne różnice między „naukowcem danych” a „inżynierem uczenia maszynowego”? W ciągu ostatniego roku „inżynier uczenia maszynowego” zaczął pojawiać się często na ofertach pracy. Jest to szczególnie zauważalne w San Francisco, co jest zapewne początkiem terminu „naukowiec danych”. W pewnym momencie „badacz danych” wyprzedził „statystykę” i zastanawiam się, czy …

66 machine-learning

5

Prognozowanie szeregów czasowych przy użyciu ARIMA vs LSTM

Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jedną serię czasową naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jej przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa rekurencyjnych sieci neuronowych) ARIMA Próbowałem obu i przeczytałem …

64 time-series deep-learning rnn prediction

3

Zalety AUC w porównaniu ze standardową dokładnością

Zaczynałem patrzeć na obszar pod krzywą (AUC) i jestem trochę zdezorientowany co do jego przydatności. Kiedy wyjaśniono mi po raz pierwszy, AUC wydawało się świetną miarą wydajności, ale w moich badaniach odkryłem, że niektórzy twierdzą, że jego przewaga jest w większości marginalna, ponieważ jest najlepsza do łapania „szczęśliwych” modeli z …

64 machine-learning accuracy

1

Jak uzyskać korelację między dwiema zmiennymi jakościowymi a zmienną jakościową i zmienną ciągłą?

Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …

63 r statistics correlation

6

ciągi jako cechy drzewa decyzyjnego / losowego lasu

Mam problem z zastosowaniem drzewa decyzyjnego / losowego lasu. Próbuję dopasować problem, który zawiera zarówno liczby, jak i ciągi znaków (takie jak nazwa kraju). Teraz biblioteka scikit-learn przyjmuje tylko liczby jako parametry, ale chcę wstrzyknąć ciągi, a także niosą one znaczną ilość wiedzy. Jak poradzić sobie z takim scenariuszem? Mogę …

63 machine-learning python scikit-learn random-forest decision-trees

3

Backprop przez warstwy Max-Pooling?

Jest to małe pytanie koncepcyjne, które dręczy mnie od dłuższego czasu: Jak możemy propagować wstecz przez warstwę max-pooling w sieci neuronowej? Natknąłem się na warstwy o maksymalnej puli podczas omawiania tego samouczka dla biblioteki nn Torch 7. Biblioteka streszcza obliczenia gradientu i przebiegi do przodu dla każdej warstwy głębokiej sieci. …

62 neural-network backpropagation

8

Wykrywanie anomalii open source w Pythonie

Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …

61 machine-learning python data-mining anomaly-detection library

2

Szkolenie RNN z przykładami różnych długości w Keras

Próbuję zacząć uczyć się o RNN i używam Keras. Rozumiem podstawowe założenie waniliowych warstw RNN i LSTM, ale mam problem ze zrozumieniem pewnej technicznej kwestii szkolenia. W dokumentacji keras napisano, że wejście do warstwy RNN musi mieć kształt (batch_size, timesteps, input_dim). Sugeruje to, że wszystkie przykłady treningu mają ustaloną długość …

61 python keras rnn training

9

Zestaw pociągu / testu / walidacji Podział w Sklearn

Jak mogę losowo podzielić macierz danych i odpowiadający wektor etykiety na X_train, X_test, X_val, y_train, y_test, y_val za pomocą Sklearn? O ile mi wiadomo, sklearn.cross_validation.train_test_splitjest zdolny do podziału na dwie części, a nie na trzy ...

59 machine-learning scikit-learn