Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny


11
SVM za pomocą scikit learn działa bez końca i nigdy nie kończy wykonywania
Próbuję uruchomić SVR przy użyciu scikit learn (python) na zbiorze danych szkoleniowych posiadającym 595605 wierszy i 5 kolumn (funkcji) oraz testowym zbiorze danych posiadającym 397070 wierszy. Dane zostały wstępnie przetworzone i uregulowane. Jestem w stanie z powodzeniem uruchomić przykłady testowe, ale po uruchomieniu przy użyciu mojego zestawu danych i pozostawieniu …

5
Dlaczego funkcje kosztów wykorzystują błąd kwadratowy?
Właśnie zaczynam od uczenia maszynowego i do tej pory zajmowałem się regresją liniową względem jednej zmiennej. Nauczyłem się, że istnieje hipoteza, która brzmi: hθ( x ) = θ0+ θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Aby znaleźć dobre wartości dla parametrów i , chcemy zminimalizować różnicę między obliczonym wynikiem a rzeczywistym wynikiem naszych danych testowych. Więc …

11
Dlaczego ludzie wolą Pandy niż SQL?
Używam SQL od 1996 roku, więc mogę być stronniczy. Korzystałem intensywnie z MySQL i SQLite 3, ale także Microsoft SQL Server i Oracle. Zdecydowaną większość operacji, które widziałem, wykonałem za pomocą Pandas, można łatwiej wykonać za pomocą SQL. Obejmuje to filtrowanie zestawu danych, wybieranie określonych kolumn do wyświetlenia, zastosowanie funkcji …
69 pandas  sql 

1
Różnica między isna () i isnull () w pandach
Od dłuższego czasu używam pand. Ale, że nie rozumie, co jest różnica między isna()i isnull()w pand. I, co ważniejsze, którego użyć do zidentyfikowania brakujących wartości w ramce danych. Jaka jest podstawowa różnica bazowy jak wartość nie jest wykrywany jako albo naalbo null?


8
Naukowiec danych a inżynier uczenia maszynowego
Jakie są ewentualne różnice między „naukowcem danych” a „inżynierem uczenia maszynowego”? W ciągu ostatniego roku „inżynier uczenia maszynowego” zaczął pojawiać się często na ofertach pracy. Jest to szczególnie zauważalne w San Francisco, co jest zapewne początkiem terminu „naukowiec danych”. W pewnym momencie „badacz danych” wyprzedził „statystykę” i zastanawiam się, czy …

5
Prognozowanie szeregów czasowych przy użyciu ARIMA vs LSTM
Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jedną serię czasową naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jej przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa rekurencyjnych sieci neuronowych) ARIMA Próbowałem obu i przeczytałem …

3
Zalety AUC w porównaniu ze standardową dokładnością
Zaczynałem patrzeć na obszar pod krzywą (AUC) i jestem trochę zdezorientowany co do jego przydatności. Kiedy wyjaśniono mi po raz pierwszy, AUC wydawało się świetną miarą wydajności, ale w moich badaniach odkryłem, że niektórzy twierdzą, że jego przewaga jest w większości marginalna, ponieważ jest najlepsza do łapania „szczęśliwych” modeli z …

1
Jak uzyskać korelację między dwiema zmiennymi jakościowymi a zmienną jakościową i zmienną ciągłą?
Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …

6
ciągi jako cechy drzewa decyzyjnego / losowego lasu
Mam problem z zastosowaniem drzewa decyzyjnego / losowego lasu. Próbuję dopasować problem, który zawiera zarówno liczby, jak i ciągi znaków (takie jak nazwa kraju). Teraz biblioteka scikit-learn przyjmuje tylko liczby jako parametry, ale chcę wstrzyknąć ciągi, a także niosą one znaczną ilość wiedzy. Jak poradzić sobie z takim scenariuszem? Mogę …

3
Backprop przez warstwy Max-Pooling?
Jest to małe pytanie koncepcyjne, które dręczy mnie od dłuższego czasu: Jak możemy propagować wstecz przez warstwę max-pooling w sieci neuronowej? Natknąłem się na warstwy o maksymalnej puli podczas omawiania tego samouczka dla biblioteki nn Torch 7. Biblioteka streszcza obliczenia gradientu i przebiegi do przodu dla każdej warstwy głębokiej sieci. …

8
Wykrywanie anomalii open source w Pythonie
Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …

2
Szkolenie RNN z przykładami różnych długości w Keras
Próbuję zacząć uczyć się o RNN i używam Keras. Rozumiem podstawowe założenie waniliowych warstw RNN i LSTM, ale mam problem ze zrozumieniem pewnej technicznej kwestii szkolenia. W dokumentacji keras napisano, że wejście do warstwy RNN musi mieć kształt (batch_size, timesteps, input_dim). Sugeruje to, że wszystkie przykłady treningu mają ustaloną długość …
61 python  keras  rnn  training 


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.