Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Próbuję uruchomić SVR przy użyciu scikit learn (python) na zbiorze danych szkoleniowych posiadającym 595605 wierszy i 5 kolumn (funkcji) oraz testowym zbiorze danych posiadającym 397070 wierszy. Dane zostały wstępnie przetworzone i uregulowane. Jestem w stanie z powodzeniem uruchomić przykłady testowe, ale po uruchomieniu przy użyciu mojego zestawu danych i pozostawieniu …
Właśnie zaczynam od uczenia maszynowego i do tej pory zajmowałem się regresją liniową względem jednej zmiennej. Nauczyłem się, że istnieje hipoteza, która brzmi: hθ( x ) = θ0+ θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Aby znaleźć dobre wartości dla parametrów i , chcemy zminimalizować różnicę między obliczonym wynikiem a rzeczywistym wynikiem naszych danych testowych. Więc …
Używam SQL od 1996 roku, więc mogę być stronniczy. Korzystałem intensywnie z MySQL i SQLite 3, ale także Microsoft SQL Server i Oracle. Zdecydowaną większość operacji, które widziałem, wykonałem za pomocą Pandas, można łatwiej wykonać za pomocą SQL. Obejmuje to filtrowanie zestawu danych, wybieranie określonych kolumn do wyświetlenia, zastosowanie funkcji …
Od dłuższego czasu używam pand. Ale, że nie rozumie, co jest różnica między isna()i isnull()w pand. I, co ważniejsze, którego użyć do zidentyfikowania brakujących wartości w ramce danych. Jaka jest podstawowa różnica bazowy jak wartość nie jest wykrywany jako albo naalbo null?
Czy ktoś może praktycznie wyjaśnić uzasadnienie nieczystości Giniego w stosunku do zdobywania informacji (na podstawie Entropii)? Której metryki lepiej użyć w różnych scenariuszach podczas korzystania z drzew decyzyjnych?
Jakie są ewentualne różnice między „naukowcem danych” a „inżynierem uczenia maszynowego”? W ciągu ostatniego roku „inżynier uczenia maszynowego” zaczął pojawiać się często na ofertach pracy. Jest to szczególnie zauważalne w San Francisco, co jest zapewne początkiem terminu „naukowiec danych”. W pewnym momencie „badacz danych” wyprzedził „statystykę” i zastanawiam się, czy …
Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jedną serię czasową naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jej przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa rekurencyjnych sieci neuronowych) ARIMA Próbowałem obu i przeczytałem …
Zaczynałem patrzeć na obszar pod krzywą (AUC) i jestem trochę zdezorientowany co do jego przydatności. Kiedy wyjaśniono mi po raz pierwszy, AUC wydawało się świetną miarą wydajności, ale w moich badaniach odkryłem, że niektórzy twierdzą, że jego przewaga jest w większości marginalna, ponieważ jest najlepsza do łapania „szczęśliwych” modeli z …
Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …
Mam problem z zastosowaniem drzewa decyzyjnego / losowego lasu. Próbuję dopasować problem, który zawiera zarówno liczby, jak i ciągi znaków (takie jak nazwa kraju). Teraz biblioteka scikit-learn przyjmuje tylko liczby jako parametry, ale chcę wstrzyknąć ciągi, a także niosą one znaczną ilość wiedzy. Jak poradzić sobie z takim scenariuszem? Mogę …
Jest to małe pytanie koncepcyjne, które dręczy mnie od dłuższego czasu: Jak możemy propagować wstecz przez warstwę max-pooling w sieci neuronowej? Natknąłem się na warstwy o maksymalnej puli podczas omawiania tego samouczka dla biblioteki nn Torch 7. Biblioteka streszcza obliczenia gradientu i przebiegi do przodu dla każdej warstwy głębokiej sieci. …
Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …
Próbuję zacząć uczyć się o RNN i używam Keras. Rozumiem podstawowe założenie waniliowych warstw RNN i LSTM, ale mam problem ze zrozumieniem pewnej technicznej kwestii szkolenia. W dokumentacji keras napisano, że wejście do warstwy RNN musi mieć kształt (batch_size, timesteps, input_dim). Sugeruje to, że wszystkie przykłady treningu mają ustaloną długość …
Jak mogę losowo podzielić macierz danych i odpowiadający wektor etykiety na X_train, X_test, X_val, y_train, y_test, y_val za pomocą Sklearn? O ile mi wiadomo, sklearn.cross_validation.train_test_splitjest zdolny do podziału na dwie części, a nie na trzy ...
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.