Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …
Jestem doktorantem geofizyki i pracuję z dużą ilością danych obrazu (setki GB, dziesiątki tysięcy plików). Znam svni gitdość dobrze i doceniać historię projektu, w połączeniu ze zdolnością do łatwo pracować razem i mieć ochronę przed uszkodzeniem dysku. Uważam gitrównież za bardzo pomocny w utrzymywaniu spójnych kopii zapasowych, ale wiem, że …
Używam RStudio do programowania R. Pamiętam o solidnych IDE z innych stosów technologii, takich jak Visual Studio lub Eclipse. Mam dwa pytania: Jakie inne IDE są używane niż RStudio (proszę rozważyć ich krótki opis). Czy któryś z nich ma zauważalną przewagę nad RStudio? Mam na myśli przede wszystkim funkcje debugowania …
Jakie są typowe / najlepsze praktyki obsługi danych dotyczących czasu dla aplikacji uczenia maszynowego? Na przykład jeśli w zestawie danych znajduje się kolumna ze znacznikiem czasu zdarzenia, takim jak „2014-05-05”, w jaki sposób można wyodrębnić przydatne funkcje z tej kolumny, jeśli takie istnieją? Z góry dziękuję!
Obecnie pracuję jako specjalista ds. Danych w firmie detalicznej (moja pierwsza praca jako DS, więc to pytanie może wynikać z mojego braku doświadczenia). Mają ogromne zaległości w naprawdę ważnych projektach związanych z nauką danych, które miałyby bardzo pozytywny wpływ, gdyby zostały wdrożone. Ale. W firmie nie ma potoków danych, standardowa …
Ile parametrów ma pojedynczy zestaw LSTM? Liczba parametrów nakłada dolną granicę na liczbę wymaganych przykładów treningu, a także wpływa na czas szkolenia. Dlatego znajomość liczby parametrów jest przydatna w modelach szkoleniowych z wykorzystaniem LSTM.
czytałem trochę o LSTM i ich zastosowaniu do szeregów czasowych i było to interesujące, ale jednocześnie trudne. Jedną rzeczą, z którą miałem trudności ze zrozumieniem, jest podejście do dodawania dodatkowych funkcji do już istniejącej listy funkcji szeregów czasowych. Zakładając, że masz zestaw danych w następujący sposób: t-3, t-2, t-1, Wyjście …
Motywacja Pracuję z zestawami danych, które zawierają dane osobowe (PII) i czasami muszę udostępniać część zbioru danych stronom trzecim w sposób, który nie naraża PII i nie naraża mojego pracodawcy na odpowiedzialność. Naszym typowym podejściem jest tutaj całkowite wstrzymanie danych lub, w niektórych przypadkach, zmniejszenie rozdzielczości; np. zastąpienie dokładnego adresu …
Myślałem, że zarówno PReLU, jak i Leaky ReLU są fa( x ) = maks. ( x , α x ) z α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras ma jednak obie funkcje w dokumentacji . …
Chciałbym użyć sieci neuronowej do klasyfikacji obrazów. Zacznę od wstępnie przeszkolonego CaffeNet i wyszkolę go do mojej aplikacji. Jak przygotować obrazy wejściowe? W tym przypadku wszystkie obrazy są tego samego obiektu, ale z różnymi odmianami (pomyśl: kontrola jakości). Są w nieco różnych skalach / rozdzielczościach / odległościach / warunkach oświetleniowych …
Wygląda na to, że podobieństwo cosinus dwóch cech jest po prostu iloczynem skalowanym przez iloczyn wielkości. Kiedy podobieństwo cosinus stanowi lepszą miarę odległości niż iloczyn kropkowy? Czy to znaczy, że produkt kropkowy i podobieństwo cosinus mają różne mocne i słabe strony w różnych sytuacjach?
Dostałem ValueError podczas przewidywania danych testowych przy użyciu modelu RandomForest. Mój kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Błąd: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Jak znaleźć złe wartości w zestawie danych testowych? Ponadto nie …
Czytałem ten post na blogu zatytułowany: Świat finansowy chce otworzyć czarne skrzynki AI , w których autor wielokrotnie określa modele ML jako „czarne skrzynki”. Podobną terminologię zastosowano w kilku miejscach w odniesieniu do modeli ML. Dlaczego tak jest To nie jest tak, że inżynierowie ML nie wiedzą, co dzieje się …
Często czytam, że w przypadku modeli Deep Learning zwykłą praktyką jest stosowanie mini-partii (zazwyczaj małej, 32/64) w kilku epokach treningowych. Naprawdę nie mogę pojąć przyczyny tego. O ile się nie mylę, wielkość partii to liczba instancji treningowych widocznych przez model podczas iteracji treningu; a epoka jest pełną turą, gdy model …
Mam wiele zestawów danych NFL, które moim zdaniem mogą być dobrym projektem pobocznym, ale jeszcze nic z nimi nie zrobiłem. Po wejściu na tę stronę przypomniałem sobie algorytmy uczenia maszynowego i zastanawiam się, jak dobrze potrafią przewidywać wyniki meczów piłkarskich, a nawet następną grę. Wydaje mi się, że można by …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.