Nauka danych

5

Czy powinienem wybrać „zrównoważony” zbiór danych czy „reprezentatywny” zestaw danych?

Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …

48 machine-learning dataset unbalanced-classes

9

Jak radzić sobie z kontrolą wersji dużych ilości (binarnych) danych

Jestem doktorantem geofizyki i pracuję z dużą ilością danych obrazu (setki GB, dziesiątki tysięcy plików). Znam svni gitdość dobrze i doceniać historię projektu, w połączeniu ze zdolnością do łatwo pracować razem i mieć ochronę przed uszkodzeniem dysku. Uważam gitrównież za bardzo pomocny w utrzymywaniu spójnych kopii zapasowych, ale wiem, że …

46 bigdata databases binary version-control

9

Alternatywy IDE dla programowania R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Używam RStudio do programowania R. Pamiętam o solidnych IDE z innych stosów technologii, takich jak Visual Studio lub Eclipse. Mam dwa pytania: Jakie inne IDE są używane niż RStudio (proszę rozważyć ich krótki opis). Czy któryś z nich ma zauważalną przewagę nad RStudio? Mam na myśli przede wszystkim funkcje debugowania …

46 r tools rstudio programming

10

Uczenie maszynowe - inżynieria na podstawie danych daty / godziny

Jakie są typowe / najlepsze praktyki obsługi danych dotyczących czasu dla aplikacji uczenia maszynowego? Na przykład jeśli w zestawie danych znajduje się kolumna ze znacznikiem czasu zdarzenia, takim jak „2014-05-05”, w jaki sposób można wyodrębnić przydatne funkcje z tej kolumny, jeśli takie istnieją? Z góry dziękuję!

45 machine-learning time-series feature-selection

9

Jaką część przekłamywania danych stanowi praca naukowca?

Obecnie pracuję jako specjalista ds. Danych w firmie detalicznej (moja pierwsza praca jako DS, więc to pytanie może wynikać z mojego braku doświadczenia). Mają ogromne zaległości w naprawdę ważnych projektach związanych z nauką danych, które miałyby bardzo pozytywny wpływ, gdyby zostały wdrożone. Ale. W firmie nie ma potoków danych, standardowa …

44 data-wrangling

3

Liczba parametrów w modelu LSTM

Ile parametrów ma pojedynczy zestaw LSTM? Liczba parametrów nakłada dolną granicę na liczbę wymaganych przykładów treningu, a także wpływa na czas szkolenia. Dlatego znajomość liczby parametrów jest przydatna w modelach szkoleniowych z wykorzystaniem LSTM.

43 deep-learning rnn

4

Dodawanie funkcji do modelu szeregów czasowych LSTM

czytałem trochę o LSTM i ich zastosowaniu do szeregów czasowych i było to interesujące, ale jednocześnie trudne. Jedną rzeczą, z którą miałem trudności ze zrozumieniem, jest podejście do dodawania dodatkowych funkcji do już istniejącej listy funkcji szeregów czasowych. Zakładając, że masz zestaw danych w następujący sposób: t-3, t-2, t-1, Wyjście …

43 machine-learning neural-network deep-learning time-series

6

Jak mogę przekształcić nazwy w poufny zestaw danych, aby uczynić go anonimowym, ale zachować niektóre cechy tych nazw?

Motywacja Pracuję z zestawami danych, które zawierają dane osobowe (PII) i czasami muszę udostępniać część zbioru danych stronom trzecim w sposób, który nie naraża PII i nie naraża mojego pracodawcy na odpowiedzialność. Naszym typowym podejściem jest tutaj całkowite wstrzymanie danych lub, w niektórych przypadkach, zmniejszenie rozdzielczości; np. zastąpienie dokładnego adresu …

42 data-cleaning anonymization

1

Jaka jest różnica między LeakyReLU i PReLU?

Myślałem, że zarówno PReLU, jak i Leaky ReLU są fa( x ) = maks. ( x , α x ) z α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras ma jednak obie funkcje w dokumentacji . …

42 neural-network

2

Jak przygotować / powiększyć obrazy dla sieci neuronowej?

Chciałbym użyć sieci neuronowej do klasyfikacji obrazów. Zacznę od wstępnie przeszkolonego CaffeNet i wyszkolę go do mojej aplikacji. Jak przygotować obrazy wejściowe? W tym przypadku wszystkie obrazy są tego samego obiektu, ale z różnymi odmianami (pomyśl: kontrola jakości). Są w nieco różnych skalach / rozdzielczościach / odległościach / warunkach oświetleniowych …

41 neural-network image-classification preprocessing convnet

6

Podobieństwo cosinus kontra iloczyn iloczynu jako miary odległości

Wygląda na to, że podobieństwo cosinus dwóch cech jest po prostu iloczynem skalowanym przez iloczyn wielkości. Kiedy podobieństwo cosinus stanowi lepszą miarę odległości niż iloczyn kropkowy? Czy to znaczy, że produkt kropkowy i podobieństwo cosinus mają różne mocne i słabe strony w różnych sytuacjach?

41 classification

7

ValueError: Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („float32”)

Dostałem ValueError podczas przewidywania danych testowych przy użyciu modelu RandomForest. Mój kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Błąd: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Jak znaleźć złe wartości w zestawie danych testowych? Ponadto nie …

41 python random-forest pandas

10

Dlaczego modele uczenia maszynowego nazywane są czarnymi skrzynkami?

Czytałem ten post na blogu zatytułowany: Świat finansowy chce otworzyć czarne skrzynki AI , w których autor wielokrotnie określa modele ML jako „czarne skrzynki”. Podobną terminologię zastosowano w kilku miejscach w odniesieniu do modeli ML. Dlaczego tak jest To nie jest tak, że inżynierowie ML nie wiedzą, co dzieje się …

40 machine-learning terminology

4

Dlaczego rozmiar mini partii jest lepszy niż jedna „partia” ze wszystkimi danymi treningowymi?

Często czytam, że w przypadku modeli Deep Learning zwykłą praktyką jest stosowanie mini-partii (zazwyczaj małej, 32/64) w kilku epokach treningowych. Naprawdę nie mogę pojąć przyczyny tego. O ile się nie mylę, wielkość partii to liczba instancji treningowych widocznych przez model podczas iteracji treningu; a epoka jest pełną turą, gdy model …

40 machine-learning deep-learning

10

Czy algorytmy uczenia maszynowego mogą przewidywać wyniki sportowe lub rozgrywki?

Mam wiele zestawów danych NFL, które moim zdaniem mogą być dobrym projektem pobocznym, ale jeszcze nic z nimi nie zrobiłem. Po wejściu na tę stronę przypomniałem sobie algorytmy uczenia maszynowego i zastanawiam się, jak dobrze potrafią przewidywać wyniki meczów piłkarskich, a nawet następną grę. Wydaje mi się, że można by …

40 machine-learning sports