Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

5
Czy powinienem wybrać „zrównoważony” zbiór danych czy „reprezentatywny” zestaw danych?
Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …

9
Jak radzić sobie z kontrolą wersji dużych ilości (binarnych) danych
Jestem doktorantem geofizyki i pracuję z dużą ilością danych obrazu (setki GB, dziesiątki tysięcy plików). Znam svni gitdość dobrze i doceniać historię projektu, w połączeniu ze zdolnością do łatwo pracować razem i mieć ochronę przed uszkodzeniem dysku. Uważam gitrównież za bardzo pomocny w utrzymywaniu spójnych kopii zapasowych, ale wiem, że …



9
Jaką część przekłamywania danych stanowi praca naukowca?
Obecnie pracuję jako specjalista ds. Danych w firmie detalicznej (moja pierwsza praca jako DS, więc to pytanie może wynikać z mojego braku doświadczenia). Mają ogromne zaległości w naprawdę ważnych projektach związanych z nauką danych, które miałyby bardzo pozytywny wpływ, gdyby zostały wdrożone. Ale. W firmie nie ma potoków danych, standardowa …

3
Liczba parametrów w modelu LSTM
Ile parametrów ma pojedynczy zestaw LSTM? Liczba parametrów nakłada dolną granicę na liczbę wymaganych przykładów treningu, a także wpływa na czas szkolenia. Dlatego znajomość liczby parametrów jest przydatna w modelach szkoleniowych z wykorzystaniem LSTM.

4
Dodawanie funkcji do modelu szeregów czasowych LSTM
czytałem trochę o LSTM i ich zastosowaniu do szeregów czasowych i było to interesujące, ale jednocześnie trudne. Jedną rzeczą, z którą miałem trudności ze zrozumieniem, jest podejście do dodawania dodatkowych funkcji do już istniejącej listy funkcji szeregów czasowych. Zakładając, że masz zestaw danych w następujący sposób: t-3, t-2, t-1, Wyjście …

6
Jak mogę przekształcić nazwy w poufny zestaw danych, aby uczynić go anonimowym, ale zachować niektóre cechy tych nazw?
Motywacja Pracuję z zestawami danych, które zawierają dane osobowe (PII) i czasami muszę udostępniać część zbioru danych stronom trzecim w sposób, który nie naraża PII i nie naraża mojego pracodawcy na odpowiedzialność. Naszym typowym podejściem jest tutaj całkowite wstrzymanie danych lub, w niektórych przypadkach, zmniejszenie rozdzielczości; np. zastąpienie dokładnego adresu …

1
Jaka jest różnica między LeakyReLU i PReLU?
Myślałem, że zarówno PReLU, jak i Leaky ReLU są fa( x ) = maks. ( x , α x ) z α ∈ ( 0 , 1 )f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras ma jednak obie funkcje w dokumentacji . …

2
Jak przygotować / powiększyć obrazy dla sieci neuronowej?
Chciałbym użyć sieci neuronowej do klasyfikacji obrazów. Zacznę od wstępnie przeszkolonego CaffeNet i wyszkolę go do mojej aplikacji. Jak przygotować obrazy wejściowe? W tym przypadku wszystkie obrazy są tego samego obiektu, ale z różnymi odmianami (pomyśl: kontrola jakości). Są w nieco różnych skalach / rozdzielczościach / odległościach / warunkach oświetleniowych …

6
Podobieństwo cosinus kontra iloczyn iloczynu jako miary odległości
Wygląda na to, że podobieństwo cosinus dwóch cech jest po prostu iloczynem skalowanym przez iloczyn wielkości. Kiedy podobieństwo cosinus stanowi lepszą miarę odległości niż iloczyn kropkowy? Czy to znaczy, że produkt kropkowy i podobieństwo cosinus mają różne mocne i słabe strony w różnych sytuacjach?

7
ValueError: Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („float32”)
Dostałem ValueError podczas przewidywania danych testowych przy użyciu modelu RandomForest. Mój kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Błąd: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Jak znaleźć złe wartości w zestawie danych testowych? Ponadto nie …


4
Dlaczego rozmiar mini partii jest lepszy niż jedna „partia” ze wszystkimi danymi treningowymi?
Często czytam, że w przypadku modeli Deep Learning zwykłą praktyką jest stosowanie mini-partii (zazwyczaj małej, 32/64) w kilku epokach treningowych. Naprawdę nie mogę pojąć przyczyny tego. O ile się nie mylę, wielkość partii to liczba instancji treningowych widocznych przez model podczas iteracji treningu; a epoka jest pełną turą, gdy model …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.