Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny


6
Jak zrobić SVD i PCA z dużymi danymi?
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …

4
Jak działają kolejne warstwy splotu?
To pytanie sprowadza się do „jak dokładnie działają warstwy splotu . Załóżmy, że mam obraz w skali szarości . Obraz ma jeden kanał. W pierwszej warstwie stosuję splot 3 × 3 z filtrami k 1 i wypełnieniem. Następnie mam kolejną warstwę splotu z 5 x 5 zwojami i filtrami k …

4
Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …

3
Wybór pomiędzy CPU a GPU do szkolenia sieci neuronowej
Widziałem dyskusje na temat „narzutu” GPU, a dla „małych” sieci trening może być szybszy na CPU (lub sieci CPU) niż na GPU. Co oznacza „mały”? Na przykład, czy jednowarstwowa MLP ze 100 ukrytymi jednostkami byłaby „mała”? Czy nasza definicja „małej” zmienia się dla architektur cyklicznych? Czy są jakieś inne kryteria, …


4
Dane ciągu analizującego sieć neuronową?
Właśnie zaczynam się uczyć, jak sieć neuronowa może działać, aby rozpoznawać wzorce i kategoryzować dane wejściowe, i widziałem, jak sztuczna sieć neuronowa może analizować dane obrazu i kategoryzować obrazy ( demo z convnetjs ) i klucz tam polega na próbkowaniu w dół obrazu, a każdy piksel stymuluje jeden neuron wejściowy …

4
Kiedy używać Random Forest zamiast SVM i odwrotnie?
Kiedy należy używać Random Forestna SVModwrót? Rozumiem, że cross-validationporównanie modeli jest ważnym aspektem wyboru modelu, ale tutaj chciałbym dowiedzieć się więcej na temat zasad praktycznych i heurystyki tych dwóch metod. Czy ktoś może wyjaśnić subtelności, mocne i słabe strony klasyfikatorów, a także problemy, które najlepiej pasują do każdego z nich?

4
Jakich algorytmów należy użyć do przeprowadzenia klasyfikacji zadania na podstawie danych wznawiania?
Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …

4
Czy model powinien zostać ponownie przeszkolony, jeśli dostępne są nowe obserwacje?
Nie znalazłem więc żadnej literatury na ten temat, ale wydaje się, że warto coś przemyśleć: Jakie są najlepsze praktyki w szkoleniu i optymalizacji modeli, jeśli dostępne są nowe obserwacje? Czy jest jakiś sposób na określenie okresu / częstotliwości ponownego szkolenia modelu, zanim prognozy zaczną się obniżać? Czy przesadne jest optymalizowanie …

3
Zrozumienie prognozy_proba z MultiOutputClassifier
Podążam za tym przykładem na stronie scikit-learn, aby przeprowadzić klasyfikację wielu wyników za pomocą modelu Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y …

6
Jaka jest różnica między hiperparametrami modelu a parametrami modelu?
Zauważyłem, że takie terminy, jak hiperparametr modelu i parametr modelu zostały użyte zamiennie w sieci bez wcześniejszego wyjaśnienia. Myślę, że jest to niepoprawne i wymaga wyjaśnienia. Rozważ model uczenia maszynowego, klasyfikator oparty na SVM / NN / NB lub narzędzie do rozpoznawania obrazów - wszystko, co przyjdzie ci do głowy. …

3
Parametry Hypertuning XGBoost
XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …
27 r  python  xgboost 

4
Zastosowania i różnice dla podobieństwa Jaccard i podobieństwa Cosinus
Podobieństwo Jaccard i podobieństwo cosinus są dwoma bardzo częstymi pomiarami przy porównywaniu podobieństw między przedmiotami. Nie jestem jednak do końca jasne, w jakiej sytuacji najlepiej wybrać inną. Czy ktoś może wyjaśnić różnice między tymi dwoma pomiarami (różnica w koncepcji lub zasadzie, a nie w definicji lub obliczeniach) i ich preferowane …
27 similarity 

1
RNN z wieloma funkcjami
Mam trochę samouczącej się wiedzy związanej z algorytmami uczenia maszynowego (podstawowe rzeczy typu Losowy Las i Regresja Liniowa). Postanowiłem rozgałęzić się i zacząć uczyć RNN z Keras. Patrząc na większość przykładów, które zwykle wiążą się z prognozami giełdowymi, nie znalazłem żadnych podstawowych przykładów implementacji wielu funkcji innych niż 1 kolumna …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.