Nauka danych

6

Czy są jakieś narzędzia do inżynierii obiektów?

W szczególności szukam narzędzi z pewną funkcjonalnością, która jest specyficzna dla inżynierii funkcji. Chciałbym móc łatwo wygładzać, wizualizować, wypełniać luki itp. Coś podobnego do MS Excel, ale to ma R jako język podstawowy zamiast VB.

29 feature-selection feature-extraction feature-construction

6

Jak zrobić SVD i PCA z dużymi danymi?

Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …

29 bigdata data-mining dimensionality-reduction

4

Jak działają kolejne warstwy splotu?

To pytanie sprowadza się do „jak dokładnie działają warstwy splotu . Załóżmy, że mam obraz w skali szarości . Obraz ma jeden kanał. W pierwszej warstwie stosuję splot 3 × 3 z filtrami k 1 i wypełnieniem. Następnie mam kolejną warstwę splotu z 5 x 5 zwojami i filtrami k …

29 neural-network convnet

4

Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych

Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …

29 machine-learning classification dataset unbalanced-classes

3

Wybór pomiędzy CPU a GPU do szkolenia sieci neuronowej

Widziałem dyskusje na temat „narzutu” GPU, a dla „małych” sieci trening może być szybszy na CPU (lub sieci CPU) niż na GPU. Co oznacza „mały”? Na przykład, czy jednowarstwowa MLP ze 100 ukrytymi jednostkami byłaby „mała”? Czy nasza definicja „małej” zmienia się dla architektur cyklicznych? Czy są jakieś inne kryteria, …

29 neural-network deep-learning gpu

3

Hierarchiczny format danych. Jakie są zalety w porównaniu do alternatywnych formatów?

Jakie są główne korzyści z przechowywania danych w HDF? A jakie są główne zadania związane z nauką danych, w których HDF jest naprawdę odpowiedni i przydatny?

28 data-formats hierarchical-data-format

4

Dane ciągu analizującego sieć neuronową?

Właśnie zaczynam się uczyć, jak sieć neuronowa może działać, aby rozpoznawać wzorce i kategoryzować dane wejściowe, i widziałem, jak sztuczna sieć neuronowa może analizować dane obrazu i kategoryzować obrazy ( demo z convnetjs ) i klucz tam polega na próbkowaniu w dół obrazu, a każdy piksel stymuluje jeden neuron wejściowy …

28 neural-network

4

Kiedy używać Random Forest zamiast SVM i odwrotnie?

Kiedy należy używać Random Forestna SVModwrót? Rozumiem, że cross-validationporównanie modeli jest ważnym aspektem wyboru modelu, ale tutaj chciałbym dowiedzieć się więcej na temat zasad praktycznych i heurystyki tych dwóch metod. Czy ktoś może wyjaśnić subtelności, mocne i słabe strony klasyfikatorów, a także problemy, które najlepiej pasują do każdego z nich?

28 machine-learning classification random-forest svm

4

Jakich algorytmów należy użyć do przeprowadzenia klasyfikacji zadania na podstawie danych wznawiania?

Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …

28 machine-learning classification nlp text-mining

4

Czy model powinien zostać ponownie przeszkolony, jeśli dostępne są nowe obserwacje?

Nie znalazłem więc żadnej literatury na ten temat, ale wydaje się, że warto coś przemyśleć: Jakie są najlepsze praktyki w szkoleniu i optymalizacji modeli, jeśli dostępne są nowe obserwacje? Czy jest jakiś sposób na określenie okresu / częstotliwości ponownego szkolenia modelu, zanim prognozy zaczną się obniżać? Czy przesadne jest optymalizowanie …

28 machine-learning predictive-modeling optimization training

3

Zrozumienie prognozy_proba z MultiOutputClassifier

Podążam za tym przykładem na stronie scikit-learn, aby przeprowadzić klasyfikację wielu wyników za pomocą modelu Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y …

28 scikit-learn random-forest multilabel-classification

6

Jaka jest różnica między hiperparametrami modelu a parametrami modelu?

Zauważyłem, że takie terminy, jak hiperparametr modelu i parametr modelu zostały użyte zamiennie w sieci bez wcześniejszego wyjaśnienia. Myślę, że jest to niepoprawne i wymaga wyjaśnienia. Rozważ model uczenia maszynowego, klasyfikator oparty na SVM / NN / NB lub narzędzie do rozpoznawania obrazów - wszystko, co przyjdzie ci do głowy. …

28 machine-learning parameter hyperparameter language-model

3

Parametry Hypertuning XGBoost

XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …

27 r python xgboost

4

Zastosowania i różnice dla podobieństwa Jaccard i podobieństwa Cosinus

Podobieństwo Jaccard i podobieństwo cosinus są dwoma bardzo częstymi pomiarami przy porównywaniu podobieństw między przedmiotami. Nie jestem jednak do końca jasne, w jakiej sytuacji najlepiej wybrać inną. Czy ktoś może wyjaśnić różnice między tymi dwoma pomiarami (różnica w koncepcji lub zasadzie, a nie w definicji lub obliczeniach) i ich preferowane …

27 similarity

1

RNN z wieloma funkcjami

Mam trochę samouczącej się wiedzy związanej z algorytmami uczenia maszynowego (podstawowe rzeczy typu Losowy Las i Regresja Liniowa). Postanowiłem rozgałęzić się i zacząć uczyć RNN z Keras. Patrząc na większość przykładów, które zwykle wiążą się z prognozami giełdowymi, nie znalazłem żadnych podstawowych przykładów implementacji wielu funkcji innych niż 1 kolumna …

27 machine-learning neural-network keras