Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
W szczególności szukam narzędzi z pewną funkcjonalnością, która jest specyficzna dla inżynierii funkcji. Chciałbym móc łatwo wygładzać, wizualizować, wypełniać luki itp. Coś podobnego do MS Excel, ale to ma R jako język podstawowy zamiast VB.
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …
To pytanie sprowadza się do „jak dokładnie działają warstwy splotu . Załóżmy, że mam obraz w skali szarości . Obraz ma jeden kanał. W pierwszej warstwie stosuję splot 3 × 3 z filtrami k 1 i wypełnieniem. Następnie mam kolejną warstwę splotu z 5 x 5 zwojami i filtrami k …
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …
Widziałem dyskusje na temat „narzutu” GPU, a dla „małych” sieci trening może być szybszy na CPU (lub sieci CPU) niż na GPU. Co oznacza „mały”? Na przykład, czy jednowarstwowa MLP ze 100 ukrytymi jednostkami byłaby „mała”? Czy nasza definicja „małej” zmienia się dla architektur cyklicznych? Czy są jakieś inne kryteria, …
Jakie są główne korzyści z przechowywania danych w HDF? A jakie są główne zadania związane z nauką danych, w których HDF jest naprawdę odpowiedni i przydatny?
Właśnie zaczynam się uczyć, jak sieć neuronowa może działać, aby rozpoznawać wzorce i kategoryzować dane wejściowe, i widziałem, jak sztuczna sieć neuronowa może analizować dane obrazu i kategoryzować obrazy ( demo z convnetjs ) i klucz tam polega na próbkowaniu w dół obrazu, a każdy piksel stymuluje jeden neuron wejściowy …
Kiedy należy używać Random Forestna SVModwrót? Rozumiem, że cross-validationporównanie modeli jest ważnym aspektem wyboru modelu, ale tutaj chciałbym dowiedzieć się więcej na temat zasad praktycznych i heurystyki tych dwóch metod. Czy ktoś może wyjaśnić subtelności, mocne i słabe strony klasyfikatorów, a także problemy, które najlepiej pasują do każdego z nich?
Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …
Nie znalazłem więc żadnej literatury na ten temat, ale wydaje się, że warto coś przemyśleć: Jakie są najlepsze praktyki w szkoleniu i optymalizacji modeli, jeśli dostępne są nowe obserwacje? Czy jest jakiś sposób na określenie okresu / częstotliwości ponownego szkolenia modelu, zanim prognozy zaczną się obniżać? Czy przesadne jest optymalizowanie …
Podążam za tym przykładem na stronie scikit-learn, aby przeprowadzić klasyfikację wielu wyników za pomocą modelu Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y …
Zauważyłem, że takie terminy, jak hiperparametr modelu i parametr modelu zostały użyte zamiennie w sieci bez wcześniejszego wyjaśnienia. Myślę, że jest to niepoprawne i wymaga wyjaśnienia. Rozważ model uczenia maszynowego, klasyfikator oparty na SVM / NN / NB lub narzędzie do rozpoznawania obrazów - wszystko, co przyjdzie ci do głowy. …
XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …
Podobieństwo Jaccard i podobieństwo cosinus są dwoma bardzo częstymi pomiarami przy porównywaniu podobieństw między przedmiotami. Nie jestem jednak do końca jasne, w jakiej sytuacji najlepiej wybrać inną. Czy ktoś może wyjaśnić różnice między tymi dwoma pomiarami (różnica w koncepcji lub zasadzie, a nie w definicji lub obliczeniach) i ich preferowane …
Mam trochę samouczącej się wiedzy związanej z algorytmami uczenia maszynowego (podstawowe rzeczy typu Losowy Las i Regresja Liniowa). Postanowiłem rozgałęzić się i zacząć uczyć RNN z Keras. Patrząc na większość przykładów, które zwykle wiążą się z prognozami giełdowymi, nie znalazłem żadnych podstawowych przykładów implementacji wielu funkcji innych niż 1 kolumna …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.