Chcę trenować CNN w zakresie rozpoznawania obrazów. Obrazy do treningu nie mają ustalonego rozmiaru. Chcę na przykład, aby rozmiar wejściowy dla CNN wynosił 50 x 100 (wysokość x szerokość). Kiedy zmieniam rozmiar niewielkich obrazów (na przykład 32x32) do rozmiaru wejściowego, zawartość obrazu jest zbyt mocno rozciągana w poziomie, ale w …
Czy istnieje metoda obliczania przedziału predykcji (rozkładu prawdopodobieństwa) wokół prognozy szeregów czasowych z sieci neuronowej LSTM (lub innej cyklicznej)? Powiedzmy na przykład, że przewiduję 10 próbek w przyszłości (t + 1 do t + 10), w oparciu o 10 ostatnio zaobserwowanych próbek (t-9 do t), oczekiwałbym, że przewidywanie przy t …
Używam Mózgu do trenowania sieci neuronowej na zestawie funkcji, który zawiera zarówno wartości dodatnie, jak i ujemne. Ale Mózg wymaga wartości wejściowych od 0 do 1. Jaki jest najlepszy sposób normalizacji moich danych?
Zbudowałem model LSTM, aby przewidzieć duplikaty pytań w oficjalnym zbiorze danych Quora. Etykiety testowe mają wartość 0 lub 1. 1 oznacza, że para pytań jest zduplikowana. Po zbudowaniu modelu za pomocą model.fit, testuję model za pomocą model.predictdanych testowych. Dane wyjściowe to tablica wartości, takich jak poniżej: [ 0.00514298] [ 0.15161049] …
Chcę wiedzieć, czy spadek gradientu jest głównym algorytmem stosowanym w optymalizatorach takich jak Adam, Adagrad, RMSProp i kilku innych optymalizatorach.
Jeśli trenuję mój model przy użyciu następującego kodu: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) kończy się za około 1 minutę. Jeśli trenuję mój model przy użyciu metody …
Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok? Czy istnieje metoda wzbogacenia przestrzeni funkcji?
Próbuję znaleźć odpowiednik diagramów Hintona dla sieci wielowarstwowych, aby wykreślić wagi podczas treningu. Przeszkolona sieć jest nieco podobna do Deep SRN, tj. Ma dużą liczbę macierzy wielokrotnych ciężaru, co sprawiłoby, że jednoczesny wykres kilku diagramów Hintona byłby mylący wizualnie. Czy ktoś zna dobry sposób na wizualizację procesu aktualizacji wagi dla …
Niedawno zapoznałem się z dziedziną Data Science (minęło około 6 miesięcy) i rozpocząłem podróż od Machine Learning Course przez Andrew Ng i post, który rozpoczął pracę nad specjalizacją Data Science przez JHU. Od strony praktycznej aplikacji pracowałem nad zbudowaniem modelu predykcyjnego, który przewidziałby ścieranie. Do tej pory korzystałem z glm, …
Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …
Chcę przewidzieć pewną wartość i próbuję uzyskać prognozę która optymalizuje między byciem tak niskim, jak to możliwe, ale wciąż większym niż . Innymi słowy: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Myślę, że prosta regresja liniowa powinna dać sobie radę. Wiem więc trochę, …
Jeśli usunięcie niektórych neuronów skutkuje lepszym działaniem modelu, dlaczego nie zastosować prostszej sieci neuronowej z mniejszą liczbą warstw i mniejszą liczbą neuronów? Po co budować większy, bardziej skomplikowany model na początku, a później go pomijać?
Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?
Kiedy przeprowadzamy walidację krzyżową k-fold, czy powinniśmy po prostu użyć klasyfikatora, który ma najwyższą dokładność testu? Jakie jest ogólnie najlepsze podejście do uzyskania klasyfikatora z krzyżowej weryfikacji?
Chcę znaleźć wstępnie wyważone ciężary już wyszkolonych modeli, takich jak dane Google News itp. Trudno mi było wyszkolić nowy model z wystarczającą ilością danych (10 GB itp.) Dla siebie. Chcę więc skorzystać z nauki transferu, w której mógłbym uzyskać wstępnie wyszkolone wagi warstw i ponownie wyćwiczyć te ciężary na słowach …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.