Statystyki i duże zbiory danych neural-networks

1

Prawdopodobieństwo krzyżowe lub prawdopodobieństwo dziennika w warstwie wyjściowej

Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …

31 neural-networks maximum-likelihood softmax

2

Czego właśnie nauczyła się moja sieć neuronowa? Jakie funkcje są ważne i dlaczego?

Sieć neuronowa uczy się cech zestawu danych jako sposobu na osiągnięcie pewnego celu. Po zakończeniu możemy chcieć dowiedzieć się, czego nauczyła się sieć neuronowa. Jakie były funkcje i dlaczego o to dbano. Czy ktoś może podać jakieś referencje na temat pracy, która dotyczy tego problemu?

30 neural-networks deep-learning

2

Konwolucyjne sieci neuronowe: czy neurony centralne nie są nadmiernie reprezentowane na wyjściu?

[To pytanie zadawano również przy przepełnieniu stosu] Pytanie w skrócie Badam splotowe sieci neuronowe i uważam, że sieci te nie traktują każdego neuronu wejściowego (piksela / parametru) w sposób równoważny. Wyobraź sobie, że mamy głęboką sieć (wiele warstw), która stosuje splot na niektórych obrazach wejściowych. Neurony w „środku” obrazu mają …

30 machine-learning neural-networks convolution

6

Różnica między siecią Bayesa, siecią neuronową, drzewem decyzyjnym i sieciami Petriego

Jaka jest różnica pomiędzy sieci neuronowych , sieci Bayesa , drzewa decyzyjnego i sieci Petriego , chociaż one są wszystkie modele graficzne i wizualnie przedstawiają przyczynowo-skutkowy.

30 machine-learning neural-networks bayesian-network fuzzy

7

Niebezpieczeństwo ustawienia wszystkich początkowych ciężarów na zero w propagacji wstecznej

Dlaczego inicjowanie wag zerami jest niebezpieczne? Czy jest jakiś prosty przykład, który to pokazuje?

30 neural-networks backpropagation

2

Co oznacza termin nasycenie nieliniowości?

Czytałem artykuł Klasyfikacja ImageNet z głębokimi sieciami neuronowymi splotowymi, aw części 3, w której wyjaśnili architekturę swojej sieci neuronowej splotowej, wyjaśnili, w jaki sposób woleli: nieliniowa nieliniowośćf(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). ponieważ trenowanie było szybsze. W tym artykule wydaje się, że odnoszą się one do nasycenia nieliniowości jako bardziej tradycyjnych funkcji …

30 machine-learning neural-networks terminology conv-neural-network

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

Dlaczego w sieciach neuronowych wykorzystywane są węzły stronniczości?

Dlaczego w sieciach neuronowych wykorzystywane są węzły stronniczości? Ile powinieneś użyć? Na jakich warstwach należy ich użyć: wszystkie ukryte warstwy i warstwa wyjściowa?

29 machine-learning neural-networks bias-node

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Jak to możliwe, że utrata walidacji rośnie, a jednocześnie zwiększa się dokładność walidacji

Uczę prostej sieci neuronowej na zbiorze danych CIFAR10. Po pewnym czasie utrata walidacji zaczęła rosnąć, a dokładność walidacji również rośnie. Utrata i dokładność testu stale się poprawiają. Jak to jest możliwe? Wydaje się, że w przypadku wzrostu utraty walidacji dokładność powinna się zmniejszyć. PS Jest kilka podobnych pytań, ale nikt …

28 neural-networks deep-learning conv-neural-network overfitting

3

Czy nie można teraz powiedzieć, że modele głębokiego uczenia się są interpretowalne? Czy funkcje węzłów?

W przypadku modeli statystycznych i uczenia maszynowego istnieje wiele poziomów interpretacji: 1) algorytm jako całość, 2) części algorytmu ogólnie 3) części algorytmu na poszczególnych wejściach, a te trzy poziomy są podzielone na dwie części, jeden do treningu, a drugi do oceny funkcji. Ostatnie dwie części są znacznie bliższe niż pierwsze. …

27 neural-networks deep-learning interpretation

2

Funkcja utraty współczynnika kości vs entropia krzyżowa

Kiedy trenujesz sieci neuronowe segmentujące piksele, takie jak sieci w pełni splotowe, jak podejmiesz decyzję o zastosowaniu funkcji utraty krzyżowej entropii w porównaniu z funkcją utraty współczynnika kości? Zdaję sobie sprawę, że to krótkie pytanie, ale nie jestem pewien, jakie inne informacje podać. Przejrzałem całą dokumentację na temat dwóch funkcji …

27 neural-networks loss-functions cross-entropy

5

Czy głęboka sieć neuronowa może przybliżać funkcję mnożenia bez normalizacji?

Powiedzmy, że chcemy wykonać regresję dla prostego f = x * yużycia standardowej głębokiej sieci neuronowej. Pamiętam, że istnieją powtórzenia, które mówią, że NN z jedną warstwą ukrytą może apoksymować dowolną funkcję, ale próbowałem i bez normalizacji NN nie był w stanie zbliżyć nawet tego prostego mnożenia. Pomogła tylko normalizacja …

27 regression machine-learning neural-networks deep-learning

1

Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać?

Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać? Na przykład mam predyktorów w regresji liniowej, którą nazwiebym jako mój model.nnn Jak przeprowadzę do tego badanie ablacyjne? Jakich wskaźników powinienem użyć? Docenione zostanie kompleksowe źródło lub podręcznik.

27 regression machine-learning neural-networks

1

Dlaczego funkcje aktywacji niecentrowanej są problemem w propagacji wstecznej?

Przeczytałem tutaj : Wyjścia sigmoidalne nie są wyśrodkowane na zero . Jest to niepożądane, ponieważ neurony w późniejszych warstwach przetwarzania w sieci neuronowej (więcej o tym wkrótce) otrzymywałyby dane, które nie są wyśrodkowane. Ma to wpływ na dynamikę podczas opadania gradientu, ponieważ jeśli dane wchodzące do neuronu są zawsze dodatnie …

26 neural-networks deep-learning backpropagation

Pytania otagowane jako neural-networks