Pytania otagowane jako tensorflow

Biblioteka Pythona do głębokiego uczenia się opracowana przez Google. Użyj tego tagu w przypadku każdego pytania na temat, które (a) wiąże się z tensorflow jako krytyczną częścią pytania lub oczekiwaną odpowiedzią, a (b) nie dotyczy tylko sposobu korzystania z tensorflow.

6
Optymalizator Adama z rozkładem wykładniczym
W większości kodów Tensorflow widziałem, że Adam Optimizer jest używany ze stałą szybkością uczenia się 1e-4(tj. 0,0001). Kod zwykle wygląda następująco: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

1
W jaki sposób softmax_cross_entropy_with_logits różni się od softmax_cross_entropy_with_logits_v2?
W szczególności zastanawiam się nad tym stwierdzeniem: Przyszłe główne wersje TensorFlow domyślnie umożliwią przepływ gradientów do danych wejściowych na etykietach. Który jest wyświetlany, gdy używam tf.nn.softmax_cross_entropy_with_logits. W tym samym komunikacie zachęca mnie do przyjrzenia się tf.nn.softmax_cross_entropy_with_logits_v2. Przejrzałem dokumentację, ale stwierdza tylko, że dla tf.nn.softmax_cross_entropy_with_logits_v2: Propagacja wstąpi na logi i etykiety. …

3
Uczenie maszynowe: czy powinienem stosować kategoryczną utratę entropii krzyżowej lub utratę entropii krzyżowej binarnej do prognoz binarnych?
Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek …

5
Zrozumienie jednostek LSTM vs. komórek
Przez jakiś czas studiowałem LSTM. Rozumiem na wysokim poziomie, jak wszystko działa. Jednak zamierzając je zaimplementować za pomocą Tensorflow, zauważyłem, że BasicLSTMCell wymaga szeregunum_units parametrów (tj. ) Parametrów. Z tego bardzo dokładnego wyjaśnienia LSTM wynika, że ​​jedna jednostka LSTM jest jedną z poniższych który w rzeczywistości jest jednostką GRU. Zakładam, …


3
Budowanie autokodera w Tensorflow, aby przewyższyć PCA
Hinton i Salakhutdinov w zmniejszaniu wymiarów danych za pomocą sieci neuronowych Science 2006 zaproponowali nieliniowe PCA poprzez zastosowanie głębokiego autoencodera. Kilka razy próbowałem zbudować i wyszkolić autoencoder PCA z Tensorflow, ale nigdy nie byłem w stanie uzyskać lepszego wyniku niż liniowy PCA. Jak mogę skutecznie trenować autoencoder? (Późniejsza edycja przez …



1
Jak interpretować histogramy podane przez TensorFlow w TensorBoard?
Niedawno biegałem i uczyłem się przepływu tensora i otrzymałem kilka histogramów, których nie umiałem interpretować. Zazwyczaj myślę o wysokości słupków jako o częstotliwości (lub częstotliwości względnej / zliczeniach). Jednak fakt, że nie ma pasków jak na zwykłym histogramie oraz fakt, że rzeczy są zacienione, myli mnie. wydaje się, że jednocześnie …

3
Relu vs Sigmoid vs Softmax jako neurony z ukrytą warstwą
Bawiłem się prostą siecią neuronową z tylko jedną ukrytą warstwą, autorstwa Tensorflow, a następnie próbowałem różnych aktywacji dla ukrytej warstwy: Relu Sigmoid Softmax (cóż, zwykle softmax jest używany w ostatniej warstwie ..) Relu zapewnia najlepszą dokładność pociągu i dokładność walidacji. Nie jestem pewien, jak to wyjaśnić. Wiemy, że Relu ma …

1
Funkcja utraty dla autoencoderów
Eksperymentuję trochę autoencoderów, a dzięki tensorflow stworzyłem model, który próbuje zrekonstruować zestaw danych MNIST. Moja sieć jest bardzo prosta: X, e1, e2, d1, Y, gdzie e1 i e2 są warstwami kodującymi, d2 i Y są warstwami dekodującymi (a Y jest zrekonstruowanym wyjściem). X ma 784 jednostki, e1 ma 100, e2 …



3
Różnica między próbkami, krokami czasowymi i cechami w sieci neuronowej
Przeglądam następujący blog na sieci neuronowej LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Autor przekształca wektor wejściowy X jako [próbki, przedziały czasowe, cechy] dla różnych konfiguracji LSTM. Autor pisze Rzeczywiście, sekwencje liter są krokami czasowymi jednej cechy, a nie krokiem czasu oddzielnych cech. Daliśmy sieci większy kontekst, ale nie więcej sekwencji, niż się spodziewano Co …

2
Czy powszechną praktyką jest minimalizowanie średniej straty w partiach zamiast sumy?
Tensorflow ma przykładowy samouczek na temat klasyfikowania CIFAR-10 . W samouczku średnia utrata entropii krzyżowej w partii jest zminimalizowana. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.