Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Przeczytałem wiele blogów \ artykuł o tym, jak różne branże używają Big Data Analytic. Ale większość tego artykułu nie wspomina Jakie dane wykorzystały te firmy. Jaki był rozmiar danych Jakiego rodzaju narzędzi technologii wykorzystali do przetwarzania danych Jakiego problemu napotkali i jak wgląd w dane pomógł im rozwiązać problem. Jak …
Jeśli usunięcie niektórych neuronów skutkuje lepszym działaniem modelu, dlaczego nie zastosować prostszej sieci neuronowej z mniejszą liczbą warstw i mniejszą liczbą neuronów? Po co budować większy, bardziej skomplikowany model na początku, a później go pomijać?
W żadnym wypadku nie jestem ekspertem od autoencoderów ani sieci neuronowych, więc wybacz mi, jeśli to głupie pytanie. W celu zmniejszenia wymiarów lub wizualizacji klastrów w danych wielowymiarowych możemy użyć autoenkodera, aby utworzyć (stratną) reprezentację dwuwymiarową poprzez sprawdzenie wyniku warstwy sieci z 2 węzłami. Na przykład w poniższej architekturze sprawdzilibyśmy …
Przeczytałem to: Aby wytrenować naszą sieć neuronową, zainicjujemy każdy parametr W (l) ijWij (l) i każdy b (l) ibi (l) do małej losowej wartości bliskiej zeru (powiedzmy zgodnie z Normalną (0, ϵ2) Normalną (0 , ϵ2) rozkład dla niektórych małych ϵϵ, powiedzmy 0,01) z samouczków głębokiego uczenia się Stanforda w …
Ostatnio natknąłem się na osadzanie wykresów, takie jak DeepWalk i LINE. Jednak nadal nie mam jasnego pojęcia, co oznacza osadzanie wykresów i kiedy go używać (aplikacje)? Wszelkie sugestie są mile widziane!
Jeśli spojrzymy na 90-99% artykułów opublikowanych za pomocą CNN (ConvNet). Zdecydowana większość z nich używa najczęściej używanych filtrów o liczbach nieparzystych : {1, 3, 5, 7}. Sytuacja ta może prowadzić do pewnych problemów: przy tych rozmiarach filtrów zwykle splot nie jest idealny z wypełnieniem 2 (wspólne wypełnienie), a niektóre krawędzie …
Przeczytałem kilka artykułów na temat inicjalizacji jądra i wiele artykułów wspomina, że używają regulowania L2 jądra (często z ).λ = 0,0001λ=0,0001\lambda = 0.0001 Czy ktoś robi coś innego niż inicjowanie błędu systematycznego zerowym i nieregulowanie go? Dokumenty inicjujące jądro Mishkin and Matas: Wszystko czego potrzebujesz to dobry init Xavier Glorot …
W drzewach decyzyjnych możemy zrozumieć wynik struktury drzewiastej, a także możemy wizualizować, w jaki sposób drzewo decyzyjne podejmuje decyzje. Drzewa decyzyjne mają więc wyjaśnienie (ich wyniki można łatwo wyjaśnić). Czy mamy wyjaśnienia w sieciach neuronowych, podobnie jak w drzewach decyzyjnych?
Dobrze rozumiem rolę i mechanizm warstw splotowych w Deep Learning do przetwarzania obrazów w przypadku implementacji 2D lub 3D - „po prostu” próbują uchwycić wzory 2D na obrazach (w przypadku 3 kanałów w przypadku 3D). Ale ostatnio wpadłem na warstwy splotowe 1D w kontekście przetwarzania języka naturalnego, co jest dla …
Próbuję obliczyć wymiary każdej zmiennej w RNN w warstwie zapomnienia, jednak nie jestem pewien, czy jestem na dobrej drodze. Następne zdjęcie i równanie pochodzi z postu na blogu Colah „Understanding LSTM Networks” : gdzie: oznacza wielkośćwektora m ∗ 1xtxtx_tm∗1m∗1m*1 jest ukrytym stanem rozmiaru n ∗ 1 wektorht−1ht−1h_{t-1}n∗1n∗1n*1 jest konkatenacją (na …
Jak wybrać K na PCA? K to liczba wymiarów do rzutowania. Jedynym wymogiem jest, aby nie stracić zbyt dużo informacji. Rozumiem, że to zależy od danych, ale szukam prostego ogólnego przeglądu tego, jakie cechy należy wziąć pod uwagę przy wyborze K.
Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?
Kiedy przeprowadzamy walidację krzyżową k-fold, czy powinniśmy po prostu użyć klasyfikatora, który ma najwyższą dokładność testu? Jakie jest ogólnie najlepsze podejście do uzyskania klasyfikatora z krzyżowej weryfikacji?
Chcę znaleźć wstępnie wyważone ciężary już wyszkolonych modeli, takich jak dane Google News itp. Trudno mi było wyszkolić nowy model z wystarczającą ilością danych (10 GB itp.) Dla siebie. Chcę więc skorzystać z nauki transferu, w której mógłbym uzyskać wstępnie wyszkolone wagi warstw i ponownie wyćwiczyć te ciężary na słowach …
Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach. Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTKdla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na lokalizacji za pomocą adresów IP lub adresów, a pakiet tm.webmining.pluginfor …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.