Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Czytając o generowaniu tekstu za pomocą Recurrent Neural Networks, zauważyłem, że niektóre przykłady zostały zaimplementowane w celu generowania tekstu słowo po słowie, a inne znak po znaku bez podania przyczyny. Jaka jest zatem różnica między modelami RNN, które przewidują podstawę tekstu na słowo, a tymi, które przewidują podstawę tekstu na …
Czy są jakieś pakiety uczenia maszynowego dla R, które mogą korzystać z GPU w celu poprawy prędkości treningu (coś takiego jak theano ze świata python)? Widzę, że istnieje pakiet o nazwie gputools, który umożliwia wykonywanie kodu na GPU, ale szukam pełniejszej biblioteki do uczenia maszynowego.
Przeszedłem kurs Geoffa Hintona na temat sieci neuronowych na Coursera, a także przez wprowadzenie do ograniczonych maszyn Boltzmanna , ale nadal nie rozumiałem intuicji stojącej za RBM. Dlaczego musimy obliczać energię w tym urządzeniu? A jakie jest prawdopodobieństwo tego urządzenia? Też widziałem to wideo . Na filmie po prostu napisał …
Jakiej stabilnej biblioteki Python mogę użyć do implementacji ukrytych modeli Markowa? Potrzebuję go w miarę dobrze udokumentować, ponieważ nigdy tak naprawdę nie korzystałem z tego modelu. Alternatywnie, czy istnieje bardziej bezpośrednie podejście do przeprowadzania analizy szeregów czasowych na zbiorze danych przy użyciu HMM?
Wiem, że Spark jest w pełni zintegrowany ze Scalą. Jest to przypadek użycia specjalnie dla dużych zestawów danych. Jakie inne narzędzia mają dobre wsparcie dla Scali? Czy Scala najlepiej nadaje się do większych zestawów danych? A może nadaje się również do mniejszych zestawów danych?
Załóżmy, że zestaw luźno ustrukturyzowanych danych (np. Tabele internetowe / połączone otwarte dane), złożony z wielu źródeł danych. Nie ma wspólnego schematu, po którym następowałyby dane, a każde źródło może używać atrybutów synonimów do opisywania wartości (np. „Narodowość” vs. „urodzony w”). Moim celem jest znalezienie pewnych „ważnych” atrybutów, które w …
Słyszałem o wielu narzędziach / strukturach pomagających ludziom w przetwarzaniu ich danych (środowisko dużych zbiorów danych). Jeden nazywa się Hadoop, a drugi to koncepcja noSQL. Jaka jest różnica w punkcie przetwarzania? Czy się uzupełniają?
Pracowałem nad rozwiązaniem konkursu cen mieszkań na Kaggle (jądro Human Analog w cenach domów: techniki regresji z wyprzedzeniem ) i natknąłem się na tę część: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = …
Czy zmieści się mój LSTM, jeśli będę go trenował przy użyciu okna przesuwnego? Dlaczego ludzie nie używają go do LSTM? W uproszczonym przykładzie załóżmy, że musimy przewidzieć kolejność znaków: A B C D E F G H I J K L M N O P Q R S T U …
Szukam biblioteki Python, która pomoże mi zidentyfikować podobieństwo między dwoma słowami lub zdaniami. Będę robił konwersję audio na tekst, co spowoduje, że słownik języka angielskiego lub słowo (słowa) nie w słowniku (może to być nazwa osoby lub firmy). Następnie muszę porównać je ze znanym słowem lub słowami. Przykład: 1) Wynik …
Wkład w projekty open source jest zazwyczaj dobrym sposobem na zdobycie praktyki dla początkujących i wypróbowanie nowego obszaru dla doświadczonych naukowców i analityków danych. Jakie projekty wnosisz? Podaj link do intro + na Github.
Obecnie przygotowuję się do egzaminu z sieci neuronowych. W kilku protokołach z poprzednich badań czytałem, że funkcje aktywacyjne neuronów (w perceptronach wielowarstwowych) muszą być monotoniczne. Rozumiem, że funkcje aktywacyjne powinny być rozróżnialne, mieć pochodną, która w większości punktów nie jest równa 0, i być nieliniowa. Nie rozumiem, dlaczego bycie monotonnym …
Chciałbym wiedzieć, w jaki sposób rekomendacje oparte na użytkownikach Mahoutu i na produktach różnią się od siebie. Określa to Oparte na użytkownikach : polecaj przedmioty, znajdując podobnych użytkowników. Jest to często trudniejsze do skalowania ze względu na dynamiczny charakter użytkowników. Oparte na elementach : oblicz podobieństwo między elementami i przygotuj …
K-średnich jest dobrze znanym algorytmem do tworzenia klastrów, ale istnieje również wariant online takiego algorytmu (K-średnich online). Jakie są zalety i wady tych podejść i kiedy należy je preferować?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.