Nauka danych

3

Jaka jest różnica między RNN generowania tekstu opartego na słowie i na znakach?

Czytając o generowaniu tekstu za pomocą Recurrent Neural Networks, zauważyłem, że niektóre przykłady zostały zaimplementowane w celu generowania tekstu słowo po słowie, a inne znak po znaku bez podania przyczyny. Jaka jest zatem różnica między modelami RNN, które przewidują podstawę tekstu na słowo, a tymi, które przewidują podstawę tekstu na …

15 machine-learning neural-network nlp rnn

4

R: uczenie maszynowe na GPU

Czy są jakieś pakiety uczenia maszynowego dla R, które mogą korzystać z GPU w celu poprawy prędkości treningu (coś takiego jak theano ze świata python)? Widzę, że istnieje pakiet o nazwie gputools, który umożliwia wykonywanie kodu na GPU, ale szukam pełniejszej biblioteki do uczenia maszynowego.

15 machine-learning r gpu

3

Intuicja za ograniczoną maszyną Boltzmanna (RBM)

Przeszedłem kurs Geoffa Hintona na temat sieci neuronowych na Coursera, a także przez wprowadzenie do ograniczonych maszyn Boltzmanna , ale nadal nie rozumiałem intuicji stojącej za RBM. Dlaczego musimy obliczać energię w tym urządzeniu? A jakie jest prawdopodobieństwo tego urządzenia? Też widziałem to wideo . Na filmie po prostu napisał …

15 unsupervised-learning rbm

5

Biblioteka Python do implementacji ukrytych modeli Markowa

Jakiej stabilnej biblioteki Python mogę użyć do implementacji ukrytych modeli Markowa? Potrzebuję go w miarę dobrze udokumentować, ponieważ nigdy tak naprawdę nie korzystałem z tego modelu. Alternatywnie, czy istnieje bardziej bezpośrednie podejście do przeprowadzania analizy szeregów czasowych na zbiorze danych przy użyciu HMM?

15 python time-series markov-process

4

Narzędzia do analizy danych za pomocą Scali

Wiem, że Spark jest w pełni zintegrowany ze Scalą. Jest to przypadek użycia specjalnie dla dużych zestawów danych. Jakie inne narzędzia mają dobre wsparcie dla Scali? Czy Scala najlepiej nadaje się do większych zestawów danych? A może nadaje się również do mniejszych zestawów danych?

15 scalability scala

4

Jak określić ważne atrybuty?

Załóżmy, że zestaw luźno ustrukturyzowanych danych (np. Tabele internetowe / połączone otwarte dane), złożony z wielu źródeł danych. Nie ma wspólnego schematu, po którym następowałyby dane, a każde źródło może używać atrybutów synonimów do opisywania wartości (np. „Narodowość” vs. „urodzony w”). Moim celem jest znalezienie pewnych „ważnych” atrybutów, które w …

15 machine-learning statistics feature-selection

2

Jaka jest różnica między Hadoop a noSQL

Słyszałem o wielu narzędziach / strukturach pomagających ludziom w przetwarzaniu ich danych (środowisko dużych zbiorów danych). Jeden nazywa się Hadoop, a drugi to koncepcja noSQL. Jaka jest różnica w punkcie przetwarzania? Czy się uzupełniają?

15 nosql tools processing apache-hadoop

3

Dlaczego przekształcamy wypaczone dane w normalny rozkład

Pracowałem nad rozwiązaniem konkursu cen mieszkań na Kaggle (jądro Human Analog w cenach domów: techniki regresji z wyprzedzeniem ) i natknąłem się na tę część: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = …

15 regression feature-extraction feature-engineering kaggle feature-scaling

2

Przesuwne okno prowadzi do przeregulowania w LSTM?

Czy zmieści się mój LSTM, jeśli będę go trenował przy użyciu okna przesuwnego? Dlaczego ludzie nie używają go do LSTM? W uproszczonym przykładzie załóżmy, że musimy przewidzieć kolejność znaków: A B C D E F G H I J K L M N O P Q R S T U …

15 lstm backpropagation mini-batch-gradient-descent

4

Podobieństwo między dwoma słowami

Szukam biblioteki Python, która pomoże mi zidentyfikować podobieństwo między dwoma słowami lub zdaniami. Będę robił konwersję audio na tekst, co spowoduje, że słownik języka angielskiego lub słowo (słowa) nie w słowniku (może to być nazwa osoby lub firmy). Następnie muszę porównać je ze znanym słowem lub słowami. Przykład: 1) Wynik …

15 nlp nltk

1

usuwanie ciągów po określonym znaku w danym tekście

Mam zestaw danych taki jak ten poniżej. Chcę usunąć wszystkie znaki po znaku ©. Jak mogę to zrobić w R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

5

Do udziału w projektach z zakresu nauki danych o otwartym kodzie źródłowym

Wkład w projekty open source jest zazwyczaj dobrym sposobem na zdobycie praktyki dla początkujących i wypróbowanie nowego obszaru dla doświadczonych naukowców i analityków danych. Jakie projekty wnosisz? Podaj link do intro + na Github.

15 beginner open-source

2

Dlaczego funkcje aktywacyjne muszą być monotoniczne?

Obecnie przygotowuję się do egzaminu z sieci neuronowych. W kilku protokołach z poprzednich badań czytałem, że funkcje aktywacyjne neuronów (w perceptronach wielowarstwowych) muszą być monotoniczne. Rozumiem, że funkcje aktywacyjne powinny być rozróżnialne, mieć pochodną, która w większości punktów nie jest równa 0, i być nieliniowa. Nie rozumiem, dlaczego bycie monotonnym …

15 machine-learning neural-network

2

Różnica rekomendacji oparta na przedmiotach i użytkownikach w Mahout

Chciałbym wiedzieć, w jaki sposób rekomendacje oparte na użytkownikach Mahoutu i na produktach różnią się od siebie. Określa to Oparte na użytkownikach : polecaj przedmioty, znajdując podobnych użytkowników. Jest to często trudniejsze do skalowania ze względu na dynamiczny charakter użytkowników. Oparte na elementach : oblicz podobieństwo między elementami i przygotuj …

15 machine-learning data-mining algorithms recommender-system

2

K-średnie vs. internetowe K-średnie

K-średnich jest dobrze znanym algorytmem do tworzenia klastrów, ale istnieje również wariant online takiego algorytmu (K-średnich online). Jakie są zalety i wady tych podejść i kiedy należy je preferować?

15 clustering algorithms k-means