Nauka danych

4

Mamy więc potencjał aplikacji do uczenia maszynowego, która dość dobrze wpasowuje się w tradycyjną domenę problemową rozwiązaną przez klasyfikatorów, tj. Mamy zestaw atrybutów opisujących przedmiot i „wiadro”, w którym się kończą. Zamiast tworzyć modele prawdopodobieństw, takich jak w Naive Bayes lub podobnych klasyfikatorach, chcemy, aby nasze dane wyjściowe były zbiorem …

11 machine-learning classification

2

Porzucasz na jakich warstwach LSTM?

Używając wielowarstwowej LSTMz usuwaniem, czy wskazane jest umieszczenie zrzutu na wszystkich ukrytych warstwach, a także na wyjściowych warstwach gęstych? W artykule Hintona (który zaproponował Dropout) umieścił Dropout tylko na gęstych warstwach, ale to dlatego, że ukryte wewnętrzne warstwy były splotowe. Oczywiście mogę przetestować mój konkretny model, ale zastanawiałem się, czy …

11 neural-network lstm rnn dropout stacked-lstm

1

Jak korzystać z propagacji etykiet Scikit-Learn na danych o strukturze grafowej?

W ramach moich badań jestem zainteresowany przeprowadzeniem propagacji etykiet na wykresie. Szczególnie interesują mnie te dwie metody: Xiaojin Zhu i Zoubin Ghahramani. Uczenie się na podstawie danych oznakowanych i nieznakowanych dzięki propagacji etykiet. Raport techniczny CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, …

11 scikit-learn graphs

5

Segmentacja obrazu bez nadzoru

Próbuję zaimplementować algorytm, w którym biorąc pod uwagę obraz z kilkoma obiektami na stole w płaszczyźnie, pożądane jest wyjście z masek segmentacji dla każdego obiektu. W przeciwieństwie do CNN, celem jest wykrycie obiektów w nieznanym środowisku. Jakie są najlepsze podejścia do tego problemu? Czy są też jakieś przykłady implementacji dostępne …

11 machine-learning deep-learning cnn computer-vision object-detection

3

Jaka jest różnica między wektorem mieszającym a wektorem tfidf

Konwertuję korpus dokumentów tekstowych na wektory słów dla każdego dokumentu. Próbowałem tego za pomocą TfidfVectorizer i HashingVectorizer Rozumiem, że a HashingVectorizernie uwzględnia IDFwyników tak, jak TfidfVectorizerrobi. Powodem, dla którego wciąż pracuję nad HashingVectorizerjest elastyczność, jaką daje podczas pracy z ogromnymi zbiorami danych, jak wyjaśniono tutaj i tutaj . (Mój oryginalny …

11 nlp scikit-learn text-mining tfidf

1

Spraw, aby Keras działał na wielordzeniowym systemie wielordzeniowym

Pracuję na modelu Seq2Seq przy użyciu LSTM z Keras (przy użyciu tła Theano) i chciałbym zrównoleglić procesy, ponieważ nawet kilka MB danych potrzebuje kilku godzin na szkolenie. Oczywiste jest, że procesory graficzne są znacznie lepsze w równoległości niż procesory. W tej chwili mam tylko procesory do pracy. Miałem dostęp do …

11 tensorflow keras theano parallel

3

Sieci neuronowe - korelacja strat i dokładności

Jestem trochę zdezorientowany współistnieniem wskaźników strat i dokładności w sieciach neuronowych. Oba mają uczynić „dokładność” w porównaniu yyy i Y nie są? Czy więc zastosowanie dwóch zbędnych elementów w epokach treningowych nie jest możliwe? Co więcej, dlaczego nie są ze sobą powiązane?y^y^\hat{y}

11 neural-network evaluation

3

Czy TensorFlow jest kompletną biblioteką uczenia maszynowego?

Jestem nowy w TensorFlow i muszę zrozumieć możliwości i wady TensorFlow, zanim będę mógł z niego korzystać. Wiem, że jest to platforma do głębokiego uczenia się, ale oprócz tej, której innych algorytmów uczenia maszynowego możemy używać z przepływem tensora. Na przykład, czy możemy używać SVM lub losowych lasów za pomocą …

11 machine-learning

2

Pytanie o stronniczość w sieciach konwergencyjnych

Próbuję dowiedzieć się, ile wag i stronniczości jest potrzebnych dla CNN. Powiedz, że mam obraz (3, 32, 32) i chcę zastosować filtr (32, 5, 5). Dla każdej mapy obiektów mam wagi 5 x 5, więc powinienem mieć parametry 3 x (5 x 5) x 32. Teraz muszę dodać błąd. Wydaje …

11 deep-learning convnet backpropagation

4

Który pierwszy: testowanie algorytmów, wybór funkcji, dostrajanie parametrów?

Kiedy próbuję dokonać np. Klasyfikacji, obecnie moim podejściem jest najpierw wypróbuj różne algorytmy i sprawdź je dokonaj wyboru funkcji na najlepszym algorytmie z 1 powyżej dostrój parametry za pomocą wybranych funkcji i algorytmu Jednak często nie mogę się przekonać, że może istnieć lepszy algorytm niż wybrany, jeśli inne algorytmy zostały …

11 feature-selection parameter-estimation

3

Czy drzewa regresji mogą przewidywać w sposób ciągły?

Załóżmy, że mam gładką funkcję, taką jak . Mam zestaw treningowy D ⊊ { ( ( x , y ) , f ( x , y ) ) | ( x , y ) ∈ R 2 } i, oczywiście, nie znam f, chociaż mogę ocenić f gdziekolwiek chcę.fa( x …

11 predictive-modeling regression decision-trees

2

Jak przekonwertować dane kategoryczne na dane liczbowe w Pyspark

Używam notatnika Ipython do pracy z aplikacjami pyspark. Mam plik CSV z dużą ilością podzielonych na kategorie kolumn, aby ustalić, czy dochód mieści się w przedziale 50k, czy powyżej. Chciałbym wykonać algorytm klasyfikacji, biorąc wszystkie dane wejściowe w celu ustalenia zakresu dochodów. Muszę zbudować słownik zmiennych do mapowanych zmiennych i …

11 python apache-spark categorical-data pyspark

2

Konsekwencje skalowania cech

Obecnie używam SVM i skaluję swoje funkcje treningowe do zakresu [0,1]. Najpierw dopasowuję / przekształcam mój zestaw treningowy, a następnie stosuję tę samą transformację do mojego zestawu testowego. Na przykład: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing …

11 machine-learning svm feature-scaling

4

Korzystanie z klastrowania w przetwarzaniu tekstu

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych. Następnie używam tego jako cechy każdej próbki treningowej. …

11 text-mining clustering

3

Jakiej regresji użyć do obliczenia wyniku wyborów w systemie wielopartyjnym?

Chcę przewidzieć wynik wyborów parlamentarnych. Mój wynik to% otrzymany przez każdą ze stron. Istnieje więcej niż 2 strony, więc regresja logistyczna nie jest realną opcją. Mógłbym dokonać osobnej regresji dla każdej ze stron, ale w takim przypadku wyniki byłyby w pewien sposób niezależne od siebie. Nie zapewniłoby to, że suma …

11 classification r python regression predictive-modeling