Nauka danych r

4

Czy są jakieś pakiety uczenia maszynowego dla R, które mogą korzystać z GPU w celu poprawy prędkości treningu (coś takiego jak theano ze świata python)? Widzę, że istnieje pakiet o nazwie gputools, który umożliwia wykonywanie kodu na GPU, ale szukam pełniejszej biblioteki do uczenia maszynowego.

15 machine-learning r gpu

1

usuwanie ciągów po określonym znaku w danym tekście

Mam zestaw danych taki jak ten poniżej. Chcę usunąć wszystkie znaki po znaku ©. Jak mogę to zrobić w R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

5

Czy współczesne biblioteki R i / lub Python powodują, że SQL staje się przestarzały?

Pracuję w biurze, w którym SQL Server jest podstawą wszystkiego, co robimy, od przetwarzania danych przez czyszczenie po mung. Mój kolega specjalizuje się w pisaniu złożonych funkcji i procedur przechowywanych w celu metodycznego przetwarzania przychodzących danych, aby można je było znormalizować i uruchomić w raportach, wizualizacjach i projektach analitycznych. Przed …

14 python r data-cleaning data sql

3

Przewidywanie następnego stanu medycznego na podstawie przeszłych stanów w danych roszczeń

Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM). Moimi celami są: Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla stanu medycznego, takiego …

12 machine-learning r

1

Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Czy stuprocentowa dokładność modelu w przypadku nadmiernego dopasowania danych poza próbą?

Właśnie ukończyłem uczenie maszynowe dla kursu R na cognitiveclass.ai i zacząłem eksperymentować z losowymi lasami. Stworzyłem model, używając biblioteki „randomForest” w R. Model klasyfikuje według dwóch klas: dobrej i złej. Wiem, że gdy model jest przeładowany, działa dobrze na danych z własnego zestawu treningowego, ale źle na danych poza próbą. …

11 r random-forest prediction overfitting

1

GPU Accelerated Data Processing for R w Windows

Obecnie piszę artykuł na temat Big Data, który mocno wykorzystuje R do analizy danych. Zdarza mi się mieć GTX1070 w komputerze z powodów związanych z grami. Pomyślałem więc, że byłoby naprawdę fajnie, gdybym mógł to wykorzystać, aby przyspieszyć przetwarzanie niektórych rzeczy, które robią moi wykładowcy, ale tak naprawdę wcale nie …

11 r gpu parallel

4

Jak uniknąć przeuczenia w losowym lesie?

Chcę uniknąć przeuczenia w losowym lesie. W związku z tym zamierzam użyć mtry, węzłów i maksymalnych węzłów itp. Czy możesz mi pomóc w wyborze wartości dla tych parametrów? Używam R. Ponadto, jeśli to możliwe, proszę powiedz mi, jak mogę użyć k-krotnego sprawdzania poprawności dla losowego lasu (w R).

11 machine-learning data-mining r predictive-modeling random-forest

1

Fisher Scoring v / s Współrzędne Descent dla MLE in R

Funkcja podstawowa R glm()wykorzystuje punktację Fishera dla MLE, podczas gdy glmnetwydaje się, że używa metody opadania współrzędnych do rozwiązania tego samego równania. Opadanie współrzędnych jest bardziej wydajne czasowo niż punktacja Fishera, ponieważ punktacja Fishera oblicza macierz pochodną drugiego rzędu, oprócz niektórych innych operacji macierzy. co sprawia, że jest to kosztowne …

11 machine-learning r algorithms optimization

3

Jakiej regresji użyć do obliczenia wyniku wyborów w systemie wielopartyjnym?

Chcę przewidzieć wynik wyborów parlamentarnych. Mój wynik to% otrzymany przez każdą ze stron. Istnieje więcej niż 2 strony, więc regresja logistyczna nie jest realną opcją. Mógłbym dokonać osobnej regresji dla każdej ze stron, ale w takim przypadku wyniki byłyby w pewien sposób niezależne od siebie. Nie zapewniłoby to, że suma …

11 classification r python regression predictive-modeling

3

Wizualizacja danych do analizy wzorców (niezależna od języka, ale preferowana R)

Chcę wykreślić bajty z obrazu dysku, aby zrozumieć wzorzec w nich. Jest to głównie zadanie akademickie, ponieważ jestem prawie pewien, że ten wzorzec został stworzony przez program do testowania dysków, ale i tak chciałbym go przebudować. Wiem już, że wzór jest wyrównany, z częstotliwością 256 znaków. Mogę wyobrazić sobie dwa …

11 r visualization

3

Najlepsze języki do obliczeń naukowych [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Wizualizacja przedmiotów często kupowanych razem

Mam zestaw danych w następującej strukturze wstawiony do pliku CSV: Banana Water Rice Rice Water Bread Banana Juice Każdy wiersz wskazuje kolekcję przedmiotów, które zostały zakupione razem. Na przykład, pierwszy wiersz oznacza, że przedmioty Banana, Wateri Ricezostały zakupione razem. Chcę utworzyć wizualizację, jak poniżej: Jest to w zasadzie wykres siatki, …

10 python r data-mining visualization association-rules

1

Konwergencja w metodzie k-średnich Hartigana-Wonga i innych algorytmach

Próbowałem zrozumieć różne algorytmy grupowania k-średnich, które są głównie zaimplementowane w statspakiecie Rjęzyka. Rozumiem algorytm Lloyda i algorytm online MacQueena. Sposób ich rozumienia jest następujący: Algorytm Lloyda: Początkowo wybiera się losowe obserwacje „k”, które będą służyć jako centroidy gromad „k”. Następnie w iteracji następują następujące kroki, aż centroidy zbiegną się. …

10 r clustering k-means

Pytania otagowane jako r