Nauka danych random-forest

1

Losowe lasy online, dodając więcej pojedynczych drzew decyzji

Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych? Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy …

13 random-forest online-learning

1

Znaczenie cech z cechami jakościowymi wysokiej kardynalności dla regresji (zmienna zależna numerycznie)

Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Wybór funkcji za pomocą importu funkcji w losowych lasach za pomocą scikit-learn

Mam kreślone na importances cechą w lasy losowe z scikit-learn . W jaki sposób mogę wykorzystać informacje o działce do usunięcia funkcji w celu poprawy prognozowania przy użyciu losowych lasów? Tj. Jak na podstawie informacji o działce stwierdzić, czy funkcja jest bezużyteczna, a nawet gorzej obniża wydajność losowych lasów? Fabuła …

12 feature-selection random-forest scikit-learn

1

Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Jak dopasować jakościowe typy danych do losowej klasyfikacji lasu?

Muszę znaleźć dokładność zestawu danych szkoleniowych, stosując algorytm losowego lasu. Ale mój typ mojego zestawu danych jest zarówno kategoryczny, jak i numeryczny. Kiedy próbowałem dopasować te dane, pojawia się błąd. „Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („ float32 ”)”. Problem może dotyczyć typów danych obiektowych. …

12 python data-mining random-forest

3

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Czy stuprocentowa dokładność modelu w przypadku nadmiernego dopasowania danych poza próbą?

Właśnie ukończyłem uczenie maszynowe dla kursu R na cognitiveclass.ai i zacząłem eksperymentować z losowymi lasami. Stworzyłem model, używając biblioteki „randomForest” w R. Model klasyfikuje według dwóch klas: dobrej i złej. Wiem, że gdy model jest przeładowany, działa dobrze na danych z własnego zestawu treningowego, ale źle na danych poza próbą. …

11 r random-forest prediction overfitting

2

Znajdź optymalne P (X | Y), biorąc pod uwagę, że mam model, który ma dobrą wydajność po treningu na P (Y | X)

Dane wejściowe: -> cechy koszulki (kolor, logo itp.)XXX -> marża zyskuYYY Trenowałem losowy las na powyższych i Y i osiągnąłem rozsądną dokładność na danych testowych. Więc mamXXXYYY .P.( Y| X)P(Y|X)P(Y|X) Chciałbym teraz znaleźć tj. Rozkład prawdopodobieństwa cech X, biorąc pod uwagę, że oczekuję tak dużej marży zysku.P.( X| Y)P(X|Y)P(X|Y)XXX Jak …

11 machine-learning random-forest generative-models

3

Niezbilansowane klasy - jak zminimalizować fałszywe negatywy?

Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i …

11 classification random-forest decision-trees unbalanced-classes

4

Jak uniknąć przeuczenia w losowym lesie?

Chcę uniknąć przeuczenia w losowym lesie. W związku z tym zamierzam użyć mtry, węzłów i maksymalnych węzłów itp. Czy możesz mi pomóc w wyborze wartości dla tych parametrów? Używam R. Ponadto, jeśli to możliwe, proszę powiedz mi, jak mogę użyć k-krotnego sprawdzania poprawności dla losowego lasu (w R).

11 machine-learning data-mining r predictive-modeling random-forest

3

Najlepsze języki do obliczeń naukowych [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

znaczenie cech losowego lasu i regresja liniowa są różne

Zastosował Lasso do oceny funkcji i uzyskał następujące wyniki: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 Pamiętaj, że zestaw danych ma 3 etykiety. Ranking funkcji dla różnych etykiet jest taki sam. Następnie zastosował losowy las do tego samego zestawu danych: rank feature score =================================== …

9 feature-selection random-forest linear-regression

3

Eksportuj wagi (formuła) z Random Forest Regressor w Scikit-Learn

Przeszkoliłem model predykcyjny w Scikit Learn w Pythonie (Random Forest Regressor) i chcę w jakiś sposób wyodrębnić wagi każdej funkcji, aby stworzyć narzędzie Excel do ręcznego przewidywania. Jedyne, co znalazłem, model.feature_importances_to nie pomaga. Czy jest jakiś sposób na osiągnięcie tego? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from …

9 python predictive-modeling regression random-forest scikit-learn

3

R losowy las na Amazon ec2 Błąd: nie można przydzielić wektora o rozmiarze 5,4 Gb

Uczę losowych modeli lasu w R, używając randomForest()1000 drzew i ramek danych z około 20 predyktorami i 600 000 wierszy. Na moim laptopie wszystko działa dobrze, ale kiedy przechodzę do Amazon EC2, aby uruchomić to samo, pojawia się błąd: Error: cannot allocate vector of size 5.4 Gb Execution halted Używam …

9 r random-forest

Pytania otagowane jako random-forest