Nauka danych python

2

Ile czasu zajmuje klasyfikator scikit na klasyfikację?

Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …

10 machine-learning classification python scikit-learn

2

Debugowanie sieci neuronowych

Zbudowałem sztuczną sieć neuronową w Pythonie za pomocą funkcji optymalizacji scipy.optimize.minimize (gradient sprzężony). Wdrożyłem sprawdzanie gradientu, podwójnie sprawdziłem wszystko itp. Jestem pewien, że działa poprawnie. Uruchomiłem go kilka razy i osiąga on „Optymalizacja zakończona pomyślnie”, ale kiedy zwiększę liczbę ukrytych warstw, koszt hipotezy wzrasta (wszystko inne pozostaje takie samo) po …

10 machine-learning python neural-network

1

Dlaczego mój model Keras uczy się rozpoznawać tło?

Próbuję wyszkolić tę implementację Keras Deeplabv3 + na Pascal VOC2012, używając wstępnie przeszkolonego modelu (który został również przeszkolony w tym zestawie danych). Mam dziwne wyniki z dokładnością szybko zbliżającą się do 1.0: 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch …

9 python deep-learning keras tensorflow

1

Niezrównoważone dane powodujące błędną klasyfikację zestawu danych wieloklasowych

Pracuję nad klasyfikacją tekstu, w której mam 39 kategorii / klas i 8,5 miliona rekordów. (W przyszłości dane i kategorie wzrosną). Struktura lub format moich danych jest następująca. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary …

9 machine-learning python classification scikit-learn multiclass-classification

1

Czy HDF5 może być niezawodnie zapisywany i odczytywany jednocześnie przez oddzielne procesy python?

Piszę skrypt do rejestrowania danych na żywo w czasie w jednym pliku HDF5, który zawiera mój cały zestaw danych dla tego projektu. Pracuję z Pythonem 3.6 i postanowiłem utworzyć narzędzie wiersza poleceń clickdo gromadzenia danych. Moje obawy dotyczą tego, co się stanie, jeśli skrypt gromadzący dane zapisuje do pliku HDF5, …

9 python dataset

2

Dlaczego szybkość uczenia się powoduje, że waga mojej sieci neuronowej gwałtownie rośnie?

Używam tensorflow do pisania prostych sieci neuronowych w celu trochę badań i miałem wiele problemów z wagami „nan” podczas treningu. Próbowałem wielu różnych rozwiązań, takich jak zmiana optymalizatora, zmiana utraty, rozmiaru danych itp., Ale bezskutecznie. Wreszcie zauważyłem, że zmiana współczynnika uczenia się spowodowała niewiarygodną różnicę w moich wagach. Przy zastosowaniu …

9 machine-learning python tensorflow optimization gradient-descent

3

Eksportuj wagi (formuła) z Random Forest Regressor w Scikit-Learn

Przeszkoliłem model predykcyjny w Scikit Learn w Pythonie (Random Forest Regressor) i chcę w jakiś sposób wyodrębnić wagi każdej funkcji, aby stworzyć narzędzie Excel do ręcznego przewidywania. Jedyne, co znalazłem, model.feature_importances_to nie pomaga. Czy jest jakiś sposób na osiągnięcie tego? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from …

9 python predictive-modeling regression random-forest scikit-learn

7

Biblioteka Python, która może obliczyć macierz nieporozumień do klasyfikacji wielu etykiet

Szukam biblioteki Pythona, która może obliczyć macierz nieporozumień do klasyfikacji wieloznakowej . FYI: scikit-learn nie obsługuje wielu etykiet dla macierzy pomieszania) Jaka jest różnica między Problemem Wieloklasowym a Multilabelowym

9 python software-recommendation multilabel-classification

1

Jak binarnie kodować wielowartościową zmienną kategorialną z ramki danych Pandas?

Załóżmy, że mamy następującą ramkę danych z wieloma wartościami dla pewnej kolumny: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Jak możemy uzyskać taki stół? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 …

9 python pandas

2

Wdrażanie uzupełniających naiwnych Bayesa w pythonie?

Problem Próbowałem używać naiwnych bayes na oznaczonym zbiorze danych dotyczących przestępczości, ale otrzymałem naprawdę słabe wyniki (7% dokładności). Naiwne Bayes działa znacznie szybciej niż inne alogorytmy, których używałem, więc chciałem spróbować dowiedzieć się, dlaczego wynik był tak niski. Badania Po przeczytaniu odkryłem, że bayes Naive powinien być używany ze zbalansowanymi …

9 machine-learning classification python naive-bayes-classifier

2

Grupowanie dokumentów przy użyciu tematów pochodzących z Latent Dirichlet Allocation

Chcę użyć Latent Dirichlet Allocation dla projektu i używam Pythona z biblioteką gensim. Po znalezieniu tematów chciałbym klastrować dokumenty za pomocą algorytmu takiego jak k-średnich (idealnie chciałbym użyć dobrego do nakładania się klastrów, więc wszelkie zalecenia są mile widziane). Udało mi się uzyskać tematy, ale mają one postać: 0,041 * …

9 python clustering lda

2

Dlaczego regresja wzmocnienia gradientu przewiduje wartości ujemne, gdy w moim zestawie treningowym nie ma ujemnych wartości y?

Jak zwiększyć liczbę drzew w scikit nauczyć „s GradientBoostingRegressor, mam więcej negatywnych prognoz, choć nie ma wartości ujemne w moim szkolenia lub testowania zestawu. Mam około 10 funkcji, z których większość jest binarna. Niektóre parametry, które tuningowałem to: liczba drzew / iteracji; głębokość uczenia się; i współczynnik uczenia się. Procent …

8 machine-learning python algorithms scikit-learn kaggle

2

Błąd pamięci podczas używania większej liczby warstw w modelu CNN

Na moim laptopie Dell Core i7 - 16 GB RAM - 4GB 960m GPU pracuję nad projektem klasyfikacji obrazów CT płuc przy użyciu 3d CNN. Używam wersji procesora tensorflow. Obrazy są przygotowywane jako tablica liczb numpy (25,50,50). Mój model CNN miał 2 warstwy konwekcyjne, dwie warstwy maxpool, jedną warstwę FC …

7 python tensorflow cnn

Pytania otagowane jako python