Scikit-learn to moduł Pythona składający się z prostego i wydajnego narzędzia do uczenia maszynowego, eksploracji danych i analizy danych. Jest zbudowany na NumPy, SciPy i matplotlib. Jest rozpowszechniany na licencji 3-klauzulowej BSD.
Mam zestaw danych z ~ 1 milionami wierszy i ~ 500 tysięcy rzadkich funkcji. Chcę zmniejszyć wymiarowość do gdzieś rzędu gęstych funkcji 1K-5K. sklearn.decomposition.PCAnie działa na rzadkich danych i próbowałem użyć, sklearn.decomposition.TruncatedSVDale dość szybko pojawia się błąd pamięci. Jakie są moje opcje skutecznego zmniejszenia wymiarów na tej skali?
W większości estymatorów w scikit-learn istnieje n_jobsparametr fit/ predictmetody do tworzenia równoległych zadań za pomocą joblib. Zauważyłem, że ustawienie go tak, aby -1tworzyło tylko 1 proces Pythona i maksymalizuje rdzenie, powodując, że użycie procesora osiągnęło 2500%. Różni się to znacznie od ustawienia dodatniej liczby całkowitej> 1, która tworzy wiele procesów …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
W ramach moich badań jestem zainteresowany przeprowadzeniem propagacji etykiet na wykresie. Szczególnie interesują mnie te dwie metody: Xiaojin Zhu i Zoubin Ghahramani. Uczenie się na podstawie danych oznakowanych i nieznakowanych dzięki propagacji etykiet. Raport techniczny CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, …
Konwertuję korpus dokumentów tekstowych na wektory słów dla każdego dokumentu. Próbowałem tego za pomocą TfidfVectorizer i HashingVectorizer Rozumiem, że a HashingVectorizernie uwzględnia IDFwyników tak, jak TfidfVectorizerrobi. Powodem, dla którego wciąż pracuję nad HashingVectorizerjest elastyczność, jaką daje podczas pracy z ogromnymi zbiorami danych, jak wyjaśniono tutaj i tutaj . (Mój oryginalny …
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
Obecnie pracuję nad modelem regresji logistycznej dla genomiki. Jednym z pól wejściowych, które chcę uwzględnić jako zmienną towarzyszącą, jest genes. Istnieje około 24 000 znanych genów. Istnieje wiele funkcji o tym poziomie zmienności w biologii obliczeniowej i potrzebne są setki tysięcy próbek. Jeśli ja LabelEncoder()te geny 24K a potem OneHotEncoder()oni …
Mam zestaw danych obejmujący zestaw klientów w różnych miastach Kalifornii, czas dzwonienia dla każdego klienta oraz status połączenia (Prawda, jeśli klient odbierze połączenie i False, jeśli klient nie odbierze). Muszę znaleźć odpowiedni czas na dzwonienie do przyszłych klientów, aby prawdopodobieństwo odebrania połączenia było wysokie. Jaka jest najlepsza strategia dla tego …
Mam zestaw danych zawierający dane dotyczące temperatury, opadów i plonów soi dla gospodarstwa przez 10 lat (2005–2014). Na podstawie tych danych chciałbym przewidzieć rentowności w 2015 r. Należy pamiętać, że zestaw danych zawiera CODZIENNE wartości temperatury i opadów, ale tylko 1 wartość rocznie dla plonu, ponieważ zbiory roślin mają miejsce …
Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …
Pracuję nad klasyfikacją tekstu, w której mam 39 kategorii / klas i 8,5 miliona rekordów. (W przyszłości dane i kategorie wzrosną). Struktura lub format moich danych jest następująca. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary …
Próbuję zrozumieć, jak w pełni zrozumieć proces decyzyjny modelu klasyfikacji drzewa decyzyjnego zbudowanego za pomocą sklearn. Dwa główne aspekty, na które patrzę, to reprezentacja drzewa grafviz oraz lista ważniejszych cech. To, czego nie rozumiem, to sposób, w jaki znaczenie funkcji jest określane w kontekście drzewa. Na przykład, oto moja lista …
Przeszkoliłem model predykcyjny w Scikit Learn w Pythonie (Random Forest Regressor) i chcę w jakiś sposób wyodrębnić wagi każdej funkcji, aby stworzyć narzędzie Excel do ręcznego przewidywania. Jedyne, co znalazłem, model.feature_importances_to nie pomaga. Czy jest jakiś sposób na osiągnięcie tego? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from …
Moje pytanie jest trzykrotne W kontekście „jądra” obsługują maszyny wektorowe Czy pożądany jest wybór zmiennych / cech - zwłaszcza, że regulujemy parametr C, aby zapobiec nadmiernemu dopasowaniu, a głównym motywem wprowadzenia jądra do SVM jest zwiększenie wymiarów problemu, w takim przypadku zmniejszenie wymiarów poprzez redukcję parametrów wydaje się sprzeczne z …
Jestem nowy w dziedzinie uczenia maszynowego, ale zrobiłem swój udział w przetwarzaniu sygnałów. Daj mi znać, jeśli to pytanie zostało błędnie oznaczone. Mam dwuwymiarowe dane, które są zdefiniowane przez co najmniej trzy zmienne, z wysoce nieliniowym modelem, który jest zbyt skomplikowany, aby symulować. Różniłem się sukcesem przy wydobywaniu dwóch głównych …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.