Scikit-learn to moduł Pythona składający się z prostego i wydajnego narzędzia do uczenia maszynowego, eksploracji danych i analizy danych. Jest zbudowany na NumPy, SciPy i matplotlib. Jest rozpowszechniany na licencji 3-klauzulowej BSD.
Jestem początkującym w uczeniu maszynowym i keras, a teraz pracuję nad problemem klasyfikacji klas obrazów za pomocą keras. Wejście jest oznaczone obrazem. Po wstępnym przetworzeniu dane szkoleniowe są reprezentowane na liście Python jako: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] „pies”, „kot” i „ptak” to oznaczenia klasy. Wydaje mi się, że w …
Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się pamięć. Używam go na 48-rdzeniowym procesorze z 130G RAM. Czy istnieje …
Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia. Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się zmieniać), jakie funkcje …
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Mam rzadkie cechy, które są predykcyjne, mam też pewne gęste cechy, które są również predykcyjne. Muszę połączyć te funkcje razem, aby poprawić ogólną wydajność klasyfikatora. Rzecz w tym, że kiedy próbuję połączyć je ze sobą, cechy gęste mają tendencję do dominacji nad cechami rzadkimi, a zatem dają tylko 1% poprawę …
Buduję przepływ pracy do tworzenia modeli uczenia maszynowego (w moim przypadku przy użyciu Pythona pandasi sklearnpakietów) z danych pobranych z bardzo dużej bazy danych (tutaj, Vertica za pomocą SQL i pyodbc), a kluczowym krokiem w tym procesie jest przypisywanie braku wartości predyktorów. Jest to proste w obrębie pojedynczej platformy analitycznej …
Robiłem problem z klasyfikacją i przeczytałem kod wielu osób i samouczki. Jedną rzeczą, jaką zauważyłem jest to, że wiele osób podejmuje np.loglub logciągłej zmiennej jak loan_amounti applicant_incomeetc. Chcę tylko zrozumieć przyczynę tego. Czy pomaga to poprawić dokładność prognozowania naszego modelu? Czy to jest obowiązkowe? lub Czy kryje się za tym …
Czy przypadkowa implementacja lasu w scikit-learn wykorzystuje średnią dokładność jako metodę punktacji do oszacowania błędu uogólnienia przy próbkach z worka? Nie jest to wspomniane w dokumentacji, ale metoda score () podaje średnią dokładność. Mam bardzo niezrównoważony zestaw danych i używam AUC ROC jako mojej metryki punktacji w wyszukiwaniu siatki. Czy …
Szukam rozwiązania następującego problemu: Mam zestaw zdań jako zestaw danych i chcę móc wpisać nowe zdanie i znaleźć zdanie, które jest najbardziej podobne do tego w zestawie danych. Przykład mógłby wyglądać następująco: Nowe zdanie: „ I opened a new mailbox” Prognozowanie na podstawie zestawu danych: Sentence | Similarity A dog …
Próbuję uruchomić xgboost w scikit learn. I używam tylko Pand do ładowania danych do ramki danych. Jak mam używać pand df z xgboost. Jestem zdezorientowany procedurą DMatrix wymaganą do uruchomienia xgboost algo.
Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …
Mam ramkę danych pand z mnóstwem kategorycznych kolumn, które planuję wykorzystać w drzewie decyzyjnym w scikit-learn. Muszę przekonwertować je na wartości liczbowe (nie jeden gorący wektor). Mogę to zrobić za pomocą LabelEncoder z scikit-learn. Problem polega na tym, że jest ich zbyt wiele i nie chcę ich konwertować ręcznie. Jaki …
Mam kreślone na importances cechą w lasy losowe z scikit-learn . W jaki sposób mogę wykorzystać informacje o działce do usunięcia funkcji w celu poprawy prognozowania przy użyciu losowych lasów? Tj. Jak na podstawie informacji o działce stwierdzić, czy funkcja jest bezużyteczna, a nawet gorzej obniża wydajność losowych lasów? Fabuła …
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.