Służy do pytań dotyczących analizy danych związanych z językiem programowania Python. Nie jest przeznaczony do ogólnych pytań związanych z kodowaniem (-> stackoverflow).
Korzystam z biblioteki Gensim w Pythonie do używania i szkolenia modelu word2vector. Ostatnio zastanawiałem się nad zainicjowaniem wag modelu za pomocą wstępnie wyszkolonego modelu word2vec, takiego jak (model wstępnie przeszkolony GoogleNewDataset). Walczyłem z tym od kilku tygodni. Teraz właśnie sprawdziłem, że w gesim jest funkcja, która może mi pomóc zainicjować …
Czytam w tym poście Czy język R jest odpowiedni dla dużych 5TBzbiorów danych, które stanowią duże zbiory danych , i chociaż dobrze się spisuje, dostarczając informacji o możliwościach pracy z tego typu danymi w Rnim, zapewnia bardzo mało informacji na jego temat Python. Zastanawiałem się, czy Pythonmoże pracować z tak …
Zbudowałem model LSTM, aby przewidzieć duplikaty pytań w oficjalnym zbiorze danych Quora. Etykiety testowe mają wartość 0 lub 1. 1 oznacza, że para pytań jest zduplikowana. Po zbudowaniu modelu za pomocą model.fit, testuję model za pomocą model.predictdanych testowych. Dane wyjściowe to tablica wartości, takich jak poniżej: [ 0.00514298] [ 0.15161049] …
Czy ktoś używał (i lubił) jakieś dobre pakiety „częstego przeszukiwania sekwencji” w Pythonie inne niż FPM w MLLib? Szukam stabilnego pakietu, najlepiej utrzymywanego przez ludzi. Dziękuję Ci!
Jeśli trenuję mój model przy użyciu następującego kodu: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) kończy się za około 1 minutę. Jeśli trenuję mój model przy użyciu metody …
Mam ramkę danych, która między innymi zawiera kolumnę liczby milisekund minionych od 1970-1-1. Muszę przekonwertować tę kolumnę liczb całkowitych na dane znacznika czasu, aby móc ostatecznie przekonwertować ją na kolumnę danych daty i godziny, dodając serię kolumn znaczników czasu do serii, która składa się wyłącznie z wartości daty i godziny …
Używam scikit-learn Random Forest Classifier i chcę wykreślić znaczenie funkcji, tak jak w tym przykładzie . Jednak mój wynik jest zupełnie inny, w tym sensie, że odchylenie standardowe ważności cechy jest prawie zawsze większe niż samo znaczenie znaczenia (patrz załączony obraz). Czy możliwe jest takie zachowanie, czy też popełniam błędy …
Próbowałem zrozumieć, w jaki sposób reprezentować i kształtować dane, aby tworzyć wielowymiarowe i wielowymiarowe prognozy szeregów czasowych za pomocą Keras (lub TensorFlow), ale nadal jestem bardzo niejasny po przeczytaniu wielu postów / samouczków / dokumentacji na blogu, w jaki sposób prezentować dane w poprawny kształt (większość przykładów jest nieco mniejsza …
Próbuję zaimplementować ten artykuł na zestawie obrazów medycznych. Robię to w Keras. Sieć zasadniczo składa się z 4 warstw konwekcyjnych i maksymalnych pul, po których następuje w pełni połączona warstwa i miękki klasyfikator maksymalny. O ile wiem, postępowałem zgodnie z architekturą wymienioną w artykule. Jednak utrata walidacji i dokładność pozostają …
Od jakiegoś czasu pracuję w NLTK, używając Pythona. Problem, z którym się zmagam, polega na tym, że nie ma pomocy w szkoleniu NER w NLTK z moimi niestandardowymi danymi. Wykorzystali MaxEnt i wyszkolili go na korpusie ACE. Dużo szukałem w Internecie, ale nie mogłem znaleźć sposobu, który mógłby posłużyć do …
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
Mam zestaw danych z ~ 1 milionami wierszy i ~ 500 tysięcy rzadkich funkcji. Chcę zmniejszyć wymiarowość do gdzieś rzędu gęstych funkcji 1K-5K. sklearn.decomposition.PCAnie działa na rzadkich danych i próbowałem użyć, sklearn.decomposition.TruncatedSVDale dość szybko pojawia się błąd pamięci. Jakie są moje opcje skutecznego zmniejszenia wymiarów na tej skali?
W większości estymatorów w scikit-learn istnieje n_jobsparametr fit/ predictmetody do tworzenia równoległych zadań za pomocą joblib. Zauważyłem, że ustawienie go tak, aby -1tworzyło tylko 1 proces Pythona i maksymalizuje rdzenie, powodując, że użycie procesora osiągnęło 2500%. Różni się to znacznie od ustawienia dodatniej liczby całkowitej> 1, która tworzy wiele procesów …
Muszę znaleźć dokładność zestawu danych szkoleniowych, stosując algorytm losowego lasu. Ale mój typ mojego zestawu danych jest zarówno kategoryczny, jak i numeryczny. Kiedy próbowałem dopasować te dane, pojawia się błąd. „Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („ float32 ”)”. Problem może dotyczyć typów danych obiektowych. …
Rozważ ramkę danych typu pyspark składającą się z elementów „zerowych” i elementów numerycznych. Zasadniczo elementy liczbowe mają różne wartości. Jak można zastąpić wszystkie wartości liczbowe ramki danych stałą wartością liczbową (na przykład wartością 1)? Z góry dziękuję! Przykład ramki danych pyspark: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.