Pytania otagowane jako python

Służy do pytań dotyczących analizy danych związanych z językiem programowania Python. Nie jest przeznaczony do ogólnych pytań związanych z kodowaniem (-> stackoverflow).


8
Różnica między fit a fit_transform w modelach scikit_learn?
Jestem początkujących do nauki danych i nie rozumiem różnicę między fiti fit_transformmetody w scikit-learn. Czy ktoś może po prostu wyjaśnić, dlaczego potrzebujemy transformacji danych? Co to znaczy dopasowywanie modelu do danych treningowych i przekształcanie w dane testowe? Czy oznacza to na przykład przekształcenie zmiennych kategorialnych w liczby w pociągu i …

15
Python vs R do uczenia maszynowego
Właśnie zaczynam opracowywać aplikację do uczenia maszynowego do celów akademickich. Obecnie używam R i trenuję się w tym. Jednak w wielu miejscach widziałem ludzi używających Pythona . Z czego korzystają ludzie w środowisku akademickim i przemyśle i jakie jest zalecenie?

11
SVM za pomocą scikit learn działa bez końca i nigdy nie kończy wykonywania
Próbuję uruchomić SVR przy użyciu scikit learn (python) na zbiorze danych szkoleniowych posiadającym 595605 wierszy i 5 kolumn (funkcji) oraz testowym zbiorze danych posiadającym 397070 wierszy. Dane zostały wstępnie przetworzone i uregulowane. Jestem w stanie z powodzeniem uruchomić przykłady testowe, ale po uruchomieniu przy użyciu mojego zestawu danych i pozostawieniu …

1
Różnica między isna () i isnull () w pandach
Od dłuższego czasu używam pand. Ale, że nie rozumie, co jest różnica między isna()i isnull()w pand. I, co ważniejsze, którego użyć do zidentyfikowania brakujących wartości w ramce danych. Jaka jest podstawowa różnica bazowy jak wartość nie jest wykrywany jako albo naalbo null?

6
ciągi jako cechy drzewa decyzyjnego / losowego lasu
Mam problem z zastosowaniem drzewa decyzyjnego / losowego lasu. Próbuję dopasować problem, który zawiera zarówno liczby, jak i ciągi znaków (takie jak nazwa kraju). Teraz biblioteka scikit-learn przyjmuje tylko liczby jako parametry, ale chcę wstrzyknąć ciągi, a także niosą one znaczną ilość wiedzy. Jak poradzić sobie z takim scenariuszem? Mogę …

8
Wykrywanie anomalii open source w Pythonie
Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …

2
Szkolenie RNN z przykładami różnych długości w Keras
Próbuję zacząć uczyć się o RNN i używam Keras. Rozumiem podstawowe założenie waniliowych warstw RNN i LSTM, ale mam problem ze zrozumieniem pewnej technicznej kwestii szkolenia. W dokumentacji keras napisano, że wejście do warstwy RNN musi mieć kształt (batch_size, timesteps, input_dim). Sugeruje to, że wszystkie przykłady treningu mają ustaloną długość …
61 python  keras  rnn  training 

8
Grupowanie współrzędnych położenia geograficznego (łac., Długie pary)
Jakie jest właściwe podejście i algorytm grupowania dla grupowania geolokalizacyjnego? Używam następującego kodu do grupowania współrzędnych geolokalizacji: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], …


4
Sieci neuronowe: jakiej funkcji kosztu użyć?
Używam TensorFlow do eksperymentów głównie z sieciami neuronowymi. Chociaż przeprowadziłem już dość eksperymentów (problem XOR, MNIST, niektóre rzeczy związane z regresją ...), mam problem z wybraniem „właściwej” funkcji kosztu dla konkretnych problemów, ponieważ ogólnie można mnie uznać za początkującego. Przed przyjściem do TensorFlow kodowałem niektóre w pełni połączone MLP i …

7
ValueError: Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („float32”)
Dostałem ValueError podczas przewidywania danych testowych przy użyciu modelu RandomForest. Mój kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Błąd: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Jak znaleźć złe wartości w zestawie danych testowych? Ponadto nie …

3
Obliczanie i wizualizacja macierzy korelacji z pandami
Mam ramkę danych pand z kilkoma wpisami i chcę obliczyć korelację między dochodami niektórych rodzajów sklepów. Istnieje wiele sklepów z danymi o dochodach, klasyfikacją obszaru działalności (teatr, sklepy odzieżowe, żywność ...) i innymi danymi. Próbowałem utworzyć nową ramkę danych i wstawić kolumnę z przychodami ze wszystkich rodzajów sklepów należących do …

3
Multi GPU w kamerach
W jaki sposób można zaprogramować w bibliotece keras (lub tensorflow) szkolenie partycjonowania na wielu GPU? Powiedzmy, że jesteś w instancji Amazon ec2, która ma 8 procesorów graficznych i chciałbyś wykorzystać je wszystkie, aby trenować szybciej, ale twój kod dotyczy tylko jednego procesora lub karty graficznej.

5
Otwieranie pliku 20 GB do analizy za pomocą pand
Obecnie próbuję otworzyć plik z pandami i pytonem do celów uczenia maszynowego, idealnie byłoby dla mnie mieć je wszystkie w ramce danych. Teraz plik ma 18 GB, a moja pamięć RAM to 32 GB, ale wciąż pojawiają się błędy pamięci. Czy z twojego doświadczenia jest to możliwe? Jeśli nie, czy …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.