Służy do pytań dotyczących analizy danych związanych z językiem programowania Python. Nie jest przeznaczony do ogólnych pytań związanych z kodowaniem (-> stackoverflow).
Mam Pandas DataFrame w ten sposób: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 Jak mogę wygenerować …
Mam 10 ramek danych pyspark.sql.dataframe.DataFrame, uzyskanych od randomSplitjak (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Teraz chcę dołączyć 9 td„s na pojedynczej ramce danych, jak mam to zrobić? Próbowałem już z unionAll, ale ta …
Dość nowy w Pythonie, ale budowanie mojego pierwszego modelu RF na podstawie niektórych danych klasyfikacyjnych. Przekształciłem wszystkie etykiety w dane liczbowe int64 i załadowałem do X i Y jako tablicę numpy, ale próbuję wyszkolić modele, popełniam błąd. Oto jak wyglądają moje tablice: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, …
Jestem trochę zagubiony w wyborze pomiędzy Keras (keras-team / keras) i tf.keras (tensorflow / tensorflow / python / keras /) dla mojego nowego projektu badawczego. Toczy się debata, w której Keras nie jest własnością nikogo, więc ludzie chętniej się do tego przyczyniają, a zarządzanie projektem będzie znacznie łatwiejsze w przyszłości. …
Zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Dodaj szczegóły i wyjaśnij problem, edytując ten post . Zamknięte 3 lata temu . Pracuję nad fikcyjnym zestawem danych z 25 funkcjami. Dwie cechy to szerokość i długość geograficzna miejsca, a inne to …
Mam bardzo podstawowe pytanie, które dotyczy Pythona, liczby i mnożenia macierzy w ustawieniach regresji logistycznej. Po pierwsze, przepraszam, że nie używam notacji matematycznej. Jestem zdezorientowany co do zastosowania mnożenia kropek macierzy w porównaniu do mnożenia elementów. Funkcja kosztu jest dana przez: A w pythonie napisałem to jako cost = -1/m …
Pracuję nad wyzwaniem Kaggle, w którym niektóre zmienne są reprezentowane przez wiersze zamiast kolumn (zakłócenia sieci Telstra). Obecnie szukam odpowiednika funkcji gromadzenia (), separacji () i rozprzestrzeniania (), które można znaleźć w narzędziu R tidyr.
Z samouczka RNN firmy Keras: „RNN są trudne. Wybór wielkości partii jest ważny, wybór straty i optymalizatora ma kluczowe znaczenie itp. Niektóre konfiguracje nie będą zbieżne”. Jest to więc bardziej ogólne pytanie dotyczące dostrajania hiperparametrów LSTM-RNN w Keras. Chciałbym wiedzieć o podejściu do znalezienia najlepszych parametrów dla Twojego RNN. Zacząłem …
W mojej klasie muszę utworzyć aplikację przy użyciu dwóch klasyfikatorów, aby zdecydować, czy obiekt na obrazie jest przykładem phylum porifera (seasponge) czy jakiegoś innego obiektu. Jestem jednak całkowicie zagubiony, jeśli chodzi o techniki ekstrakcji funkcji w pythonie. Mój doradca przekonał mnie do korzystania z obrazów, które nie były omówione w …
Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się pamięć. Używam go na 48-rdzeniowym procesorze z 130G RAM. Czy istnieje …
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale rozważałbym zmianę, jeśli pandasmożna pokonać data.table?
Próbuję zbudować system rekomendacji przy użyciu filtrowania grupowego. Mam zwykłe [user, movie, rating]informacje. Chciałbym włączyć dodatkową funkcję, taką jak „język” lub „czas trwania filmu”. Nie jestem pewien, jakich technik mógłbym użyć w przypadku takiego problemu. Proszę sugerować referencje lub pakiety w Pythonie / R.
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Pracuję nad rozpoznawaniem mowy z Tensorflow i planuję trenować LSTM NN z zestawem danych masywnych fal. Ze względu na wzrost wydajności planuję używać tfrecords. Istnieje kilka przykładów w Internecie (Inception na przykład.), W których pliki tfrecords są podzielone na odłamki. Moje pytanie brzmi: jaka jest korzyść z pliku tfrecords w …
Czy istnieje kompleksowy pakiet open source (najlepiej w Pythonie lub R), który może być wykorzystywany do wykrywania anomalii w szeregach czasowych? W scikit-learn znajduje się pakiet SVM jednej klasy, ale nie dotyczy on danych szeregów czasowych. Szukam bardziej wyrafinowanych pakietów, które na przykład wykorzystują sieci bayesowskie do wykrywania anomalii.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.