Nauka danych python

2

Jak sumować wartości pogrupowane według dwóch kolumn w pandach

Mam Pandas DataFrame w ten sposób: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 Jak mogę wygenerować …

21 python pandas dataframe

3

Scalanie wielu ramek danych w wierszach w PySpark

Mam 10 ramek danych pyspark.sql.dataframe.DataFrame, uzyskanych od randomSplitjak (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Teraz chcę dołączyć 9 td„s na pojedynczej ramce danych, jak mam to zrobić? Próbowałem już z unionAll, ale ta …

21 python apache-spark cross-validation pyspark

2

Błąd train_test_split (): Znaleziono zmienne wejściowe o niespójnej liczbie próbek

Dość nowy w Pythonie, ale budowanie mojego pierwszego modelu RF na podstawie niektórych danych klasyfikacyjnych. Przekształciłem wszystkie etykiety w dane liczbowe int64 i załadowałem do X i Y jako tablicę numpy, ale próbuję wyszkolić modele, popełniam błąd. Oto jak wyglądają moje tablice: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, …

21 python scikit-learn sampling

2

Keras vs. tf.keras

Jestem trochę zagubiony w wyborze pomiędzy Keras (keras-team / keras) i tf.keras (tensorflow / tensorflow / python / keras /) dla mojego nowego projektu badawczego. Toczy się debata, w której Keras nie jest własnością nikogo, więc ludzie chętniej się do tego przyczyniają, a zarządzanie projektem będzie znacznie łatwiejsze w przyszłości. …

20 python deep-learning keras tensorflow

1

Sposoby radzenia sobie z funkcją długości / szerokości geograficznej [zamknięte]

Zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Dodaj szczegóły i wyjaśnij problem, edytując ten post . Zamknięte 3 lata temu . Pracuję nad fikcyjnym zestawem danych z 25 funkcjami. Dwie cechy to szerokość i długość geograficzna miejsca, a inne to …

19 machine-learning python feature-engineering feature-scaling normalization

3

Implementacja funkcji kosztu w regresji logistycznej w Pythonie: dlaczego mnożenie kropek w jednym wyrażeniu, a mnożenie elementarne w innym

Mam bardzo podstawowe pytanie, które dotyczy Pythona, liczby i mnożenia macierzy w ustawieniach regresji logistycznej. Po pierwsze, przepraszam, że nie używam notacji matematycznej. Jestem zdezorientowany co do zastosowania mnożenia kropek macierzy w porównaniu do mnożenia elementów. Funkcja kosztu jest dana przez: A w pythonie napisałem to jako cost = -1/m …

18 python logistic-regression cost-function

3

czy jest jakieś narzędzie do porządkowania danych dla pytona / pandy podobne do narzędzia R tidyr?

Pracuję nad wyzwaniem Kaggle, w którym niektóre zmienne są reprezentowane przez wiersze zamiast kolumn (zakłócenia sieci Telstra). Obecnie szukam odpowiednika funkcji gromadzenia (), separacji () i rozprzestrzeniania (), które można znaleźć w narzędziu R tidyr.

18 r python dataset data-cleaning pandas

4

Wyszukiwanie hiperparametrów dla LSTM-RNN za pomocą Keras (Python)

Z samouczka RNN firmy Keras: „RNN są trudne. Wybór wielkości partii jest ważny, wybór straty i optymalizatora ma kluczowe znaczenie itp. Niektóre konfiguracje nie będą zbieżne”. Jest to więc bardziej ogólne pytanie dotyczące dostrajania hiperparametrów LSTM-RNN w Keras. Chciałbym wiedzieć o podejściu do znalezienia najlepszych parametrów dla Twojego RNN. Zacząłem …

18 python neural-network deep-learning keras hyperparameter

3

Wyodrębnianie funkcji obrazów w języku Python

W mojej klasie muszę utworzyć aplikację przy użyciu dwóch klasyfikatorów, aby zdecydować, czy obiekt na obrazie jest przykładem phylum porifera (seasponge) czy jakiegoś innego obiektu. Jestem jednak całkowicie zagubiony, jeśli chodzi o techniki ekstrakcji funkcji w pythonie. Mój doradca przekonał mnie do korzystania z obrazów, które nie były omówione w …

18 python feature-extraction image-recognition

4

Popraw szybkość implementacji t-sne w pythonie dla dużych danych

Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się pamięć. Używam go na 48-rdzeniowym procesorze z 130G RAM. Czy istnieje …

18 python bigdata nlp scikit-learn dimensionality-reduction

4

Czy pandy są teraz szybsze niż data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale rozważałbym zmianę, jeśli pandasmożna pokonać data.table?

18 python r pandas data data.table

2

Polecanie filmów z dodatkowymi funkcjami za pomocą wspólnego filtrowania

Próbuję zbudować system rekomendacji przy użyciu filtrowania grupowego. Mam zwykłe [user, movie, rating]informacje. Chciałbym włączyć dodatkową funkcję, taką jak „język” lub „czas trwania filmu”. Nie jestem pewien, jakich technik mógłbym użyć w przypadku takiego problemu. Proszę sugerować referencje lub pakiety w Pythonie / R.

17 python r recommender-system

5

powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Jaka jest korzyść z dzielenia pliku tfrecord na odłamki?

Pracuję nad rozpoznawaniem mowy z Tensorflow i planuję trenować LSTM NN z zestawem danych masywnych fal. Ze względu na wzrost wydajności planuję używać tfrecords. Istnieje kilka przykładów w Internecie (Inception na przykład.), W których pliki tfrecords są podzielone na odłamki. Moje pytanie brzmi: jaka jest korzyść z pliku tfrecords w …

17 python tensorflow

3

Poszukuję dobrego pakietu do wykrywania anomalii w szeregach czasowych

Czy istnieje kompleksowy pakiet open source (najlepiej w Pythonie lub R), który może być wykorzystywany do wykrywania anomalii w szeregach czasowych? W scikit-learn znajduje się pakiet SVM jednej klasy, ale nie dotyczy on danych szeregów czasowych. Szukam bardziej wyrafinowanych pakietów, które na przykład wykorzystują sieci bayesowskie do wykrywania anomalii.

17 python time-series anomaly-detection

Pytania otagowane jako python