Pytania otagowane jako apache-spark


5
powiększ mapę cieplną dna morskiego
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Jak obliczyć średnią z kolumny ramki danych i znaleźć 10% najlepszych
Jestem bardzo nowy w Scali i Sparkie i pracuję nad własnymi ćwiczeniami z wykorzystaniem statystyk baseballu. Korzystam z klasy przypadków, aby utworzyć RDD i przypisać schemat do danych, a następnie przekształcam go w DataFrame, dzięki czemu mogę używać SparkSQL do wybierania grup graczy poprzez ich statystyki, które spełniają określone kryteria. …

3
Zastąp wszystkie wartości liczbowe w ramce danych pyspark stałą wartością
Rozważ ramkę danych typu pyspark składającą się z elementów „zerowych” i elementów numerycznych. Zasadniczo elementy liczbowe mają różne wartości. Jak można zastąpić wszystkie wartości liczbowe ramki danych stałą wartością liczbową (na przykład wartością 1)? Z góry dziękuję! Przykład ramki danych pyspark: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ …

3
Problem z IPython / Jupyter na Spark (nierozpoznany alias)
Pracuję nad skonfigurowaniem zestawu maszyn wirtualnych do eksperymentowania ze Spark przed wydaniem pieniędzy na zbudowanie klastra z pewnym sprzętem. Szybka uwaga: Jestem naukowcem z doświadczeniem w stosowanym uczeniu maszynowym i trochę przestałem pracować w informatyce. Używam narzędzi do obliczeń, rzadko musiałbym je konfigurować. Utworzyłem 3 maszyny wirtualne (1 master, 2 …


1
Spark ALS: polecanie nowym użytkownikom
Pytanie Jak przewidzieć ocenę dla nowego użytkownika w modelu ALS przeszkolonym w Spark? (Nowe = niewidoczne podczas treningu) Problem Tutaj śledzę oficjalny samouczek Spark ALS: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Jestem w stanie zbudować dobrego polecającego z przyzwoitym MSE, ale mam problem z wprowadzaniem nowych danych do modelu. Samouczek zmienia oceny pierwszego użytkownika przed …

1
Analiza dziennika serwera za pomocą uczenia maszynowego
Przydzielono mi to zadanie do analizy dzienników serwera naszej aplikacji, która zawiera dzienniki wyjątków, dzienniki zdarzeń w bazach danych itp. Jestem nowy w uczeniu maszynowym, używamy Spark z elastycznym wyszukiwaniem i Sparks MLlib (lub PredictionIO). Przykład pożądanego wynik byłby w stanie przewidzieć na podstawie zebranych dzienników wyjątków, aby móc przewidzieć, …

1
Spark, optymalnie dzieląc jeden RDD na dwa
Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.