Zbudowałem Spark 1.4 od mistrza rozwoju GH i kompilacja przebiegła pomyślnie. Ale kiedy robię bin/pyspark
, otrzymuję wersję Pythona 2.7.9. Jak mogę to zmienić?
Zbudowałem Spark 1.4 od mistrza rozwoju GH i kompilacja przebiegła pomyślnie. Ale kiedy robię bin/pyspark
, otrzymuję wersję Pythona 2.7.9. Jak mogę to zmienić?
Odpowiedzi:
Po prostu ustaw zmienną środowiskową:
export PYSPARK_PYTHON=python3
jeśli chcesz, aby była to trwała zmiana, dodaj tę linię do skryptu pyspark.
export PYSPARK_PYTHON=python3.5
dla Pythona 3.5
$SPARK_HOME/conf/spark-env.sh
więc spark-submit
używa również tego samego interpretera.
PYSPARK_PYTHON=python3
./bin/pyspark
Jeśli chcesz uruchomić w Notatniku IPython, napisz:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Jeśli python3
nie jest dostępny, musisz zamiast tego podać do niego ścieżkę.
Należy pamiętać, że aktualna dokumentacja (stan na 1.4.1) zawiera nieaktualne instrukcje. Na szczęście został poprawiony .
Zajrzyj do pliku. Linia shebang jest prawdopodobnie wskazywana na plik binarny „env”, który przeszukuje ścieżkę w poszukiwaniu pierwszego zgodnego pliku wykonywalnego.
Możesz zmienić Pythona na python3. Zmień env, aby bezpośrednio używać zakodowanego na stałe pliku binarnego python3. Lub uruchom plik binarny bezpośrednio w pythonie3 i pomiń linię shebang.
PYSPARK_PYTHON
zmiennej środowiskowej.
W przypadku Jupyter Notebook edytuj spark-env.sh
plik, jak pokazano poniżej, z wiersza poleceń
$ vi $SPARK_HOME/conf/spark-env.sh
Idź do dołu pliku i skopiuj, wklej te linie
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Następnie po prostu uruchom następujące polecenie, aby uruchomić pyspark w notatniku
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
w takim przypadku działa notebook IPython 3.