Oto siedem kroków, aby zainstalować Spark w systemie Windows 10 i uruchomić go z Pythona:
Krok 1: pobierz plik tar (archiwum taśm) programu Spark 2.2.0 do dowolnego folderu F z tego łącza - https://spark.apache.org/downloads.html . Rozpakuj go i skopiuj rozpakowany folder do żądanego folderu A. Zmień nazwę folderu spark-2.2.0-bin-hadoop2.7 na spark.
Niech ścieżka do folderu iskier to C: \ Users \ Desktop \ A \ spark
Krok 2: pobierz plik tar gz hardoop 2.7.3 do tego samego folderu F z tego linku - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Rozpakuj go i skopiuj rozpakowany folder do tego samego folderu A. Zmień nazwę folderu z Hadoop-2.7.3.tar na hadoop. Niech ścieżka do folderu hadoop będzie C: \ Users \ Desktop \ A \ hadoop
Krok 3: Utwórz nowy plik tekstowy notatnika. Zapisz ten pusty plik notatnika jako winutils.exe (z Zapisz jako typ: wszystkie pliki). Skopiuj ten plik O KB winutils.exe do folderu bin w Spark - C: \ Users \ Desktop \ A \ spark \ bin
Krok 4: Teraz musimy dodać te foldery do środowiska systemowego.
4a: Utwórz zmienną systemową (nie zmienną użytkownika, ponieważ zmienna użytkownika odziedziczy wszystkie właściwości zmiennej systemowej) Nazwa zmiennej: SPARK_HOME Wartość zmiennej: C: \ Users \ Desktop \ A \ spark
Znajdź zmienną systemową Path i kliknij edytuj. Zobaczysz wiele ścieżek. Nie usuwaj żadnej ścieżki. Dodaj wartość tej zmiennej -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Utwórz zmienną systemową
Nazwa zmiennej: HADOOP_HOME Wartość zmiennej: C: \ Users \ Desktop \ A \ hadoop
Znajdź zmienną systemową Path i kliknij edytuj. Dodaj wartość tej zmiennej -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Utwórz zmienną systemową Nazwa zmiennej: JAVA_HOME Wyszukaj Java w systemie Windows. Kliknij prawym przyciskiem myszy i kliknij otwórz lokalizację pliku. Będziesz musiał ponownie kliknąć prawym przyciskiem myszy dowolny plik java i kliknąć otwartą lokalizację pliku. Będziesz używać ścieżki do tego folderu. LUB możesz wyszukać C: \ Program Files \ Java. Moja wersja Java zainstalowana w systemie to jre1.8.0_131. Wartość zmiennej: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Znajdź zmienną systemową Path i kliknij edytuj. Dodaj wartość tej zmiennej -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Krok 5: Otwórz wiersz polecenia i przejdź do folderu spark bin (wpisz cd C: \ Users \ Desktop \ A \ spark \ bin). Wpisz łuskę iskrową.
C:\Users\Desktop\A\spark\bin>spark-shell
Może to zająć trochę czasu i spowodować ostrzeżenie. Na koniec pokaże powitanie w wersji Spark 2.2.0
Krok 6: Wpisz exit () lub uruchom ponownie wiersz polecenia i ponownie przejdź do folderu spark bin. Wpisz pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Pokaże ostrzeżenia i błędy, ale zignoruje. To działa.
Krok 7: Pobieranie zostało zakończone. Jeśli chcesz bezpośrednio uruchomić Spark z powłoki Pythona: przejdź do Skrypty w folderze Pythona i wpisz
pip install findspark
w wierszu polecenia.
W powłoce Pythona
import findspark
findspark.init()
zaimportuj niezbędne moduły
from pyspark import SparkContext
from pyspark import SparkConf
Jeśli chcesz pominąć kroki importowania findspark i inicjalizacji go, postępuj zgodnie z procedurą podaną podczas
importowania pyspark w powłoce Pythona