用python寫spark的方法是什么?這個問題可能是我們日常學習或工作經常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家帶來的參考內容,讓我們一起來看看吧!
為什么要使用Python來寫Spark
Python寫spark我認為唯一的理由就是:你要做數據挖掘,AI相關的工作。因為很多做數挖的他們的基礎語言都是python,他們如果重新學scala比較耗時,而且,python他的強大類庫是他的優勢,很多算法庫只有python有。
Win本地編寫代碼調試
編輯器:PyCharm
Spark:1.6
Python:2.7
Win環境準備
Python的安裝
解壓python包,在環境變量里面配上bin的路徑
Spark的安裝
下載spark的bin文件,解壓即可,在環境變量配置SPARK_HOME
要可以通過編輯器來安裝,如pycharm,查找pyspark庫安裝即可
Hadoop安裝
安裝hadoop環境 。在win下面需要winutils.exe;在環境里面配置HADOOP_HOME 即可。
代碼示例
# -*- coding: utf-8 -*- from __future__ import print_function from pyspark import * import os print(os.environ['SPARK_HOME']) print(os.environ['HADOOP_HOME']) if __name__ == '__main__': sc = SparkContext("local[8]") rdd = sc.parallelize("hello Pyspark world".split(" ")) counts = rdd \ .flatMap(lambda line: line) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) \ .foreach(print) sc.stop
問題:
from pyspark import *
找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到(可能需要解壓py4j)
%PYTHON%\Lib\site-packages下面去。這樣,你的編輯器才能找到。
或者:
配置你的編輯器的環境變量:
PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages
使用spark-submit提交時用到其他類庫 –py-files xxxx/xxxx.zip,xxxx.py。
感謝各位的閱讀!看完上述內容,你們對用python寫spark的方法是什么大概了解了嗎?希望文章內容對大家有所幫助。如果想了解更多相關文章內容,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。