溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

用python寫spark的方法是什么

發布時間：2020-08-18 13:42:14 來源：億速云閱讀：182 作者：小新欄目：編程語言

用python寫spark的方法是什么？這個問題可能是我們日常學習或工作經常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家帶來的參考內容，讓我們一起來看看吧！

為什么要使用Python來寫Spark

Python寫spark我認為唯一的理由就是：你要做數據挖掘，AI相關的工作。因為很多做數挖的他們的基礎語言都是python，他們如果重新學scala比較耗時，而且，python他的強大類庫是他的優勢，很多算法庫只有python有。

Win本地編寫代碼調試

編輯器：PyCharm

Spark：1.6

Python：2.7

Win環境準備

Python的安裝

解壓python包，在環境變量里面配上bin的路徑

Spark的安裝

下載spark的bin文件，解壓即可，在環境變量配置SPARK_HOME

要可以通過編輯器來安裝，如pycharm，查找pyspark庫安裝即可

Hadoop安裝

安裝hadoop環境。在win下面需要winutils.exe；在環境里面配置HADOOP_HOME 即可。

代碼示例

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark import *
import os
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if __name__ == '__main__':
    sc = SparkContext("local[8]")
    rdd = sc.parallelize("hello Pyspark world".split(" "))
    counts = rdd \
        .flatMap(lambda line: line) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .foreach(print)
    sc.stop

問題：

from pyspark import *

找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到（可能需要解壓py4j）

%PYTHON%\Lib\site-packages下面去。這樣，你的編輯器才能找到。

或者：

配置你的編輯器的環境變量：

PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages

使用spark-submit提交時用到其他類庫 –py-files xxxx/xxxx.zip,xxxx.py。

感謝各位的閱讀！看完上述內容，你們對用python寫spark的方法是什么大概了解了嗎？希望文章內容對大家有所幫助。如果想了解更多相關文章內容，歡迎關注億速云行業資訊頻道。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Oracle rac進程詳解
下一篇新聞：
phpcms更換域名的方法

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女