溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

新手入門：Spark部署實戰入門

發布時間：2020-06-08 10:57:22 來源：網絡閱讀：449 作者：景龍Edward 欄目：大數據

新手入門：Spark部署實戰入門

Spark簡介

整體認識

Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數據處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發，并于2010年成為Apache的開源項目之一。 Spark在整個大數據系統中處于中間偏上層的地位，如下圖，對hadoop起到了補充作用：

新手入門：Spark部署實戰入門

基本概念

Fork/Join框架是Java7提供了的一個用于并行執行任務的框架，是一個把大任務分割成若干個小任務，最終匯總每個小任務結果后得到大任務結果的框架。

新手入門：Spark部署實戰入門

第一步分割任務。首先我們需要有一個fork類來把大任務分割成子任務，有可能子任務還是很大，所以還需要不停的分割，直到分割出的子任務足夠小。

第二步執行任務并合并結果。分割的子任務分別放在雙端隊列里，然后幾個啟動線程分別從雙端隊列里獲取任務執行。子任務執行完的結果都統一放在一個隊列里，啟動一個線程從隊列里拿數據，然后合并這些數據。

具體可參考Fork/Join

核心概念

RDD(Resilient Distributed Dataset) 彈性分布數據集介紹彈性分布式數據集（基于Matei的研究論文）或RDD是Spark框架中的核心概念。

可以將RDD視作數據庫中的一張表。其中可以保存任何類型的數據。Spark將數據存儲在不同分區上的RDD之中。 RDD可以幫助重新安排計算并優化數據處理過程。

此外，它還具有容錯性，因為RDD知道如何重新創建和重新計算數據集。

RDD是不可變的。你可以用變換（Transformation）修改RDD，但是這個變換所返回的是一個全新的RDD，而原有的RDD仍然保持不變。

RDD支持兩種類型的操作： o 變換（Transformation） o 行動（Action）變換：變換的返回值是一個新的RDD集合，而不是單個值。調用一個變換方法，不會有任何求值計算，它只獲取一個RDD作為參數，然后返回一個新的RDD。變換函數包括：map，filter，flatMap，groupByKey，reduceByKey，aggregateByKey，pipe和coalesce。

行動：行動操作計算并返回一個新的值。當在一個RDD對象上調用行動函數時，會在這一時刻計算全部的數據處理查詢并返回結果值。

行動操作包括：reduce，collect，count，first，take，countByKey以及foreach。共享變量（Shared varialbes） o 廣播變量（Broadcast variables） o 累加器（Accumulators） Master/Worker/Driver/Executor

新手入門：Spark部署實戰入門

o Master：

1. 接受Worker的注冊請求，統籌記錄所有Worker的CPU、Memory等資源，并跟蹤Worker結點的活動狀態；2. 接受Driver中App的注冊請求(這個請求由Driver端的Client發出)，為App在Worker上分配CPU、Memory資源，生成后臺Executor進程；之后跟蹤Executor和App的活動狀態。 o Worker：負責接收Master的指示，為App創建Executor進程。Worker在Master和Executor之間起著橋梁作用，實際不會參與計算工作。 o Driver：負責用戶側邏輯處理。 o Executor：負責計算，接受并執行由App劃分的Task任務，并將結果緩存在本地內存或磁盤。

Spark部署

關于Spark的部署網上相關資料很多，這里進行歸納整理部署環境 Ubuntu 14.04LTS Hadoop:2.7.0 Java JDK 1.8 Spark 1.6.1 Scala 2.11.8

Hadoop安裝

由于Spark會利用HDFS和YARN，所以需要提前配置Hadoop，配置教程可以參考： Setting up a Apache Hadoop 2.7 single node on Ubuntu 14.04 Hadoop安裝教程_單機/偽分布式配置_Hadoop2.6.0/Ubuntu14.04

Spark安裝

在安裝好Hadoop的基礎上，搭建Spark，配置教程參考：

Spark快速入門指南 – Spark安裝與基礎使用

scala安裝

Scala作為編寫Spark的源生語言，更新速度和支持情況肯定是最好的，而另一方面Scala本身語言中對于面向對象和函數式編程兩種思想的糅合，使得該語言具有很多炫酷的語法糖，所以在使用Spark的過程中我采用了Scala語言進行開發。

Scala最終編譯成字節碼需要運行在JVM中，所以需要依托于jdk，需要部署jdk Eclipse作為一款開發Java的IDE神器，在Scala中當然也可以使用，有兩種方式: o Eclipse->Help->Install New Software安裝Scala Plugins o 下載官網已經提供的集成好的Scala IDE 基于以上兩步已經可以進行Scala開發，需要用到Scala自帶的SBT編譯的同學可以裝下Scala官網下載地址，本人一直使用Maven進行包管理就延續Maven的使用

簡單示例：WordCount（Spark Scala）開發IDE：Eclipse Scala 包管理：Maven 開發語言：Scala

創建Maven項目

新手入門：Spark部署實戰入門

跳過archetype項目模板的選擇
下載模板pom.xml
對maven項目添加Scala屬性： Right click on project -> configure - > Add Scala Nature.
調整下Scala編譯器的版本，與Spark版本對應： Right click on project- > Go to properties -> Scala compiler -> update Scala installation version to 2.10.5
從Build Path中移除Scala Library（由于在Maven中添加了Spark Core的依賴項，而Spark是依賴于Scala的，Scala的jar包已經存在于Maven Dependency中）： Right click on the project -> Build path -> Configure build path and remove Scala Library Container.
添加package包com.spark.sample

新手入門：Spark部署實戰入門

創建Object WordCount和SimpleCount，用來作為Spark的兩個簡單示例 Spark Sample SimpleCount.scala

package com.spark.sample

import org.apache.spark.SparkConf import org.apache.spark.SparkContext

object SimpleCount { def main(args: Array[String]) { val conf = new SparkConf().setAppName("TrySparkStreaming").setMaster("local[2]") // Create spark context val sc = new SparkContext(conf) // val ssc = new StreamingContext(conf, Seconds(1)) // create streaming context

    val txtFile = "test"
    val txtData = sc.textFile(txtFile)
    txtData.cache()

    txtData.count()
    val wcData = txtData.flatMap { line => line.split(",") }.map { word => (word, 1) }.reduceByKey(_ + _)
    wcData.collect().foreach(println)

    sc.stop
}

}

WordCount.scala

package com.spark.sample import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD.rddToPairRDDFunctions object WordCount { def main(args: Array[String]) = {

    //Start the Spark context
    val conf = new SparkConf()
        .setAppName("WordCount")
        .setMaster("local")
    val sc = new SparkContext(conf)

    //Read some example file to a test RDD
    val test = sc.textFile("input.txt")

    test.flatMap { line => //for each line
        line.split(" ") //split the line in word by word.
    }.map { word => //for each word
        (word, 1) //Return a key/value tuple, with the word as key and 1 as value
    }.reduceByKey(_ + _) //Sum all of the value with same key
        .saveAsTextFile("output.txt") //Save to a text file

    //Stop the Spark context
    sc.stop}

}

原理如下圖：

新手入門：Spark部署實戰入門參考文獻：

http://km.oa.com/group/2430/articles/show/181711?kmref=search&from_page=1&no=1&is_from_iso=1
http://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds
http://www.infoq.com/cn/articles/apache-spark-introduction?utm_source=infoq_en&utm_medium=link_on_en_item&utm_campaign=item_in_other_langs
http://www.infoq.com/cn/articles/apache-spark-sql
http://www.infoq.com/cn/articles/apache-spark-streaming
http://www.devinline.com/2016/01/apache-spark-setup-in-eclipse-scala-ide.html
https://databricks.gitbooks.io/databricks-spark-reference-applications/content/
http://wuchong.me/blog/2015/04/06/spark-on-hbase-new-api/
http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/
http://www.devinline.com/2016/01/apache-spark-setup-in-eclipse-scala-ide.html

作者：張景龍暢移（上海）信息科技有限公司CTO，CCFYOCSEF上海委員，京東今夜酒店特價APP技術奠基人和首任CTO，中國第一代智能手機開發者。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
64位系統下報錯：cannot load OCI DLL,126
下一篇新聞：
MySQL數據庫主要的SQL語句大全

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女