Linux Kafka與Spark Streaming協同工作,首先要確保Kafka服務正常運行,然后在Spark Streaming應用中配置Kafka連接參數,創建輸入DStream來接收Kafka數據,最后對數據進行處理。具體如下:
pom.xml
中添加spark-streaming-kafka-0-10
依賴。SparkContext
和StreamingContext
創建Spark Streaming應用,設置批處理間隔等參數。bootstrap.servers
、group.id
等,使用KafkaUtils.createDirectStream
方法創建從Kafka接收數據的DStream。