今天小編給大家分享一下Apache Hudi怎么安裝配置Alluxio的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
Alluxio為數據驅動型應用和存儲系統構建了橋梁, 將數據從存儲層移動到距離數據驅動型應用更近的位置從而能夠更容易被訪問。這還使得應用程序能夠通過一個公共接口連接到許多存儲系統。Alluxio內存至上的層次化架構使得數據的訪問速度能比現有方案快幾個數量級。
對于用戶應用程序和計算框架,Alluxio提供了快速存儲,促進了作業之間的數據共享和局部性。當數據位于本地時,Alluxio可以以內存速度提供數據;當數據位于Alluxio時,Alluxio可以以計算集群網絡的速度提供數據。第一次訪問數據時,只從存儲系統上讀取一次數據。為了得到更好的性能,Alluxio推薦部署在計算集群上。
對于存儲系統,Alluxio彌補了大數據應用與傳統存儲系統之間的差距,擴大了可用的數據工作負載集。當同時掛載多個數據源時,Alluxio可以作為任意數量的不同數據源的統一層。
Alluxio可以被分為三個部分:masters、workers以及clients。一個典型的設置由一個主服務器、多個備用服務器和多個worker組成??蛻舳擞糜谕ㄟ^Spark或MapReduce作業、Alluxio命令行等與Alluxio服務器通信。
Apache Hudi使得您能在hadoop兼容的存儲之上存儲大量數據,同時它還提供兩種原語,使得除了經典的批處理之外,還可以在數據湖上進行流處理。這兩種原語分別是:
參考官網安裝搭建alluxio環境
在hudi可以加載到的cores-site.xml 文件里面追加此配置
<property>
<name>fs.alluxio.impl</name>
<value>alluxio.hadoop.FileSystem</value>
</property> 將此依賴添加進工程pom.xml
<dependency>
<groupId>org.alluxio</groupId>
<artifactId>alluxio-shaded-client</artifactId>
<version>2.2.1</version>
</dependency> 用戶可以把jar包放在spark可以加載的地方或者通過以下方式引入
--jars alluxio-shaded-client-2.2.1.jar 這時只需要把數據寫入alluxio即可,使用deltastreamer的使用需要如下配置
--target-base-path alluxio://........ 完成上述步驟就已經完成了把hudi數據寫入了alluxio的工作。事實上這個時候數據還未從hdfs加載到alluxio,需要查詢一次即可;查詢不同的hudi視圖方式
spark.read.format("org.apache.hudi").option(xxx).load("alluxio://")驗證在未進行查詢的時候數據不會加載進alluxio,in-alluxio是0%,當進行一次查詢之后數據從hdfs加載進alluxio,in-alluxio大于0%。
以上就是“Apache Hudi怎么安裝配置Alluxio”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。