溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Apache教程Hudi與Hive集成手冊的示例分析

發布時間：2022-03-31 09:05:40 來源：億速云閱讀：381 作者：小新欄目：開發技術

小編給大家分享一下Apache教程Hudi與Hive集成手冊的示例分析，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

1. Hudi表對應的Hive外部表介紹

Hudi源表對應一份HDFS數據，可以通過Spark，Flink 組件或者Hudi客戶端將Hudi表的數據映射為Hive外部表，基于該外部表， Hive可以方便的進行實時視圖，讀優化視圖以及增量視圖的查詢。

2. Hive對Hudi的集成

這里以Hive3.1.1、 Hudi 0.9.0為例，其他版本類似

將hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar 放到hiveserver 節點的lib目錄下

修改hive-site.xml找到hive.default.aux.jars.path 以及hive.aux.jars.path 這兩個配置項，將第一步中的jar包全路徑給配置上去：配置后如下

<name>hive.default.aux.jars.path</name>
<value>xxxx,jar,xxxx,jar,file:///mypath/hudi-hadoop-mr-bundle-0.9.0xxx.jar,file:///mypath/hudi-hive-sync-bundle-0.9.0xx.jar</value>

配置完后重啟hive-server

對于Hudi的bootstrap表（tez查詢），除了要添加hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar這兩個jar包，還需把hbase-shaded-miscellaneous-xxx.jar, hbase-metric-api-xxx.jar,hbase-metrics-xxx.jar, hbase-protocol-shaded-xx.jar,hbase-shaded-protobuf-xxx.jar,htrce-core4-4.2.0xxxx.jar按上述步驟添加進去。

3. 創建Hudi表對應的hive外部表

一般來說Hudi表在用Spark或者Flink寫入數據時會自動同步到Hive外部表，此時可以直接通過beeline查詢同步的外部表，若寫入引擎沒有開啟自動同步，則需要手動利用hudi客戶端工具run_hive_sync_tool.sh 進行同步具體可以參考官網查看相關參數。

4. 查詢Hudi表對應的Hive外部表

4.1 操作前提

使用Hive查詢Hudi表前，需要通過set命令設置hive.input.format，否則會出現數據重復，查詢異常等錯誤，如下面這個報錯就是典型的沒有設置hive.input.format 導致的

java.lang.IllegalArgumentException: HoodieRealtimeReader can oly work on RealTimeSplit and not with xxxxxxxxxx

除此之外對于增量查詢，還需要set命令額外設置3個參數

set hoodie.mytableName.consume.mode=INCREMENTAL;
set hoodie.mytableName.consume.max.commits=3;
set hoodie.mytableName.consume.start.timestamp=commitTime;

注意這3個參數是表級別參數

參數名	描述
hoodie.mytableName.consume.mode	Hudi表的查詢模式。增量查詢：INCREMENTAL非增量查詢：不設置或者設為SNAPSHOT
hoodie.mytableName.consume.start.timestamp	Hudi表增量查詢起始時間
hoodie. mytableName.consume.max.commits	Hudi表基于hoodie.mytableName.consume.start.timestamp 之后要查詢的增量commit次數。提交次數，如設置為3時，代表增量查詢從指定的起始時間之后commit 3次的數據，設為-1時，增量查詢從指定的起始時間之后提交的所有數據

4.2 COW類型Hudi表的查詢

例如Hudi原表表名為hudicow，同步給hive之后hive表名hudicow

4.2.1 COW表實時視圖查詢

設置hive.input.format 為org.apache.hadoop.hive.ql.io.HiveInputFormat或者org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat后，像普通的hive表一樣查詢即可

set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat;
select count(*) from hudicow;

4.2.2 COW表增量查詢

除了要設置hive.input.format，還需要設置上述的3個增量查詢參數，且增量查詢語句中的必須添加where 關鍵字并將_hoodie_commit_time > 'startCommitTime'作為過濾條件（這地方主要是hudi的小文件合并會把新舊commit的數據合并成新數據，hive是沒法直接從parquet文件知道哪些是新數據哪些是老數據）

set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat;
set hoodie.hudicow.consume.mode = INCREMENTAL;
set hoodie.hudicow.consume.max.commits = 3;
set hoodie.hudicow.consume.start.timestamp = xxxx;
select count(*) from hudicow where `_hoodie_commit_time` > 'xxxx'

注意_hoodie_commit_time 的引號是反引號（tab鍵上面那個）不是單引號， 'xxxx'是單引號

4.3 MOR類型Hudi表的查詢

例如mor類型Hudi源表的表名為hudimor，映射為兩張Hive外部表hudimor_ro（ro表）和hudimor_rt（rt表）

4.3.1 MOR表讀優化視圖

實際上就是讀 ro表，和cow表類似設置完hiveInputFormat 之后和普通的hive表一樣查詢即可。

4.3.2 MOR表實時視圖

設置了hive.input.format之后，即可查詢到Hudi源表的最新數據

set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat;
select * from hudicow_rt；

4.3.3 MOR表增量查詢

這個增量查詢針對的rt表，不是ro表。通COW表的增量查詢類似

set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat; // 這地方指定為HoodieCombineHiveInputFormat
set hoodie.hudimor.consume.mode = INCREMENTAL;set hoodie.hudimor.consume.max.commits = -1;
set hoodie.hudimor.consume.start.timestamp = xxxx;
select * from hudimor_rt where `_hoodie_commit_time` > 'xxxx'; // 這個表名要是rt表

說明如下

set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

最好只用于rt表的增量查詢，當然其他種類的查詢也可以設置為這個，這個參數會影響到普通的hive表查詢，因此在rt表增量查詢完成后，應該設置

set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

或者改為默認值

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

用于其他表的查詢。

set hoodie.mytableName.consume.mode=INCREMENTAL;

僅用于該表的增量查詢模式，若要對該表切換為其他查詢模式，應設置

set hoodie.hudisourcetablename.consume.mode=SNAPSHOT;

當前Hudi（0.9.0）對接Hive的一些問題，請使用master分支或即將發布的0.10.0版本

hive讀hudi表會將所有的數據給打印出來有嚴重的性能問題和數據安全問題。

MOR表的實時視圖讀取請按需設置mapreduce.input.fileinputformat.split.maxsize的大小禁止hive取切分讀取的文件，否則會出現數據重復。這個問題當前是無解的，spark讀hudi實時視圖的時候代碼直接寫死不會切分文件，hive需要手動設置。

如果碰到classNotFound， noSuchMethod等錯誤請檢查hive lib庫下面的jar包是否出現沖突。

5. Hive側源碼修改

為支持Hive查詢Hudi的純log文件需要對Hive側源碼進行修改。

具體修改org.apache.hadoop.hive.common.FileUtils 如下函數

public static final PathFilter HIDDEN_FILES_PATH_FILTER = new PathFilter() {    
  @Override    
  public boolean accept(Path p) {      
    String name = p.getName();      
    boolean isHudiMeta = name.startsWith(".hoodie");      
    boolean isHudiLog = false;      
    Pattern LOG_FILE_PATTERN = Pattern.compile("\\.(.*)_(.*)\\.(.*)\\.([0-9]*)(_(([0-9]*)-([0-9]*)-([0-9]*)))?");      
    Matcher matcher = LOG_FILE_PATTERN.matcher(name);      
    if (matcher.find()) {        
      isHudiLog = true;      
    }      
    boolean isHudiFile = isHudiLog || isHudiMeta;      
    return (!name.startsWith("_") && !name.startsWith(".")) || isHudiFile;    
  }  
};

重新編譯hive，把新編譯的hive-common-xxx.jar, hive-exec-xxx.jar 替換到hive server的lib目錄下注意權限和名字和原來的jar包保持一致。

最后重啟hive-server即可。

以上是“Apache教程Hudi與Hive集成手冊的示例分析”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Z-Order加速Hudi大規模數據集的方法
下一篇新聞：
基于python的MD5腳本怎么寫

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女