溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Apache Arrow 晉升為Apache基金會頂級項目

發布時間:2020-06-21 22:17:42 來源:網絡 閱讀:1342 作者:suleexx 欄目:開發技術

Apache軟件基金會于2月17日宣布,Apache Arrow晉升成為一個新的頂級項目(Top-Level Project),提供跨系統的數據層列式內存分析(Columnar In-Memory Analytics),來加速大數據分析的效率和速度。ASF宣稱,Arrow可以百倍的提升大數據分析的性能,極大的降低跨系統間的溝通成本,支持多系統間運作。

Arrow是數據結構、算法和跨程序語言的組合,提供不同種類系統間數據共享基礎,包含SQL執行引擎(如DrillImpala)、數據分析系統 (如PandasSpark)、流式和隊列系統(如Herron、KafkaStorm),以及儲存系統(如Parquet、Kudu、CassandraHBase)。

另外,使用者現在可以用C、C++、PythonJava等程序語言來執行Arrow的程序代碼,Apache ArrowDrill項目副總裁Jacques Nadeau表示,在未來12個月內還將增加對R、JavaScriptJulia的支持。

Arrow除了支持傳統的關系數據庫之外,也支持動態Schema結構的數據,例如,Arrow可以處理物聯網、Log文件等常用的JSON格式 數據。在性能方面, Arrow特別優化排序的局部性(Cache Locality)、流量管道(Pipelining)和單一指令多重數據(Single Instruction Multiple Data,SIMD),來發揮CPU的性能。

ASF表示,在許高負載中,70%~80%的CPU資源都用在系統間串行化(Serialize)和解串行化 (Deserialize)數據,而Arrow讓數據可以不必經過串行化、解串行化或內存復制,就能夠在系統和處理程序中共享,藉此提升CPU的使用性能。

此外,目前已經有13個主要大數據開源項目的開發者連手打造Arrow項目,而這13個開源項目包含了Calcite、Cassandra、 Drill、Hadoop、HBase、Impala、Kudu(培育期)、Parquet、Phoenix、Spark、Storm、Pandas Ibis。

Jacques Nadeau表示,ASF預期在未來幾年,世界上大多數的數據將會使用Arrow的技術來分析。

目前,Apache Arrow的代碼已經可以在Apache2.0的許可下使用,


參考文檔:

http://www.itdadao.com/article/393103/

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女