溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

java未來趨勢 Java促進大數據的大發展

發布時間:2020-08-18 12:36:16 來源:ITPUB博客 閱讀:187 作者:lanqiaoxueyuan 欄目:編程語言

沒有Java,甚至不會有大數據的大發展,Hadoop本身就是用Java編寫的。當你需要在運行MapReduce的服務器集群上發布新功能時,你需


要進行動態的部署,而這正是Java所擅長的。



大數據領域支持Java的主流開源工具:


1. HDFS


HDFS是Hadoop應用程序中主要的分布式儲存系統, HDFS集群包含了一個NameNode(主節點),這個節點負責管理所有文件系統的元數據


及存儲了真實數據的DataNode(數據節點,可以有很多)。HDFS針對海量數據所設計,所以相比傳統文件系統在大批量小文件上的優化,


HDFS優化的則是對小批量大型文件的訪問和存儲。


2. MapReduce


Hadoop MapReduce是一個軟件框架,用以輕松編寫處理海量(TB級)數據的并行應用程序,以可靠和容錯的方式連接大型集群中上萬個節


點(商用硬件)。


3. HBase


Apache HBase是Hadoop數據庫,一個分布式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問,并針對了商用服務器


集群上的大型表格做出優化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實現,分布式列式存儲。就像Bigtable利用


GFS(Google File System)提供的分布式數據存儲一樣,它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。


4. Cassandra


Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫,可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數據平臺。


在橫跨數據中心的復制中,Cassandra同類最佳,為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規范化


和物化視圖的強支持以及強大的內置緩存,Cassandra的數據模型提供了方便的二級索引(column indexe)。


5. Hive


Apache Hive是Hadoop的一個數據倉庫系統,促進了數據的綜述(將結構化的數據文件映射為一張數據庫表)、即席查詢以及存儲在


Hadoop兼容系統中的大型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時當使用這個語言表達一個邏輯變得低效和繁瑣


時,HiveQL還允許傳統的Map/Reduce程序員使用自己定制的Mapper和Reducer。


6. Pig


Apache Pig是一個用于大型數據集分析的平臺,它包含了一個用于數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃


光特性在于它們的結構經得起大量的并行,也就是說讓它們支撐起非常大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯


器。Pig的語言層當前包含了一個原生語言——Pig Latin,開發的初衷是易于編程和保證可擴展性。





java未來趨勢 Java促進大數據的大發展



7. Chukwa


Apache Chukwa是個開源的數據收集系統,用以監視大型分布系統。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩定


性。Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證數據的使用達到最佳效果。


8. Ambari


Apache Ambari是一個基于web的工具,用于配置、管理和監視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、


HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive


應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。


9. ZooKeeper


Apache ZooKeeper是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、命名服務、分布式同步、組服務等。


ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。


10. Sqoop


Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫中數據導入Hadoop的HDFS中,也可以將


HDFS中數據導入關系型數據庫中。


11. Oozie


Apache Oozie是一個可擴展、可靠及可擴充的工作流調度系統,用以管理Hadoop作業。Oozie Workflow作業是活動的Directed Acyclical 


Graphs(DAGs)。Oozie Coordinator作業是由周期性的Oozie Workflow作業觸發,周期一般決定于時間(頻率)和數據可用性。Oozie與


余下的Hadoop堆棧結合使用,開箱即用的支持多種類型Hadoop作業(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、


Sqoop和Distcp)以及其它系統作業(比如Java程序和Shell腳本)。


12. Mahout


Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用例:


推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。


聚集:收集文件并進行相關文件分組。


分類:從現有的分類文檔中學習,尋找文檔中的相似特征,并為無標簽的文檔進行正確的歸類。


頻繁項集挖掘:將一組項分組,并識別哪些個別項會經常一起出現。


13. HCatalog


Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務,它包括:


提供一個共享模式和數據類型機制。


提供一個抽象表,這樣用戶就不需要關注數據存儲的方式和地址。


為類似Pig、MapReduce及Hive這些數據處理工具提供互操作性。


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女