本篇文章為大家展示了怎么進行hadoop性能調優 ,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
增大同時打開文件描述符和網絡連接上限
操作系統的默認連接數上限為128 (sysctl -a | grep net.core.somaxconn),/etc/sysctl.conf 添加 net.core.somaxconn=32767
linux默認打開文件描述符數量為183731 ,同樣在sysctl.conf中添加fs.file-max=800000
執行systcl -a 查看 systcl -p來刷新配置
關閉swap分區
在MR分布式環境中.用戶完全可以通過控制每個作業處理的數據量和每個任務運行過程中用到的各個緩沖區大小,避免使用swap分區.
設置合理的預讀取緩沖區大小
磁盤IO性能滯后于CPU和內存,設置預讀可以較少磁盤尋道和應用程序IO等待時間,使用linux blockdev 設置讀取緩沖區大小.
文件系統配置
開啟linux的noatime屬性.(/etc/fstab)
IO調度器選擇
參考 Hadoop Performance Tuning Guide
磁盤塊配置
以前博文分析shuffle過程已經提過怎么配置 mapreduce.cluster.local.dir 將tmp文件寫到其他本地硬盤,可以提升IO
選擇合適的壓縮算法
mapreduce.map.output.compress=true
mapreduce.map.output.compress.codec=XXCodec
修改ifile預讀大小
可以根據項目需求,適當修改預讀緩沖區大小mapreduce.ifile.readahead.bytes
設置Combiner
增加輸入文件的副本數
上述內容就是怎么進行hadoop性能調優 ,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。