本篇內容主要講解“pig運行方法是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“pig運行方法是什么”吧!
Pig是作為客戶端運行的程序,你需要將其連接到本地Hadoop或者集群上。當安裝Pig之后,有三種執行pig程序的方法:pig腳本 (將程序寫入.pig文件中),Grunt(運行Pig命令的交互式shell環境)和嵌入式方式。
records = Load ‘sample.txt’ as (year:chararray, temperature:int, quality:int);
filter_records = FILTER records BY temperature != 9999 AND quality == 0;
group_records = GROUP filter_records BY year;
max_temp = FOREACH group_records GENERATE group, MAX(filter_records.temperature);
DUMP max_temp;
生成上面程序的創建的數據集結構: grunt> ILLUSTRATE max_temp;
Pig和數據庫的比較:
1)Pig是數據流編程語言,而SQL是一種描述型編程語言。Pig是相對于輸入的一步步操作,其中每一步都是對數據的一個簡單的變換; 而SQL語句是一個約束的集合,這些約束結合在一起定義了輸出。Pig更像RDBMS中的查詢規劃器。
2)RDBMS把數據存儲在嚴格定義了模式的表內,但pig對數據的要求更寬松,可以在運行時定義模式,而且是可選的。
3)pig對復雜、嵌套數據結構的支持更強;
4)Pig不支持事務和索引,也不支持隨機讀和幾十毫秒級別的查詢,它是針對數據批量處理的。
5)Hive是介于Pig和RDBMS之間的系統。Hive以HDFS為存儲,但是查詢語言是基于SQL的,而且Hive要求所有數據必須存儲在表中,
表必須有模式,而模式由Hive管理。但Hive允許為預先存在HDFS中的數據關聯一個模式,因此數據加載步驟是可選的。
到此,相信大家對“pig運行方法是什么”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。