溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

node.js爬蟲爬取拉勾網職位信息

發布時間:2020-10-11 22:07:54 來源:腳本之家 閱讀:169 作者:陌路黃昏后 欄目:web開發

簡介

用node.js寫了一個簡單的小爬蟲,用來爬取拉勾網上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個城市的數據,分別以前端、PHP、java、c++、python、Android、ios作為關鍵詞進行爬取,爬到的數據以json格式儲存到本地,為了方便觀察,我將數據整理了一下供大家參考

數據結果

node.js爬蟲爬取拉勾網職位信息

上述數據為3月13日22時爬取的數據,可大致反映各個城市對不同語言的需求量。

爬取過程展示

控制并發進行爬取

node.js爬蟲爬取拉勾網職位信息

爬取到的數據文件

node.js爬蟲爬取拉勾網職位信息

json數據文件

node.js爬蟲爬取拉勾網職位信息

爬蟲程序

實現思路

請求拉鉤網的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關鍵詞&pn=頁數”可以返回一個json格式的數據,該數據包含所要請求職位的信息,省去了使用chreio解析的麻煩,所以直接用superagent來進行請求上述地址,并將數據儲存在本地即可,其中參數city是為城市,kd為所要搜索的關鍵詞,pn為要請求的頁數,當中使用到了async來控制異步流程,使得并發數不超過3,防止被封ip。

代碼地址及使用

github:https://github.com/zsqosos/positionAnalysis

代碼請在github上查看,使用該程序需要安裝node環境,如果覺得還不錯的話煩請給個star,歡迎大家修改使用該程序。

以上就是本文的全部內容,希望本文的內容對大家的學習或者工作能帶來一定的幫助,同時也希望多多支持億速云!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女