這篇文章主要介紹python爬蟲使用request庫發送get請求的示例,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
Python是一種跨平臺的、具有解釋性、編譯性、互動性和面向對象的腳本語言,其最初的設計是用于編寫自動化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開發獨立的項目和大型項目。
python爬蟲中使用request庫會比urllib庫更加?便,request庫可以節約我們?量的?作,完全滿?HTTP測試需求。那你python爬蟲如何使用request庫發送get請求嗎?
方法一:通過requests.get來調用(最簡單)
語法格式
response = requests.get("URL")
實例
import requests response=requests.get("http://www.baidu.com/") #查看響應內容 response.text返回的是Unicode格式的數據 #print(response.text) #查看響應內容,response.content返阿的字節濾數據 print(response.content) print(response.content.decode('utf-8')) #查看完整URL print(response.url) print(response.encoding) print(response.status_code)
方法二:添加headers和查詢參數:
如果想添加headers,可以傳入headers參數來增加請求頭中的headers信息。如果要將參數放在url中傳遞,可以利用params參數。相關示例代碼如下:
import requests params={ 'wd':'迪麗熱巴' } headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } #這里加上cookie才能進行正常訪問,還有說明一點這里的cookie是進入職位詳情之后的cookie response=requests.get("http://www.baidu.com/s",params=params,headers=headers) #print(type(response.json())) print(response.url)
補充:response.text和response.content的區別:
1、response.content:這個是直接從網絡上面抓取的數據。沒有經過任何解碼。所以是一個bytes類型。其實在硬盤上和在網絡上傳輸的字符串都是bytes類型。
2、response.text:這個是str的數據類型,是requests庫將response.content進行解碼的字符串。解碼需要指定一個編碼方式,requests會根據自己的猜測來判斷編碼的方式。所以有時候可能會猜測錯誤,就會導致解碼產生亂碼。這時候就應該使用response-content.decode( "utf-8")`進行手動解碼。
以上是“python爬蟲使用request庫發送get請求的示例”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。