溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何正確的使用python爬蟲請求頭

發布時間：2020-12-01 14:52:22 來源：億速云閱讀：304 作者：Leah 欄目：開發技術

這篇文章給大家介紹如何正確的使用python爬蟲請求頭，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

爬蟲請求頭

網頁獲?。?/strong>

通過urlopen來進行獲取

requset.urlopen(url,data,timeout)

第一個參數url即為URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。
第二三個參數是可以不傳送的，data默認為空None，timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要加入的，執行urlopen方法之后，返回一個response對象，返回信息便保存在這里面

from urllib.request import urlopen

url = "https://www.baidu.com/"
respons = urlopen(url)#最簡單的爬取情況這樣爬取大部分網頁無法爬取成功

response對象：

response.read()
read()方法就是讀取文件里的全部內容，返回bytes類型

print(type(respons.read()))#結果為bytes類型所以需要進行轉碼
print(type(respons.read().decode()))#通過decode轉碼結果為str

response.getcode()
返回 HTTP的響應碼，成功返回200，4服務器頁面出錯，5服務器問題

response.geturl()
返回返回實際數據的實際URL，防止重定向問題

response.info()
返回服務器響應的HTTP報頭

Request對象

Request對象，由于urlopen參數可以傳入一個request請求（可以理解成為再加一步封裝的功能）因為在構建請求時還需要加入好多內容，通過構建一個request，服務器響應請求得到應答，這樣顯得邏輯上清晰明確

from urllib.request import urlopen,Request
from fake_useragent import UserAgent#這個包可以隨機生成User-Agent

url = "https://www.baidu.com/"
headers = {"User-Agent":UserAgent().firefox}#生成火狐的
request = Request(url,headers=headers)
response = urlopen(request)

a=response.read().decode()

Get請求

瀏覽器通過GET方法發出請求
爬蟲主要通過get再url中加入請求的參數，由于中文的需要轉碼通過
Urllib.parse.urlencode() 針對多個參數進行轉碼操作輸入格式為字典類型
Urllib.parse.quote() 針對單個字符串進行轉碼操作
Str格式.format( ) 用于拼接字符串

post請求

一般在需要登錄的地方用的比較多
需要在request請求中加如一個data用來傳入參數
參數的形式要以字典格式通過urllib.parse.urlencode()進行轉換成字符串形式
再通過encode()函數對字符串進行轉碼（默認值就可以）

發送請求/響應header頭的含義

名稱	含義
Accept	告訴服務器，客戶端支持的數據類型
Accept-Charset	告訴服務器，客戶端采用的編碼
Accept-Encoding	告訴服務器，客戶機支持的數據壓縮格式
Accept-Language	告訴服務器，客戶機的語言環境
Host	客戶機通過這個頭告訴服務器，想訪問的主機名
If-Modified-Since	客戶機通過這個頭告訴服務器，資源的緩存時間
Referer	客戶機通過這個頭告訴服務器，它是從哪個資源來訪問服務器的。（一般用于防盜鏈）
User-Agent	客戶機通過這個頭告訴服務器，客戶機的軟件環境
Cookie	客戶機通過這個頭告訴服務器，可以向服務器帶數據
Refresh	服務器通過這個頭，告訴瀏覽器隔多長時間刷新一次
Content-Type	服務器通過這個頭，回送數據的類型
Content-Language	服務器通過這個頭，告訴服務器的語言環境
Server	服務器通過這個頭，告訴瀏覽器服務器的類型
Content-Encoding	服務器通過這個頭，告訴瀏覽器數據采用的壓縮格式
Content-Length	服務器通過這個頭，告訴瀏覽器回送數據的長度

Ajax請求
用于提取動態的頁面網頁數據根據拖動進行顯示
通過瀏覽器工具箱，查找包的信息，找到url的規律進行爬取
如果無法知道要循環多少次則規定一個死循環，爬取頁面為空時停止循環
也可以通過改變url一次性輸出更多的網頁信息（只要服務器允許）

https請求
因為在有些瀏覽器中存在很多證書所以在大部分網頁爬取的時候不用改變證書或者添加證書但有些自己寫證書的網站需要進行這一步操作
https請求=在http上加ssl，http請求是明文直接可以看見，為了安全要加上ssl
可以選擇忽略證書進行爬取 context = ssl._create_unverified_context()

關于如何正確的使用python爬蟲請求頭就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

推薦閱讀：

python爬蟲如何添加請求頭

Python爬蟲:將headers請求頭字符串轉為字典的方法

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

python python爬

上一篇新聞：
怎么在JAVA項目中利用SOCKET實現一個多客戶端通信功能

下一篇新聞：
利用mysql怎么統計持久化信息

猜你喜歡

Debian系統如何配置Filebeat的網絡設置

Debian如何管理Filebeat的用戶權限

Filebeat在Debian上的日志存儲位置怎么設置

Debian系統如何實現Filebeat的負載均衡

Filebeat在Debian上的報警機制如何配置

Debian如何確保Filebeat的穩定運行

Ubuntu日志清理策略：保持系統高效

Ubuntu日志中內存泄漏的跡象及修復

Ubuntu日志中的網絡連接問題解析

Ubuntu日志更新頻率對系統的影響

最新資訊

Ansible與云服務如何結合使用

如何監控Ansible的執行狀態

Ansible配置文件怎么編寫

Ansible任務如何調度執行

Ansible在容器化部署中的應用

內連接中如何處理重復數據

Ansible能解決哪些運維難題

Ansible在DevOps中的角色是什么

Ansible在自動化測試中的作用

內連接中多表關聯的順序影響結果嗎

相關推薦

如何正確的使用Selenium

如何正確的使用函數

python爬蟲請求頭的設置方法

python爬蟲中Cookie必須要放在請求頭上嗎

如何正確的使用python爬蟲調度器

如何正確的使用python爬蟲

如何快速的生成一個Python爬蟲請求頭

怎么用Python爬蟲搞定發送中文HTTP請求頭

Python爬蟲中如何實現請求頭的格式化

Vue如何使用axios添加請求頭

相關標簽

python學習路線 python內置數據結構 python郵件 python 3.4 python while python視頻 python鴨子類型 python開發學習 python局部變量 python發郵件 python編譯器 python內存分配 python mysql python標準庫 python多進程 python threadpool python27 pythonic python r Python正則表達式

AI
助
手

產品服務

云服務器

高防服務器

高防IP

裸金屬服務器

機柜租用

SSL證書

高防CDN

彈性IP

地區劃分

中國香港服務器

美國服務器

德國服務器

日本服務器

韓國服務器

新加坡服務器

專題活動

控制臺

應用市場

最新活動

九馬智能直播

幫助支持

幫助中心

網站備案

法律條款

全國服務

安全漏洞

主題地圖

關于我們

關于億速云

客戶案例

新聞資訊

資訊地圖

問答地圖

聯系我們

人才招聘

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

Copyright ? Yisu Cloud Ltd. All Rights Reserved. 2018 版權所有

廣州億速云計算有限公司粵ICP備17096448號-1 粵公網安備 44010402001142號增值電信業務經營許可證編號：B1-20181529

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女