溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

使用IP代理池和用戶代理池爬取糗事百科文章

發布時間：2020-07-25 18:48:09 來源：網絡閱讀：442 作者：少年不在了欄目：編程語言

簡單使用IP代理池和用戶代理池的爬蟲

import re
import random
import urllib.request as urlreq
import urllib.error as urlerr

#用戶代理池
uapools = [
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"
]
#ip代理池
ipools = []

#獲取用戶代理
def get_ua(uapools):
    thisua = random.choice(uapools)
    header = ("User-Agent", thisua)
    url_opener = urlreq.build_opener()
    url_opener.addheaders = [header]
    urlreq.install_opener(url_opener)

#獲取ip池，這里從西刺獲取首頁IP保存到列表中
def get_ipools(ipurl):
    get_ua(uapools)
    data = urlreq.urlopen(ipurl).read().decode("utf-8","ignore")
    pat = "/></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>"
    ret = re.compile(pat, re.S).findall(data)
    # print(ret)
    for i in ret:
        ips = i[0] + ":" + i[1]
        ipools.append(ips)
    return ipools

#解析糗事百科的文章
def get_article(data):
    pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'
    rst = re.compile(pat, re.S).findall(data)
    print(rst)
    # down_file(rst, i)

def get_html(urlweb):
    for i in range(1, 6):     #爬取前五頁文章
        while 1:
            try:
                page = urlweb + str(i)
                thisua = random.choice(uapools)
                header = ("User-Agent", thisua)               #構建用戶代理
                ip = random.choice(ipools)
                print("當前使用的ip為" + ip)
                proxy = urlreq.ProxyHandler({"http": ip})   #構建IP代理
                url_opener = urlreq.build_opener(proxy, urlreq.HTTPHandler)   #添加IP代理頭
                url_opener.addheaders = [header]                           #添加用戶代理頭
                urlreq.install_opener(url_opener)                             #設為全局變量
                data = urlreq.urlopen(page).read().decode("utf-8","ignore")
            except Exception as e:
                print(e)
                ipools.remove(ip)   #爬取失敗時，從IP池中刪除IP，重新爬取文章
                continue
            get_article(data)   #解析文章
            break                    #完成一頁的爬取

if __name__ == "__main__":
    ipurl = "https://www.xicidaili.com/nn/"
    ipools = get_ipools(ipurl)        #獲取ip池
    urlweb = "https://www.qiushibaike.com/text/page/"
    get_html(urlweb)

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
C++模板特化（template）
下一篇新聞：
Yii2 HOW-TO（4）：PDO連接數據庫錯誤

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女