溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

發布時間：2021-08-12 14:36:15 來源：億速云閱讀：158 作者：小新欄目：開發技術

這篇文章主要為大家展示了“Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果”，內容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果”這篇文章吧。

一：腳本需求

利用Python3查詢網站權重并自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格

數據庫類型：MySql

數據庫表單名稱：website_weight

表單內容及表頭設置：表頭包含有id、main_url（即要查詢的網站）、website_weight（網站權重）

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

要查詢的網站：EXCEL表格

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

二：需求實現

一：利用openpyxl模塊解析excel文件，將查詢的網站讀取到一個列表中保存

# 解析excel文件，取出所有的url
def get_urls(file_path):
 wb = load_workbook(file_path)
 sheet = wb.active
 urls = []
 for cell in list(sheet.columns)[1]:
 if cell != sheet['B1']:
  urls.append(cell.value)
 return wb, urls

二：分析請求發送，偽造請求，取得HTML頁面

# 偽造請求，取得html頁面
def get_html(url):
 # 定義http的請求Header
 headers = {} 
 # random.randint(1,99) 為了生成1到99之間的隨機數，讓UserAgent變的不同。
 headers[
 'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
 random.randint(1, 99))
 # Referer地址使用待查詢的網址
 headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
 html = ''
 try:
 html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
 except Exception:
 pass
 return html

三：分析HTML頁面，利用BeautifulSoup模塊提取數據

# 利用BeautifulSoup模塊從html頁面中提取數據
def get_data(html, url):
 if not html:
 return url, 0
 soup = bs(html, "lxml")
 p_tag = soup.select("p.ReLImgCenter")[0]
 src = p_tag.img.attrs["src"]
 regexp = re.compile(r'^http:.*?(\d).gif')
 br = regexp.findall(src)[0]
 return url, br

四：數據庫連接配置，并獲取游標

# 連接數據庫
def get_connect():
 conn = pymysql.connect(
 host='127.0.0.1',
 port=3306,
 user='root',
 passwd='root',
 db='seotest',
 charset="utf8")
 # 獲取游標對象
 cursor = conn.cursor()
 return conn, cursor

五：主程序邏輯編寫

if __name__ == "__main__":
 #命令行執行腳本文件，獲取excel文件路徑
 file_path = sys.argv[1]
 #獲取URL列表和excle工作簿
 wb, urls = get_urls(file_path)
 #獲取數據庫連接和游標
 conn, cursor = get_connect()
 #獲取工作簿當前工作sheet
 sheet = wb.active
 #數據庫插入語句
 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''
 
 for row, url in enumerate(urls):
 if not url: continue
 html = get_html(url)
 data = get_data(html, url)
 # 插入數據到數據庫
 cursor.execute(sql_insert, data)
 # 插入數據到Excel表中
 cell = sheet.cell(row=row + 2, column=3)
 cell.value = data[1]
 # 終端打印插入的數據
 print(data)
 conn.commit()
 conn.close()
 wb.save(file_path)
 wb.close()

# cmd命令：python3 F:\算法與結構\網站權重.py F:\website.xlsx

三：腳本運行及其實現結果

CMD執行

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

數據庫：

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

excel文件寫入：

Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果

以上是“Python中如何使用Request爬取seo.chinaz.com百度權重網站的查詢結果”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
php倒計時出現-0情況怎么解決
下一篇新聞：
MySQL中排序速度慢如何解決

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女