溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python怎么爬取一些簡單的論壇、帖子、網頁

發布時間:2021-11-23 17:00:11 來源:億速云 閱讀:1681 作者:iii 欄目:編程語言

這篇文章主要講解了“Python怎么爬取一些簡單的論壇、帖子、網頁”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python怎么爬取一些簡單的論壇、帖子、網頁”吧!

引言

用最短的時間寫一個最簡單的爬蟲,可以抓一些簡單的論壇、帖子、網頁。

入門

1.準備工作

  • 安裝Python

  • 安裝scrapy框架

  • 一個IDE或者可以用自帶的

2.開始寫爬蟲

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

在spiders文件夾中創建一個python文件,比如miao.py,來作為爬蟲的腳本。

代碼如下:

Python怎么爬取一些簡單的論壇、帖子、網頁

3.運行一下

如果用命令行的話就這樣:

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

解析

1.試試神奇的xpath

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函數改成:

Python怎么爬取一些簡單的論壇、帖子、網頁

我們再次運行一下,你就可以看到輸出“壇星際區”***頁所有帖子的標題和url了。

遞歸

Python怎么爬取一些簡單的論壇、帖子、網頁

完整的代碼如下:

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

Pipelines——管道

現在是對已抓取、解析后的內容的處理,我們可以通過管道寫入本地文件、數據庫。

1.定義一個Item

在miao文件夾中創建一個items.py文件

Python怎么爬取一些簡單的論壇、帖子、網頁

這里我們定義了兩個簡單的class用來描述我們爬取的結果。

2. 處理方法

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

3.在爬蟲中調用這個處理方法。

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

4.在配置文件里指定這個pipeline

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

可以這樣配置多個pipeline:

Python怎么爬取一些簡單的論壇、帖子、網頁

Middleware——中間件

Python怎么爬取一些簡單的論壇、帖子、網頁

1.Middleware的配置

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

2.破網站查UA, 我要換UA

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

這里就是一個簡單的隨機更換UA的中間件,agents的內容可以自行擴充。

3.破網站封IP,我要用代理

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

Python怎么爬取一些簡單的論壇、帖子、網頁

感謝各位的閱讀,以上就是“Python怎么爬取一些簡單的論壇、帖子、網頁”的內容了,經過本文的學習后,相信大家對Python怎么爬取一些簡單的論壇、帖子、網頁這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女