溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

有哪些python爬蟲庫

發布時間:2021-05-09 15:31:50 來源:億速云 閱讀:221 作者:Leah 欄目:編程語言

本篇文章給大家分享的是有關有哪些python爬蟲庫,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

python的數據類型有哪些?

python的數據類型:1. 數字類型,包括int(整型)、long(長整型)和float(浮點型)。2.字符串,分別是str類型和unicode類型。3.布爾型,Python布爾類型也是用于邏輯運算,有兩個值:True(真)和False(假)。4.列表,列表是Python中使用最頻繁的數據類型,集合中可以放任何數據類型。5. 元組,元組用”()”標識,內部元素用逗號隔開。6. 字典,字典是一種鍵值對的集合。7. 集合,集合是一個無序的、不重復的數據組合。

一、請求庫

實現 HTTP 請求操作

1、urllib:一系列用于操作URL的功能。

2、requests:基于 urllib 編寫的,阻塞式 HTTP 請求庫,發出一個請求,一直等待服務器響應后,程序才能進行下一步處理。

3、selenium:自動化測試工具。一個調用瀏覽器的 driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。

4、aiohttp:基于 asyncio 實現的 HTTP 框架。異步操作借助于 async/await 關鍵字,使用異步庫進行數據抓取,可以大大提高效率。

二、解析庫

從網頁中提取信息

1、beautifulsoup:html 和 XML 的解析,從網頁中提取信息,同時擁有強大的API和多樣解析方式。

2、pyquery:jQuery 的 Python 實現,能夠以 jQuery 的語法來操作解析 HTML 文檔,易用性和解析速度都很好。

3、lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。

4、tesserocr:一個 OCR 庫,在遇到驗證碼(圖形驗證碼為主)的時候,可直接用 OCR 進行識別。

三、存儲庫

Python與數據庫交互

1、pymysql一個純 Python 實現的 MySQL 客戶端操作庫。

2、pymongo:一個用于直接連接 mongodb 數據庫進行查詢操作的庫。

3、redisdump:一個用于 redis 數據導入/導出的工具?;?ruby 實現的,因此使用它,需要先安裝 Ruby。

四、爬蟲框架

1、Scrapy:很強大的爬蟲框架,可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對于稍微復雜一點的頁面,如 weibo 的頁面信息,這個框架就滿足不了需求了。

2、Crawley:高速爬取對應網站的內容,支持關系和非關系數據庫,數據可以導出為 JSON、XML 等。

3、Portia:可視化爬取網頁內容。

4、newspaper:提取新聞、文章以及內容分析。

5、python-goose:java 寫的文章提取工具。

6、cola:一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高。

五、Web框架庫

1、flask:輕量級的 web 服務程序,簡單,易用,靈活,主要來做一些 API 服務。做代理時可能會用到。

2、django:一個 web 服務器框架,提供了一個完整的后臺管理,引擎、接口等,使用它可做一個完整網站。

以上就是有哪些python爬蟲庫,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女