BeautifulSoup 是一個 Python 庫,用于解析 HTML 和 XML 文檔。它本身不是一個爬蟲,但可以與其他庫(如 Requests)結合使用來創建爬蟲。BeautifulSoup 可以運行,但需要先安裝它。你可以使用以下命令安裝 BeautifulSoup:
pip install beautifulsoup4
此外,你還需要安裝一個解析器,如 lxml 或 html5lib。這里以 lxml 為例:
pip install lxml
安裝完成后,你可以使用 BeautifulSoup 和 Requests 庫編寫簡單的爬蟲。以下是一個簡單的示例:
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
print(soup.prettify())
這個示例會向 “https://example.com” 發送一個 GET 請求,然后使用 BeautifulSoup 解析 HTML 內容并打印格式化后的結果。你可以根據需要修改這個示例來實現自己的爬蟲功能。