BeautifulSoup 是一個用于解析 HTML 和 XML 文檔的 Python 庫。要使用 BeautifulSoup 進行網頁爬取,你需要先安裝它,然后使用它來解析網頁內容并提取所需信息。以下是一個簡單的示例,展示了如何使用 BeautifulSoup 爬取網頁內容:
pip install beautifulsoup4
pip install requests
import requests
from bs4 import BeautifulSoup
# 目標網頁的 URL
url = 'https://example.com'
# 向目標網頁發送請求并獲取響應
response = requests.get(url)
# 檢查請求是否成功(HTTP 狀態碼為 200 表示成功)
if response.status_code == 200:
# 使用 BeautifulSoup 解析網頁內容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所需信息,例如頁面中的所有段落標簽(<p>)
paragraphs = soup.find_all('p')
# 遍歷并打印段落標簽的內容
for p in paragraphs:
print(p.get_text())
else:
print(f"請求失敗,狀態碼:{response.status_code}")
這個示例中,我們首先導入 requests 和 BeautifulSoup 庫。然后,我們定義了目標網頁的 URL,并使用 requests.get() 函數向該 URL 發送請求。如果請求成功,我們使用 BeautifulSoup 解析網頁內容,并提取所有段落標簽(<p>
)。最后,我們遍歷并打印段落標簽的內容。
你可以根據需要修改這個示例,以適應不同的網頁和所需的信息。請注意,根據目標網站的robots.txt文件和使用條款,確保你的爬蟲行為符合相關規定。