在Ubuntu上部署Python爬蟲可以按照以下步驟進行:
安裝Python和pip:
sudo apt update
sudo apt install python3 python3-pip
安裝虛擬環境(推薦):
python3 -m venv myenv
source myenv/bin/activate
安裝爬蟲庫:
pip install requests beautifulsoup4 lxml
安裝Selenium(如果使用):
pip install selenium
并且需要下載并安裝與Chrome瀏覽器版本匹配的chromedriver
。
創建一個新的Python文件,例如my_spider.py
,并編寫基本的爬蟲腳本。以下是一個簡單的示例,用于抓取網頁標題和所有鏈接:
import requests
from bs4 import BeautifulSoup
url = 'http://example.com'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.string) # 打印網頁標題
for link in soup.find_all('a'):
print(link.get('href')) # 打印所有鏈接
else:
print('網頁加載失敗')
在終端中,激活虛擬環境(如果有)并運行爬蟲腳本:
source myenv/bin/activate
python my_spider.py
根據你的需求,可以選擇不同的部署方式:
如果你需要更復雜的爬蟲解決方案,可以考慮使用Scrapy框架:
安裝Scrapy:
pip install scrapy
創建Scrapy項目:
scrapy startproject myproject
cd myproject
運行Scrapy爬蟲:
scrapy crawl myspider
```。
你可以將爬蟲代碼和依賴庫打包成Docker容器,方便部署和擴展:
FROM python:3.7-slim
RUN apt-get update && apt-get install -y \
python3-pip \
python3-dev \
libxml2-dev \
libxslt1-dev
COPY . /app
WORKDIR /app
RUN pip install -r requirements.txt
CMD ["python", "app.py"]
然后構建和運行Docker容器:
docker build -t my-python-spider .
docker run -d my-python-spider
```。
以上步驟涵蓋了在Ubuntu上配置和部署Python爬蟲的基本流程。根據具體需求,可能還需要進行進一步的優化和配置,例如設置代理、處理反爬蟲機制、數據存儲等。