編寫Python Scrapy爬蟲的過程分為幾個步驟。首先,確保你已經安裝了Scrapy。如果沒有,請使用以下命令安裝:
pip install scrapy
接下來,遵循以下步驟創建一個簡單的Scrapy爬蟲:
scrapy startproject my_spider
這將在名為my_spider
的目錄中創建一個新的Scrapy項目。
cd my_spider
scrapy genspider my_spider example.com
這將在spiders
目錄中創建一個名為my_spider.py
的新文件,其中包含一個名為MySpider
的基本爬蟲類。
my_spider.py
文件,定義爬蟲的行為:import scrapy
class MySpider(scrapy.Spider):
name = 'my_spider'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
# 提取頁面中的標題
title = response.css('title::text').get()
self.log(f'Page title: {title}')
# 提取頁面中的所有鏈接
links = response.css('a::attr(href)').getall()
for link in links:
self.log(f'Link: {link}')
在這個例子中,我們定義了一個名為MySpider
的爬蟲,它從一個名為example.com
的域中抓取頁面標題和鏈接。parse
方法用于處理從目標網站抓取到的響應。
scrapy crawl my_spider
這將啟動爬蟲并打印出抓取到的頁面標題和鏈接。
這只是一個簡單的Scrapy爬蟲示例。你可以根據需要擴展它,以處理更復雜的網站結構和抓取需求。要了解更多關于Scrapy的信息,請查閱官方文檔:https://docs.scrapy.org/