在Python的requests庫中,可以通過設置proxies
參數來使用代理。以下是一個簡單的示例:
import requests
url = 'https://www.example.com'
proxies = {
'http': 'http://your_proxy_ip:your_proxy_port',
'https': 'http://your_proxy_ip:your_proxy_port',
}
response = requests.get(url, proxies=proxies)
print(response.text)
請將your_proxy_ip
和your_proxy_port
替換為您的代理服務器的IP地址和端口號。您可以選擇使用HTTP或HTTPS協議,根據您的代理服務器支持的情況。
此外,如果您使用的是Scrapy框架,可以在settings.py
文件中設置代理:
HTTP_PROXY = 'http://your_proxy_ip:your_proxy_port'
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.ProxyMiddleware': 100,
}
然后在middlewares.py
文件中定義一個中間件來處理代理:
from scrapy import signals
class ProxyMiddleware(object):
def process_request(self, request, spider):
request.meta['proxy'] = spider.settings.get('HTTP_PROXY')
@classmethod
def from_crawler(cls, crawler):
middleware = cls()
crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened)
return middleware
def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
這樣,Scrapy在發起請求時會自動使用配置的代理服務器。