溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python Scrapy圖片爬取的方法

發布時間：2020-06-23 11:44:08 來源：億速云閱讀：295 作者：清晨欄目：開發技術

不懂Python Scrapy圖片爬取的方法？其實想解決這個問題也不難，下面讓小編帶著大家一起學習怎么去解決，希望大家閱讀完這篇文章后大所收獲。

1.在爬蟲文件中只需要解析提取出圖片地址，然后將地址提交給管道

在管道文件對圖片進行下載和持久化存儲

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明圖片存放的路徑

3.管道類的修改

原本管道類繼承的object，處理item對象使用時process_item方法，該方法不能發送請求，要想對圖片地址發送請求，需要繼承ImagesPipeline類，然后重寫該類中的三個方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #對某一個媒體資源進行請求發送
  #item就是接收到的spider提交過來的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒體數據存儲的名稱
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下載：',name)
    return name

  #將item傳遞給下一個即將給執行的管道類
  def item_completed(self, results, item, info):
    return item

感謝你能夠認真閱讀完這篇文章，希望小編分享Python Scrapy圖片爬取的方法內容對大家有幫助，同時也希望大家多多支持億速云，關注億速云行業資訊頻道，遇到問題就找億速云，詳細的解決方法等著你來學習!

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
bootstrap-導航條反色的導航條
下一篇新聞：
如何解決java找不到或無法加載主類的錯誤

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女