溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python如何通過正則庫爬取淘寶商品信息

發布時間：2021-07-24 09:19:17 來源：億速云閱讀：197 作者：小新欄目：開發技術

小編給大家分享一下Python如何通過正則庫爬取淘寶商品信息，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

使用正則庫爬取淘寶商品的商品信息，首先我們需要確定想要爬取的對象

我們在淘寶里搜索“python”,出來的結果

Python如何通過正則庫爬取淘寶商品信息

從url連接中可以得到搜索商品的關鍵字是“q=”，所以我們要用的起始url為：https://s.taobao.com/search?q=python

然后翻頁，經過對比發現，翻頁后，變化的關鍵字是s，每次翻頁，s便以44的倍數增長（可以數一下每頁顯示的商品數量，剛好是44）
所以可以根據關鍵字“s=”，來設置爬取的深度（爬取多少頁）

右鍵查看源碼，商品名稱可能的關鍵字是“title”和“raw_title”，進一步多看幾個商品的名稱，發現選取“raw_title”比較合適；商品價格自然就是“view_price”(通過比對淘寶商品展示頁面)；所以商品名稱和商品價格分別是以"raw_title":"名稱"和"view_price":"價格"，這樣的鍵/值對的形式展示的。

# coding:utf-8

import requests
import re

goods = '水杯'
url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)
html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html) # 正則提取商品名稱
plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) # 正則提示商品價格

print(tlist)
print(plist)
print(type(plist)) # 正則表達式提取出的商品名稱和商品價格都是以列表形式存儲數據的

利用for循環，把每個商品的名稱和價格組成一個列表，然后把這寫列表再追加到一個大列表中：

goodlist = []
for i in range(len(tlist)):
  title = eval(tlist[i].split(':')[1]) # eval()函數簡單說就是用于去掉字符串的引號
  price = eval(plist[i].split(':')[1])
  goodlist.append([title, price]) # 把每個商品的名稱和價格組成一個小列表，然后把所有商品組成的列表追加到一個大列表中
  print(goodlist)

大概的思路就是這樣的。

def get_html(url):
  """獲取源碼html"""
  try:
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    return r.text
  except:
    print("獲取失敗")
def get_data(html, goodlist):
  """使用re庫解析商品名稱和價格
  tlist:商品名稱列表
  plist:商品價格列表"""
  tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)
  plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
  for i in range(len(tlist)):
    title = eval(tlist[i].split(':')[1]) # eval()函數簡單說就是用于去掉字符串的引號
    price = eval(plist[i].split(':')[1])
    goodlist.append([title, price])


def write_data(list, num):
  # with open('E:/Crawler/case/taob2.txt', 'a') as data:
  #  print(list, file=data)
  for i in range(num): # num控制把爬取到的商品寫進多少到文本中
    u = list[i]
    with open('E:/Crawler/case/taob.txt', 'a') as data:
      print(u, file=data)


def main():
  goods = '水杯'
  depth = 3  # 定義爬取深度，即翻頁處理
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList = []
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44 * i) # 因為淘寶顯示每頁44個商品，第一頁i=0,一次遞增
      html = get_html(url)
      get_data(html, infoList)
    except:
      continue
  write_data(infoList, len(infoList))
if __name__ == '__main__':
  main()

以上是“Python如何通過正則庫爬取淘寶商品信息”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
.NET怎么動態加載用戶控件并傳值
下一篇新聞：
如何通過實例解析python描述符原理作用

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女