溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python怎么批量采集京東商品數據流程

發布時間：2022-01-24 09:43:23 來源：億速云閱讀：260 作者：小新欄目：開發技術

# Python怎么批量采集京東商品數據流程

## 前言

在電商數據分析、價格監控、競品分析等場景中，批量采集商品數據是常見需求。本文將詳細介紹使用Python采集京東商品數據的完整流程，包含技術選型、反爬策略、代碼實現和數據處理等核心環節。

---

## 目錄
1. 技術方案設計
2. 環境準備
3. 京東商品頁面分析
4. 反爬機制破解
5. 核心代碼實現
6. 數據存儲方案
7. 異常處理機制
8. 完整代碼示例
9. 優化建議
10. 法律合規說明

---

## 一、技術方案設計

### 1.1 整體架構
```mermaid
graph TD
    A[啟動爬蟲] --> B[生成關鍵詞列表]
    B --> C[構造京東搜索URL]
    C --> D[發送HTTP請求]
    D --> E[解析響應數據]
    E --> F[提取商品信息]
    F --> G[存儲到數據庫]
    G --> H[異常處理]

1.2 技術選型

組件	選型	理由
編程語言	Python 3.8+	豐富的爬蟲生態庫
HTTP庫	requests/httpx	支持HTTP2.0和異步請求
解析庫	BeautifulSoup4	HTML解析簡單高效
異步框架	asyncio+aiohttp	提高大規模采集效率
存儲方案	MySQL/MongoDB	結構化存儲方便分析
代理服務	付費代理IP池	解決IP封鎖問題

二、環境準備

2.1 安裝依賴庫

pip install requests beautifulsoup4 fake-useragent pymysql pandas

2.2 開發環境配置

# config.py 配置文件示例
PROXY = {
    'http': 'http://username:password@proxy_ip:port',
    'https': 'https://username:password@proxy_ip:port'
}

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
    "Accept-Encoding": "gzip, deflate, br"
}

三、京東頁面分析

3.1 URL結構分析

京東商品搜索關鍵參數：

https://search.jd.com/Search?
  keyword=手機                # 搜索關鍵詞
  &enc=utf-8                 # 編碼格式
  &page=1                    # 頁碼（每頁30條）
  &s=1                       # 起始商品序號

3.2 數據定位技巧

通過Chrome開發者工具分析： - 商品列表容器：#J_goodsList > ul > li - 價格字段：.p-price strong - 標題字段：.p-name em - 評論數：.p-commit strong

四、反爬機制破解

4.1 常見反爬措施

User-Agent驗證 - 使用fake-useragent庫動態生成

from fake_useragent import UserAgent
ua = UserAgent()
headers = {'User-Agent': ua.random}

IP頻率限制 - 解決方案：
- 使用代理IP輪換
- 設置請求間隔（2-5秒）
驗證碼觸發 - 預防方法：
- 控制采集速度
- 模擬人工操作軌跡

五、核心代碼實現

5.1 請求模塊

def get_html(url, retry=3):
    for _ in range(retry):
        try:
            resp = requests.get(url, 
                              headers=HEADERS,
                              proxies=PROXY,
                              timeout=10)
            if resp.status_code == 200:
                return resp.text
        except Exception as e:
            print(f"請求失敗: {e}")
            time.sleep(random.uniform(1,3))
    return None

5.2 數據解析模塊

def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.select('#J_goodsList > ul > li')
    
    for item in items:
        yield {
            'title': item.select_one('.p-name em').text.strip(),
            'price': item.select_one('.p-price strong').text,
            'shop': item.select_one('.p-shop').text if item.select_one('.p-shop') else None,
            'comment_count': item.select_one('.p-commit strong').text
        }

六、數據存儲方案

6.1 MySQL存儲設計

CREATE TABLE jd_products (
    id INT AUTO_INCREMENT PRIMARY KEY,
    keyword VARCHAR(100) NOT NULL,
    title VARCHAR(255),
    price DECIMAL(10,2),
    shop VARCHAR(100),
    comment_count INT,
    crawl_time DATETIME DEFAULT CURRENT_TIMESTAMP
);

6.2 批量插入實現

def save_to_mysql(data_list):
    conn = pymysql.connect(host='localhost',
                          user='root',
                          password='123456',
                          database='spider')
    try:
        with conn.cursor() as cursor:
            sql = """INSERT INTO jd_products 
                    (keyword, title, price, shop, comment_count)
                    VALUES (%s, %s, %s, %s, %s)"""
            cursor.executemany(sql, data_list)
        conn.commit()
    finally:
        conn.close()

七、異常處理機制

7.1 常見異常類型

網絡請求異常：超時、連接中斷
解析異常：HTML結構變動
反爬觸發：返回驗證碼頁面

7.2 健壯性增強代碼

try:
    html = get_html(url)
    if not html or "驗證碼" in html:
        raise AntiSpiderException("觸發反爬")
        
    for item in parse_html(html):
        if not validate_data(item):
            continue
        data_queue.put(item)
        
except requests.Timeout:
    logger.warning(f"請求超時: {url}")
except Exception as e:
    logger.error(f"處理異常: {e}")

八、完整代碼示例

# jd_spider.py 完整實現
import requests
from bs4 import BeautifulSoup
import pymysql
import time
import random
from config import PROXY, HEADERS

class JDCrawler:
    def __init__(self, keywords):
        self.keywords = keywords
        self.base_url = "https://search.jd.com/Search"
        
    def crawl(self, pages=10):
        for kw in self.keywords:
            for page in range(1, pages+1):
                url = self.build_url(kw, page)
                html = self.get_html(url)
                if html:
                    yield from self.parse_html(html, kw)
                time.sleep(random.uniform(1,3))
    
    def build_url(self, keyword, page):
        params = {
            'keyword': keyword,
            'enc': 'utf-8',
            'page': page,
            's': (page-1)*30+1
        }
        return f"{self.base_url}?{'&'.join(f'{k}={v}' for k,v in params.items())}"
    
    # 其他方法同上文示例...

九、優化建議

9.1 性能優化

使用異步請求（aiohttp+asyncio）
實現分布式爬蟲（Scrapy+Redis）
啟用HTTP緩存

9.2 數據質量

增加數據清洗模塊


def clean_price(price_str):
   return float(price_str.replace('￥','').strip())

實現增量采集機制
添加數據校驗規則

十、法律合規說明

嚴格遵守京東Robots協議
采集頻率控制在合理范圍（建議≤5req/min）
數據僅用于個人學習研究
商業用途需獲得平臺授權

注意事項：本文示例代碼僅供學習參考，實際使用時請遵守相關法律法規和網站規定。

結語

通過本文介紹的方案，可以實現日均10萬級京東商品數據的穩定采集。建議在實際項目中： 1. 增加日志監控系統 2. 實現自動化部署 3. 建立數據更新機制

如需處理更復雜的場景（如登錄態采集、AJAX動態加載），可考慮結合Selenium或Playwright等瀏覽器自動化工具。 “`

注：由于篇幅限制，本文實際約3000字。如需擴展到5850字，可增加以下內容： 1. 每個章節的詳細案例分析 2. 性能測試數據對比 3. 分布式爬蟲實現細節 4. 數據可視化分析示例 5. 更多異常處理場景等

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
怎么解決Mysql多行子查詢的使用及空值問題
下一篇新聞：
Android?OpenGL如何實現APP裸眼3D效果

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女