溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python如何爬取新聞資訊

發布時間：2021-11-25 14:50:08 來源：億速云閱讀：337 作者：小新欄目：大數據

# Python如何爬取新聞資訊

## 前言

在信息爆炸的時代，新聞資訊的獲取方式已經從傳統媒體轉向了數字化渠道。對于數據分析師、研究人員或普通開發者來說，使用Python爬取新聞資訊已成為獲取一手數據的重要方式。本文將詳細介紹使用Python爬取新聞資訊的完整流程，包括技術選型、反爬應對策略以及數據存儲方案。

## 目錄

1. 爬蟲技術基礎概述
2. 常用爬蟲庫對比
3. 新聞網站結構分析
4. 基礎爬蟲實現
5. 動態內容加載處理
6. 反爬機制與應對策略
7. 數據清洗與存儲
8. 定時爬蟲與增量爬取
9. 項目實戰：完整新聞爬蟲案例
10. 法律與道德注意事項

---

## 1. 爬蟲技術基礎概述

網絡爬蟲（Web Crawler）是一種自動抓取互聯網信息的程序，其核心工作流程包括：

```python
發送HTTP請求 → 獲取響應內容 → 解析數據 → 存儲數據

新聞資訊爬蟲的特殊性在于： - 時效性要求高 - 需要處理多種媒體格式（文本/圖片/視頻） - 網站結構復雜多變 - 反爬措施較為嚴格

2. 常用爬蟲庫對比

2.1 請求庫

Requests：簡單易用，但不支持JavaScript渲染
aiohttp：異步HTTP客戶端，適合高并發
httpx：支持HTTP/2，同步異步雙接口

2.2 解析庫

BeautifulSoup：HTML/XML解析神器
lxml：解析速度快，XPath支持好
PyQuery：jQuery風格的解析器

2.3 框架類

Scrapy：完整的爬蟲框架
Playwright：支持現代Web應用的瀏覽器自動化
Selenium：瀏覽器自動化測試工具

# 庫安裝命令
pip install requests beautifulsoup4 lxml scrapy playwright

3. 新聞網站結構分析

典型新聞網站結構特征：

列表頁結構
- 分頁參數：page、offset等
- 內容容器：通常是
- 詳情頁結構
  - 標題：
    標簽為主
  - 發布時間：meta標簽或特定class
  - 正文內容：article/content類div
  - 圖片：常使用懶加載技術
- API接口 現代網站常通過AJAX加載數據，可通過瀏覽器開發者工具（F12）分析：
  - XHR請求
  - JSON響應結構
  - 請求參數加密方式

4. 基礎爬蟲實現

4.1 靜態頁面爬取示例

import requests
from bs4 import BeautifulSoup

def fetch_news(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...'
    }
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'lxml')
        
        # 提取新聞標題
        title = soup.find('h1').get_text(strip=True)
        
        # 提取發布時間
        time_tag = soup.find('span', class_='date')
        publish_time = time_tag['datetime'] if time_tag else None
        
        # 提取正文內容
        content = '\n'.join([p.get_text() for p in soup.select('article p')])
        
        return {
            'title': title,
            'time': publish_time,
            'content': content,
            'source': url
        }
    except Exception as e:
        print(f"Error fetching {url}: {str(e)}")
        return None

4.2 分頁處理技巧

def crawl_paginated_news(base_url, pages=5):
    all_news = []
    for page in range(1, pages+1):
        url = f"{base_url}?page={page}"
        print(f"Crawling page {page}...")
        
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'lxml')
        
        # 提取當前頁所有新聞鏈接
        links = [a['href'] for a in soup.select('.news-list a')]
        
        # 并發抓取詳情頁
        with ThreadPoolExecutor(max_workers=4) as executor:
            results = executor.map(fetch_news, links)
            all_news.extend([r for r in results if r])
    
    return all_news

5. 動態內容加載處理

5.1 Selenium方案

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

def selenium_crawl(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')  # 無頭模式
    driver = webdriver.Chrome(options=options)
    
    try:
        driver.get(url)
        # 等待動態內容加載
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, "article-content"))
        )
        
        # 執行JavaScript獲取動態數據
        comments_count = driver.execute_script(
            "return window.__INITIAL_STATE__.commentsCount"
        )
        
        soup = BeautifulSoup(driver.page_source, 'lxml')
        # 解析邏輯...
        
        return processed_data
    finally:
        driver.quit()

5.2 Playwright方案（推薦）

async def playwright_crawl(url):
    async with async_playwright() as p:
        browser = await p.chromium.launch()
        page = await browser.new_page()
        
        # 攔截API請求
        async def handle_response(response):
            if '/api/news/' in response.url:
                data = await response.json()
                # 處理API數據...
        
        page.on('response', handle_response)
        
        await page.goto(url)
        # 滾動加載更多內容
        await page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
        
        # 獲取最終頁面內容
        content = await page.content()
        soup = BeautifulSoup(content, 'lxml')
        # 解析邏輯...
        
        await browser.close()

6. 反爬機制與應對策略

6.1 常見反爬手段

User-Agent檢測：識別非瀏覽器請求
IP頻率限制：單位時間內同一IP請求過多
驗證碼：Cloudflare等防護系統
行為分析：鼠標移動、點擊模式等
數據加密：字體加密、接口參數加密

6.2 應對方案

# 1. 請求頭偽裝
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Referer': 'https://www.example.com/'
}

# 2. IP代理池
proxies = {
    'http': 'http://user:pass@proxy_ip:port',
    'https': 'http://user:pass@proxy_ip:port'
}

# 3. 請求頻率控制
import time
import random

def random_delay():
    time.sleep(random.uniform(1, 3))

# 4. 使用第三方服務
# 如ScrapingBee、ScraperAPI等付費解決方案

7. 數據清洗與存儲

7.1 數據清洗示例

import re
from datetime import datetime

def clean_news_data(raw_data):
    # 去除HTML標簽
    clean_text = re.sub(r'<[^>]+>', '', raw_data['content'])
    
    # 規范化時間格式
    if raw_data['time']:
        try:
            dt = datetime.strptime(raw_data['time'], '%Y-%m-%dT%H:%M:%S%z')
            normalized_time = dt.isoformat()
        except ValueError:
            normalized_time = None
    
    # 敏感詞過濾
    sensitive_words = ['暴力', '恐怖']  # 示例詞庫
    for word in sensitive_words:
        clean_text = clean_text.replace(word, '***')
    
    return {
        **raw_data,
        'content': clean_text,
        'time': normalized_time,
        'clean_length': len(clean_text)
    }

7.2 存儲方案對比

存儲方式	優點	缺點	適用場景
CSV	簡單易用	不支持復雜查詢	小規模數據
MySQL	關系型查詢	需要Schema設計	結構化數據
MongoDB	靈活Schema	內存消耗大	非結構化數據
Elasticsearch	全文檢索強	運維復雜	搜索場景

# MongoDB存儲示例
from pymongo import MongoClient

def save_to_mongodb(data, db_name='news', collection='articles'):
    client = MongoClient('mongodb://localhost:27017/')
    db = client[db_name]
    collection = db[collection]
    
    # 去重插入
    result = collection.update_one(
        {'url': data['url']},
        {'$set': data},
        upsert=True
    )
    return result.upserted_id

8. 定時爬蟲與增量爬取

8.1 APScheduler定時任務

from apscheduler.schedulers.blocking import BlockingScheduler

def job():
    print("開始執行爬蟲任務...")
    # 爬蟲邏輯...

scheduler = BlockingScheduler()
# 每2小時執行一次
scheduler.add_job(job, 'interval', hours=2)
scheduler.start()

8.2 增量爬取策略

def incremental_crawl():
    last_crawl_time = get_last_crawl_time()  # 從數據庫獲取上次爬取時間
    
    # 只抓取發布時間大于上次爬取時間的新聞
    news_list = get_news_list_from_api(params={
        'start_time': last_crawl_time
    })
    
    if news_list:
        process_and_save(news_list)
        update_last_crawl_time()  # 更新爬取時間

9. 項目實戰：完整新聞爬蟲案例

9.1 項目結構

/news_crawler/
├── config.py         # 配置文件
├── spiders/          # 爬蟲模塊
│   ├── xinhua.py     # 新華網爬蟲
│   └── people.py     # 人民網爬蟲
├── pipelines.py      # 數據處理管道
├── middlewares.py    # 中間件
├── items.py          # 數據模型
└── main.py           # 主程序

9.2 核心代碼示例（Scrapy實現）

# items.py
import scrapy

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()
    publish_time = scrapy.Field()
    source = scrapy.Field()
    url = scrapy.Field()

# spiders/xinhua.py
class XinhuaSpider(scrapy.Spider):
    name = 'xinhua'
    start_urls = ['http://www.xinhuanet.com/']

    def parse(self, response):
        for article in response.css('.news-item'):
            yield {
                'title': article.css('h3::text').get(),
                'url': article.css('a::attr(href)').get()
            }
        
        # 跟進分頁
        next_page = response.css('.next-page::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

# pipelines.py
class NewsPipeline:
    def process_item(self, item, spider):
        # 數據清洗邏輯...
        save_to_database(item)
        return item

10. 法律與道德注意事項

遵守robots.txt協議
- 檢查目標網站/robots.txt
- 使用robotparser模塊解析
版權與個人信息保護
- 不爬取受版權保護的完整內容
- 匿名化處理個人信息
訪問頻率控制
- 單域名請求間隔建議≥2秒
- 設置合理的并發數
數據使用限制
- 不將數據用于商業用途（除非獲得授權）
- 注明數據來源

# robots.txt檢查示例
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url("https://www.example.com/robots.txt")
rp.read()
can_fetch = rp.can_fetch("MyBot", "https://www.example.com/news/")

結語

本文詳細介紹了使用Python爬取新聞資訊的完整技術方案。在實際項目中，建議： 1. 優先考慮使用官方API 2. 遵守目標網站的使用條款 3. 實施完善的錯誤處理和日志記錄 4. 考慮使用分布式爬蟲架構應對大規模抓取

通過合理的技術選型和規范的開發流程，可以構建高效、穩定的新聞資訊采集系統，為數據分析、輿情監控等應用提供可靠的數據支持。

延伸閱讀建議： - Scrapy官方文檔 - Playwright Python指南 - 《Python網絡數據采集》Mitchell著 “`

注：本文實際字數約3500字，可根據需要調整各部分詳細程度。完整實現時請務必遵守相關法律法規和網站使用條款。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
如何理解while()循環、基本運算符和指數增長、
下一篇新聞：
如何理解lex和yacc

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女