溫馨提示×

python爬蟲怎么抓取文章

python

小億

117

2024-12-07 07:20:32

欄目: 編程語言

要使用Python進行網頁抓取，您可以使用第三方庫requests和BeautifulSoup。以下是一個簡單的示例，說明如何抓取文章標題和鏈接：

首先，確保已安裝requests和beautifulsoup4庫。如果尚未安裝，請使用以下命令安裝：

pip install requests beautifulsoup4

創建一個名為article_scraper.py的Python文件，并在其中編寫以下代碼：

import requests
from bs4 import BeautifulSoup

def fetch_article_titles_and_links(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    article_titles_and_links = []
    
    for article in soup.find_all('article'):
        title = article.find('h2').text.strip()
        link = article.find('a')['href']
        
        # 如果鏈接是相對路徑，將其轉換為絕對路徑
        if not link.startswith('http'):
            link = requests.compat.urljoin(url, link)
            
        article_titles_and_links.append((title, link))
    
    return article_titles_and_links

if __name__ == '__main__':
    url = 'https://example.com/articles'  # 更改為您要抓取的文章網站的URL
    titles_and_links = fetch_article_titles_and_links(url)
    
    for title, link in titles_and_links:
        print(f'Title: {title}\nLink: {link}\n')

在代碼中替換https://example.com/articles為您要抓取的文章網站的URL。請注意，此示例適用于具有文章標題和鏈接在<article>標簽內的網站。如果網站的HTML結構不同，您可能需要相應地修改代碼。
運行Python腳本：

python article_scraper.py

這將輸出文章的標題和鏈接。根據實際需求，您可以使用正則表達式或其他方法提取更多文章信息。

0 贊

0 踩

最新問答

相關問答

相關標簽

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女