溫馨提示×

python爬蟲怎么抓取文章

小億
117
2024-12-07 07:20:32
欄目: 編程語言

要使用Python進行網頁抓取,您可以使用第三方庫requests和BeautifulSoup。以下是一個簡單的示例,說明如何抓取文章標題和鏈接:

  1. 首先,確保已安裝requests和beautifulsoup4庫。如果尚未安裝,請使用以下命令安裝:
pip install requests beautifulsoup4
  1. 創建一個名為article_scraper.py的Python文件,并在其中編寫以下代碼:
import requests
from bs4 import BeautifulSoup

def fetch_article_titles_and_links(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    article_titles_and_links = []
    
    for article in soup.find_all('article'):
        title = article.find('h2').text.strip()
        link = article.find('a')['href']
        
        # 如果鏈接是相對路徑,將其轉換為絕對路徑
        if not link.startswith('http'):
            link = requests.compat.urljoin(url, link)
            
        article_titles_and_links.append((title, link))
    
    return article_titles_and_links

if __name__ == '__main__':
    url = 'https://example.com/articles'  # 更改為您要抓取的文章網站的URL
    titles_and_links = fetch_article_titles_and_links(url)
    
    for title, link in titles_and_links:
        print(f'Title: {title}\nLink: {link}\n')
  1. 在代碼中替換https://example.com/articles為您要抓取的文章網站的URL。請注意,此示例適用于具有文章標題和鏈接在<article>標簽內的網站。如果網站的HTML結構不同,您可能需要相應地修改代碼。

  2. 運行Python腳本:

python article_scraper.py

這將輸出文章的標題和鏈接。根據實際需求,您可以使用正則表達式或其他方法提取更多文章信息。

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女