要使用Python進行網頁抓取,您可以使用第三方庫requests和BeautifulSoup。以下是一個簡單的示例,說明如何抓取文章標題和鏈接:
pip install requests beautifulsoup4
article_scraper.py的Python文件,并在其中編寫以下代碼:import requests
from bs4 import BeautifulSoup
def fetch_article_titles_and_links(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
article_titles_and_links = []
for article in soup.find_all('article'):
title = article.find('h2').text.strip()
link = article.find('a')['href']
# 如果鏈接是相對路徑,將其轉換為絕對路徑
if not link.startswith('http'):
link = requests.compat.urljoin(url, link)
article_titles_and_links.append((title, link))
return article_titles_and_links
if __name__ == '__main__':
url = 'https://example.com/articles' # 更改為您要抓取的文章網站的URL
titles_and_links = fetch_article_titles_and_links(url)
for title, link in titles_and_links:
print(f'Title: {title}\nLink: {link}\n')
在代碼中替換https://example.com/articles為您要抓取的文章網站的URL。請注意,此示例適用于具有文章標題和鏈接在<article>標簽內的網站。如果網站的HTML結構不同,您可能需要相應地修改代碼。
運行Python腳本:
python article_scraper.py
這將輸出文章的標題和鏈接。根據實際需求,您可以使用正則表達式或其他方法提取更多文章信息。