在Python中進行網頁爬取和數據清洗的過程通常包括以下步驟:
requests
(用于發送HTTP請求)、BeautifulSoup
(用于解析HTML內容)和pandas
(用于數據處理)。import requests
from bs4 import BeautifulSoup
import pandas as pd
requests.get()
方法從目標網址獲取HTML內容。url = 'https://example.com'
response = requests.get(url)
html_content = response.text
BeautifulSoup
庫解析獲取到的HTML內容,并提取所需的數據。soup = BeautifulSoup(html_content, 'html.parser')
data = soup.find_all('div', class_='item') # 根據實際情況修改選擇器
# 去除空值
cleaned_data = [item for item in data if item.text.strip()]
# 去除重復值
unique_data = list(set(cleaned_data))
# 格式轉換
def convert_to_int(value):
try:
return int(value.text.strip())
except ValueError:
return None
int_data = [convert_to_int(item) for item in unique_data]
# 存儲到CSV文件
df = pd.DataFrame(int_data, columns=['Value'])
df.to_csv('output.csv', index=False)
# 存儲到數據庫(以SQLite為例)
import sqlite3
conn = sqlite3.connect('example.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)
conn.close()
以上是一個簡單的示例,實際爬蟲和數據清洗過程可能會更復雜。您需要根據目標網站的結構和所需數據進行調整。