安裝Python及工具
sudo apt update && sudo apt install python3 python3-pip # 安裝Python和pip
pip3 install pandas numpy matplotlib seaborn scikit-learn jupyterlab # 安裝核心庫
驗證安裝
python3 --version # 檢查Python版本
pip3 show pandas # 檢查庫是否安裝成功
數據收集與導入
import pandas as pd
data = pd.read_csv('data.csv') # 替換為你的文件路徑
print(data.head()) # 查看前5行數據
數據清洗
data.dropna(inplace=True) # 刪除缺失值行
data.drop_duplicates(inplace=True) # 刪除重復行
data['列名'] = data['列名'].fillna(0) # 填充缺失值(示例:用0填充)
數據探索與可視化
print(data.describe()) # 數值型數據的均值、標準差等
import matplotlib.pyplot as plt
import seaborn as sns
sns.boxplot(x='類別列', y='數值列', data=data)
plt.title('箱線圖示例')
plt.show()
數據分析與建模
# 按類別分組計算平均值
grouped = data.groupby('類別列')['數值列'].mean()
print(grouped)
# 計算兩列相關性
correlation = data['數值列1'].corr(data['數值列2'])
print(correlation)
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X = data[['特征1', '特征2']] # 自變量
y = data['目標列'] # 因變量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LinearRegression()
model.fit(X_train, y_train)
print(model.predict(X_test)) # 預測結果
類型 | 庫/工具 | 用途 |
---|---|---|
數據處理 | Pandas | 數據清洗、轉換、合并 |
數值計算 | NumPy | 數組操作、數學運算 |
可視化 | Matplotlib/Seaborn | 繪制圖表(折線圖、柱狀圖、箱線圖等) |
機器學習 | Scikit-learn | 分類、回歸、聚類等算法 |
交互式開發 | Jupyter Lab | 實時編寫、運行代碼并展示結果 |
sudo pip
安裝庫,優先用虛擬環境隔離依賴。通過以上步驟,可快速在Debian系統上搭建Python數據分析環境并完成基礎任務,后續可根據需求深入學習特定領域的庫(如時間序列分析用statsmodels
)。