sudo apt update && sudo apt install python3 python3-pip # 安裝Python和pip
pip3 install pandas numpy matplotlib seaborn scikit-learn jupyterlab # 核心數據分析庫
pip3 install virtualenv,避免依賴沖突。jupyter lab啟動)。數據獲取與預處理
pd.read_csv('data.csv')(支持Excel、SQL等格式)。data.fillna(value)或data.dropna()。data['列名'] = data['列名'].astype('類型')。探索性數據分析(EDA)
data.describe()(均值、標準差等)。plt.bar()/plt.plot()(Matplotlib)。sns.heatmap(data.corr(), annot=True)(Seaborn,分析相關性)。sns.boxplot(x='類別', y='數值', data=data)(異常值檢測)。建模與預測
RandomForestClassifier)用于預測離散變量(如用戶流失)。LinearRegression)用于預測連續變量(如銷售額)。from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = RandomForestClassifier()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
print(accuracy_score(y_test, predictions)) # 評估準確率
結果展示
Dask庫替代Pandas,支持并行計算。cron定時任務。Flask或FastAPI將分析模型封裝為API,供其他系統調用。通過以上步驟,可在Debian系統上高效完成數據清洗、分析與可視化,滿足業務需求。