# 如何用R對連續數據做描述統計
描述統計是數據分析的基礎步驟,它能幫助我們快速理解數據的分布特征、集中趨勢和離散程度。R語言作為強大的統計分析工具,提供了多種函數和包來實現高效的描述統計分析。本文將詳細介紹如何使用R對連續型數據進行描述統計。
## 一、數據準備與查看
### 1.1 數據導入
首先需要將數據導入R環境中。假設我們有一個名為`data.csv`的數據文件:
```r
# 讀取CSV文件
data <- read.csv("data.csv")
# 查看數據結構
str(data)
# 顯示前6行
head(data)
檢查缺失值并處理:
# 檢查缺失值
sum(is.na(data$variable))
# 刪除缺失值
clean_data <- na.omit(data$variable)
R內置函數summary()
可快速獲取主要統計量:
summary(clean_data)
輸出包含: - 最小值(Min) - 第一四分位數(1st Qu) - 中位數(Median) - 均值(Mean) - 第三四分位數(3rd Qu) - 最大值(Max)
mean_val <- mean(clean_data) # 均值
median_val <- median(clean_data) # 中位數
mode <- function(x) { # 眾數自定義函數
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
mode_val <- mode(clean_data)
sd_val <- sd(clean_data) # 標準差
var_val <- var(clean_data) # 方差
range_val <- range(clean_data) # 極值
IQR_val <- IQR(clean_data) # 四分位距
library(moments)
skewness(clean_data) # 偏度
kurtosis(clean_data) # 峰度
按分組變量計算統計量:
tapply(data$continuous_var, data$group_var, mean)
library(dplyr)
data %>%
group_by(group_var) %>%
summarise(
Mean = mean(continuous_var, na.rm = TRUE),
SD = sd(continuous_var, na.rm = TRUE),
N = n()
)
library(psych)
describe(clean_data) # 返回包括偏度、峰度在內的16個統計量
describeBy(data$continuous_var, group = data$group_var)
library(skimr)
skim(data) # 生成美觀的匯總統計表
hist(clean_data, breaks = 30, col = "skyblue",
main = "數據分布直方圖", xlab = "數值")
boxplot(clean_data, horizontal = TRUE, col = "lightgreen",
main = "數據箱線圖")
plot(density(clean_data), main = "密度曲線")
cat("均值:", round(mean_val, 2),
"\n標準差:", round(sd_val, 2),
"\n樣本量:", length(clean_data))
library(stargazer)
stargazer(as.data.frame(clean_data), type = "text")
# 完整工作流程示例
library(psych)
library(dplyr)
data <- read.csv("data.csv")
clean_data <- na.omit(data$continuous_var)
# 基礎統計
summary_stats <- summary(clean_data)
desc_stats <- describe(clean_data)
# 分組統計
group_stats <- data %>%
group_by(category) %>%
summarise(
Mean = mean(value),
SD = sd(value),
N = n()
)
# 可視化
par(mfrow = c(1,2))
hist(clean_data)
boxplot(clean_data)
通過R語言進行描述統計分析,研究人員可以快速掌握數據的基本特征。本文介紹的方法從基礎統計量到高級可視化工具,涵蓋了實際分析中的常見需求。建議讀者根據具體數據特點選擇合適的統計指標和可視化方法,并始終結合領域知識進行結果解讀。
注意:實際分析時應考慮數據是否符合正態分布等假設條件,必要時進行數據轉換或使用穩健統計量。 “`
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。