溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

TCGA如何繪制生存曲線圖

發布時間:2022-03-05 14:47:38 來源:億速云 閱讀:347 作者:小新 欄目:開發技術
# TCGA如何繪制生存曲線圖

## 引言

生存分析是癌癥研究中評估患者預后和治療效果的核心方法。TCGA(The Cancer Genome Atlas)作為最大的癌癥基因組數據庫之一,為研究者提供了豐富的臨床隨訪數據。本文將以R語言為例,詳細介紹如何利用TCGA數據繪制專業的生存曲線圖(Kaplan-Meier曲線),包含數據下載、預處理、生存分析及可視化全流程。

---

## 一、數據準備

### 1.1 獲取TCGA臨床數據
推薦通過以下方式獲取數據:
```r
# 使用TCGAbiolinks包下載
library(TCGAbiolinks)
clinical <- GDCquery_clinic(project = "TCGA-BRCA", type = "clinical")

1.2 關鍵字段說明

  • days_to_last_follow_up:隨訪時間(天)
  • vital_status:生存狀態(”Dead”或”Alive”)
  • days_to_death:死亡時間(天)

1.3 數據清洗

# 創建生存時間和狀態變量
clinical$OS_time <- ifelse(clinical$vital_status == "Alive",
                          clinical$days_to_last_follow_up,
                          clinical$days_to_death)
clinical$OS_status <- ifelse(clinical$vital_status == "Alive", 0, 1)

二、生存分析實現

2.1 安裝必要R包

install.packages(c("survival", "survminer"))
library(survival)
library(survminer)

2.2 構建生存對象

surv_obj <- Surv(time = clinical$OS_time/30,  # 轉換為月
                event = clinical$OS_status)

2.3 分組分析(示例:按基因表達分組)

假設已獲取TP53基因表達數據:

# 使用中位數分組
clinical$TP53_group <- ifelse(TP53_expression > median(TP53_expression),
                             "High", "Low")
fit <- survfit(surv_obj ~ TP53_group, data = clinical)

三、繪制生存曲線

3.1 基礎繪圖

ggsurvplot(fit,
           data = clinical,
           pval = TRUE,
           risk.table = TRUE,
           conf.int = FALSE)

3.2 高級定制參數

ggsurvplot(fit,
           title = "TCGA BRCA Survival Analysis by TP53",
           xlab = "Time (months)",
           ylab = "Overall Survival",
           legend.title = "TP53 Expression",
           legend.labs = c("High", "Low"),
           palette = c("#E7B800", "#2E9FDF"),
           break.time.by = 12,
           risk.table.height = 0.25,
           ggtheme = theme_minimal())

四、結果解讀

4.1 關鍵輸出要素

  • 生存曲線:展示各組隨時間變化的生存概率
  • 風險表:顯示各時間點的剩余患者數
  • P值:Log-rank檢驗結果(p < 0.05表示組間差異顯著)

4.2 示例結論

“TP53高表達組患者的中位生存期為42個月,顯著低于低表達組的68個月(p=0.003)”


五、注意事項

  1. 時間單位統一:建議全部轉換為天/月/年
  2. 刪失數據處理:確保生存狀態編碼正確(0=刪失,1=事件)
  3. 多重檢驗校正:當進行多組比較時需考慮FDR校正
  4. 臨床協變量調整:可使用Cox比例風險模型

六、完整代碼示例

# 完整流程
library(TCGAbiolinks)
library(survival)
library(survminer)

# 數據獲取
clinical <- GDCquery_clinic("TCGA-BRCA", "clinical")

# 數據預處理
clinical$OS_time <- ifelse(clinical$vital_status == "Alive",
                          clinical$days_to_last_follow_up,
                          clinical$days_to_death)
clinical$OS_status <- ifelse(clinical$vital_status == "Alive", 0, 1)

# 生存分析
surv_obj <- Surv(clinical$OS_time/30, clinical$OS_status)
fit <- survfit(surv_obj ~ clinical$TP53_group)

# 可視化
ggsurvplot(fit,
           title = "TCGA BRCA Survival Analysis",
           risk.table = TRUE,
           pval = TRUE,
           palette = c("red", "blue"))

參考文獻

  1. Therneau TM (2020). A Package for Survival Analysis in R
  2. Kassambara A (2020). survminer: Drawing Survival Curves
  3. TCGA官方文檔(https://www.cancer.gov/tcga)

注:實際分析中需根據具體研究問題調整分組策略和統計方法。建議使用最新版R(≥4.0.0)和相關包版本。 “`

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女