這篇文章將為大家詳細講解有關如何使用TASSEL做GWAS說明文檔,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
分享一篇我做的說明文檔,用示例數據,一步一步進行GWAS分析。具體如下:
1. 下載安裝軟件
下載地址:http://tassel.bitbucket.org/
這里下載的是win的64為系統,截圖如下:
安裝成功后,打開菜單如下:
2. 導入數據
數據下載地址:http://tassel.bitbucket.org/
截圖如下:
打開data,load,選擇Make Best Guess
選擇幾個示例數據:
打開后的數據如下
里面包括系譜數據、性狀數據和基因型數據(snp)。
3. 處理數據
3.1 清洗數據
選中mdp_trait,
然后選擇:Data中的TransformPhenotype,
可以對數據進行轉化、標準化等操作,注意,要先對數據進行選擇,然后再進行操作:
也可以對缺失值的數據進行刪除,點擊imput,Numerical impute,就會生成沒有缺失值的數據,這只是缺失值的不同替換方法。
3.2 主成分分析
主成分分析(PCA)是一種統計方法,它可以將相互關聯的變量轉化為獨立的主成分(PC),第一種成分包含最多的組分,其它依次降低。另一個主成分的作用可以用標記的主成分來代表群體結構。這種方法比最大似然法節省時間。因為大部分的分子標記都是字符,需要先將其轉化為數值,然后再進行主成分分析,一般將純合的標記用0代替,另一個純合子用2代替,雜合的用1代替。PCA要求變量不能有缺失值,因此,在進行主成分分析時,需要對數據進行清洗,去除缺失值。
去掉頻率小于0.05的標記,可以選擇Data,選擇Site,然后在最小頻率的框中鍵入0.05,然后選擇Remove minor SNP status,然后點擊Filter,進行過濾,模型如下:
選擇PCA,然后選擇5個主成分(默認項),點擊確定,就會生成結果,模型如下:
結果如下:
3.3 用基因標記估計系譜
利用主成分分析可以判斷群體的結構特征,但是如果利用系譜信息,這種結果會更加準確??梢杂没蛐蛿祿上底V信息,首先選中基因型數據,點擊Analysis,選擇Kinship
結果如下:
3.4 用一般線性模型分析GLM
下面我們用GLM模型來分析示例數據,mdp_genotype.hmp.txt是snp數據,里面有3093個標記,281個玉米自交系,另一個文件是mdp_population_structure.txt,里面是282個玉米自交系的群體結構,還有一個是mdp_traits.txt,里面是282玉米自交系的表型數據。
首先對基因型數據進行過濾,去掉頻率小于0.05的,最小的數目是150,點擊過濾,生成過濾后的基因型數據:
然后對數據進行個過濾,選擇開花期dpoll這個性狀,
進行協變量選擇,即選擇群體結構的文件,這里我們去掉Q3,數據如下:
合并數據,將這三個過濾好的數據,選中進行合并,點擊Data IntersectJoin,
數據合并如下:
然后選中合并后的數據,用analysis ,GLM來進行分析
運行結果如下:
QQ圖:
P-value值:
3.5 用混合線性模型分析
混合模型需要添加系譜矩陣
點擊run
結果:
相關圖形:
關于如何使用TASSEL做GWAS說明文檔就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。