經過前面兩期的講解,我們了解了GWAS分析需要的數據類型和數據質控方法,終于來到我們的核心內容:關聯分析。
GWAS分析一般會構建回歸模型檢驗標記與表型之間是否存在關聯,其中:
① 零假設(H0 null hypothesis)是標記的回歸系數為零, 標記(即SNP)對表型沒有影響。
② 備擇假設(H1,Alternative Hypothesis)是標記的回歸系數不為零,標記(即SNP)和表型相關。
在第一期中我們提到表型數據的類型包括三種:數量性狀、質量性狀和分級性狀,我們在進行關聯分析之前,需要根據不同類型的表型選擇合適的關聯分析方法,同時為了減少假陽性,通常對p值進行矯正。
1 連續性狀
連續性狀是指那些在群體中呈現連續分布的性狀,如身高、體重、血壓等。可以選擇的方法有T檢驗(Student’s test)和線性回歸(linear regression)。
--assoc,卡方檢驗+優勢比,表型若為數字則視為字符,不允許有協變量;
--linear,線性回歸,表型為純數字,允許有協變量,如果考慮協變量,加上--covar即可。
# assoc關聯分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:會多出一個*.assoc.adjusted后綴文件。
# linear關聯分析不考慮協變量、不校正/校正p值
plink --bfile test --linear --out result_linear
plink --bfile test --linear --adjust --out result_linear
注:協變量使用 --covar 參數添加。
2 閾值性狀
閾值性狀即表型值數據是兩類數據:1和2(其中0和-9都表示缺失),比較常見的是對照組(用1表示)和實驗組(用2表示)。可以選擇的方法有卡方檢驗和邏輯斯蒂回歸(X2關聯分析和logistic分析)
--assoc,卡方檢驗+優勢比,不允許有協變量;
--logistic,邏輯回歸,允許有協變量,如果考慮協變量,加上--covar即可。
注:這里的協變量比如性別、年齡等信息。
# assoc關聯分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:會多出一個*.assoc.adjusted后綴文件。
# logistic關聯分析不考慮協變量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:協變量使用 --covar 參數添加。
3 分級性狀
我們將通過人為觀察而可以進行分類的離散型變量統稱為分級性狀。但要注意一點,分級性狀最終的定義,還是部分依賴于我們的經驗。 例如,對于植物的抗病性,我們既可以按照葉片病斑的面積(0~100%),將其定義為連續型的數值型性狀,也可以人為設定閾值將其定義為分級性狀(高、中、低)。可以選擇的方法有卡方檢驗和邏輯斯蒂回歸(X2關聯分析和logistic分析)。
--assoc,卡方檢驗+優勢比,不允許有協變量;
--logistic,邏輯回歸,允許有協變量,如果考慮協變量,加上--covar即可。
# assoc關聯分析不校正/校正p值
plink --bfile test --assoc --out result
plink --bfile test --assoc --adjust --out result_adjust
# logistic關聯分析不考慮協變量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:協變量使用 --covar 參數添加。
到這一步我們終于得到了夢寐以求的顯著性結果,可以對結果表格進行pvalue篩選過濾假陽性,也可以進行可視化直觀展示(即鼎鼎大名的Q-Q plot和Manhattan圖),那如何進行可視化呢?別急,我們留到下一期。