午夜性爱视频欧美,亚洲综合日韩aⅤ无码毛片

如何使用TCGAbiolinks進(jìn)行數(shù)據(jù)預(yù)處理？

2021-01-07 09:31

科研菌

關(guān)注

＃＃＃設(shè)置barcodes參數(shù)，篩選符合要求的371個(gè)腫瘤樣本數(shù)據(jù)和50正常組織數(shù)據(jù)

queryDown ＜－ GDCquery（project ＝＂TCGA－LIHC＂，

data．category ＝＂Transcriptome Profiling＂，

data．type ＝＂Gene Expression Quantification＂，

workflow．type ＝＂HTSeq － Counts＂，

barcode ＝ c（dataSmTP， dataSmNT））

＃barcode參數(shù)：根據(jù)傳入barcodes進(jìn)行數(shù)據(jù)過濾

上圖為 queryDown＜－GDCquery（）的結(jié)果，僅選擇了選擇371個(gè)正常組織和50個(gè)腫瘤組織樣本。

第二步：GDCdownload（）下載GDCquery（）得到的結(jié)果

＃下載數(shù)據(jù)，默認(rèn)存放位置為當(dāng)前工作目錄下的GDCdata文件夾中。

GDCdownload（queryDown，method ＝＂api＂， directory ＝＂GDCdata＂，

files．per．chunk ＝ 10）

＃method ；＂API＂或者＂client＂。＂API＂速度更快，但是容易下載中斷。

＃directory：下載文件的保存地址。Default： GDCdata。

＃files．per．chunk ＝ NULL：使用API下載大文件的時(shí)候，可以把文件分成幾個(gè)小文件來下載，可以解決下載容易中斷的問題。

GDCdownload（query ＝ queryDown）

說明：由于小編前面已經(jīng)下載過該TCGA數(shù)據(jù)，所以這里顯示的是421個(gè)文件已存在。如果還沒有下載的話，可能需要根據(jù)自己的網(wǎng)速等待一些時(shí)間。

顯示這樣的結(jié)果，就算下載成功啦！文件默認(rèn)保存在 Rstudio默認(rèn)路徑下的GDCdata中。前面就是我們利用第一期知識(shí)進(jìn)行數(shù)據(jù)下載環(huán)節(jié)，權(quán)當(dāng)溫習(xí)功課吧——接下來我們就開始此期的數(shù)據(jù)處理～～

二、數(shù)據(jù)處理

第三步：GDCprepare（）將前面GDCquery（）的結(jié)果準(zhǔn)備成R語言可處理的SE（SummarizedExperiment）文件。

＃讀取下載的數(shù)據(jù)并將其準(zhǔn)備到R對(duì)象中，在工作目錄生成（save＝TRUE）LIHC＿case．rda文件

＃ GDCprepare（）：Prepare GDC data，準(zhǔn)備GDC數(shù)據(jù)，使其可用于R語言中進(jìn)行分析

dataPrep1 ＜－ GDCprepare（query ＝ queryDown， save ＝ TRUE， save．filename ＝

＂LIHC＿case．rda＂）

GDCprepare（）中的參數(shù)：

參數(shù)用法query來自GDCquery的結(jié)果save是否將結(jié)果保存為RData object，默認(rèn)為TRUEsave．filename文件名，如果沒有設(shè)置，系統(tǒng)將默認(rèn)設(shè)置directory文件數(shù)據(jù)的文件夾，默認(rèn)為“GDCdata”summarizedExperiment是否生成summarizedExperiment對(duì)象，默認(rèn)TRUE

第四步：TCGAanalyze＿Preprocessing（）對(duì)數(shù)據(jù)進(jìn)行預(yù)處理：使用spearman相關(guān)系數(shù)去除數(shù)據(jù)中的異常值

＃去除dataPrep1中的異常值，dataPrep1數(shù)據(jù)中含有腫瘤組織和正常組織的數(shù)據(jù)

＃ TCGAanalyze＿Preprocessing（object， cor．cut ＝ 0， filename ＝ NULL，

width ＝ 1000， height ＝ 1000， datatype ＝ names（assays（object））［1］）

＃函數(shù)功能描述：Array Array Intensity correlation （AAIC） and correlation boxplot to define outlier

dataPrep2 ＜－ TCGAanalyze＿Preprocessing（object ＝ dataPrep1，

cor．cut ＝ 0．6，

datatype ＝＂HTSeq － Counts＂）

＃將預(yù)處理后的數(shù)據(jù)dataPrep2，寫入新文件“LIHC＿dataPrep．csv”

write．csv（dataPrep2，file ＝＂LIHC＿dataPrep．csv＂，quote ＝ FALSE）