2022_1204_下載FPKM到TPM

基本觀念: 1. .gz的 file 要先轉成 .zip , 才能打開 2. FPKM/or RPKM 要轉成 TPM , 不同資料庫資料才能比較 (如 GTEx vs. TCGA) #TPM的公式, 要 normalized 所有基因的總合, 再 x 1e6 # 3. 含有TPM的表格需要另外存一個.csv檔,之後再建立一個log2 (TPM+1) working sheet, 再 存成 .CSV (逗點分格式檔案) --> 未來開啟使用 EditPat Lite 很快// 因為, 用 excel開非常慢. !!!!! 4. 使用時, 可以把某幾個 gene之間的表現情形, 將自行 TCGA TPM vs. GTEx Portal TPM 的比較結果,與GEPIA2的結果做比較, 知道TPM轉換的效果旦是否一致。 製作 TPM 的過程// 2022/12/04 1. 到 Santa Cruz 資料庫// https://xenabrowser.net/datapages/ 2. 下載 TCGA 含有 FPKM 的資料: https://xenabrowser.net/datapages/?dataset=TCGA-PAAD.htseq_fpkm.tsv&host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443 3. 先將 GZ 格式轉換成 ZIP: https://cloudconvert.com/ 4. 將 ensemble ID 轉換成 gene list: https://www.biotools.fr/human/ensembl_symbol_converter 5. 用 EditPad Lite 開啟確認, 再用 excel 存檔.. 將 log2 (1+FPKM) --> FPKM --> TPM --> log2 (TPM+1) #TPM的公式, 要 normalized 所有基因的總合, 再x 1e6 # 6. 跟 GEPIA2上的 基因表現圖表, 在同樣是 log2(TPM+1)的格式下做比較, 一樣就"大功告成" 7. 把轉好的 excel 表格中, 含有TPM 的那一個 working sheet 存成 .CSV (逗點分格式檔案) --> 未來開啟使用 EditPat Lite 很快// 用 excel開非常慢. !!!!! #(FRKM vs. TPM) 都有考慮基因長度, 但後者還考慮定序深度 製作 "正常組織" 1. 到GTEx Portal 下載某一個組織的 TPM 資料, 例如 胰臟 :: https://www.gtexportal.org/home/datasets 檔名: gene_tpm_2017-06-05_v8_pancreas.gct.gz https://storage.googleapis.com/gtex_analysis_v8/rna_seq_data/gene_tpm/gene_tpm_2017-06-05_v8_pancreas.gct.gz

Comments

Popular posts from this blog

2023/0727_使用 Seurat的2700 PBMC資料_了解scRNA-seq 分析流程

2023_0730/ 整合 snRNA-seq的資料, 去除Batch effect /Bioinformagician