简介
RefGene数据库是从UCSC数据库创建而来。RefGene指定了取自NCBI RNA参考序列集合(RefSeq)的已知人类蛋白质编码和非蛋白质编码的基因,用于注释变异基因。
hg19 RefGene 下载方式:
|
|
文件解析
以下是对RefGene文件各列内容的详细说明
START:0-based
END:1-based
12345678910111213141516 1. bin,索引域,数据库中用来加速查询染色体的分布2. name,NM accession number,标志基因各个转录本的ID,即mRNA或lncRNA的ID(通常来自于GTF中的转录本ID)3. chrom,基因所在的染色体号4. strand,数据库中对该基因收录的方向5. txStart,基因的起点,从转录起始位点开始6. txEnd,基因的终点,转录时最后3'UTR最后一个已知碱基的位置7. cdsStart,编码区的起点,即主要开放阅读框的起点8. cdsEnd,编码区的终点,即主要开放阅读框的终点9. exonCount,该转录本的外显子个数10. exonStarts,每一个外显子的起点集合11. exonEnds,每一个外显子的终点集合(一定与Exon_start的坐标个数一致)12. score,得分13. name2,基因ID14. cdsStartStat15. cdsEndStat16. exonFrames
文件示例
|
|