除了核苷酸序列数据库,另外一个主要的初级数据源来自各种基因组测序计划。基因组数据库的主要内容为收集基因组序列、注释结果并且展示这些序列。目前许多基因组已经测序完成,这些基因组的大部分信息在ENA、GenBank 等数据库...[继续阅读]
海量资源,尽在掌握
除了核苷酸序列数据库,另外一个主要的初级数据源来自各种基因组测序计划。基因组数据库的主要内容为收集基因组序列、注释结果并且展示这些序列。目前许多基因组已经测序完成,这些基因组的大部分信息在ENA、GenBank 等数据库...[继续阅读]
非编码RNA(non-coding RNA)包括rRNA、tRNA、snRNA、snoRNA 和microRNA 等,它们的共同特点是都能转录但是不翻译成蛋白,在RNA 水平上就能行使各自的生物学功能。非编码RNA 从长度上来划分可以分为3类:小于50nt,包括miRNA、siRNA、piRNA;50nt 到500nt,包括...[继续阅读]
1.蛋白质序列数据库Swiss-Prot 和PIR 是国际上两个主要的蛋白质序列数据库,目前这两个数据库在EMBL和GenBank 数据库上均建立了镜像(mirror)站点。Swiss-Prot 数据库包括了从EMBL 翻译而来的蛋白质序列,这些序列经过了人工检验和注释。该数...[继续阅读]
表1-2.13 部分代谢途径数据库网址生物体内基因经由转录并翻译成蛋白质后,参与的各种复杂的生化反应,使物质A 到物质X 的酶反应按常规程序(A→B→C→……X)进行,称为A 至X 的代谢途径(metabolic pathway )。代谢途径数据库中较为常用和...[继续阅读]
1.代谢组学数据库代谢组学数据库是收录在代谢组学通路中的酶、化合物以及基因等成分信息的数据库。其中MetaboLights (http://www.ebi.ac.uk/metabolights/)为EMBL 下属的代谢组学数据库(图1-2.15),主要内容包含代谢组学实验数据以及相关联的衍...[继续阅读]
1.什么是一级数据库和二级数据库,它们有什么异同?2.简述Fasta 和Fastq 格式,并比较它们的异同。3.如何向NCBI 递交序列? 列举三种方法。如果递交序列数据很大或序列条数很多应该如何解决?4.如何下载水稻基因组的特定区段序列或注释...[继续阅读]
序列联配(sequence alignment)也叫序列对比,是生物信息学中的重要内容之一,许多生物信息学分析均涉及序列联配方法。如下两条DNA 序列:我们简单地把它们联配如下,仅有两个碱基匹配:如果我们在一条序列中引入一个空位或空格(gap),即一...[继续阅读]
构建计分矩阵,我们需要找到一个可以估计任何联配的某一统计数,使生物学关系最显著的联配统计数最大。先看以下2条氨基酸序列的联配情况。如果我们将各残基按相同率处理,则2种联配方式(a 和b)的得分是相等的(9个残基中5个匹配...[继续阅读]
1.PAM 替换矩阵已故Dayhoff 是蛋白质序列比较的先驱,她和她的同事们通过对蛋白质进化模式的研究,建立了一组被广泛应用的氨基酸替换矩阵,这些矩阵常被称为Dayhoff 矩阵、MDM(mutation data matrix)或PAM(percent accepted mutation)矩阵。由于蛋白质...[继续阅读]
PSSM(position-specific scoring matrix)是由一个简单对数变换而来的矩阵,它给出不同来源的一小段保守序列(基序)各个特定位置氨基酸的频率。PSSM 可以用于一条序列的保守序列的搜索。一条序列中,与PSSM 最相似的位置即为PSSM 代表的基序位...[继续阅读]