我们来继续我们的生物信息学导论与方法课程 首先我们回顾一下,前面我们花了很多时间来介绍各种生物信息学的方法。 我们同学有一些将来希望做生物信息学的研究 希望大家在这门课里除了学到这些方法之外 同时也学到一些如何来发现一些重要并且没有解决的生物学问题, 如何把一个生物学问题转换成一个可计算的问题,如何开发一个算法来解决这个问题。 如何通过计算机编程来实现?如何评估开发的生物信息学的方法?可能更多的同学以后只是会使用生物信息学的方法,那么对于这些同学 我们希望大家除了学到这些方法之外,同时对每一个方法都关注,到底解决的是哪一个生物学问题, 因为没有一个普适于天下的方法 每一个方法有哪些假设,有哪些参数,这些参数都是什么意思 都用来做什么事情,准确度有多少,我们花了很多时间给大家介绍对于准确度的评估 一般来说sensitivity和specficity都有一个tradeoff,分别是什么定义,什么意义?在不同的生物学问题下,更加追求哪一个 这都是需要大家对生物学方法都有了解的前提之下,才能有很好的判断。再有就是任何一个方法, 包括生物信息方法和实验的方法,都是有局限性的。这些局限性在哪里? 对这些有了充分的了解之后,你才能真正地使用这些方法 那么,我们讲得还是比较经典的我们觉得比较重要的一些方法。还有很多很多方法我们并没有涉及到, 应该有几千甚至更多的生物信息软件数据库,我们专门拿出第十周的时间给大家介绍一些 这门课里到现在为止没有时间来详细讲过的一些生物信息学的资源 第一节里我们先给这些资源做一个大的概述。即使我们专门拿出一周的时间来讲,也是不可能穷尽这些方法和数据库的 所以今天讲得仍然是一些比较有意思的例子,希望从这里出发,大家可以知道如何去找这些资源,这些资源在你们的脑海里 怎么样能够形成一个系统的概念的框架,在今后的研究中,希望大家能够真正把这些数据库和软件工具用上用好, 甚至能够自己开发一些新的资源。如何来看这些成千上万的资源呢?有这样一些角度可以给他们归类。 一类是Centralized resources 还是 individual resources。一些是非常大的集中的资源,比如说像美国的NCBI,欧洲EBI, UCSC的Genome Browers等等,还有很多是一个一个课题组独立开发出来的软件或者数据库工具。 从另一个角度上看,在一个最大的尺度上看,生物信息学主要分为数据库和软件工具两大类。 数据又分为原始数据库和二级数据库,原始数据库存储的就是低通量实验或者高通量实验里直接产出的数据 而二级数据库产出的是通过生物信息学方法对原始数据进行分析,找到的一些中间的 结果,比如说新的物种的基因组的测序。那么测序数据就是属于原始数据 还有专门的基因组数据库来存储这些数据。另外还有一些生物信息学家,就把这些测序好的 全基因组做了基因预测,把里面可能编码蛋白的基因都预测出来,做成了数据库。 这样的数据库就叫做二级数据库。二级数据库为什么重要呢?因为有一些生物信息学方法对于计算机资源的要求非常高,不是每一个生物信息学实验室 都有这样的资源,这样生物信息学的课题组把这些重要的大规模的预测 都呈现在一个数据库的形式,那么虽然你没有这些庞大的服务器,但你可以到网上来用 这些已经初步分析处理过的二级数据。所以所谓的二级数据库又有很多不同的级别。拼接出来的基因组是一个级别,预测出来基因又是一个级别 还有人就把各个物种的基因分成一个个基因家族,把每一个家族都建了最重要的功能区间的 一个motif模型。这些都是不同的二级数据库,对于生命科学领域都是重要的资源 对于软件来讲,有独立的命令行运行的软件,还有网上的服务器,各有利弊。网上服务器使用起来 很方便很容易,只要可以上网都可以用。但对于比较大的数据计算比较慢,只要一断网你的结果可能就 丢失了。另外有时候,如果你会编程之后,你经常会希望在大的程序里调用 各个不同的生物信息学的方法。如果你想调用这些程序,则必须要用命令行的程序。有这样的区分,其实很多软件呢是提供命令行的版本和 服务器版本。 这张幻灯片是之前展示过的,是说informatic in Bioinformatics,主要指的是生物信息学里面这些计算和计算机的方法,主要就包括 数据库和软件工具这两大类。 刚才提到的从原始数据,二级数据,命令行和服务器版本的区分,对大家把所有的资源在脑海里归类是有帮助的。 那从biology的角度来讲,不同的生物信息学 的软件和数据库也是沿着DNA/Genome到RNA到Protein到分子网络到细胞到疾病 的群体数这样一个大的概念的框架。首先给大家提一下最大的几个综合的资源 最大的两个综合资源,一个NCBI,是美国的健康研究院NIH下属的一个研究机构,它里面有大量的数据库 和软件,包括从基因组到RNA到蛋白的功能区间到基因表达,到文献等等 它一直有一个全世界用得比较多的软件,BLAST。除了美国的NCBI,欧洲还有一个EBI 和NCBI是比较类似的,比如说它也有DNA和RNA相关的数据库软件,此外还有表达的相关的数据和工具 把结构相关的,以及Ontology,Ontology是他比较独特的比较强的一个方面。 如果你对基因或者基因组感兴趣,你一定要知道的是UC Santa Cruze的Genome Browser 它是把人和很多模式生物的基因组的坐标作为一个大的框架 然后把相关的表达调控的,变异的数据全部做成一个一个的Track,所以它每一行 是一个track ,都有大量的信息,如果把窗口滑动,就可以在不同的基因组坐标上滑动 并且可以放大缩小,放到染色体的一个尺度,或者一个核苷酸的尺度 是在它的很强大的后台的基因组展示框架之下 整合了大量的数据,都整合到以基因组为坐标的一个框架之下 下面几节会把这三个资源给大家详细地介绍一下,这里概述一下,工具来讲,NCBI最著名的可能就是BLAST,EBI也提供BLAST 另外还有Exonerate 和ClustalW2, UCSC最重要的是BLAT,是把你感兴趣的基因贴到基因组上,看这个基因是从基因组的哪个位置来的 另外还有一个In Silico PCR,就是指定一个条件,给它一个Primer,它就可以到基因组里面去搜,看你的Primer 有可能会P出来那些序列,就是通过计算的方法先来做一个预测 看你的Primer的特异性到底怎么样? 对于原始数据的存储,NCBI最大的就是GenBank,存储核酸序列的数据库,GEO是存储表达数据的数据库,SRA是存储高通量测序的Reads EBI也有自己的数据库。UCSC是有ENCODE,非编码的功能元件和调控元件 这样的ENCODE计划就类似于人类基因组计划一样, 产生的数据很多都放在UCSC的Genome Browser里面 另外在DNA/Genome的水平,也是各自都有各自的资源 这样的列表主要是给大家提供一个将来作研究时能够查阅的Reference 像你的实验室的Protocol的书一样,你不一定把每一个细节都背下来,但你要知道以后要做什么样的课题,可以回到这个列表来找 NCBI只要记住它的主页,它所有的信息都在里边,很容易可以找到,具体一点,数据库的链接就是这里显示的 它的工具的链接是A-Z的一个列表,在网站上也可以很容易地会找到。EBI也是这样,所有的Service都会分门别类地列在这个数据库, 按照它的名字,也有一个列表。UCSC主要是以Table的一个模式,另外也用图形基因组的界面 另外多数的这些数据库都是可以免费下载的。 还有成千上万的独立的资源,它们覆盖的也是从基因组到表达到蛋白到结构,通路到演化等等,比如说对于基因预测就有GENSCAN,Glimmer等等 这些预测的工具。。对于鉴定和存储遗传的体细胞的变异就有SIFT,PolyPhen,SAPRED这些之前的课程上提及过的工具 转录因子和转录因子结合位点有TRANSFAC数据库,非编码RNA的预测和特征和Motif有Rfam等等,最近发展最快的是新一代测序技术相关的 数据库和分析方法。比如Read mapping我们用的比较多的就有BWWA, Bowtie,RNA的Read mapping 有TopHat , GATK等等 有的时候你要做的是通过新一代测序拼一个基因组,有一系列的基因组从头拼接这样的软件 还有一个基因组如何展示,想象一下电脑屏幕这么小,而人类的基因组有30亿个碱基,怎么样把它在电脑上展示出来呢?所以有几个不同的软件平台, 可以做基因组的展示。用测序数据里做遗传变异的鉴定也有一系列的方法, 尤其是鉴定单核苷酸变异还是有拷贝数变异还是插入删除也有不同的方法 另外还有一些资源是按照物种来分,比如说主要的模式动物都有自己的数据库 比如说Flybase,Wormbase,ZFIN,TARI等等,还有是大的项目产生的数据太多,自己就建了一个资源网站 比如说癌症相关的数据又TGCA,Epigenetics也有自己独立的资源 这些自己建这些独立的网站也被要求向GenBank 这样大的核心数据库提供原始数据的。 对于神经科学的研究,有像Allen Brain Atlas这样的脑结构和成像的数据库 还有一类很重要的是辅助你写程序的,可以想象很多程序的模块是大家都需要的,比如说一个.fasta如何parse blast结果如何parse等等,这些是每一个人都需要的,于是做生物信息的人就把它们收集起来, 然后完全地公开,所以现在在Bioconductor里面就有很多现成R程序的包,直接就可以用,BioPerl 就收集了很多免费的Perl的包,就是很多小的已经写好的程序模块。Biopython就有Python的小的程序。 另外还有用来管理流程的,比如像GALAXY等等 下面三个UNIT就给大家三个最核心的资源做一个介绍