第十章 生物信息数据库及软件资源
10.1 生物信息资源概览
- Lessons learnt beyond the methods themselves
- Towards developing a new bioinformatic method:
- how to identify an important and unsolved biological question
- how to formulate it into a computational problem
- how to come up with the idea for an algorithm to solve the problem
- how to implement the algorithm
- how to evaluate them
- Towards using bioinformatic method:
- what biological questions does it address?
- what are the underlying assumptions?
- what are the different parameters and what do they do?
- what are the accuracies of the method?
- what are its limitations?
- Type of Resources
- Centralized resouces vs. individual resources
- Databases vs. software tools
- Databases: original vs. secondary, 原始数据库存储的就是低通量实验或者高通量实验里直接产出的数据; 二级数据库产出的是通过生物信息学方法对原始数据进行分析,找到的一些中间的结果。
- Software: standlong vs. web server
- 较大的一些综合资源:
- NCBI,美国的健康研究院NIH下属的一个研究机构,包含了大量的数据库和软件,包括从基因组到RNA蛋白的功能区间到基因表达,到文献等等,还有一个全世界使用率高的软件,BLAST。
- 欧洲的EBI,也有DNA和RNA相关的数据库软件,此外还有表达的相关的数据和工具。其中Ontolog是EBI比较独特的一个方面。
- 若对基因或者基因组感兴趣,UC Santa Cruze的Genome Browser,把人和很多模式生物的基因组的坐标作为一个大的框架,然后把相关的表达调控的,变异的数据全部做成一个一个的Track,所以它每一行是一个track,有大量的信息,如果把窗口滑动,可以在不同的基因组坐标上滑动。可放大缩小至染色体尺度or核苷酸尺度。
- 上图中,GenBank存储核苷酸序列的数据库,GEO是存储表达数据的数据库,SRA是存储高通量测序的reads。
10.2 美国国家生物信息中心(NCBI)资源
- NCBI
- RefSeq又分为Nuleotide和Protein,所以NM开头的是核酸序列,NP开头的是蛋白序列。
- NCBI-Gene,每一个基因为单位,整合了所有相关的pathway,variation,phenotype等。
- NCBI-SRA,新一代测序的短序列数据,每五个月数据翻一倍。这种指数增长的数据,往往如果找到了合适的方法来分析,就可能会有一些有趣的发现,那看起来这么大量的数据,是不是必须deep learning才行了呢?
- NCBI-Taxonomy,把所有无论哪一个基因被测序过的物种,都有一个分类,目前所有被描述过的物种,10%的基因或者基因片段被测序过,所以Taxonomy数据包含10%的物种。
- NCBI-PubMed,文献检索,2300万个(2010年),其中PMC存储的是免费的全文文献,免费大约290万。
- NCBI-MeSH,一个controlled vocabulary,类似于Gene Ontology。
- NCBI-My NCBI,对于你感兴趣的关键词,可以在NBCI中设定发每周更新的相关文献给你,开始研究课题后,要紧密跟踪所有最新的相关文献。
- NCBI-BLAST,最重要的tool。NCBI还提供了wwwblast工具可以嵌在自己的网站上。
10.3 欧洲生物信息中心(EBI)资源
- EBI相对强一点的就是有很多相互作用,通路和反应reaction的数据。
- EBI-Ensembl,介于NCBI和USUC的资源,整合了很多很多物种的数据。
- Types of Ensembl data: 1. Curated/Reference; 2.Large-scale projects; 3.Other studies; 4.Only computationally analyzed.
- EBI-UniProtKB
- EBI-IntAct, 存储分子之间相互作用。
- 开始研究课题后,首先应该检索文献,看看已经做了什么,再检索数据,看看已经拿到了一些什么数据等等。
- EBI-Clustal Omega, 多序列比对的一个资源。
- EBI-InterProScan, 输入一个序列,找这个序列是否包含任何已知的蛋白功能区域。
转载:https://blog.csdn.net/wxw060709/article/details/101447520
查看评论