一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集_飞道的博客_wya1

飞道的博客

飞道的博客

一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集

2021-01-22 21:19 1096人阅读评论(0)

By 超神经

内容提要：DeepMind 的最新一代算法 AlphaFold 2，在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中，完虐其它对手，取得惊人的突破，震惊整个科研圈。在被这项科研成果刷屏之后，我们来了解一下该算法背后的数据集。

关键词：蛋白质折叠 PDB 数据集

这两天，我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了，尤其是生物界，可谓迎来了里程碑式的大突破。

据 DeepMind 官方宣布，其深度学习算法 AlphaFold 2，已经成功解决过去 50 年以来生物领域的大难题。

该算法能够精确地基于氨基酸序列，预测蛋白质的 3D 结构，其准确性可以与使用冷冻电子显微镜（CryoEM）、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。

CASP 竞赛自由建模类别中的两个目标蛋白质示例

绿色为实验观测结果，蓝色为 AlphaFold 2 预测结果

这一里程碑式的事件，令生物学家振奋，但同时也让很多业内人士瑟瑟发抖，直呼要转行去学深度学习了。

不过，在大家都关注这项科研结果的时候，别忘了它背后的功臣—— PDB 蛋白质结构数据集，一个专门收录蛋白质及核酸的三维结构资料的数据集。

划时代意义的突破，离不开这个数据集

据 DeepMind 介绍，团队在公开数据上训练这一系统，这些数据来自蛋白质结构数据集 PDB，和包含未知结构蛋白质序列的大型数据库 UniProt，共包括约 170,000 个蛋白质结构。

其中，PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集，拥有十分悠久的历史，可以追溯到 1971 年。

当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。1998 年 10 月，PDB 被移交给 Research Collaboratory for Structural Bioinformatics（RCSB，结构生物信息学研究联合实验室），由罗格斯大学的 Helen M. Berman 负责，他也是 RCSB 成员。

布鲁克黑文国家实验室成立于 1947 年

其历史上的科研发现曾 5 次获得诺贝尔奖

2003年，PDB 发展成为一个国际性组织 wwPDB（全球蛋白质数据库），来监管 PDB 的资源。wwPDB 的其他成员，包括 PDBe（欧洲）、RCSB（美国）、PDBj（日本）也为 PDB 提供了数据积累、处理和发布的中心。

wwPDB 的资源向全球公众免费开放

值得一提的是，虽然 PDB 的数据是由世界各地的科学家提交的，但每条提交的数据都会经过 wwPDB 工作人员的审核与注解，并检验数据是否合理。PDB 及其提供的软件现在对公众免费开放。

超 14 万个结构，PDB 里都哪些信息？

在过去的几十年里，PDB 的结构数量以接近指数的速度增长：

1982 年的 100 个；
1993 年的 1000 个；
1999 年的 10,000 个；
2014 年的 100,000个。

不过，自 2007 年以来，新蛋白质结构的积累速率似乎已经趋于稳定。

PDB 数据集新增结构逐年递增，规模庞大

世界各地的结构生物学家，使用诸如 X 射线晶体学、NMR 光谱和冷冻电镜等方法，来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息， wwPDB 对其进行批注并公开发布到数据库中。

你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标，甚至整个病毒的结构，不过，PDB 里存档的结构数量规模巨大，找到所需信息可能是一项并不轻松的工作。

PDB 数据集中的信息主要包含：蛋白质/核酸来源，蛋白质/核酸分子组成，原子坐标，测定结构所用实验方法，以及温度因子、结构测定者等其它数据及信息。

数据集预览，其中包含蛋白质/核酸结构、

测定结构所用实验方法等信息

如何下载？

现在，该数据集已在超神经官方网站以及 openbayes.com 上线，访问：https://hyper.ai/datasets/13906 或点击「阅读原文」，就可一键获取数据集。

■ PDB 蛋白质结构数据集详情

发布时间：1971 年起收集

发布机构：wwPDB

包含数量：14 万+ 个蛋白质/核酸结构

数据格式：csv 文件

数据大小：27 MB（解压后 146MB）

下载地址：https://hyper.ai/datasets/13906

DeepMind 同款数据集，你也值得拥有~

如何使用？

我们的合作伙伴 OpenBayes ，一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群，GPU 集群架构专针对矩阵计算设计，面向 AI 应用提供算力容器，而且上手非常简单，开箱即用。

目前 OpenBayes 的算力容器产品已经支持 TensorFlow、PyTorch、MXNet 等 CPU 和 GPU 环境下，不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库

并提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多种算力资源，无论是海量数据的集中训练，还是低功耗的模型常驻运行，都能轻松满足用户需求。

从 CPU 到 T4 再到 V100,丰富的算力容器配置

OpenBayes 支持脚本上传和 JupyterLab 编辑器在线编程，然后进行模型训练。

清晰简洁的执行过程

完整教程：https://openbayes.com/docs/quickstart/

注册新用户，即可享受 GPU 算力

访问 openbayes.com，在官网首页点击立即注册，而且内测期间周周有赠哦，再也不用跟同学、同事抢算力了~

数据集可在公共资源直接使用/下载

活动说明

访问 openbayes.com

凭邀请码【HyperAI】注册新用户

即可享受

免费 CPU 额度：300 分钟/周

免费 vGPU 额度：180 分钟/周

PDB 完整数据集获取：

https://www.rcsb.org/#Category-download

PDB 数据集中的文件可直接用文本编辑器查看，但使用可视化工具查看效果更佳，官方推荐的查看程序 Swiss PDB viewer：

https://spdbv.vital-it.ch/disclaim.html#

其它参考资料：

http://www.wwpdb.org/

https://www.novopro.cn/articles/201912021193.html

—— 完 ——

扫描二维码，加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容（点击图片阅读）

转载：https://blog.csdn.net/HyperAI/article/details/110508015

查看评论

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场