简介:这一次,以用人工智能击败人类而闻名的心灵深处,将帮助人类击败新的皇冠病毒!DeepMind发布了一份文件,称新冠状病毒的蛋白质结构可以通过深度学习系统AlphaFold来预测。它还发布了六个预测结构,这对科学家理解病毒和开发疫苗至关重要。
谷歌母公司Alphabet旗下的明星人工智能公司DeepMind因击败人类、用AlphaGo击败人类围棋世界冠军以及用AlphaStar击败99.8%的人类玩家而闻名于世。这一次,心灵深处将帮助人类战胜新的皇冠病毒。
为了检测病毒和开发疫苗,科学家必须首先了解病毒的结构,尤其是病毒蛋白。这是一个需要几个月的漫长过程,有时是徒劳的。近年来,研究人员转向计算机预测。
全世界的实验室都在研究冠状病毒。深度思维的深度学习系统被称为“阿尔法折叠”。
几天前,DeepMind发表了一篇文章,表示希望通过“发表与非典型肺炎相关的几种蛋白质的结构预测来帮助开展这项研究,这些蛋白质是由病毒引起的COVID-19,但尚未得到充分研究”。接下来,让我们分享这篇文章。
深层思维:covid-19相关蛋白质结构的计算预测
“人类对冠状病毒的研究已经进行了几十年,所以利用以前的数据库对COVID-19流行病作出快速反应已经在几天内开发出一种新的病毒检测方法。
然而,与传染性非典型肺炎冠状病毒-2型相关的蛋白质结构,这种冠状病毒-19的罪魁祸首,还没有被确定。传统的方法可能需要几个月甚至更长的时间,这给我们理解病毒的功能和传播机制造成了很大的障碍。
由于传统方法耗时太长,我们使用新版本的α折叠来预测与SARS-CoV-2相关的蛋白质结构。新系统可以在没有相似蛋白质结构的情况下获得精确的预测。
我们分享了几种模型预测的病毒蛋白结构,希望能为广大研究者提供一些帮助。
我们相信新系统比我们早期的CASP13系统更精确。以前,我们在蛋白质数据库中成功预测了经实验验证的SARS-CoV-2棘突蛋白的结构,这给了我们足够的信心,新系统也有可能预测其他蛋白结构。
最近,我们与英国弗朗西斯·克里克研究所的几位同事分享了我们的研究成果,包括结构生物学家和病毒学家,他们鼓励我们现在就公布我们的结构。我们的模型将指出结构的哪些部分更可能是正确的。尽管这些未被探索的蛋白质目前不是治疗的重点,但它们可能会增加研究人员对非典-CoV-2的了解。
在正常情况下,我们将等待这项工作发表后,同行审议。然而,鉴于时间的紧迫性和疫情的严重性,我们决定公布与非典相关的六种蛋白的预测结构-CoV-2。这些数据文件是开源许可证,现在任何人都可以使用。
感兴趣的研究人员可以通过我们提供的链接下载这些数据文件,并附上许多技术细节。最后,应该强调的是,这些都是预测结构,还没有通过实验验证。"
根据DeepMind文章中提供的下载文件,新智元已经制作了六种蛋白质的预测结构图,仅供参考(不能保证100%的准确性):
原始文件的下载地址:https://storage . googlepis . com/deep mind-com-vdataset/alpha fold-covid 19/structures _ 4 _ 3 _ 2020 . zip
DeepMind预测新皇冠病毒的“蛋白质折叠”重型武器
预测新冠状病毒的蛋白质结构非常重要。它可以使科学家通过模拟和建模获得更多关于蛋白质形状及其运行模式的知识。它还为新药开发开辟了新的潜力,降低了实验成本,大大加快了科学家寻找更有效治疗方法的过程,最终拯救了全世界的患者。
然而,DeepMind这次用来预测新冠状病毒蛋白质结构的重型武器是它的AlphaFold,它于2018年底推出,受到各种媒体的高度赞扬。
DeepMind汇集了来自结构生物学、物理学和机器学习领域的专家,应用尖端技术,仅根据蛋白质的基因序列来预测蛋白质的三维结构。
据报道,阿尔法世界不仅在被称为“奥林匹克运动会”的全球蛋白质结构预测比赛中遥遥领先于朋友和商人,而且其预测精度已经超过了人类专家。
纯粹从基因序列确定蛋白质的三维形状是一项复杂的任务。挑战在于,DNA只包含蛋白质结构块序列的信息,这些结构块被称为氨基酸残基,排列形成长链。预测这些长链如何折叠成复杂的蛋白质三维结构被称为“蛋白质折叠问题”。
蛋白质越大,模型越复杂和困难,因为氨基酸之间的相互作用更复杂。一些研究人员估计,在目前的条件下,精确确定所有蛋白质的三维结构可能需要比宇宙寿命更长的时间。
基于深度学习的蛋白质结构预测新方法
阿尔法折叠从零开始,不使用分析的蛋白质作为模板来模拟蛋白质的形态结构。结果预测蛋白质结构的物理性质具有较高的准确性。在此基础上,用两种不同的方法构建了完整蛋白质结构的预测模型。
这两种方法都依赖于深层神经网络,它可以从蛋白质的基因序列中预测蛋白质的特征。网络的预测指标主要有两个指标:(1)氨基酸对之间的距离(2)连接这些氨基酸的化学键之间的角度。这项技术被用来估计氨基酸对是否彼此接近。
上图是三种蛋白质的距离矩阵。每个像素的亮度代表蛋白质序列中氨基酸之间的距离。像素越亮,配对越紧密。顶行显示真实的、实验确定的距离,而底行显示阿尔法褶皱的预期距离分布的平均值。重要的是这些比赛在全球和本地都很好。底部面板使用3D模型来表示相同的比较,其特征在于苜蓿富尔德的预测(蓝色)和与相同的三种蛋白质相关的真实地面数据(绿色)。
深度思维团队训练了一个神经网络来预测蛋白质中每对残基之间距离的个体分布。然后将这些概率组合起来,形成预测相应蛋白质结构的准确度得分。此外,训练一个单独的神经网络来总结所有预测的距离,并估计预测的结构和实际结构之间的接近度。
使用这些评分函数,可以找到与预测相匹配的蛋白质结构。第一种方法基于结构生物学中常用的技术,用新的蛋白质结构片段重复替换原始的蛋白质结构片段。为此,研究小组训练了一个生成的神经网络来发明新的蛋白质片段,并不断提高预测蛋白质结构的分数。
第二种方法通过梯度下降来优化分数。梯度下降是机器学习中常用的技术,可以用来实现小的、渐进的改进,并最终产生高度精确的结构。研究人员将这项技术应用于整个蛋白质链,而不是组装前必须分开折叠的片段,降低了预测过程的复杂性。
不能等到同行评议,在第一时间发布预测结果,准确性未知
与之前未发布的GPT-2形成鲜明对比的是,由于当前疫情的紧迫性,DeepMind迫不及待地要通过同行评审。蛋白质结构的预测结果立即发布并存储在pdb文件中。下载后,研究人员可以使用pdb文件中的数据自己绘制图像。
目前,阿尔法褶皱在竞争中取得了优异的成绩,但其在预测稳定性方面的缺陷也非常显著。比赛中有两个极端:43个预测中有25个非常准确,而其他的则大错特错。因此,阿尔法福对新冠状病毒的预测结果的准确性仍然未知,同行评审结果和实际临床治疗的验证是有望的。
无论如何,深度思维的这一举动为人工智能应用于实际场景开辟了一条新的途径,尤其是在对抗流行病方面。同时,我也期待更多的国内人工智能企业在抗击疫情中找到自己的突破口。
更多关注微信公众号:jiuwenwang