氨基酸|50年都未解开的蛋白质折叠难题被AI破解了

1972年 , 诺贝尔化学奖获得者克里斯蒂安·安芬森在获奖感言中提出了一个假设来说明酶进行化学合成的可能性 。 他猜测蛋白质复杂的三维结构是由它的一维结构所决定的 , 也就是说 , 由DNA控制细胞内RNA所搭建的特定氨基酸序列 , 从理论上来讲 , 应该决定了这类蛋白质拥有怎样的结构 。 这就是著名的蛋白质折叠结构预测 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

没想到 , 这个假设竟成为了生物学界近50年来一个重大难题 。 要解决这个难题最大的挑战在于:在自然界 , 蛋白质折叠的方式实在太多了 , 据估算 , 一个典型的蛋白质有10300次方种可能的构型 , 它们可以自个儿把自个儿扭成一幅六亲不认的样子 , 即便是物理规则来了也要流泪 , 因为有些形状实在难以想象 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

而就在刚结束不久的第十四届CASP竞赛上 , 由谷歌Deepmid推出的AlphaFold最新版本力压群雄 , 在通过氨基酸序列预测蛋白质折叠结构方面 , 其准确性已经接近于使用X射线晶体学、超低温电子显微镜(cryo—EM)等标准实验方法所解析出的3D结构 。
消息一出 , 立刻被《nature》、《science》等多家科学杂志所报道 , 《nature》杂志更是直接将其评为:“(这将改变一切)” 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

在Deepmind发布的官方推文下 , 谷歌CEO桑达尔·皮查伊、斯坦福计算机科学系教授李飞飞、马斯克等科技大佬也纷纷“一键三连” 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片


氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

那么 , 这项轰动各界的研究到底是什么呢?
蛋白质是生命的基础 , 这些碳基分子负责处理细胞内部发生的大部分事情 , 比如面对病毒的入侵 , 细胞内的DNA就开始忙活起来 , 生产与之对抗的抗体来抵御病毒 。 从某种角度而言 , 它们和现实生活中的打工人没什么区别 , 每天的工作就如同流水线一般重复进行着 。
而它们的工作方式和作用都取决于其3D结构 , “结构即功能”是分子生物学不变的真理 。 自1950年开始 , 科学家已经可以通过X射线照射结晶的蛋白质并将其产生的衍射光转化为蛋白质的三维原子坐标 , 从而获得准确的蛋白质结构 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

但这种方式需要花费的大量时间和资金 , 于是科学家一直想知道蛋白质的组成部分(一串氨基酸长链)如何在极短时间内变形成曲折的三维结构 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

在上世纪八九十年代 , 计算机开始应用于模拟蛋白质结构 , 得益于计算机强大的算力 , 科学家们提出了许多理论的预测方法 , 然而 , 很快就被现实打脸了 , 当他们将论文中的方法在实验室应用时 , 发现自己鼓捣出的蛋白质与实际情况相去甚远 。
不过这并不代表计算机退出了舞台 , 相反 , 来自马里兰大学学院公园分校的计算生物学家约翰·穆尔特与其他人共同创立了CASP , 致力于改进精确预测蛋白质结构的计算方法 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

CASP用来衡量预测结果准确性的主要指标为GDT , 其范围为0~100 。 这项测试主要是判断氨基酸残基在阈值范围内与正确位置的百分比 。 测试结果如果能达到90分以上就可以被认为是与实验方法相媲美的 。
在11月30日公布的最新一届CASP评估结果中 , AlphaFold系统总分为92.4GDT , 这也意味着预测平均误差约为1.6埃(一埃等于0.1纳米) , 相当于一个原子的宽度 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

即便是对于最难的随机蛋白质结构预测 , AlphaFold也达了87.0GDT的高分 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

AlphaFold是怎么做到的?
AlphaFold分两步工作 。 第一步与比赛中大多数参赛选手使用的其他方法一样 , 最开始都会将多条氨基酸序列进行筛选 , 像AlphaFold就被“喂养”了17000条序列 。
然后它会将这些序列与数据库中的相似序列进行比较 , 找出在链中彼此不相邻但往往串联出现的氨基酸对 。 这就表明在折叠的蛋白质中这两个氨基酸非常接近 。
DeepMind也训练了一个神经网络来进行这样的配对 , 并预测折叠蛋白质中两个配对氨基酸之间的距离 。 通过将预测结果与精确测量的蛋白质距离进行比较 , AlphaFpld更精确地预测了蛋白质链中连续氨基酸之间的折叠角度 。

氨基酸|50年都未解开的蛋白质折叠难题被AI破解了
文章图片

但通过这些步骤还无法单独预测结构 , 因为所预测的距离和角度上可能会违背物理规律 。
因此 , 第二步 , AlphaFold为氨基酸序列创建了一种在物理上可能出现但几乎只有在随机中才能“昙花一现”的折叠结构 。 并通过梯度下降的优化方法来进行迭代 , 通过这个过程 , 系统能在几天时间内确定高精度的蛋白结构 。
对现实的意义
从氨基酸序列预测蛋白质结构变化的能力将对生命科学及医学领域带来巨大好处 , 德国马克斯·普朗克发展生物学研究所的进化生物学家安德烈·卢帕斯直言:“AlphaFold帮助他解决了困扰十几年的难题 , 通常情况下 , 破解一个蛋白质的结构需要耗费数年时间 , 而现在 , 几天之内就能得到一个非常接近的结构 , 这无疑会极大加速对细胞组成部分的工作 , 也将改变我的工作方式” 。
最近微信推送规则更新 , 想要第一时间收到我们的推送 , 记得一定要点“小星星”哦~
特别声明
参考资料:
https://www.nature.com/articles/d41586-020-03348-4
https://www.nature.com/articles/d41586-019-01357-6
图片来源于:
Google、bing图片、维基百科、nature
更新时间:每周一、三、五
我们旨在分享优质文章、原创作品 , 与您共同学习成长
本文如有侵权欢迎原作者及时与我们取得联系 , 署名或删除
如对本文有所意见或发现错误欢迎指正
_原题《50年都未解开的蛋白质折叠难题被AI破解了》
【氨基酸|50年都未解开的蛋白质折叠难题被AI破解了】阅读原文

    推荐阅读