为什么从蛋白质的一级结构准确预测其三维结构那么难?

论坛 期权论坛 期权     
Science而后行   2018-10-15 22:55   3999   10
因为热力学第二定律,氢键,疏水作用这些因素太难用相应的算法加以刻画吗?
还是说顺序执行的算法在速度上和物理作用力的自然演绎根本没法比?
总的来说计算机预测蛋白结构这件事现在的瓶颈在哪里?从理论上说某一天有完美实现的可能吗?
有兴趣的朋友也可以谈谈计算理论中一些算法的不可压缩性,以及大部分人可能意识不到的运算量巨大的程度,以及在初始条件的精确化和简约化之间的取舍带来的影响,甚至比较科幻的传说中的计算主义世界观。
另外我感觉通过海量已知蛋白结晶晶体结构来进行机器学习是一种比较没有追求的做法,不知大家是否有不同意见。
分享到 :
0 人收藏

10 个回复

正序浏览
11#
Dean   | 2018-10-15 22:55:59
提示: 作者被禁止或删除 内容自动屏蔽
10#
匿名用户   | 2018-10-15 22:55:58
提示: 作者被禁止或删除 内容自动屏蔽
9#
雷霆万钧  4级常客 | 2018-10-15 22:55:57
这个问题是science选出的人类最前沿的125问题之一,排名58,你说难不难? 好了,都看看其他问题是什么就知道了
1、宇宙由什么构成?
5、物理定律能否统一?
11、地球人类在宇宙中是否独一无二?
125、对粒子物理标准模型研究是否会停止在量子Yahg-Mills理论上?
。。。
每一个问题的解决,都是诺贝尔奖的节奏啊
全世界最前沿的125个科学问题
8#
白衣  1级新秀 | 2018-10-15 22:55:56
我觉得这样问是不是直接一点
大家每次出paper
是先有实验结果还是先QM MM...autodocking这类软件计算先?
可以强答~~~

反正我做过一个mutant 只变一个位点
软件计算完美 蛋白质也表达出来了
active site 崩溃
7#
专治各种不收敛  4级常客 | 2018-10-15 22:55:55
1.蛋白质存在很多构象(局部最优结构)。
2.蛋白质不是处在最稳定构象上(全局最优结构)。
3.蛋白质的折叠过程有很多辅助因素,难以了解。比如在核糖体对折叠路径的影响。这点希望有生物专业的朋友回答。
4. 即使没有辅助因素,完全是在溶剂下进行折叠。也是无法通过分子动力学去模拟预测,随机因素影响着折叠过程。
5.折叠发生的时间尺度比较大,难以用物理、化学规律去模拟演化过程。
6. 简单溶液中折叠的尺度处在介观尺度,非平衡态,热力学涨落,量子相干支配的尺度。(补充一句,单纯通过尺寸判断介观还是微观错误的,应该从支配这个尺度的主要物理规律上判断)这个尺度是统计力学的一块硬骨头。
7. 其他生物大分子参与蛋白质折叠的过程,高度有序。不是随机过程,可惜我们看不到。这个过程恰恰把蛋白质折叠向一个亚稳定状态(能量较高局部最优结构),通常十分稳定的蛋白不会有活性。这样回到了原因2 。



——
本人试过用甘氨酸组成的直肽链和溶剂水去跑MD(分子动力学),发现根本不能跑成螺旋。可见一级到二级过程通过MD模拟都是难以精准预测的。
6#
开飞机的皮皮鲁  1级新秀 | 2018-10-15 22:55:54
强答一番只为吐个槽。
最近构建了一个修饰蛋白,把相同的修饰肽放在基本蛋白的N末端和C末端,显示出了完全不同的性质,尼玛不止生物活性,连在PBS里的可溶性都不一样了啊喂…………反复验证了多次,一级结构没问题,二级结构没问题,最后用高浓度的氯化镁处理后恢复了部分生物活性,显示的结果可能是可能由于疏水作用导致修饰片段被包裹,但是……计算机模拟出来两种东西应该没有差异才对啊!!!唉,这种东西没办法往下研究了╯▂╰,神奇的大自然……
5#
陶一锋  2级吧友 | 2018-10-15 22:55:53
一直以为自己一年来做的方向是计算生物学,看完 @Homesick Alien的答案之后才意识到原来是计算化学。。。
4#
风起于青萍之末  3级会员 | 2018-10-15 22:55:52
终于碰到一个可以认真答的问题。
热力学解释:蛋白质的折叠中,有可能有多种形态都达到了势能较低,都能形成相对稳定的存在状态
生物化学解释
首先,蛋白质有一二三四级结构
一级结构是肽链上氨基酸的排列顺序
二级结构是肽链上连续出现的结构,包括alpha螺旋,beta折叠,beta转角和无规则卷曲
三级结构是一条肽链的三维构象
四级结构是几个肽链的空间构型
题主所指的三维结构应该指三四级结构
一级结构中,氨基酸以肽单位作为空间构型的基本单位。肽单位之间可以自由旋转,在体内需要分子伴侣才能生成相应空间结构的亚单位,但是准确预测这货,计算机表示计算能力不够啊,即使有些地方侥幸弄成了比较规则的二级结构,其自由度仍然很高,无规则卷曲更是噩梦一般的存在,都说了无规则,想象一下数百个连着的双键都有顺反异构,这酸爽,超算表示去你妹的老子不算了。生成三级结构时,虽然二硫键的位置固定,但是拓扑学形态又各有不同,更别提需要对每一种可能的二级结构进行计算了。
3#
草人  1级新秀 | 2018-10-15 22:55:51
楼主的问题也是我也一直关注的。就简单谈谈自己的一些想法吧。因为实验课题的需要,曾经用核磁的方法解析过两个简单的结构域结构,感觉真是费事费力啊,所以对蛋白质结构可以通过计算机准确预测一直很是神往。可惜目前蛋白质结构预测一直差强人意,尤其是对长序列,很多预测能有50%以上的准确率就已经是很好的结果了。感觉之所以这么难预测,至少有两个瓶颈,一是测量瓶颈,基本不可能得到各种氨基酸的准确的物理学参数,而蛋白质折叠对初始条件是很敏感的,二是计算瓶颈,即便知道了相当精确的参数,搜索蛋白质可能的空间状态数也是大的吓人,远远不是现在的计算机可以做到的。
所以楼主说从海量已知结构进行机器学习,可以说是一种退而求其次的无奈之举,也是现在比较主流的预测方法。前两天去听一个结构生物学的报告,其中有一个CAMEO邻接图预测的冠军得主给我们作报告,他是做膜蛋白预测的,用的就是神经网络,构建了一个60层的DCNN,最终拿了冠军,但准确率好像也就50%左右,已经算是不错的结果了。感觉这种方法最大的瓶颈就是数据量太少,现有数据还是不能涵盖足够的pattern。在未来,随着数据量的提升,算法的改进完善以及算力的增强,预测的准确率肯定会有所提升。虽说没有追求,但也是目前来看最有希望的预测手段了。
以下为我的一些异想天开的想法,并不严谨,仅供给大家启发之用。
我也是最近读了《复杂的引擎》这本书,在这本书里面作者主要讲了广义的进化计算这个概念。很多物理的过程可以其实看做是一种计算,那我们也可以把蛋白质折叠的过程看成是一种计算。在自然状态下蛋白质折叠速度其实是很迅速的,那它是如何快速找到到自己正确的空间状态的呢?有没有我们可以学习借鉴用于改进目前计算方式的地方呢?我觉得这是一个很值得思考的问题。
关于这个问题我想到两种可能的原因,,一种可能性就是蛋白质本身及环境中的各种力本身拥有巨大的算力,可以在很短的时间内(或者说时间尺度在分子的水平要快得多)完成全空间状态的搜索,并稳定在合适的力学平衡点。另一种可能就是,蛋白质的自然折叠过程并没有完成全空间搜索,而是采用一种完全不同的算法,或许是某种类似动态规划的算法(蛋白质折叠动力学不是很懂,有这方面研究的同学的可以交流),所以可以大大节约了搜索的时间。
扯远一点说,不只是蛋白质折叠预测,在很多其他计算机模拟上都存在类似的问题。这就是人工算力与自然算力的差距,如果有一天我们能充分认识和利用自然算力,说不定可以解决很多问题。
2#
匿名用户   | 2018-10-15 22:55:50
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP