人工智能时代，不会提出好问题的你也许只能和笨同事共事

facai888 科技应用 2024-08-16 685 0 人工智能时代不会提出好问题的你也许只能和笨同事共事

人工智能时代，提问能力越来越重要，当我们需要和人工智能“共事”时，我们提出的问题“聪明”与否，也许决定了我们的“同事”聪明与否。在科研领域，提出一个好问题更为重要，直接关乎项目的成败，关乎创新的根本。

那么，如何提出好的科学问题？

这不仅需要具备批判性思维，而且在信息爆炸、技术快速迭代的当下，更需要科研人员沉得住气、静得下心、坐得了“冷板凳”，坚持对科学理性发问，并且要突破自我识别真正的好问题，而不是一味地跟随“潮流”。

一项科研成果的重要性，往往在这个课题被提出的第一时间就已经决定了。能否提出根本性的好问题，是区分优秀科学家与伟大科学家的分水岭。比如，数学上著名的“哥德巴赫猜想”，引领了一代代科学家孜孜不倦地追寻答案，而在1742年提出这个猜想的哥德巴赫显然是伟大的数学家。

所以，做科学研究，会提问题、提好问题是开端、也是根本。

提问能力，将成为每个人必备的能力

科学的发展，正促使提问能力成为每个人必须具备的能力。从科研来看，毋庸置疑，提出好的科学问题是创新的根本，当下，随着学科之间的界限越来越模糊，学科交叉融合越来越重要——在此背景之下，发现好的科学问题的能力非常重要。

就以我所在的复杂体系多尺度研究院来说，这一研究院正是多学科交叉融合的产物。现代科学研究，本来就要处理复杂多体系。在复杂多体系之下，往往会有尺度的问题产生，简言之，一是时间尺度，一是空间尺度。不论是自然科学还是社会科学，都是包含不同时间尺度和空间尺度的体系，同时每一个体系的时间尺度和空间尺度又有着强关联。

所谓空间尺度，就是关于大大小小的问题。就拿我们人体来说，虽然块头不大，却有各种空间尺度的构成成分，比如原子、细胞等。至于时间尺度，则是关于快快慢慢的问题。比如，电子的转移；人的寿命也关乎小时间尺度和大时间尺度；至于人类的历史，那就是更大时间尺度和空间尺度的问题了。

由此可见，每一个时间尺度、每一个空间尺度都会有其故事，而在这样的背景下从事研究，如何在复杂体系之中寻找到突破口，不仅考验科学家的科研能力，更考验发现问题、提出问题的能力。

伴随着人工智能技术的发展，善于提出好问题这一能力即便在日常生活中，也变得前所未有的重要。

一个简单的故事，也许可以给大家以启发。自从ChatGPT诞生以来，我们在工作中就开始使用这一新利器了。我所在的复杂体系多尺度研究院荣誉院长、2013年诺贝尔化学奖得主迈克尔·莱维特可说是使用ChatGPT频率最高的人。从ChatGPT诞生至今短短一年多时间，他大约已经向ChatGPT提出了4万多个问题，他的结论大致是：ChatGPT最大的特点是你笨它也笨，你聪明它也聪明。也就是说，它的智能程度取决于你的提问能力。

具备批判性思维和坚定信念，方能提出好问题

青年科学家是未来的希望，历史上许多重要的科学发现都出自年轻人之手。对于年轻人来说，在决定从事科学研究的那一刻起，就应该明白自己的出发点究竟是什么，是出于对科学的热爱还是为了功利性的目的。这也是每一个年轻人必须直面的问题。

在一个信息和技术爆炸的时代，做科学研究特别是基础研究，尤其需要沉得住气、静得下心、坐得了“冷板凳”，这对于年轻人来说并不容易。在面临着非常困难的科学问题时，有些人很容易陷入迷茫、焦虑，甚至丧失了最初的热爱，更不用说真正静下心来去思考、去发问。

也正是基于这样的现实，对年轻的科研人员来说，除了具备批判性思维之外，还必须具备坚定不移的信念，这样才可能提出好问题，实现科研突破。

2005年，澳大利亚科学家巴里·马歇尔和罗宾·沃伦因发现幽门螺旋杆菌及其在胃炎和胃溃疡中的作用，被授予诺贝尔生理学或医学奖。这个诺奖背后的故事令人唏嘘。要知道，他们提出的假设与当时的主流观点完全矛盾，由于未被同事和学术界认可，他们难以获得研究资金和支持，不得不依靠有限的资源进行实验。为了证明假设，巴里·马歇尔进行了自我实验：他喝下含有幽门螺旋杆菌的培养液，导致急性胃炎，通过抗生素治愈了自己。

这一实验为他们的理论提供了强有力的证据。他们的研究不仅改变了胃溃疡和胃炎的治疗方法，还对现代医学研究产生了深远的影响。

做科学不是做“网红”，热点问题未必就是好问题

在强调会提问题，努力提出好问题的同时，我们还要特别指出一点：热点问题未必就是好问题。

就以我的经历而言。2018年我刚回国时，AlphaFold还没有掀起风浪，但仅仅两年之后，AlphaFold2的出现瞬间引起了一波计算结构生物学的革命性高潮。一夜之间，从科学界到产业界甚至投融资界，都在热烈讨论这一学科领域的变革。当时甚至有媒体问我，传统的结构生物学家是不是要失业了。

但实际上，传统生物学家并不会失业，而是得到了新的辅助工具。喧嚣之后冷静下来，我和团队也提出了一个问题：AlphaFold2这个新工具真的解决了所有蛋白质结构预测的问题吗？

在热点之外，我们经过深入思索和多次讨论后，发现蛋白质结构预测问题还远未被真正解决。举例来说，由于AlphaFold2主要利用MSA（多序列比对），把蛋白质=结构和生物序列遗传信息整合到深度学习算法中，所以当面对比如孤儿蛋白（找不到其它与其相像的蛋白）这样的蛋白时，该模型就无法生效了。因此，我在研究组内开始布局对孤儿蛋白的研究，使用深度学习方法来实现真正的端对端高精度结构预测，也就是实现单序列输出结构。

而最近发布的AlphaFold3恰恰与我们团队的这一思路不谋而合，即弱化MSA对最终预测结果的影响。这也说明，国内的科学团队在提出问题、寻找科研方向的高度上，完全不亚于国际最顶尖团队，并且在部分领域实现了超越。

此外，AlphaFold2和AlphaFold3的一个明显共性问题是：蛋白质的主链预测精度往往优于侧链的预测精度，这也是目前全球的主流进展，即大多研究围绕主链预测精度的提升来展开。然而就制药等产业领域来说，对侧链结构预测不准的蛋白结构是没有应用价值的。这是因为，蛋白质的三维立体结构由主链和侧链共同搭建而成，对于自然界中蛋白质所含有的20种氨基酸而言，其主链完全相同，而侧链则完全不同。但是，区分氨基酸身份及其化学性质主要依赖侧链而定，而且蛋白质三维空间结构的唯一性也是由氨基酸侧链相互作用的特异性而确定，更重要的是药物分子主要的结合对象也是氨基酸侧链，总之，侧链在蛋白质结构中的作用不言而喻。

在蛋白质结构预测领域，自然就包括了主链结构预测和侧链结构预测两大问题，但两者的预测难度却不尽相同。蛋白质的主链和侧链结构是相互关联的，一般是基于主链的构象来建侧链的结构，但实际上，哪怕是基于高精度的自然主链构象，要准确预测侧链都相当困难。如果主链不在自然构象上，要用它来建侧链结构就更难。

打个比方。基于高精度的自然主链构象来建侧链结构，就像站在静止的船甲板上做金鸡独立，站稳很不容易。如果是基于非自然主链构象来建侧链结构，那等同于在摇晃的船甲板上做金鸡独立，难度更大。所以说，预测侧链结构是蛋白质结构预测中最后也是最难的环节，做不好这一环，很多事情，包括药物设计都没法完成。这种精准预测能力还可用于解释基因点突变、基因小片段突变的机制，为遗传性疾病研究和治疗提供宝贵思路。

针对这一问题，我带领研究组人员开发了一系列OPUS-Rota侧链建模算法，最新提出的OPUS-Rota5蛋白质侧链建模算法，利用3D卷积神经网络提取每个残基的局部微环境信息，并利用所开发的RotaFormer进行特征整合，其侧链建模精度远超目前国际上的其他侧链建模算法。

此外，针对AlphaFold2所预测的结构，OPUS-Rota5也可以进一步进行高精度侧链优化。结果显示，经过OPUSRota5侧链修正后的AlphaFold2预测构象具有更高的分子对接成功率，这一工作将为小分子药物的研发提供强力支撑。

引领方法创新，就是要打破传统识别关键问题

AlphaFold2、AlphaFold3等蛋白质结构预测算法，主要预测蛋白质的静态结构，而如何才能看清楚蛋白质的动态结构，则是科学界面临的一个重大挑战。我们提出了一个关键问题：我们的研究只能围绕静态构象来研究吗？是否可以尝试解析动态生物分子结构？尤其是直接从实验数据中抽提结构动态信息。

围绕这一问题，我们在冷冻电镜数据处理上的人工智能算法，不久前取得了突破性的进展。OPUS-DSD算法被世界顶级科学期刊NatureMethods（《自然-方法》，影响因子47.99）发表。

传统的结构测定算法通常假设冷冻电镜数据中只存在一个静态构象，这极大地限制了冷冻电镜的解析精度和应用效果，导致无法准确解析蛋白质的动态变化。这种方法不仅无法捕捉到蛋白质的真实运动，也影响了研究者对蛋白质功能的深入理解。

我们的提问和研究，打破了传统思考的框架，直击冷冻电镜技术在解析生物大分子结构时的局限性，也明确指出了蛋白质研究领域中一个极其重要的问题——如何刻画蛋白质结构的动态变化。

大胆的提问，也需要基于实际的研究基础。其实，我们提出的这个问题，就具有良好的数据基础。因为冷冻电镜能够生成大量的蛋白质结构快照，为解决这一问题提供了丰富的数据资源。从这个新的角度出发解决问题，不仅能够提高冷冻电镜的解析精度，还可以重构出生物大分子的动态变化，使得研究者能够更准确地捕捉到生物大分子的真实结构和动态行为。

OPUS-DSD算法通过深度结构解开缠结来提取冷冻电镜数据中的动态信息，显著提升了蛋白质结构测定的精度。这个创新性解决方案不仅解决了长期存在的技术难题，还为药物设计等应用提供了新的工具和方法，人工智能时代，不会提出好问题的你也许只能和笨同事共事帮助解决药物设计中因目标蛋白结构不准而导致的新药研发失败问题。

此外，我们还采用分子动力学模拟的方法研究蛋白质动态结构。在美国，有一家知名的计算机公司，就专门建设了超级计算机Anton，针对蛋白质结构解析这一用途。

我们没有像这家公司那样庞大的资源来做超算机，但可以把眼光放在算法的创新上，算力不足可以算法来补。几年以前，我就开始带领团队以分子动力学模拟的方法来研究蛋白质动态结构，在精度上超越了超级计算机Anton。如今，我们利用研究组内之前所积累的技术，布局将人工智能与分子动力学模拟整合起来。该项研究继续发展下去，我们可以借助这种动态方法进一步提高蛋白质的结构建模精度。