重新理解AI时代的科研- 2026.2

——写给生物医学研究者的一封认知转型备忘录

序言：一场悄悄发生的范式迁移

2009年，微软计算机科学家吉姆·格雷（Jim Gray）提出了科学的"第四范式"：继经验科学、理论科学、计算仿真科学之后，数据密集型科学发现正在成为知识生产的第四条道路。那时候，这还是一个略显超前的预言。

十七年后的今天，这一预言已经大大落伍——不是因为它错了，而是因为它说得还不够远。

我们正在进入的，是某种更彻底的东西：一个 AI Agent 可以自主完成文献综述、提取数据、分析引用、合成证据、乃至生成假设的时代。这七件事，恰恰是生物医学研究者每天的核心工作。

这篇文章不打算介绍任何工具。它想探讨的是：当这七个词的含义被AI重写，我们作为研究者的认知方式，应该如何升维？

一、Literature Review（文献综述）：从"阅读"到"对话"

长期以来，文献综述是一个体力与耐力的考验。一位做系统综述的博士生，往往要花数月时间在PubMed和Embase之间穿梭，手动筛选数千篇摘要，在筋疲力尽中构建出对某个领域的整体认知。这个过程中，人的局限是显而易见的：我们会产生确认偏误，会漏掉不熟悉语言的文献，会因为疲劳而在第3000篇摘要时失去判断力。

但这里有一个更深的问题很少被讨论："阅读文献"这件事本身，到底是什么？

当我们在阅读一篇论文时，我们并不是在被动地接受信息，而是在将新知识与已有的认知框架进行碰撞、协商、整合。真正的文献综述，是一个认知重构的过程——它改变的不仅是你掌握了多少文献，而是你理解问题的方式本身。

AI Agent 的出现，改变了这件事的物理形态，但没有改变它的认知本质。当一个 Agent 在90秒内读完500篇论文并给你一份结构化摘要时，它做的是信息处理，而不是认知重构。认知重构，依然属于你。

理念的转变在于：文献综述的价值，正在从"广度"迁移向"深度"。AI帮你处理广度，你需要专注于深度——那些真正反常的结果、那些被引用却从未被仔细阅读的经典、那些跨领域的意外联结。研究者的新工作，是向AI提出高质量的问题，而不是重复AI能做的事情。

二、Systematic Review（系统综述）：从"方法论"到"认识论"

系统综述是循证医学的皇冠，是当代医学知识等级体系的最高一层。它的核心价值在于方法论的透明性与可重复性——你写下每一个搜索词、每一条纳入/排除标准，任何人都应该能沿着你的路径走一遍，得到相同的结论。

这个框架建立在一个哲学预设之上：客观的方法论程序，能够产生客观的知识。

AI Agent 正在动摇这个预设的某些基础，同时也在强化它的另一些部分。

动摇的部分：当一个AI自动扩展你的搜索词、自动生成纳入标准、自动提取数据，并用语言模型合成结论时，这条"任何人都能重走的路径"变得模糊了。AI的决策过程并不像人工操作那样可以被逐步记录和审计。一项2025年发表在《Clinical and Experimental Medicine》的研究发现，即使是最好的AI筛选工具，也需要严格的人工复核层来保证方法学的可重复性。Wiley Online Library

强化的部分：AI可以在几分钟内处理一个人类团队需要几个月才能完成的文献量，这在理论上扩大了系统综述的覆盖域，能纳入更多语言、更多数据库、更多灰色文献，让综述真正"系统"起来。

理念的转变在于：系统综述的核心，正在从"方法论的执行"迁移到"认识论的设计"。 你需要思考的不再只是"我用了什么搜索词"，而是"AI的检索逻辑和我的研究问题之间是否真正对齐"——这是一个更深层的认识论问题，需要研究者对自己的问题有更清醒的元认知。

三、Clinical Evidence（临床证据）：从"金字塔"到"生态系统"

循证医学的证据金字塔，是20世纪医学方法论最伟大的贡献之一：随机对照试验（RCT）位于顶端，病例报告处于底端，系统综述凌驾于一切之上。这个等级制度给了临床决策一个清晰的坐标系。

但这个金字塔正在被现实撞击出裂缝。

第一个裂缝：发表偏倚。被发表的阳性结果，本质上是一个被筛选过的世界，而不是真实的世界。大量否定性结果从未出现在任何综述里。

第二个裂缝：外部有效性的困境。RCT在严格控制条件下产生的证据，往往难以直接迁移到真实世界的异质性患者群体中。一个在年轻男性群体中得到的结论，未必适用于老年女性合并多种基础病的患者。

第三个裂缝，也是最新的：真实世界数据（RWD）的崛起。电子病历、可穿戴设备、基因组数据库正在产生大量传统RCT无法覆盖的临床证据。AI 的能力恰恰在于整合这些异质性的数据流，发现隐藏在其中的规律。

理念的转变在于：临床证据不再是一个等级结构，而是一个需要动态权衡的生态系统。 不同的临床问题，需要不同类型的证据来回答。AI的角色，是帮助研究者在这个复杂的证据生态中找到与特定问题最匹配的那部分，而不是简单地"查找最高等级的证据"。Nature Medicine

四、Data Extraction（数据提取）：从"劳动"到"决策"

数据提取是系统综述中最枯燥、最耗时、也最容易出错的环节。逐篇阅读、逐字段填表、两人交叉核对——这个流程的设计，本质上是在用程序的严格性来补偿人类注意力的不稳定性。

AI 在这个环节展现出了最直接的效率优势。一项在ScienceDirect发表的研究表明，AI辅助的数据提取可以将工作量减少60%-80%，同时在某些结构化数据字段上达到与人工相当的准确率。ScienceDirect

但这里有一个认知陷阱值得警惕。

当数据提取变得"容易"了，研究者很可能会跳过一个重要的步骤：深入理解单篇研究。每一篇被纳入系统综述的论文，都不只是一组待提取的数据字段，而是一个有其内在逻辑、有其语境局限、有其方法论取舍的知识单元。如果AI把数据提取速度提高了10倍，而研究者用这省下来的时间去做别的事，而不是更深入地理解每一项研究，那么最终的综述质量可能并不会提高。

理念的转变在于：数据提取的真正价值，不在于"把数据从论文里搬到表格里"，而在于在这个过程中形成对文献质量和证据强度的判断力。 AI 可以自动化前者，但判断力只能通过研究者主动的智识投入来建立。当AI替你做了劳动，你的责任是把节省下来的认知资源用于更高阶的决策，而不是把它们花在更多的会议上。

五、Citation Analysis（引用分析）：从"数量"到"方向"

科学的引用体系，是人类知识最复杂的自我指涉结构之一。一篇论文引用另一篇论文，可能意味着支持、可能意味着对比、可能意味着奠基、也可能仅仅意味着礼节性提及。但在传统的引用分析中，所有这些意图都被压缩成一个数字：被引次数。

这个数字的问题显而易见：一篇被反复引用来说明"这个结论是错的"的论文，和一篇被反复引用来证明"这个结论是对的"的论文，在传统指标中是完全等价的。

现代引用分析正在重建这种语义层次。通过对引用上下文的自然语言理解，AI 可以区分支持性引用与反驳性引用，可以绘制出一个知识领域内真实的"争议地图"——哪些结论已经成为共识，哪些还在激烈的方法论战争中，哪些看似被广泛接受其实从未被认真检验过。

这背后有一个深刻的波普尔式洞见：科学的进步，不是通过积累"被支持的引用"来实现的，而是通过可被证伪的声明在反复挑战中存活来实现的。 一个从未被认真质疑过的结论，无论被引用多少次，都是脆弱的。

理念的转变在于：引用分析的终极问题，不是"这个结论被多少人引用了"，而是"这个结论经受住了多少认真的反驳尝试"。 AI 正在让我们第一次有能力大规模地回答第二个问题，而不只是第一个。

六、Hypothesis Generation（假设生成）：从"灵感"到"约束空间的探索"

假设生成长期以来被视为科学中最神秘、最不可量化的环节——它是灵感，是偶然，是洗澡时突然涌现的想法。库恩（Thomas Kuhn）把这个时刻称为"格式塔转换"，波兰尼（Michael Polanyi）称之为"缄默知识"的激活。总之，它属于一个在方法论层面难以被触碰的领域。

AI 正在从两个方向逼近这个领域。

一个方向是模式识别式的假设生成：通过在海量文献中发现人类注意力无法覆盖的隐藏相关性，AI可以提出"X与Y可能存在关联"这样的假设。DeepMind的AlphaFold是这个方向的极端案例——它从序列数据中提取了蛋白质结构的"规律"，其内在逻辑对人类而言在相当程度上是不透明的。

另一个方向是约束空间的系统探索：不是等待灵感，而是在一个由已知证据划定边界的假设空间内，系统地枚举哪些假设尚未被检验、哪些假设在逻辑上与现有证据相容。最近发表在PMC的研究表明，这种方法在闭环实验系统中已经能够自主生成并验证新的药物组合假设。PMC

理念的转变在于：假设生成正在从"等待灵感"变成"系统地压缩无知"。 这并不是在贬低科学直觉的价值——正相反，它让科学直觉的稀缺性得到了更好的保护。AI可以系统地探索那些"可以被逻辑推演出来"的假设空间，而真正的洞见，仍然来自于研究者对问题的深度凝视和对已知框架的超越性质疑。

七、Evidence Synthesis（证据合成）：从"汇总"到"构建"

证据合成，是这七个词中最容易被误解的一个。很多人把它等同于写综述，等同于把文献里的结论拼在一起。但真正意义上的证据合成，是一种知识构建的行为——它产出的不应该是一个关于已有证据的清单，而应该是一个关于某个问题的新的认识框架。

一个好的证据合成，能够回答四个层次的问题：

我们已经知道什么？（现有证据）
我们以为我们知道但实际上并不确定的是什么？（证据质量问题）
我们还不知道什么，但可以通过已有证据推演的是什么？（知识缺口）
我们连问都没问过的是什么？（研究盲点）

传统的系统综述通常只回答第一个问题，偶尔触及第二个。AI 的加入，理论上可以让我们有更多的认知资源投入到第三和第四个问题上——但前提是研究者自己明白这四个层次的区别，并主动将证据合成推向更深的层次。

理念的转变在于：证据合成的最终产品，不是一篇综述文章，而是一个更精确的"无知地图"——一个关于"我们不知道什么、为什么不知道、下一步应该在哪里凿洞"的清晰图景。这张地图，才是指导未来研究方向的真正价值所在。AI 可以帮你画出它的轮廓，但填写它的内容，需要研究者的判断力和勇气。PMC Agentic AI in Healthcare

尾声：七个词之外的那个问题

把这七个词放在一起看，会发现它们描述的是一个知识生产的完整闭环——从对已有知识的梳理（文献综述、系统综述），到对证据质量的评估（临床证据、引用分析、数据提取），再到对新知识的创造（假设生成、证据合成）。

AI Agent 正在深刻地改变这个闭环中每一个节点的物理形态。但有一件事，它在可预见的未来改变不了：决定这个闭环值不值得运转、为了回答什么问题而运转、以及运转的结果意味着什么——这些判断，来自于研究者对科学本身的理解，来自于对患者与疾病的深层关切，来自于那种只有在长期浸泡于一个领域之后才能形成的"专家直觉"。

一位发表在Science上的研究团队负责人曾说：AI给了我们10倍的速度，但我们最大的收获，是终于有时间去思考那些我们一直以为没时间思考的问题。

这句话，或许是对AI时代科研理念最好的注脚。

本文研究参考： The Future of Fundamental Science Led by Generative AI, PMC 2026 · Agentic AI in Healthcare Research, PMC 2026 · Agentic Research: The Future Scientist's Workspace, Causaly 2026 · The Next Generation of Evidence-Based Medicine, Nature Medicine · AI for Science 2025, Nature

重新理解AI时代的科研：一个 AI Agent 可以自主完成文献综述、提取数据、分析引用、合成证据、乃至生成假设的时代