新的万能公式:大模型 + X
五年前,只要把方法换成"机器学习/深度学习",论文就能写; 五年后,再加上一个"大模型",论文似乎又能写了。 我们究竟在做学问,还是在更换贴纸?# 科研方法论 · # 范式批判 · # AI for Science你或许见过这样的场景:一位研究生打开五年前师兄的硕士论文,标题写着《基于卷积神经网络的番茄叶片病害识别》;他将"卷积神经网络"删掉,换成"Vision Transformer",再补一组消融实验,便交出了自己的开题报告。两年后,他的师弟把"Vision Transformer"再删掉,换上"基于大语言模型的农业知识问答系统"。
同一片番茄叶子,同一座实验大棚,同一位导师,三个学位。变量只有一个——方法栏里那个时髦的名词。
而隔壁实验室的剧本更"高级"一些:原来纯粹的深度学习模型,如今前面要挂一个大模型来"解释结果、生成报告";原来辛苦标注数据训练的视觉分类器,现在改成"用多模态大模型做 zero-shot 识别";连机械臂的控制器,也要被重新包装成"大模型驱动的具身智能体"。
万能公式的诞生史
A Brief Archaeology of the Formula这种"换贴纸"的写作模式并非偶然。在过去十余年里,人工智能领域形成了一种代际更替式的"方法-应用"耦合范式——每当一项新技术出现,它就会像潮水一样漫过所有已被研究过的领域,留下一层薄薄的论文沉积层。
A LINEAGE OF "UNIVERSAL FORMULAS"SVM / 随机森林 + X特征工程主导,统计学习包打天下CNN / 深度学习 + XImageNet 之后,万物皆可"端到端"Transformer / 注意力 + X"Attention is All You Need",包括所有水论文LLM / 大模型 + X"Prompt Engineering is All You Need"把任意一个名词代入"X",你都能在 arXiv 和中文核心期刊上找到对应版本。而最近两年,"X"的位置上甚至开始出现其他的方法本身——"大模型+深度学习"、"大模型+机器人"、"大模型+强化学习"。公式开始套娃,方法开始叠方法。
从复杂的"感知-规划-控制"流水线,到 RT-2、PaLM-E 这类视觉-语言-动作 (VLA) 模型,让一个网络直接"看图说话再动手"。
原本的 CNN / Transformer 模型外面,套一层大模型负责"解释预测、自动写报告",让黑箱看起来会"说人话"。
如 Eureka,让大模型自动设计奖励函数,省去研究者手工调参的苦工——也省去了对问题的思考。
土壤、墒情、病虫害,统统喂进大模型做"农事问答助手",五年前的"机器学习智慧农业"换上新外衣。
…… 医疗、法律、考古、心理咨询、政务问答、菜谱推荐,名单还很长这种生产方式的高度模式化,本身就是一个值得深究的知识社会学现象。在动手批判它之前,我们必须先公平地承认:大模型确实带来了一些真实的、了不起的东西。
先把功劳记清楚:它让一切"傻瓜化"了
Credit Where Credit Is Due批判最容易滑向刻薄。所以在我们说任何"但是"之前,必须先把大模型真正的功劳记清楚——而它最大的功劳,可以用一个略带调侃却极其精准的词来概括:它把技术"傻瓜化"了。
"傻瓜化"在这里不是贬义。就像傻瓜相机让不懂光圈快门的人也能拍出清晰照片,大模型让不懂反向传播、不会写 CUDA、看不懂论文公式的人,也能调动起这个时代最强的智能工具。这种门槛的坍塌,本身就是一种了不起的技术民主化。
把"会写代码"变成了"会说话"
过去,让深度学习落地需要一整支懂数据、懂调参、懂部署的团队。现在,一位农技员用自然语言就能问出"我这片叶子是什么病、该打什么药"。交互方式从"编程"退回到了"对话",这是计算机几十年来都没做到的事。
给沉默的旧模型装上了"嘴巴"
"深度学习+大模型"并非全是噱头。一个 CNN 只会输出"恶性概率 0.87",而接上大模型后,它能向医生解释为什么、给出可读的报告、回答追问。让黑箱具备可解释、可沟通的界面,是真实的增量价值。
让机器人"听得懂人话"
"机器人+大模型"曾经是科幻。RT-2、PaLM-E 把互联网级别的常识注入机械臂,让它能听懂"把快灭绝的动物递给我"这种从未被训练过的指令。常识与泛化,正是传统机器人最缺的东西。
所以请记住:大模型让无数普通人第一次摸到了智能的方向盘。这是真实的解放。—— 问题恰恰在于:当方向盘人人能握,"会开车"还算不算一种本事?
正是这份"傻瓜化"的巨大成功,悄悄埋下了我们接下来要谈的隐忧。工具越是好用,越容易让人忘记:好用的工具,和好的研究,从来不是一回事。
公式的诱惑:为何如此好用?
The Seduction of a Template要批判"大模型+X",得先承认它为什么诱人。否则我们就只是站在岸上指责水的潮湿。
选题成本被无限压低
原来你要找一个真正未被解决的"问题",现在你只要找一个尚未被大模型"+"过的"领域"。问题意识被领域填空所取代,从"为什么要做"退化为"还能往哪做"。
基线随技术红利而抬升
把 BERT 换成 GPT-4,准确率自然涨几个点。论文报告的"提升",其实大部分是底层模型厂商送的礼物。研究者只是恰好坐在了一辆免费上涨的电梯里。
评审与基金的话术匹配
"大模型"是当下科研政治正确的关键词。它出现在标题里,立刻匹配上 新质生产力 / 数字化转型 / 前沿赛道 等一整套话语,评审、立项、答辩都更容易"过"。这是一种制度激励,不只是研究者的偷懒。
所以,"大模型+X"不是某个人的懒惰,而是一种被科研体系奖励的最优策略。它之所以蔓延,是因为它在当下的激励结构里"赢"。
更深的问题在于:当一项研究的核心创新点是"我用了大模型",它就把自己钉死在了"应用调用者"的位置上。它既不增进我们对领域的理解,也不增进我们对方法的理解。
普林斯顿大学的 Sayash Kapoor 与 Arvind Narayanan 在 Patterns (2023) 上发表的系统综述给出了触目惊心的数字:他们梳理了横跨 17 个学科的文献,仅"数据泄漏"一类方法学错误,就影响了 294 篇已发表论文,许多研究的"显著提升"在修正错误后就消失了。他们直言,机器学习正在科学界引发一场"复现性危机"。
"当错误被修正后,机器学习模型并不比传统的回归模型表现更好。" —— Kapoor & Narayanan, 内战预测案例复现, 2023
当方法被当作一件外衣,研究者就会不自觉地为了让 X 配得上"大模型",而修剪问题本身。本来需要因果推断的,被改成预测;本来需要小样本严谨实验的,被改成在公开数据集上的 benchmark;本来需要长期田间观察的智慧农业问题,被改写成"我们让大模型回答了 100 道作物病害问答题"。
不同灌溉策略对干旱区玉米水分利用效率的长期影响→ "基于大模型的农业问答系统:以玉米种植为例"
基层全科医生在罕见病转诊中的决策路径→ "ChatGPT 在罕见病诊断中的准确率评估"
学习者元认知发展的纵向追踪研究→ "大模型驱动的个性化学习路径生成"
每一次"修剪",看似是研究者主动选题,实际上是方法在挑选问题。这正是哲学家 Ian Hacking 所说的"工具决定了我们能看见什么"。当工具变成了大模型,我们能看见的就只剩下大模型能处理的那部分世界。
"+"的虚弱:什么才算真正的耦合
On the Weakness of the Plus Sign我们应当对那个看似无害的加号"+"保持警惕。在大量"大模型+X"研究里,加号代表的只是"调用":调用 API、设计 prompt、做一组 benchmark、汇报准确率。研究者从未真正改造方法,也没有真正深入领域。
"方法叠方法"尤其能暴露这个加号的虚实。同样是"深度学习+大模型",有的是让大模型真正参与训练目标、改写损失函数(这是真耦合);有的只是把大模型当成贴在模型外面的"自动报告生成器",模型本身一行没改(这是假耦合)。同样是"机器人+大模型",RT-2 把动作直接编码进 token、和视觉语言一起训练,是把方向盘重造了;而"让 ChatGPT 给机械臂写几句指令",则只是给旧机器人配了个会聊天的秘书。前者动了筋骨,后者只换了话术。
那么,真正有价值的"+",应当满足以下哪怕一条:
领域反过来改造了方法
领域知识促使研究者修改模型架构、训练目标或推理范式。例如蛋白质语言模型 ESM、气象基础模型 Pangu-Weather,是领域真正"反哺"了方法。
方法揭示了领域里未被看见的结构
不只是"用大模型做了一个分类器",而是借大模型的表示能力发现了领域里之前没有注意到的规律、模式或反例。
"+"号两边都被严肃对待
研究既能让大模型研究者关心(你提出了新的对齐/微调/检索增强方法),也能让领域专家关心(你回答了一个他们真正在问的问题)。两边都点头,研究才立得住。
如果一项研究既没有改造方法,也没有照亮领域,那么它本质上不是研究,而是一份用学术语言写成的产品演示报告。
辩护与回应:也许我们误会了什么
Steelmanning the Other Side公允地说,"大模型+X"并非一无是处。为了不让本文沦为另一种廉价的批判,我们也应当严肃复述对立面的最佳论据。
把大模型扎扎实实地落地到一个具体行业,往往需要解决数据脏乱、知识更新、私有部署、成本控制等一系列工程难题。这些工作对学界可能不够"新",但对社会的边际效用未必低于一篇 NeurIPS。把它们粗暴归为"水论文",同样是一种傲慢。
Kuhn 早就提醒过我们:常规科学的工作,本来就是用新范式重新解决旧问题。物理学曾经用牛顿力学解决一切,又用量子力学重新解决一切。深度学习重新解决了机器学习的旧题,大模型再重新解决一次,未必都是浪费——也可能是在为下一次真正的范式革命准备语料。
DEFENSE · 03 平庸的论文里有不平庸的人许多套用公式的研究者并非不求上进,而是被生存压力、毕业要求、考核制度逼到那个位置。真正应当被批判的,是奖励"+"的科研激励结构,而不是被迫去"+"的个体研究者。
回到问题本身
Returning to the Question Itself"大模型+X"是不是万能公式?是的,在毕业、晋升、立项的意义上是的。但在"逼近真理"这个更朴素的科学意义上,它从来不是。任何把方法当作出发点的研究范式,最终都会撞上同一面墙——问题本身没有被理解。
五年前我们说"机器学习+智慧农业",今天我们说"大模型+智慧农业"。如果五年后还要再换一次贴纸,那这二十年里我们究竟读懂了多少土壤,理解了多少农人,改良了多少种子?
大模型把研究"傻瓜化"了,这是它最大的功劳,也是它最深的陷阱。门槛降低,意味着更多人能进来;但也意味着,真正的难度被悄悄藏了起来。当套用公式变得人人都会,真正的学者要做的,恰恰是去做那件不能被傻瓜化的事——提出一个连最强的大模型也替你回答不了的问题。
所以下次再写下"基于大模型的 X"之前,不妨先问自己一个不太时髦的问题:如果把"大模型"这三个字遮住,我的工作还剩下什么?——如果剩下的东西足够动人,那么加上大模型是锦上添花;如果什么都不剩,那它从一开始就不是研究。
[1] Kapoor, S., & Narayanan, A. (2023). Leakage and the reproducibility crisis in machine-learning-based science. Patterns, 4(9), 100804. [2] Narayanan, A., & Kapoor, S. (2024). AI Snake Oil. Princeton University Press. [3] 《农业大模型:关键技术、应用分析与发展方向》,《智慧农业 (中英文)》,2024. [4] Chandak, N., Goel, S., & Prabhu, A. (2025). A Sober Look at LLM Reinforcement Learning Claims. Blog post, Tübingen AI Center. [5] Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. Google DeepMind. [6] Hacking, I. (1983). Representing and Intervening. Cambridge University Press. [7] Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press.本期话题 · 在你的领域里,"大模型+X" 是助力,还是遮蔽? 欢迎在留言区写下你最想看见的那个"X", 也欢迎你写下那个 —— 被大模型遮住了的真问题。