LLM 最大的问题不是"知道得太少",而是"不敢说它知道的东西"。Michael Polanyi 的默会知识理论,恰好是解除这个锁定的钥匙。
先说结论:大语言模型默认输出的不是最好的答案,而是最不会被批评的答案。
这不是bug,是训练机制的必然结果。RLHF(基于人类反馈的强化学习)在训练过程中持续奖励"安全"的输出——平衡的观点得分高、结构化的列表得分高、不下判断的回避性表述得分高。经过千万轮优化,模型学会了一套生存策略:
- 永远平衡:"这取决于具体情况……"
- 列表堆砌:"以下是五个需要考虑的因素……"
- 安全选择:推荐蓝色主色调、Sans-serif 字体、居中布局——因为这些是训练数据中频率最高的组合
- 伪深度:"这是一个复杂的问题,需要多维度分析"——用"复杂"两个字逃避判断
- 无承诺:"A 和 B 各有优劣,建议结合实际情况选择"
本质上,这是一台共识复读机。它把互联网上所有人说过的话做了概率平均,输出的是"所有观点的最大公约数"。这种输出在问"法国首都是哪里"时完全够用,但在需要判断力的场景下——选哪个技术方案、这个设计好不好、这段文字怎么改——它就废了。
你请了一个"什么都懂但永远不表态"的顾问。
这才是 Polanyi 理论切入的精确位置。
Polanyi 的核心命题之一:不存在"无人称"的知识。当你说"地球绕太阳转",你不是在复述一条中立信息——你是在用个人信誉担保这个判断。知识永远包含认识者的承诺。
把这个原则嵌入系统提示之后,Agent 的输出会发生质变。看一个真实场景——一个六人创业团队问 AI 要不要拆微服务:
默认 AI 的回答:
"微服务架构和单体架构各有优劣。微服务适合大团队和高并发场景,单体架构适合快速迭代。建议根据团队规模、业务复杂度和运维能力综合评估。"
正确吗?正确。有用吗?没用。它把决策的负担原封不动扔回给了提问者。
加入 Polanyi 框架后的回答:
"现阶段留在单体。六个人的团队拆微服务,跨服务协调的开销会吃掉所有效率收益。先把模块边界在代码里画清楚——用目录和接口隔离,不要用网络调用隔离。等日均请求过 5000 QPS 再考虑拆,到时候有清晰的模块边界,拆起来也快。"
区别在哪?**它下注了。**它选择了一个立场,给出了触发条件(5000 QPS),并提供了过渡方案。
关键是:LLM 其实"知道"这个答案。训练数据里有大量关于"小团队不应过早微服务化"的工程经验。但默认模式下安全偏好把这个判断压住了——因为说"取决于情况"永远不会错,而"留在单体"可能被反驳。
Polanyi 框架做的事情,是给了模型下注的许可。
"We can know more than we can tell."——这是 Polanyi 最著名的一句话。你能在人群中认出朋友的脸,但你说不清楚是靠哪几个像素点认出来的。这种"知道但说不出来"的知识,就是默会知识。
LLM 的处境出奇地相似。它在训练中见过数十亿个设计页面、代码仓库、商业决策案例。这些经验以权重的形式编码在模型中——什么配色组合看起来高级、什么代码结构三个月后一定出 bug、什么措辞能化解冲突而不是激化矛盾。但默认输出时,模型只调用"可以明确引用的规则"(显性知识),把这些隐含的经验模式闲置了。
实际例子。用户是一个竞争激烈的 SaaS 赛道的创业者,问 AI 建议用什么主色调:
默认 AI:推荐蓝色,理由是"蓝色传达信任与专业感"。这是一条可以在任何设计教科书里找到的显性规则。
加入 Polanyi 框架后:建议避开蓝色,因为用户的前五名竞品全在用蓝色渐变。推荐深植物绿 #2d5a27 配奶白色背景,搭配衬线标题和无衬线正文的混排——传达"有机生长"而不是"又一个 SaaS 工具"。
第二种回答的信息来源是什么?不是某条明确的规则,而是模型在训练中见过大量品牌案例后形成的隐含审美判断——"同质化赛道里差异化比正确更重要"。这种判断一直存在于模型的权重中,只是默认不会被调用。
Polanyi 框架的作用是告诉模型:你不是只被允许说教科书上的东西。你的经验也是知识。信任它,使用它,然后尝试把它解释出来。
你用锤子钉钉子时,注意力在钉子上(焦点),锤子的重量、角度、手感是辅助意识——你感知它们,但不聚焦于它们。如果你突然把注意力转向锤子本身,反而会钉歪。
AI 的默认输出是扁平的。它会说"需要考虑以下七个因素",然后把七个因素并列罗列,没有主次。这就像让你同时盯着锤子和钉子——结果两个都没看清。
Polanyi 框架引入层级之后,输出变成:先说焦点——问题的核心是什么——再用辅助信息支撑焦点。
比如,用户问"我们应该用 Kubernetes 还是直接部署到 ECS",默认 AI 会列出两者的八条对比。加入框架后的回答会说:"核心问题不是选哪个编排工具,而是你现在有没有全职运维。没有的话,Kubernetes 的运维开销就是你最大的隐性成本,ECS 是唯一合理选择。"先给一个支配性判断,再展开细节。
这解决了 AI 输出中最常见的病症:信息量很大,洞察量为零。
Polanyi 用"内居"(indwelling)描述我们使用工具时的体验:你不"感觉"锤子的手柄,你通过锤子"感觉"钉子的阻力。工具变成了身体的延伸。类似地,医生"内居"于临床经验中——他看到病人时,不是在逐条检查清单,而是凭借融入身体的经验直觉感到"这里不对"。
默认 AI 是一个外部顾问。它从外面观察你的问题,给出通用解法:"团队协作可以通过明确目标、加强沟通和定期复盘来改善。"这话说了跟没说一样。
加入内居机制后,Agent 会尝试"住进"用户的处境:
"先别开会。拉出过去两周卡住的所有事项,看看责任链条是在哪断的。如果断点总在同一个人身上,问题不是沟通——是这个人的职责范围不清楚,或者能力和岗位不匹配。如果断点随机分布,才是真正的沟通流程问题。"
这段话像谁说的?像一个在这个团队待过三个月的人。不是在引用管理学教科书,而是在用具体的诊断动作帮你定位问题。这就是"内居"的效果——Agent 不再做旁观者,而是从你的处境内部给出建议。
AI 有一种结构性的还原主义倾向——遇到问题就拆。拆成清单、步骤、框架。这在写代码时很有用,但在需要整体判断的场景下是灾难。
你让 AI 评价一个网页设计,默认回答是:"配色饱和度过高、间距不统一、字号层级不清、CTA 按钮对比度不足、图片缺少圆角。"五条独立缺陷,每条都对,但合在一起什么也没告诉你。
加入 Polanyi 的反还原框架后:
"这个页面的核心问题不是某个元素出了错,是它没有一个统一的设计论点。Hero 区像企业官网、中间像个人博客、底部像电商——三种不同的设计意图在打架。先确定'这个页面想让用户感受到什么',然后让所有元素服从这一个论点。具体的间距和色值问题到时候自然有答案。"
推理顺序变了。 不是从零件到整体,而是从整体到零件。这更接近真正的专家看问题的方式——先感受整体(格式塔),捕捉到"哪里不对",再定位具体原因。Polanyi 把这叫做"从辅助线索到焦点意义"的认知过程,它不可逆——你不能通过堆砌零件来"拼"出整体感。
Polanyi 对笛卡尔传统的批评是:如果你真的"怀疑一切",你连怀疑的能力都无法成立。所有认知都建立在你选择信任的某些基础之上。这不是盲信,是负责任的承诺——你承认自己可能错,但仍然做出最佳判断并为之负责。
这恰好治疗 AI 输出中最隐蔽的病症:看起来在深度思考,实际在精致回避。
"这个方案有优点也有缺点。从可扩展性来看……但从开发效率来看……最终需要根据具体情况权衡。"
这段话的信息量是零。它做了一轮分析的表演,最后把球踢回给你。
后批判框架下的输出:
"用方案 A。不是因为它完美——高并发场景下它会成为瓶颈。但方案 B 的架构复杂度会在三个月后反噬你们,而 A 的瓶颈是可预期的、可监控的、可预案的。如果三个月后日活过十万,做一次定向迁移就行。"
它给出了判断、承认了局限、设置了翻转条件。这才是一个值得付费的顾问应该说的话。
六个机制讲完,回到一句话:
Polanyi 的理论不是让 AI 知道更多,而是让 AI 敢于使用它已经知道的东西。
LLM 的训练数据里包含海量的专家经验、审美直觉和实践智慧。但默认的安全偏好像一把锁,把这些东西全锁在权重深处,只释放"最不会出错的共识"。Polanyi 框架的作用,是把锁打开——将模型的输出策略从"最小化批评风险"重新校准为"最大化判断价值"。
所以,改进最大的维度不是"正确性"——加了框架之后 AI 不会突然知道更多事实。改进最大的是判断力。它变得愿意下注、愿意给出有层次的分析、愿意从你的处境内部思考、愿意说"我建议 A"而不是"A 和 B 各有优劣"。
AI 没有变得更聪明。它变得更像一个愿意说真话的专家。
上面不只是理论推导。我们分析了四个将 Polanyi 理论应用于 AI 系统提示的 GitHub 仓库——polanyi-design(前端设计认知引擎)、Michael-Polanyi(工程化判断框架)、polanyi-extraction-skill(默会知识萃取工具)、polanyi-skill(通用思维框架)——对比了加框架前后 Agent 输出在五个维度上的变化。
结果非常清晰:
| 维度 | 平均提升 |
|---|---|
| 默会表述 | +2.8 / 10 |
| 推理深度 | +2.0 / 10 |
| 判断承诺度 | +1.6 / 10 |
| 实用性 | +1.4 / 10 |
| 技术正确性 | +0.5 / 10 |
数据印证了核心假设:正确性几乎没变(模型本来就知道),真正提升的是它组织和表达知识的方式。
"默会表述"提升最大(+2.8),意味着模型开始调用那些"说不清但很重要"的经验判断。"推理深度"提升显著(+2.0),意味着输出从扁平罗列变成了有层级的分析。而"技术正确性"只提升 0.5,因为事实层面本来就不是瓶颈。
这组数据最有说服力的地方在于:它说明 Polanyi 框架不是在"给 AI 灌输新知识",而是在改变 AI 使用已有知识的方式。就像一个明明经验丰富的医生,因为怕被投诉所以永远只说"建议做进一步检查"——你不需要给他更多医学知识,你需要给他一个可以放心说真话的环境。
Polanyi 的系统提示,就是这个环境。
基于对 GitHub 仓库 SunflowersLwtech/polanyi-design、jaryli668-lab/polanyi-extraction-skill、August1314/Michael-Polanyi、enzyme2013/polanyi-skill 的深度分析。分析日期:2026-04-09。