普通人如何评估 AI 的智能水平？一个贝叶斯视角

评估 AI 智能水平时，常见的方式是通过特定场景的表现来判断，但这种方法存在基率忽视的问题。贝叶斯定理提供了一个更合理的评估框架，强调在判断 AI 智能时应考虑基率和似然比。AI 在标准化考试中的高分并不代表其真正的专业理解，且其在不确定时往往表现出过度自信。评估时应关注 AI 如何处理不确定性，并持续更新判断。最终，智慧的评估需要在表象之前先考虑基率。

2026年03月25日

分类

科技

标签

AI心理学认知提升

你有没有过这样的时刻——看到 AI 流畅地回答了一个专业问题，心里不由得想：它是不是真的懂了？

2023 年，OpenAI 宣布 GPT-4 在美国律师资格统一考试（UBE）中拿到 298 分（满分 400），排在所有考生的第 90 百分位。SAT 阅读 710 分，第 93 百分位；数学 700 分，第 89 百分位。GPT-4o 在美国医师执照考试（USMLE）中正确率达到 90.4%，医学生的平均正确率只有 59.3%。

这些数字很唬人，也确实改变了大众对 AI 的看法。但这种看法有个根本性的偏差——而且，它和你大脑天生的一个 bug 密切相关。

多数人是怎么评估 AI 的？

最常见的方式是出一道题，看 AI 答得好不好。

答得好，就觉得「AI 真聪明」；犯了低级错误，又觉得「不过如此」。

媒体也在强化这种评估方式。「GPT-4 通过律师资格考试，第 90 百分位！」「AI 在医学考试中超过了九成考生！」这类标题给人一种强烈的暗示：AI 已经比大多数专业人士更聪明了。

问题在于，你只看到了它最高光的时刻，却忽略了背后的统计结构。

这和心理学里一个经典的认知偏差如出一辙。

史蒂夫是图书管理员还是农民？

丹尼尔·卡尼曼在《思考，快与慢》里讲过一个著名的例子：

史蒂夫非常害羞、内向，乐于助人，但对人和现实世界缺乏兴趣。他性格温顺、做事整洁，对秩序和细节有强烈的需求。

问：史蒂夫更可能是图书管理员，还是农民？

几乎所有人的直觉都会选图书管理员——这段描述和「图书管理员」的刻板印象高度吻合。

但正确的推理得先看基率（base rate）：美国农民比图书管理员多得多，大约 20 比 1。就算图书管理员里害羞内向的比例更高，架不住农民基数大。哪怕只有一小部分农民符合描述，人数也可能比所有符合描述的图书管理员还多。

人们犯的错误是：只看「像不像」（似然），却忘了「多不多」（基率）。 卡尼曼管这叫「基率忽视」。

回头看 AI：「GPT-4 律师考试第 90 百分位」，我们的反应跟判断史蒂夫时一模一样——被「好像真的很聪明」的印象带走了，根本没想过基率。

用贝叶斯定理重新审视 AI 的表现

贝叶斯思路的核心其实很简单：

先有一个“原本的判断”（先验）：在看见这次回答之前，你觉得 AI 真的理解这个领域的概率有多大

再看“这次表现”更像哪一种情况：它是更像“真的懂的人才做得到”，还是更像“靠模式匹配也可能做出来”

然后把你的判断往对应方向更新，而不是被一次高光表现直接定性

把它套用到评估 AI 的场景里，你只需要记住三件事：

你原本对“AI 真的懂”的信心有多少（别从 0 直接跳到 100）

这次惊艳回答，在“真的懂”和“只是很会模仿”两种情况下，分别有多常见

结论要靠持续更新，而不是一锤定音

关键在于“区分度”：

如果这种回答几乎只有“真的懂”才给得出来，那你就应该大幅上调信心

如果“并不真的懂”也经常能碰巧给出这种回答，那你就只能小幅上调（甚至不该上调）

只有这个比值远大于 1——这种表现只有「真懂」才解释得了——你才该大幅上调信心。

但现实是：大语言模型吃了海量数据，很多问题都能给出「看起来很聪明」的回答（$P(E|neg H)$ 并不低）。就像农民里也有害羞内向的人，「不真懂但碰巧答得好」这种情况，远比你想的常见。

MIT 研究者 Eric Martinez 做了个很好的验证。他重新算了 GPT-4 的律师考试成绩——OpenAI 说的「第 90 百分位」，比的是所有考生，包括一大堆没考过的。换成只跟拿到执照的律师比呢？GPT-4 掉到第 48 百分位，就是中等水平。再看更接近真实法律工作的开放式写作题（MEE 和 MPT），只排第 15 百分位。

医学也一样。《NEJM AI》拿 GPT-4 跟执业医师（不是医学生）比：精神科第 75 百分位，儿科只有第 17.4 百分位，妇产科第 23.4 百分位。说白了，AI 考试成绩亮眼，主要是因为擅长做选择题——不是真的懂。

一个更诚实的比较基准

贝叶斯告诉我们先验很重要。那么，我们的先验应该锚定在哪里？换句话说，既然要评估 AI 的「智能水平」，就需要一个基准。

最常见的做法是拿 AI 跟专家比：「GPT 医学考试超过九成考生」「AI 编程达到中级工程师」「GPT-4 通过注册会计师考试，审计拿了 91.5 分」。但这里有个隐蔽的偷换——考的都是有标准答案的封闭题，而这恰恰是 AI 最擅长的战场。

做评测的人自己也意识到了。到 2025 年，MMLU、HumanEval、GSM8K 这些主流基准基本「废了」——前沿模型全都考到 90% 以上，分不出高下。换成真正考推理的新测试呢？比如 ARC-AGI-2，结果完全不同：纯语言模型 0 分，最好的推理系统 54%，普通人反而拿了 60%。

我认为，一个更贴近真实使用场景的基准应该是：

到大街上随机拦一个人，问他一个随机专业领域的问题。这个人的平均水平，就是我们的零假设。

AI 超出这条基准线多少，才是它真正提供的增量。

用这个标准衡量，结论其实挺反直觉的：大多数随机问题，AI 确实比路人强得多。 道理很简单——普通人一旦离开自己的专业领域，知识覆盖极其稀疏。量子力学、合同法、16 世纪奥斯曼帝国的税制——随便挑一个，路人多半只能说「不知道」。AI 至少能给出一个像模像样的回答。

但这里藏着一个关键区别：

路人不懂的时候会说「不知道」，这是一个诚实的信号。AI 不懂的时候，照样侃侃而谈，给你一个可能完全错误的回答。

「不知道」本身就是有用的信息——它在告诉你「这事没那么简单」「你得找更专业的人」。这是一种保护。而 AI 永远一副胸有成竹的样子，恰恰把这层保护消灭了——你以为问题解决了，其实危险就藏在这种假的确定感里。

用信息论的话来说，这就是一种「虚假的熵压缩」。路人回答问题时，语气本身就是一个信号——有时候斩钉截铁，有时候犹犹豫豫，有时候直接说「不知道」。这个信号有变化，所以它携带信息：你可以从语气里读出「这个答案靠不靠谱」。但 AI 永远同一种自信语气，不管答的是量子力学还是今天中午吃什么。一个不变的信号不传递任何信息——你看了跟没看一样。更糟糕的是，当一个问题真的很不确定时，答案的可能性本来很多，不确定性很高。AI 直接给你一个斩钉截铁的答案，相当于把这种高不确定性强行压成了一个「确定」的点。看上去问题解决了，其实真实的不确定性一点没减少，只是你感知不到了。

还有个更隐蔽的问题：专家发现 AI 犯了错，这事通常上不了新闻。 谁会报道「AI 答错了一道肿瘤学问题」呢？更关键的是，这些错误很快就被下一次更新修复了——每发现一个错，AI 公司就赶紧迭代。所以我们看到的，是一个不断被「擦掉错误」的系统：失败悄悄消化，成功大肆宣传。看到的全是好的，难怪会高估。

超越正确率：校准度才是核心

答对还不够，关键是：它有几分把握？

一个真正聪明的人，九成把握的时候说话斩钉截铁，六成把握的时候会加一句「我不太确定」。这种「知道自己几斤几两」的能力，学术上叫校准度（calibration）。

普通人在这方面其实做得不错——大多数人对自己知识边界的感知还算靠谱。但大语言模型就不一样了，它回答什么都是一副胸有成竹的样子。

你问它「这颗痣要不要去看医生」，它说「看起来是良性的，不必担心」；你问它「Python 怎么写 for 循环」，也是一模一样的语气。问题是，这两件事的确定性差了十万八千里——但 AI 的口吻完全一样，你根本分不出它到底有没有把握。

数据也印证了这一点。2025 年《Nature》的一项研究发现，面对专家级的学术问题，多数 AI 模型的校准误差（RMS calibration error）超过 70%——答错了也一脸自信。同年哥伦比亚大学新闻评论测了 8 个 AI 搜索引擎，表现最好的 Perplexity 幻觉率 37%，最差的 Grok-3 高达 94%。关键不只是错得多，而是错了也不吭声——几乎从不表达不确定性。

到了 2026 年，MIT 团队专门研究了怎么识别大语言模型的过度自信。他们的结论很直白：模型有多自信和它实际有多准，两者之间的裂缝越来越大——放在医疗、金融这些场景里，后果不堪设想。

讽刺的是，「过度自信」本来是卡尼曼在《思考，快与慢》里反复批评的人类毛病。结果 AI 不但学会了，还青出于蓝。

给普通人的实用建议

那具体该怎么做？四件事：

记住基率。AI 表现惊艳的时候，先问自己：靠模式匹配碰巧答对的概率有多大？别被一次高光表现带跑。

出它没见过的题。自己编一个网上搜不到的新问题去考它。训练数据之外还能答好，那才是真本事。

看它会不会说「不知道」。不确定还侃侃而谈的，和能说「我不确定」的，聪明程度完全不同。

持续更新，别一锤定音。贝叶斯的精髓就是迭代。每次跟 AI 打交道都是新证据，慢慢修正判断，别被某一次体验锁死。

结语

贝叶斯定理给我们最重要的启示不是一个公式，而是一种思维习惯：在被表象打动之前，先问问基率是什么。

评估 AI 要用，生活中做判断也要用。下次被 AI 的回答惊艳到，不妨停下来想想史蒂夫——他看起来真的很像图书管理员，但他大概率是个农民。

参考文献

OpenAI, GPT-4 Technical Report, 2023. GPT-4 在 UBE 律师考试中得分 298/400（第 90 百分位）、SAT 阅读 710（第 93 百分位）、SAT 数学 700（第 89 百分位）的数据来源。

Bicknell et al., ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis, JMIR Medical Education, 2024. GPT-4o 在 USMLE 750 道题中正确率 90.4%，医学生平均 59.3% 的数据来源。

Eric Martínez, Re-evaluating GPT-4's Bar Exam Performance, Artificial Intelligence and Law, 2024. 重新评估 GPT-4 律师考试成绩：与执业律师比较降至约第 48 百分位，MEE+MPT 部分仅第 15 百分位。

Brin et al., GPT versus Resident Physicians — A Benchmark Based on Official Board Scores, NEJM AI, 2024. GPT-4 与执业医师对比：精神科第 75 百分位，儿科第 17.4 百分位，妇产科第 23.4 百分位。

NYSSCPA, Latest Version of ChatGPT Passed a Practice CPA Exam, 2023. GPT-4 通过 CPA 考试各科成绩：AUD 91.5%、BEC 85.7%、FAR 78%、REG 82%。

ARC Prize Foundation, ARC-AGI-2, 2025. 纯语言模型得分 0%，最佳推理系统 54%，普通人平均 60%。

Shojaee et al., The Illusion of Thinking, Apple Machine Learning Research / NeurIPS, 2025. 关于前沿基准（MMLU、HumanEval、GSM8K）失效的讨论。

Steyvers et al., What Large Language Models Know and What People Think They Know, Nature Machine Intelligence, 2025. AI 模型与人类之间的校准差距及过度自信问题。

Jaźwińska & Chandrasekar, AI Search Has a Citation Problem, Columbia Journalism Review, 2025. 8 个 AI 搜索引擎幻觉率测试：Perplexity 37%，Grok-3 94%。

MIT News, A Better Method for Identifying Overconfident Large Language Models, 2026. MIT 团队开发识别大语言模型过度自信的新方法。

Daniel Kahneman, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. 史蒂夫图书管理员/农民例子及基率忽视、过度自信等概念的来源。

更多数学推理的“拆解版”我单独写成了一篇补充文章：

补充：用大白话理解本文的贝叶斯思路（以及那条公式到底在说什么）

Follow Me ｜关注我

Blog:https://harryis.fish

X(CN): @harry_is_fish

X(EN): @harry_isfish

公众号

📺 Bilibili:海鱼Harry

🍠 小红书:海鱼Harry

🎵 抖音:海鱼Harry

普通人如何评估 AI 的智能水平？一个贝叶斯视角

2026年03月25日

分类

科技

标签

AI心理学认知提升

你有没有过这样的时刻——看到 AI 流畅地回答了一个专业问题，心里不由得想：它是不是真的懂了？

这些数字很唬人，也确实改变了大众对 AI 的看法。但这种看法有个根本性的偏差——而且，它和你大脑天生的一个 bug 密切相关。

多数人是怎么评估 AI 的？

最常见的方式是出一道题，看 AI 答得好不好。

答得好，就觉得「AI 真聪明」；犯了低级错误，又觉得「不过如此」。

问题在于，你只看到了它最高光的时刻，却忽略了背后的统计结构。

这和心理学里一个经典的认知偏差如出一辙。

史蒂夫是图书管理员还是农民？

丹尼尔·卡尼曼在《思考，快与慢》里讲过一个著名的例子：

史蒂夫非常害羞、内向，乐于助人，但对人和现实世界缺乏兴趣。他性格温顺、做事整洁，对秩序和细节有强烈的需求。

问：史蒂夫更可能是图书管理员，还是农民？

几乎所有人的直觉都会选图书管理员——这段描述和「图书管理员」的刻板印象高度吻合。

人们犯的错误是：只看「像不像」（似然），却忘了「多不多」（基率）。 卡尼曼管这叫「基率忽视」。

回头看 AI：「GPT-4 律师考试第 90 百分位」，我们的反应跟判断史蒂夫时一模一样——被「好像真的很聪明」的印象带走了，根本没想过基率。

用贝叶斯定理重新审视 AI 的表现

贝叶斯思路的核心其实很简单：

先有一个“原本的判断”（先验）：在看见这次回答之前，你觉得 AI 真的理解这个领域的概率有多大

再看“这次表现”更像哪一种情况：它是更像“真的懂的人才做得到”，还是更像“靠模式匹配也可能做出来”

然后把你的判断往对应方向更新，而不是被一次高光表现直接定性

把它套用到评估 AI 的场景里，你只需要记住三件事：

你原本对“AI 真的懂”的信心有多少（别从 0 直接跳到 100）

这次惊艳回答，在“真的懂”和“只是很会模仿”两种情况下，分别有多常见

结论要靠持续更新，而不是一锤定音

关键在于“区分度”：

如果这种回答几乎只有“真的懂”才给得出来，那你就应该大幅上调信心

如果“并不真的懂”也经常能碰巧给出这种回答，那你就只能小幅上调（甚至不该上调）

只有这个比值远大于 1——这种表现只有「真懂」才解释得了——你才该大幅上调信心。

一个更诚实的比较基准

贝叶斯告诉我们先验很重要。那么，我们的先验应该锚定在哪里？换句话说，既然要评估 AI 的「智能水平」，就需要一个基准。

我认为，一个更贴近真实使用场景的基准应该是：

到大街上随机拦一个人，问他一个随机专业领域的问题。这个人的平均水平，就是我们的零假设。

AI 超出这条基准线多少，才是它真正提供的增量。

但这里藏着一个关键区别：

路人不懂的时候会说「不知道」，这是一个诚实的信号。AI 不懂的时候，照样侃侃而谈，给你一个可能完全错误的回答。

超越正确率：校准度才是核心

答对还不够，关键是：它有几分把握？

普通人在这方面其实做得不错——大多数人对自己知识边界的感知还算靠谱。但大语言模型就不一样了，它回答什么都是一副胸有成竹的样子。

讽刺的是，「过度自信」本来是卡尼曼在《思考，快与慢》里反复批评的人类毛病。结果 AI 不但学会了，还青出于蓝。

给普通人的实用建议

那具体该怎么做？四件事：

记住基率。AI 表现惊艳的时候，先问自己：靠模式匹配碰巧答对的概率有多大？别被一次高光表现带跑。

出它没见过的题。自己编一个网上搜不到的新问题去考它。训练数据之外还能答好，那才是真本事。

看它会不会说「不知道」。不确定还侃侃而谈的，和能说「我不确定」的，聪明程度完全不同。

持续更新，别一锤定音。贝叶斯的精髓就是迭代。每次跟 AI 打交道都是新证据，慢慢修正判断，别被某一次体验锁死。

结语

贝叶斯定理给我们最重要的启示不是一个公式，而是一种思维习惯：在被表象打动之前，先问问基率是什么。

评估 AI 要用，生活中做判断也要用。下次被 AI 的回答惊艳到，不妨停下来想想史蒂夫——他看起来真的很像图书管理员，但他大概率是个农民。

参考文献

OpenAI, GPT-4 Technical Report, 2023. GPT-4 在 UBE 律师考试中得分 298/400（第 90 百分位）、SAT 阅读 710（第 93 百分位）、SAT 数学 700（第 89 百分位）的数据来源。

Bicknell et al., ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis, JMIR Medical Education, 2024. GPT-4o 在 USMLE 750 道题中正确率 90.4%，医学生平均 59.3% 的数据来源。

Eric Martínez, Re-evaluating GPT-4's Bar Exam Performance, Artificial Intelligence and Law, 2024. 重新评估 GPT-4 律师考试成绩：与执业律师比较降至约第 48 百分位，MEE+MPT 部分仅第 15 百分位。

Brin et al., GPT versus Resident Physicians — A Benchmark Based on Official Board Scores, NEJM AI, 2024. GPT-4 与执业医师对比：精神科第 75 百分位，儿科第 17.4 百分位，妇产科第 23.4 百分位。

NYSSCPA, Latest Version of ChatGPT Passed a Practice CPA Exam, 2023. GPT-4 通过 CPA 考试各科成绩：AUD 91.5%、BEC 85.7%、FAR 78%、REG 82%。

ARC Prize Foundation, ARC-AGI-2, 2025. 纯语言模型得分 0%，最佳推理系统 54%，普通人平均 60%。

Shojaee et al., The Illusion of Thinking, Apple Machine Learning Research / NeurIPS, 2025. 关于前沿基准（MMLU、HumanEval、GSM8K）失效的讨论。

Steyvers et al., What Large Language Models Know and What People Think They Know, Nature Machine Intelligence, 2025. AI 模型与人类之间的校准差距及过度自信问题。

Jaźwińska & Chandrasekar, AI Search Has a Citation Problem, Columbia Journalism Review, 2025. 8 个 AI 搜索引擎幻觉率测试：Perplexity 37%，Grok-3 94%。

MIT News, A Better Method for Identifying Overconfident Large Language Models, 2026. MIT 团队开发识别大语言模型过度自信的新方法。

Daniel Kahneman, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. 史蒂夫图书管理员/农民例子及基率忽视、过度自信等概念的来源。

更多数学推理的“拆解版”我单独写成了一篇补充文章：

补充：用大白话理解本文的贝叶斯思路（以及那条公式到底在说什么）

Follow Me ｜关注我

Blog:https://harryis.fish

X(CN): @harry_is_fish

X(EN): @harry_isfish

公众号

📺 Bilibili:海鱼Harry

🍠 小红书:海鱼Harry

🎵 抖音:海鱼Harry

普通人如何评估 AI 的智能水平？一个贝叶斯视角

多数人是怎么评估 AI 的？

史蒂夫是图书管理员还是农民？

用贝叶斯定理重新审视 AI 的表现

一个更诚实的比较基准

超越正确率：校准度才是核心

给普通人的实用建议

结语

参考文献

Follow Me ｜ 关注我

普通人如何评估 AI 的智能水平？一个贝叶斯视角

多数人是怎么评估 AI 的？

史蒂夫是图书管理员还是农民？

用贝叶斯定理重新审视 AI 的表现

一个更诚实的比较基准

超越正确率：校准度才是核心

给普通人的实用建议

结语

参考文献

Follow Me ｜ 关注我

Follow Me ｜关注我

Follow Me ｜关注我