2023 年,OpenAI 宣布 GPT-4 在美国律师资格统一考试(UBE)中拿到 298 分(满分 400),排在所有考生的第 90 百分位。SAT 阅读 710 分,第 93 百分位;数学 700 分,第 89 百分位。GPT-4o 在美国医师执照考试(USMLE)中正确率达到 90.4%,医学生的平均正确率只有 59.3%。
这些数字令人震撼,也深刻地塑造了公众对 AI 智能水平的认知。但这种认知方式有一个根本性的偏差。
本文试图借助贝叶斯定理,为普通人构建一个可用的评估框架。
多数人是怎么评估 AI 的?
最常见的方式是出一道题,看 AI 答得好不好。
答得好,就觉得「AI 真聪明」;犯了低级错误,又觉得「不过如此」。
媒体也在强化这种评估方式。「GPT-4 通过律师资格考试,第 90 百分位!」「AI 在医学考试中超过了九成考生!」这类标题给人一种强烈的暗示:AI 已经比大多数专业人士更聪明了。
问题在于,这种评估完全依赖特定场景下的峰值表现,忽略了更重要的统计结构。
这和心理学里一个经典的认知偏差如出一辙。
史蒂夫是图书管理员还是农民?
丹尼尔·卡尼曼在《思考,快与慢》里讲过一个著名的例子:
史蒂夫非常害羞、内向,乐于助人,但对人和现实世界缺乏兴趣。他性格温顺、做事整洁,对秩序和细节有强烈的需求。
问:史蒂夫更可能是图书管理员,还是农民?
几乎所有人的直觉都会选图书管理员——这段描述和「图书管理员」的刻板印象高度吻合。
但正确的推理必须考虑基率(base rate):美国的农民远比图书管理员多,比例大约是 20 比 1。即便图书管理员中害羞内向的比例更高,农民的绝对基数也大得多。哪怕只有一小部分农民符合这段描述,人数也可能超过所有符合描述的图书管理员。
人们犯的错误是:只看描述的匹配度(似然),却忽略了基率(先验)。 卡尼曼称之为「基率忽视」。
再看 AI 的例子:看到「GPT-4 律师考试第 90 百分位」,我们的直觉反应和判断史蒂夫身份时一模一样——只被「表现与智能的匹配度」吸引,却忽略了更重要的基率问题。
用贝叶斯定理重新审视 AI 的表现
贝叶斯定理的核心公式:
把它套用到评估 AI 智能的场景里:
- H(假设):AI 对某个领域确实具备深度理解
- E(证据):我们观察到 AI 给出了一个令人印象深刻的回答
- P(H):先验——在看到回答之前,AI 真正「理解」该领域的概率有多大
- P(E|H):假设 AI 确实理解,那么它给出这种回答的概率
- P(E|¬H):假设 AI 只是在做高级模式匹配、并不真正理解,它碰巧给出这种回答的概率
关键在于似然比:
只有当这个比值远大于 1——也就是说,这种表现几乎只能用「真正的智能」来解释——我们才应该大幅上调对 AI 智能水平的信念。
现实情况是:大语言模型经过海量数据训练,面对非常多的问题都能给出「看起来很聪明」的回答($P(E|neg H)$ 并不低)。就像农民中也有害羞内向的人一样,「仅凭模式匹配也能产出深刻回答」这个基类,远比我们直觉以为的要大。
一个有力的例证来自 MIT 研究者 Eric Martinez。他重新评估了 GPT-4 的律师考试成绩。OpenAI 所说的「第 90 百分位」,比较对象是全部考生,其中包含大量没通过考试的人。换成只和已经通过考试的执业律师比,GPT-4 的排名跌到大约第 48 百分位,只是合格律师中的中等水平。更值得注意的是,在更贴近实际法律工作的开放式写作部分(MEE 和 MPT),GPT-4 只排在合格律师中的第 15 百分位。
医学领域也呈现同样的规律。《NEJM AI》发表过一项研究,将 GPT-4 的表现与执业医师(而非在校学生)做对比:精神科排在第 75 百分位,儿科只排第 17.4 百分位,妇产科只排第 23.4 百分位。换句话说,AI 在标准化考试中的惊艳成绩,很大程度上体现的是它做封闭题、选标准答案的能力,而非真正的专业理解。
一个更诚实的比较基准
既然要评估 AI 的「智能水平」,就需要一个基准。
最常见的做法是拿 AI 和专家比:「GPT 在医学考试中超过了九成考生」「AI 编程水平达到了中级工程师」「GPT-4 通过了注册会计师考试,审计科目拿了 91.5 分」。但这些评测有一个隐蔽的偷换——考试场景是有标准答案的、特定领域的封闭题集,而这恰恰是 AI 最擅长的战场。
AI 评测领域自身也在反思这个问题。截至 2025 年,MMLU、HumanEval、GSM8K 等曾经的主流基准已被评测社区宣布「失效」,因为所有前沿模型的得分都超过了 90%,完全丧失了区分度。而真正能考察推理能力的新测试——比如 ARC-AGI-2——结果截然不同:纯语言模型得分为 0%,最好的推理系统也只有 54%,普通人的平均分则是 60%。
我认为,一个更贴近真实使用场景的基准应该是:
到大街上随机拦一个人,问他一个随机专业领域的问题。这个人的平均水平,就是我们的零假设。
AI 超出这条基准线多少,才是它真正提供的增量。
用这个视角去衡量,会得到一个有趣的、可能违反直觉的结论:面对绝大多数随机问题,AI 确实远胜于随机路人。 道理很简单——普通人一旦离开自己的专业领域,知识覆盖极其稀疏。量子力学、合同法、16 世纪奥斯曼帝国的税制——随便挑一个,路人多半只能说「不知道」。AI 至少能给出一个像模像样的回答。
但这里藏着一个关键区别:
路人不懂的时候会说「不知道」,这是一个诚实的信号。AI 不懂的时候,照样侃侃而谈,给你一个可能完全错误的回答。
超越正确率:校准度才是核心
这就引出了一个更深层的评估维度——校准度(calibration)。
一个真正智能的系统,不仅要在「知道」的时候答对,还要在「不知道」的时候坦诚地表达不确定。也就是说,95% 把握的回答和 60% 把握的回答,应该体现出不同的置信度。
在这个维度上,随机路人的表现其实相当不错——对自己知识边界的感知大体准确。大语言模型则差得多:不管内容是否可靠,它几乎对所有回答都使用同样自信的语气。
这不是主观感受,有研究数据支撑。2025 年发表于《Nature》的一项研究发现,面对专家级别的学术问题,多数 AI 模型的校准误差(RMS calibration error)超过 70%——给出错误答案时仍表现出极高的置信度。同年,哥伦比亚大学新闻评论测试了 8 个 AI 搜索引擎,结果显示:表现最好的 Perplexity 幻觉率为 37%,最差的 Grok-3 高达 94%。更值得注意的是,多数模型频繁出错的同时,几乎从不表达不确定性。
2026 年,MIT 团队专门开发了一种识别大语言模型过度自信的新方法。他们指出,模型的自信程度和实际准确度之间的脱节,一旦进入医疗、金融等高风险场景,后果可能非常严重。
讽刺的是,这正是卡尼曼在《思考,快与慢》里反复批评的人类认知缺陷——过度自信。AI 不仅继承了这个毛病,甚至变本加厉。
给普通人的实用建议
基于以上分析,评估 AI 智能水平时不妨遵循几条原则:
- 时刻记住基率。AI 表现出色的时候,先问自己:仅凭模式匹配碰巧答对的概率有多大?不要因为一次惊艳表现就大幅改变判断。
- 设计高似然比的测试。用你自己编造的、网上找不到的全新问题去考 AI。如果它在训练数据之外的新题上依然表现良好,这才是强有力的证据。
- 关注它怎么处理「不知道」。不确定时仍然侃侃而谈的系统,和能坦诚说「我不确定」的系统,背后的智能含量截然不同。
- 持续更新,不要一锤定音。贝叶斯推理的精髓在于迭代。每一次与 AI 的交互都是新的证据,应当逐步修正你的判断,而非被某一次体验锁死。
结语
AI 正变得越来越强大,这毫无疑问。但评估「究竟有多强」这件事,同样需要智慧。
贝叶斯定理给我们最重要的启示不是一个公式,而是一种思维习惯:在被表象打动之前,先问问基率是什么。 这个习惯不仅适用于评估 AI,也适用于生活中几乎所有的判断。
毕竟,卡尼曼只用了一个关于图书管理员和农民的小故事,就揭示了人类认知的深层缺陷。面对 AI 时,我们带着同样的大脑、同样的偏差——唯一不同的是,这一次赌注更高。
参考文献
- OpenAI, GPT-4 Technical Report, 2023. GPT-4 在 UBE 律师考试中得分 298/400(第 90 百分位)、SAT 阅读 710(第 93 百分位)、SAT 数学 700(第 89 百分位)的数据来源。
- Bicknell et al., ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis, JMIR Medical Education, 2024. GPT-4o 在 USMLE 750 道题中正确率 90.4%,医学生平均 59.3% 的数据来源。
- Eric Martínez, Re-evaluating GPT-4's Bar Exam Performance, Artificial Intelligence and Law, 2024. 重新评估 GPT-4 律师考试成绩:与执业律师比较降至约第 48 百分位,MEE+MPT 部分仅第 15 百分位。
- Brin et al., GPT versus Resident Physicians — A Benchmark Based on Official Board Scores, NEJM AI, 2024. GPT-4 与执业医师对比:精神科第 75 百分位,儿科第 17.4 百分位,妇产科第 23.4 百分位。
- NYSSCPA, Latest Version of ChatGPT Passed a Practice CPA Exam, 2023. GPT-4 通过 CPA 考试各科成绩:AUD 91.5%、BEC 85.7%、FAR 78%、REG 82%。
- ARC Prize Foundation, ARC-AGI-2, 2025. 纯语言模型得分 0%,最佳推理系统 54%,普通人平均 60%。
- Shojaee et al., The Illusion of Thinking, Apple Machine Learning Research / NeurIPS, 2025. 关于前沿基准(MMLU、HumanEval、GSM8K)失效的讨论。
- Steyvers et al., What Large Language Models Know and What People Think They Know, Nature Machine Intelligence, 2025. AI 模型与人类之间的校准差距及过度自信问题。
- Jaźwińska & Chandrasekar, AI Search Has a Citation Problem, Columbia Journalism Review, 2025. 8 个 AI 搜索引擎幻觉率测试:Perplexity 37%,Grok-3 94%。
- MIT News, A Better Method for Identifying Overconfident Large Language Models, 2026. MIT 团队开发识别大语言模型过度自信的新方法。
- Daniel Kahneman, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. 史蒂夫图书管理员/农民例子及基率忽视、过度自信等概念的来源。