百川智能发布Baichuan-M4医疗大模型，幻觉率低至3.3%并推AI家庭医生“百小医”

在清华大学百川楼举办的“AI医疗新范式”学术论坛上，百川智能创始人兼CEO王小川对外展示了他们即将发布的新一代医疗大模型Baichuan-M4及其配套的AI家庭医生产品“百小医”。

这项成果的背后，是百川智能与北京儿童医院、中国医学科学院肿瘤医院以及上海交通大学医学院附属瑞金医院这三家国内领先医疗机构在临床研究方面的深度合作。

王小川指出，在数字创造（coding）和娱乐（video）领域之后，健康领域是人工智能智力模型尚未完全攻克的关键挑战。

他强调，人工智能要真正融入医疗实践，就必须构建以医疗为核心的增强型大模型。王小川总结了医疗领域对大模型的三项核心要求：

首先是低幻觉。医疗诊断容不得任何虚构或错误判断，因为这可能直接关系到患者的生命安全。此前的研究显示，通用模型在医疗问答中存在高达50%的问题回答率，近20%甚至被判定为“高度有问题”，这在严肃的医疗场景中是不可接受的。

其次是强循证。临床诊断必须遵循严格的循证医学路径，而非简单的“根据症状猜测最可能的疾病”。通用模型普遍缺乏系统的循证推理能力，多项评估指出其在鉴别诊断阶段的错误率超过80%，往往过早锁定结论，而非按照指南进行层层排除。

第三是会提问。经验丰富的医生绝不会在患者只说一两句话后就妄下判断。牛津大学的研究发现，尽管AI在处理标准化病历时准确率可达94.9%，但当患者自行使用描述时，准确率却骤降至34.5%。这主要因为患者的描述往往不完整，而通用模型无法像医生那样进行主动追问。

通用大模型在上述这三项关键需求上均未能达标。为此，百川智能在其M系列医疗专用大模型上进行了深度优化。

据百川智能介绍，新一代医疗大模型Baichuan-M4在HealthBench、HealthBench Hard、HealthBench Professional这三大权威医疗榜单上均取得了世界第一的成绩，其表现超越了GPT-5.5、Opus 4.7、DeepSeek-V4-Pro等竞争对手。通过采用原创的事实性感知强化学习算法，Baichuan-M4已将裸模型的事实性幻觉率成功降低至3.3%。

然而，模型能力的提升并不直接等同于患者的最终获益。王小川认为，大脑解决了能力层面的问题，而身体解决的是触达层面的问题。中国医疗体系的核心矛盾在于优质医疗资源的供给不足。人工智能的发展需要找到合适的产品形态来解决这一痛点。

百川智能即将发布的AI家庭医生“百小医”的核心定位是“明明白白看医生，安安心心管家人”。

值得关注的是，“百小医”将依托微信生态运行，通过引导用户添加企业微信“百小医@百川家医”，在家庭群中自动为每位成员建立独立的健康档案。它能够在对话中捕捉并结构化记录每个人的身体状况、用药历史和检查数据，甚至能从日常聊天中识别出高危信号，并主动提醒用户复诊和按时用药。