腾讯混元推出 Hy-Memory：赋能Agent颠覆传统长期记忆模式

5月28日，腾讯混元正式对外公布了其最新研发成果——Hy-Memory。这款旨在为Openclaw这类长期协作型Agent提供服务的记忆插件，被定位为Agent的“第二大脑”，其核心目标是彻底改变Agent的长期记忆能力。

根据官方介绍，Hy-Memory巧妙地融合了6层记忆框架、System1/System2双系统以及演化链三项关键技术。这一组合拳使得Agent在长期应用过程中，能够实现记忆的“记得住、记得对、记得轻、更懂你”的理想状态。

在经过严苛的权威公开测试集检验后，Hy-Memory的表现显著优于当前市场上的主流记忆框架。它有效克服了记忆碎片化的难题，将记忆数量降低了70%以上，同时每条记忆的信息密度提升了至少45%。在处理超长文本环境时，Hy-Memory能够将消耗的token量减少35%，并且记忆的更新速度加快了20%。

长期任务对Agent的记忆能力提出了远高于传统聊天的要求。资深Agent用户常经历一个“三周轨迹”：第一周是“蜜月期”，用户将大量项目细节、决策考量和未来规划倾诉给Agent，对其解答问题、查询资料、规划方案、编写代码和起草文档的能力赞不绝口。然而，到了第二周，用户开始感到不安。他们发现每次启动Agent对话时，都需要花费3到5分钟来重新提醒它当前的任务背景和此前的讨论内容。当提及“按之前那个方案”，Agent会反问是哪一个；即使是“我们排除掉的选项”，它也可能忘记排除的原因。尽管Agent默认的记忆机制能保留近期对话，但涉及到跨天、跨会话的深层判断，其记忆力便会明显漂移。

进入第三周，用户往往会自觉降级对Agent的使用深度。他们不再探讨“这个方向我该不该走”这类深层次问题，因为预见到第二天Agent就会遗忘。取而代之的是，Agent被局限于处理更具体、更即时的小问题，如资料搜索、语法检查或文本修改。最终，Agent在用户心中的形象从“能陪你思考的伙伴”沦为了“一个查询工具”。这并非Agent核心能力不足，而是长期协作任务对记忆能力的高标准远超了普通聊天模式所能提供的支持。

Hy-Memory作为Openclaw的记忆插件，其设计初衷便是为了消除“三周轨迹”中后两周的困境。它的目标是让用户即使在第三个月，也能像第一周那样自如地使用Openclaw，并且随着使用时间的增长，Agent能越来越懂用户。

深层次的长期任务对记忆系统构成多重挑战。无论是利用Openclaw研究复杂决策、撰写书籍、规划大型旅行还是跟进季度项目，一次对话可能包含30、50甚至100轮交互，期间频繁涉及资料查询、工具调用、文档阅读、方案提出、回退和反复修改。一次会话可能持续数小时，而整个任务可能横跨数周。优秀的记忆系统必须能够应对以下四个关键需求，任何一个环节的失效都将严重影响用户体验。

在设计Hy-Memory时，我们围绕“长期协作场景下，合格的Agent记忆插件应具备何种能力”设定了三项核心标准：

首先，记忆系统必须“不能丢历史”。用户与Agent交流过的，关于“为何选择此方案、为何否决彼方案”的判断和因果关系至关重要。如果这些信息丢失，Agent下次可能会再次推荐已被否决的方案，造成时间浪费。

其次，记忆系统需具备“演化能力”。人的技术偏好、生活习惯和长期目标会随时间变化，对特定事物的看法也会不断调整。这些演化轨迹都应被记录下来，而非简单地“只记最新”或“全部堆积”，必须形成清晰的演进脉络。

最后，在主流程中，记忆系统不仅要“足够迅速”，还需具备“认知迭代和进化”的能力。记忆插件不应拖慢用户输入、调用工具或等待结果的速度。每次搜索必须在毫秒级完成，召回机制也不能成为响应的瓶颈。同时，它还需展现深层次的语义和事实理解能力。

接下来将详细阐述Hy-Memory满足这三项标准的三层核心技术。

Hy-Memory的第一层核心是其“6层记忆框架”，旨在为不同类型的记忆找到最恰当的存储位置。传统记忆系统常常将所有信息混为一谈，例如当用户提及“正在准备出国留学”时，其中包含了事实（“我在准备出国留学”）、个人画像（“我偏好北欧慢节奏项目”）、心智模型（“我做大决策前会列利弊清单”）以及前瞻意图（“我下周可能问推荐信怎么找教授”）。这些信息形态各异，但传统系统往往将其统一向量化，并在搜索时一并捞取。Hy-Memory则将记忆细分为6个层级，每个层级承担特定的记忆职责。例如，当用户询问“我做大决策有什么习惯”时，Agent会优先检索第五层的心智模型，而非冗长地回顾之前一百轮对话原文。当用户询问“我现在住在哪”，第二层的事实记忆便已足够。这种分层机制使得Agent能够根据提问内容，选择合适的记忆层级进行检索，并应用相应的检索权重，从而使整个prompt更加简洁，模型的注意力不再被无关原文稀释。

第二层核心是Hy-Memory的“双系统设计”，这使得它能够在确保速度的同时，实现认知迭代。Hy-Memory借鉴人脑的认知科学，将System1/System2机制直接应用于Agent的记忆加工过程，如同为Openclaw植入了符合认知科学的“大脑”。它将记忆加工分为两套系统：System1（白班）负责在用户每次输入回车时，实时处理写入的记忆，包括记录原始痕迹、提取事实、更新画像和生成会话摘要，对应L1-L4层记忆。System2（夜班）则在后台以秒到分钟级的速度运行，负责提取心智模型、构建知识网络和预测意图，对应L5-L6层记忆。之所以进行这种拆分，是因为深层认知处理过程耗时较长，例如构建用户的“决策心智模型”或“知识网络”可能需要5到20秒。如果用户每次调用Openclaw都需等待20秒才能收到回复，那将严重影响使用体验。然而，用户期望的不仅仅是“快”，更是Agent能够“越用越懂你”。Hy-Memory的这种拆分将“快”与“深度理解”这两个看似矛盾的需求，转化为了两条独立的通道：用户发送消息后，System1迅速完成“立即可用的记忆”写入，确保下一句对话能够立即利用这些信息；同时，System2在后台持续进行更深层次的认知处理，将用户数周的对话沉淀为“你的决策心智”。这种机制最终体现在对话中，就是每次用户传达的信息都能被Agent即时记住，而Agent对用户的理解则在后台不断深化。

第三层核心是Hy-Memory的“演化链”，这是其真正的杀手锏，专门解决用户与Agent长期协作中最容易遇到的困境。在一个典型的长期场景中，假设一位用户与Openclaw讨论了半年健身计划，期间其训练态度历经四次明显转变：去年春季，他开始跑步并取得良好效果，对跑步充满信心；去年夏季，因练习HIIT导致膝盖受伤，被迫停训两周；去年秋季，转向纯力量训练，却因此心肺功能下降，感到挫败；上个月，最终形成了“力量+慢跑+瑜伽”的混合方案，身体状态趋于稳定。今天，他询问Openclaw：“下个月我想新增一种训练方式，你有什么建议？”

此时，不同的记忆系统会给出迥异的答案。第一种是“覆盖派”（只记最新），许多默认记忆系统会用新信息覆盖旧信息，导致库中只剩下“用户当前使用混合训练效果良好”的记录。Agent可能回答：“你现在的力量+慢跑+瑜伽组合不错，可以试试CrossFit，效率高。”这个回答并非完全错误，但过于片面，它忽略了用户经历过的“HIIT曾导致膝盖受伤”和“纯力量训练导致心肺不足”等具体经历，直接推荐CrossFit很可能让用户再次受伤。

第二种是“堆积派”（全部保留），这类系统会保留所有信息，但在搜索时依据向量相似度进行召回。尽管四条事实都在，但搜索“新训练方式”时，最相关、最相似的记录（如“跑步起步效果不错”和“混合训练稳定”）会被优先召回，而“HIIT膝盖受伤”和“纯力量心肺下降”这类在语义空间距离稍远的记录可能根本不会被召回。Agent可能回答：“你跑步效果不错，混合训练也稳定，可以加一个HIIT试试，提升心肺效率高。”这种回答便踩雷了，它没有意识到用户曾在HIIT上受过伤，再次推荐等同于让用户重蹈覆辙。

而Hy-Memory的“演化链”机制则截然不同。当写入第二条记忆时，它会通过supersedes指针指向第一条；第三条指向第二条，以此类推，四条记忆最终串联成一条链。当用户询问“新训练方式选什么”时，系统会命中链头（D，混合训练方案），并自动展开整条链，将A、B、C、D序列一并提供给Agent。此时，Agent接收到的不再是孤立的结论，而是完整的态度演变过程：从跑步起步，到HIIT伤膝盖，再到纯力量心肺下降，最后稳定为混合方案。Agent的回答将变得更具洞察力：“你之前在训练上走过完整历程：从跑步起步，到HIIT伤膝盖，纯力量又导致心肺不足，直至上月才确定力量+慢跑+瑜伽的稳定组合。因此，对于新训练，我建议你避开高冲击爆发类训练（如CrossFit、HIIT），因为你的膝盖有过受伤史。若想增加新内容，考虑游泳或骑行这类低冲击有氧运动，或爬山/长距离慢跑——这些都比重新尝试HIIT更安全。”这种回答质量的提升，并非源于模型本身，而是记忆结构的优化。

演化链技术的核心在于两点：第一，新记忆写入时，通过supersedes指针指向旧记忆，构建一条链；第二，搜索命中链上任何一个节点时，自动展开整条链。这意味着最新的判断位于链头，而被否决、被替代或被废弃的旧版本并不会被丢弃，它们仅仅退居链身，需要时可随时展开。我们认为，这正是Agent长期陪伴用户时，“长期记忆”的最佳形态。

Hy-Memory在多项权威评测中表现卓越，超越了同类框架。

在LongMemEval这一公认严苛的长期记忆评测中，Hy-Memory取得了85.2分，远超其他框架。LongMemEval包含500道题，覆盖6个能力维度。Hy-Memory不仅全面胜出，更在“演化能力”最受考验的偏好（+21.11pp）、时序推理（+9.63pp）和知识更新（+21.37pp）三项上，领先同类产品。

在PersonaMem评测中，Hy-Memory同样击败所有同类产品。PersonaMem包含6000多条消息和589道题，更贴近用户长期使用的真实场景（数月）。

在性能方面，Hy-Memory在提供更高记忆密度的同时，写入速度也有显著提升，特别是比Graphiti快8倍。

Openclaw用户将能真切感受到Hy-Memory带来的优势：写入速度快，与mem0同级别，但比Graphiti快8倍，不会阻塞Openclaw的对话主流程；存储量小，记忆条数仅为mem0的三分之一，Graphiti的四分之一至五分之一，采用本地嵌入式存储，无需外部服务，内存占用低；密度更高，单条记忆的信息密度是mem0的3-4倍，每次召回的记忆更具实效性，防止prompt被无关的噪声污染。

对于长期任务而言，最后一点尤为关键。当一次会话进行到80轮时，所召回的每一条记忆都必须是高密度的，否则prompt很快就会被噪音信息填满，导致模型注意力被稀释。Hy-Memory的高密度特性意味着在相同的Token预算下，Openclaw能够比使用其他记忆系统多处理3-4倍的有效信息。