← 返回新闻列表

腾讯Marvis:系统级AI助手的潜力与挑战

腾讯应用宝团队推出的AI助手“马维斯”(Marvis)以其“操作系统层级”的定位,引起了广泛关注。它不仅能在Windows系统内调用本地文件、修改设置,还能启动应用甚至实现跨屏操作。本文通过48小时实测,探究了Marvis在任务执行、时间感知、图片处理及批量操作等方面的表现,揭示了其作为系统级AI助手的独特优势和当前面临的挑战。

文 / 编辑部 · 2026/05/28 · 阅读约 7 分钟

分享:
腾讯Marvis:系统级AI助手的潜力与挑战

近期,名为“马维斯”(Marvis)的AI助手在微信朋友圈中迅速走红。这款由腾讯应用宝团队研发的新产品,其官方定位是“操作系统层级”的AI助手。这意味着它不再局限于浏览器内的聊天功能,而是直接深入Windows系统,具备调用本地文件、调整系统设置、启动应用程序,乃至跨屏操控手机应用的能力。

官方宣传语直言不讳:“装上就有6个AI牛马帮你干活。”作为一个长期被选题和撰稿工作缠身的媒体从业者,我对此类“全能型数字助理”充满期待,并决定借此机会整理工作流程。于是,我下载了Marvis,开始了为期48小时的亲身体验,旨在评估它能否真正提升我的工作效率。

以下所有测试均基于我个人的真实操作记录。

当明确指令遭遇执行偏差

自媒体工作的核心在于选题,而选题的关键在于信息收集。因此,我像使用其他AI模型一样,首先指示Marvis为我构建一个追踪“AI热点”的资讯任务,希望从中获取创作灵感。

任务创建过程顺利,Marvis很快便通知我文件已生成。然而,当我满怀期待地打开输出文档时,却发现其中充满了乱码。

坦白说,这是我在使用众多大型模型和AI工具以来,首次遭遇输出文件乱码的情况。我立即在对话框中指出了问题,Marvis的反应迅速——它立刻“意识”到问题,并解释说任务说明已明确要求UTF-8编码,乱码通常是由于写入文件时未显式指定编码导致的。

但这里有一个值得深入思考的细节:写入指令明明明确要求了UTF-8编码,但在实际执行环节却“遗漏”了这一步。这让我想到一个更深层次的问题:当AI助手拥有直接操作系统文件的权限时,“理解指令”与“严格执行指令”之间,实际上还存在一道执行的鸿沟。Marvis能够理解我的需求,但在调用底层系统API写入文件时,编码参数的传递出现了断层。幸运的是,在我指出问题后,它迅速进行了修正,任务恢复正常。

系统级AI的初次考验,不在于“能否完成”,而在于“能否稳定、无误地完成”。尽管初始体验不佳,但其自我纠错能力尚可。

AI的“时间感知”为何会出错?

完成一段文稿后,我希望Marvis能帮我设置一个闹钟,提醒我稍后起来活动,劳逸结合。然而,这个看似简单的指令,却引发了一出“四幕剧”。

第一幕:时间错觉(9:40 → 设置10:00闹钟)

当时是9:40,我让Marvis设置一个10点的闹钟。结果它“自圆其说”地告诉我10点已过,于是为我创建了一个次日10点的闹钟。

我当时非常震惊。9:40到10:00之间还有20分钟,Marvis是如何判断“时间已过”的?这个bug揭示了一个问题:AI在某些场景下对“当前系统时间”的感知逻辑会出现偏差。

深究这个逻辑偏差,可能是代理调用了错误的工具导致信息抓取错误,也可能是模型返回的具体时间存在问题。短期来看尚可接受,但若长期使用,稳定性无疑是影响生产力的关键。Marvis在基础时间判断方面,确实有待加强。

第二幕:正常发挥(10:30闹钟)

我不死心,重新测试,设置了一个10:30的闹钟。这次任务立刻创建成功,没有出现任何停顿。

第三幕:保守策略(8:00闹钟)

我故意选择了一个已经过去的时间(8:00)。这次它没有再犯“时间错觉”的错误,而是切换到另一种交互模式:弹出一个手动确认窗口,要求我在系统层面亲自确认。

这种“拿不准就交给人”的策略,虽然效率稍低,但至少避免了错误,值得肯定。

第四幕:进化自查(10:08闹钟)

第四次,我设置了一个10:08的闹钟。这一次,Marvis的表现截然不同——它开始进行自查:先核对当前时间,再确认目标时间是否合理,最后才执行创建。

此后我又反复测试了几次,均未再出现问题,任务创建变得及时而便捷。

这四次闹钟测试,几乎浓缩了AI产品迭代的典型路径:从幻觉错误,到保守兜底,再到自查修正。Marvis的学习和纠错速度超出了我的预期。

图片生成与识别仍是短板

文稿准备就绪后,我需要配图。我尝试使用Marvis生成图片,但结果质量不尽如人意,画面模糊,风格也不统一。

随后,我测试了它的“找图”能力,特别关注人物识别。我让它查找某位公众人物的照片,按理说,这是腾讯自家生态的优势领域,我对此抱有期待。但结果基本无法匹配。

更令人尴尬的是,当我反过来拿着它找到的图片询问“这是谁”时,它也只能给出泛泛的描述,无法准确识别出人名。

后来我才了解到:Marvis目前不具备人脸生物识别和比对的权限与能力。这并非技术无法实现,而是涉及到隐私合规的边界问题——一个能够自由操作电脑的AI,如果再拥有精准的人脸识别能力,安全争议将会呈指数级上升。因此,这是行业普遍存在的问题,倒也无需过度担忧。

然而,“小马”还是给了我一个惊喜,那就是它的“本地知识库”。在选择图片时,我发现它会将我本地的图片和文档整合到一个整体的库中,形成一个全局图库。对于媒体工作者而言,桌面通常是这样的:

(此处应引用或描述一张杂乱桌面图)

对于文档类内容尚可,但图片类信息一旦存入电脑几乎就难以再次找到。而这个本地知识库可以支持我通过模糊语义查找特定内容,大大提高了我的效率。

在图片生成和人物识别这两个方面,Marvis目前尚无法替代专业工具。它的优势不在于“创作视觉内容”,而在于“协助调用和管理视觉内容”。

批量操作才是“系统级AI”的真正主场

文章撰写完成后,进入最繁琐的多平台同步阶段。我有一个Excel表格,里面存储着微信公众号、知乎、头条号、微博等所有平台的发布链接。

以往的流程是:找到表格 → 打开 → 逐个复制链接 → 粘贴到浏览器 → 登录 → 发布。整个过程手动操作,至少耗时十几分钟。

这次我让Marvis直接读取桌面上的表格文件,并打开其中所有网址。我原本以为会卡顿,甚至做好了等待三五分钟的心理准备。结果不到一分钟,我眼看着它依次完成:读取桌面文件 → 解析表格 → 启动浏览器 → 逐个打开平台网址。浏览器里的标签页瞬间拉满,效率提升肉眼可见。

随后,我还让它整理了电脑里散落的旧稿件,统一梳理命名规则。这些“体力活”它都完成得干净利落。

在创作间隙,我随手让它“打开网易云,放首歌”,它也能秒速响应。甚至最后,我让它扫描了一遍电脑里可卸载的App和陈年图片。它不仅分析迅速,对卸载建议也说得头头是道;那些深藏在磁盘深处、连我自己都遗忘的老照片,也被它整理得井井有条。

看着老照片,听着音乐,属于我个人的独处时光降临。反正今天的工作Marvis已帮我处理不少,现在可以进入今天的“emo”时刻了。

Marvis的真正价值在于,它能将“重复性、流程化、跨应用”的繁琐工作自动化。它不是替代你的思维,而是替代你的双手。

它为何总在“确认”?

在整个测试过程中,我注意到Marvis有一个非常鲜明的交互特点:频繁确认。

删除文件前确认、修改设置前确认、执行可能影响系统的操作前确认……几乎每一个涉及“写入操作”的环节,它都会停下来问你:“确定要这样做吗?”

Marvis的“过度确认”,究竟是AI尚未完全释放其便捷性?还是开发者刻意将最终决定权牢牢掌握在用户手中,划定一条“不越界”的安全线?

我的看法是:面对系统级权限,“保守”比“激进”更为负责。一个能够删除文件、修改设置、操作应用的AI,如果过于“果断”,风险将是不可逆转的。Marvis的多次确认,本质上是一种对权限的敬畏——它清楚自己的能力边界,也明白你的数据边界。

当然,这也在用户体验上带来了一定的权衡:有时你会觉得“有点啰嗦”。如何在“安全”与“流畅”之间找到更好的平衡点,是Marvis下一步需要优化的方向。

它还不是“终极形态”,但方向正确

经过48小时的体验,我的总体感受是:

Marvis目前更像一个“高级实习生”。它不能替你思考选题、不能帮你写出爆款标题、不能生成惊艳的配图,但它能帮你承担“找资料、整理文件、打开网页、设置提醒、清理内存”这些琐事。

它的优势非常明确:系统级整合能力、跨应用调度能力、本地文件操作能力。这些是传统云端AI助手所无法比拟的。

它的短板也清晰可见:时间感知偶尔出现偏差、图片生成与识别能力较弱、高频确认影响操作流畅度。

最后我必须诚实地说:我个人使用的时间尚短,许多功能(例如手机App跨屏操作、复杂工作流编排)完全没有深入测试。以上体验仅限于一个自媒体人在日常工作中真实接触到的场景。

如果你也厌倦了在十几个应用程序之间来回切换,被琐碎操作耗费大量时间,Marvis值得一试。它或许不能让你立即拥有“6个AI牛马”,但至少,第一个愿意帮你处理繁杂事务的“数字助理”,已经出现在你的电脑里了。

广告位 · 文末横幅