字节跳动推出了全新一代豆包手机助手的技术预览版。和以往仅能完成定闹钟、查天气这类基础任务的传统语音助手不同,这款新产品被定位为真正的手机第二大脑。它拥有视觉感知、长期记忆以及直接操作手机的能力,甚至可以帮助用户充分掌握手机的各项功能。
豆包手机助手最令人瞩目的创新之处在于其具备真正的端侧记忆能力。这是行业内首次在手机本地达成了持久化的记忆功能。它就如同一位贴心的私人管家,能够记住用户生活里的各种琐碎细节。
在实际演示中,这种能力表现得令人印象深刻。当用户询问车停在哪里时,助手能直接调出用户上次拍摄的车位照片并附带楼层指引。
当用户需要取快递时,它可以快速读取短信历史并报出取件码;即使用户询问高铁座位号,它也能自动查找12306的购票记录并告知具体位置。更重要的是,这种记忆还具备联想功能,例如它记住了用户偏爱凡高,那么在规划巴黎行程时,就会自动优先推荐奥赛博物馆。
若把记忆比作根基,那跨应用代操作便是豆包手机助手的核心优势。它借助前沿的GUI模拟点击技术,能如同真人般掌控屏幕,打破应用间的限制,自动完成点击、输入与滑动等操作。
在全网比价的场景里,用户仅需下达一句指令,豆包便能自动打开淘宝、京东、拼多多以及抖音电商这几个平台,在短短3秒内就给出商品的最低价,并且直接停留在支付页面。而在更为复杂的办公场景中,当用户发出“帮我请三天假,顺便订回老家的高铁票”这样的指令时,豆包能够迅速响应,自动打开办公软件填写请假单并提交审批流程,之后还能无缝切换到12306平台,完成高铁票的预订与付款操作。
甚至连特斯拉车主都能体验到这种便捷,一句打开前备箱放东西,助手即可直接远程控制车辆执行操作。
在多模态交互方面,该助手展现了实时视觉理解能力。当用户拿起一本英文绘本对准摄像头时,豆包手机助手会立刻开启实时视频通话模式。
画面里不只会呈现中英双语字幕,AI还能以流利的普通话或英语一边讲述故事一边和用户互动提问,甚至能依据孩子的反应临时调整剧情,让阅读过程变得鲜活有趣。
面对模糊复杂的长链条需求,豆包推出了Pro模式。此模式融合了GUI模拟点击、API工具调用与超强推理能力,可胜任过去AI完全不敢承接的任务。
以巴黎旅行为例,用户只需模糊地表达下个月去巴黎,把收藏的餐厅标到地图上,再帮我订一张有我喜欢展览的博物馆票,助手便能执行全流程。
它先读取记忆信息,确认用户喜爱凡高;接着进行搜索,核实奥赛博物馆正举办凡高特展;随后打开地图应用,把收藏的米其林餐厅标记出来;最后跳转至官网抢票,并生成完整的行程单推送到备忘录。
在展现强大能力的同时,字节跳动也极度重视隐私安全。官方反复强调,所有的记忆数据均在手机本地进行处理和加密存储,绝对不会上传至云端。
用户对记忆功能拥有完全掌控权,可随时通过设置中的一键操作彻底关闭该功能。此设计既保障了智能体验,又实现了真正的可控与可信,为人工智能时代的隐私保护开辟了新的解决路径。