26号在WAIC世界人工智能大会时,顺道去参加了百度文库、网盘的一个小型闭门体验会,挺有意思。
他们准备上线了一个新东西,叫 GenFlow 2.0。
如果你之前用过他们的 AI,可能记得 1.0 版本:问一个问题,它就帮你跑流程、查资料、写报告,像个勤快的下属。
但这次不一样。现场我听到几个词:一个入口,N 种模式;AI 能记住你上次聊到哪了;任务做到一半,还能喊停、改主意……
听着是不是有点耳熟?可当我真坐下来,亲手去用时才发现,很多东西,没那么简单,它背后的调动能力变的更强了。
为什么说GenFlow2.0是个独特又有野心的产品呢?
简单来说,它支持用户在同一对话框(搜索入口),切换不同人格(协作模式),应对不同任务,好像一个能自由变形的智能中枢。
举个作为商业作者最头疼的例子:数据验证。
前段时间,写一篇关于「即时零售」的稿子,查资料时特别崩溃。有新闻说美团即时零售日订单突破 1.2 亿,有的说1.5 亿;还有说「神枪手」单量超过 5000 万。
数字满天飞,到底哪个准?
最让我痛苦的,是AI给数据经常「打架」。你问 A 模型,它说来自某财经平台;你问 B 模型,它又引用另一家媒体。
来源不一致,时间不清晰,口径也不统一。
结果,不得不同时打开好几个 AI 工具,把同一个问题扔给它们,看谁说得一致,再手动翻原始报道,比对、交叉验证……整个过程非常耗时耗力。
这次我试了 GenFlow 2.0,没想到深度检索能力,直接把我从「比对地狱」里拉了出来。
处理流程非常清晰,大概分五步:一,技能规划;二,步骤执行;三,联网搜索;四,思考完成;五,输出结果。
整个过程也就三到五秒。它不仅给出了美团即时零售订单的验证结果,还把数据拆得很细:
比如当前订单量、与一周前的对比、餐饮类订单占比,甚至把淘宝闪购的相关数据也一并列了出来。
最让我惊喜的是,它最后明确标注:
以上数据,综合自美团官方披露,及主流财经媒体在不同时间节点的报道,并补充了背景说明——比如「神枪手」是美团内部对高客单订单的称呼。
这已经不是简单地“搜答案”了。是在做一场完整的、有逻辑、有来源、有时效性的「小型研究」,要做数据论证,这些内容,直接可以拿去用。
百度文库产品负责人钟昊说这个叫:深度模式,不但会基于用户的需求、问题、过往的交互历史进行深度理解和深度思考,还支持使用深度检索完成复杂任务。
当然,面对简单问题,GenFlow2.0会自动切换简单模式,不耗时耗力地「过度检索」,提问后答案自现,适合快速获取结论,适合节奏快、需求明确的场景。
那除了深度搜索还有没有其他能力呢?
有。我体验了第二个能力:通用模式。有时,我们的需求,看起来很简单,比如:随口一句:帮我生成一张柯南在森林里奔跑的照片。
但从AI的角度看,这是一场多Agent协同作战。它得先听懂你说的「柯南」是谁,「森林奔跑」是啥场景,然后调图像生成模型,判断你想要什么画风——是 Q 版?写实?还是日漫?
接着还得选对风格匹配的模型,后还得控制尺寸、比例、分辨率…… 这一套下来,是一整套流水线作业。
所以,什么是通用模式?
让AI从“单兵作战”变成“特种小队配合”。别看任务小,很多AI在这一步就翻车了,要么画风不对,要么人物不像,要么干脆给你整出个柯南骑电驴的魔幻场面。
我也没客气,直接上狠活玩了一会。我说:
一张柯南在森林里奔跑的图片,尺寸4:3,吉卜力风格。
它反应挺快。整个过程,三秒不到,图出来了,我一看,有点东西;这图你拿去做公众号封面、发小红书、甚至丢进剪映里生成个5秒动画,完全够用,甚至能打。
更爽的是,不满意,根本不用重来,接着刚才的对话,直接说:把背景调暗一点、柯南跑得太僵了,动作再自然点”,它能立马改动。
这种「动态微调的能力」,才是真效率爆炸。
这个入口,已经不是传统意义上的“AI对话框”了,它更像ChatGPT那种震撼,张嘴说话,事儿就办了。
或许,这才算「通用」的真正含义:一句「一句话需求」,变成一场无缝衔接的智能协作。
GenFlow 2.0第三个亮点,记忆模式。说实话,市面上,我目前只看到ChatGPT、Kimi有类似能力,其他家基本还在「对话即清空」的原始阶段。
用AI最让人崩溃什么?
每次对话都像在跟一个健忘症晚期患者聊天。你刚聊完一个话题,转头去干别的,再回来接着说,它就装傻,一脸茫然。
你得重新解释背景、重输提示词,甚至还得再强调一遍,一次两次还行,天天这么来,真的会疯。
但这次,GenFlow 2.0记忆模式,有点惊艳到我了。
它能记住你过去聊过啥、喜欢啥、讨厌啥,甚至能调用授权后你百度网盘里的资料。
前几天上海台风天,雨说来就来,0帧起步,根本没反应时间,我就顺手跟AI聊了聊“气候异常”这个话题,问了一些极端天气的数据,它给我拉了一堆资料,讲得还挺清楚。
聊完这事儿,我就切到别的任务去了。然后,昨天,又想接着深挖一下,就随口问了一句:
上次咱们聊气候的事儿,你还记得吗?你提到一个关于极端天气的纬度分析,挺有意思,最近有新进展吗?
你猜怎么着?它真记得。
把上次对话内容完整调了出来,还补充了最新的研究动态和数据更新;那一刻,我愣了一下,这是真思考啊,这种能力,简直给AI装上了「长期记忆」。
我还顺带问了一嘴,上次聊到柯南的事情,你记得吗?话不多说,直接上它调动的答案:
所以,这个能力能干嘛?你可以想象这个场景:
做一个设计稿,做到一半被临时会议打断,几天后你想继续,不用翻聊天记录、不用重新描述需求,只要说一句:接着上次的设计做,把配色再调得年轻一点。
它就能立刻恢复上下文,把当时的思路都还原出来;那这已经不是“助手”了,这是「超级能打的搭档」。
说实话,一开始我对「记忆模式」真没抱太大希望,搞不好是「最近对话记录」换个名字。真上手一试,确实有点东西。
不过,有些AI生成的内容显得宏观,针对性稍微有点欠缺;现在抢先测试的是「测试版」,希望后面全量上线时,可以优化得更好。
比如,我问它关于台风现象的研究,它提到了双台风的「藤原效应」,又分析副热带高压异常、海洋条件异常、季节环流影响等多方面因素。
我在想,是不是研究时控制一下变量?
这次GenFlow 2.0第四个亮点是:并行模式。
以前用AI做任务「排队等」,你让它干一件事,它吭哧吭哧跑完,出结果了,你才能接着提下一个。
就像在餐厅点菜:先上凉菜,吃完才能上热菜,一道一道来,急不得。
并行模式不一样。直接把AI从「单线程服务员」变成了「多线程厨房团队」,你一句话下去,多个任务同时开干,互不耽误。
举个亲测的例子:
我对GenFlow 2.0说:准备一个PPT,事件比较紧,过程中有三件事要干,一,把内容给你,要先罗列框架,框架支撑10页PPT即可;二,框架给我要等确认;三,我确认完再做 PPT。
另外一件事是:查一下最近三个月国内 AI 大模型的重要发布节点,列个时间线,做成简易报告。
按以往经验,这得拆成三个对话、等三轮响应,至少花十几分钟;但这次,我话音刚落,它就开始了,还挺有意思。它的思考过程中说:这是两个任务。
然后提到:用户要做 PPT 还没给我内容,那我优先启动 AI 大模型时间线的任务。还挺抽象,知道先暂停一个,去做另一个...
不管了,先看看结果再说。我只想要一个简单的时间脉络图,没想到它直接弄出来了一个详细的研究报告,有时间线,还有背景分析和关键事件解读。
还生成了一个网页版,可以直接分享出去,比较全,简单截个图:
在并行模式为生成任务大幅度提升效率的基础上,再结合百度文库本身PPT生成的优势,质量高、速度快,还支持上传自定义模版,这样下来交付物基本不用大改,直接能上会、能发出去。
这种「多任务并发」的体验,改变了我对AI效率的认知。
以前总觉得 AI 只能一个个任务来,现在才发现,它可以像一个真正的项目负责人那样,规划、协调、并进。
所以,并行模式,表面快,深层次把 AI 从「响应者」变成了「项目负责人」。你只管下指令,剩下的,交给AI团队去跑。
最后,我还体验GenFlow 2.0的干预模式。我觉得最「像人」的一部分,也是它真正从「工具」迈向「搭档」的关键一步。
它不光让你用得爽,还能随时暂停、改主意、上传资料、反悔,甚至边干边调方向。
过去,大多数 AI 一旦你输入问题,按下回车,它就开始「自嗨式输出」;你只能干看着,等它跑完一轮,才发现不对劲。
你想改?不行。必须等它跑完。你要提个新要求?也行,但得开个新对话。这哪是协作?建议叫:提交申请,等审批。
但GenFlow 2.0 的产品经理好像洞察到了这一点,所以他们做了干预模式:你在任务进行中,可以随时喊停、补充信息、换方向,就像跟一个真人助理开会。
比如你说:
这块先放一放,我们先看下数据;它不会懵,也不会翻脸,是立刻转向,继续干活。
我真实测试:扔给它一个Word文档,让它帮我整理成思维导图,它开始理解文件结构,大纲刚搭了一半,我突然想起来还有个补充材料,就直接暂停,上传了第二个文档,说:两个一起整。
它马上回应:已接收到新资料,正在合并处理;然后,自动调整任务进度,把两个文档的内容融合进同一个逻辑框架里,连重复信息都做了去重。
更让我惊喜的是,这种干预能力不止独立存在,还穿插在所有模式里的细节。
比如:我在问一个问题的过程中,AI正在联网搜索,我突然想给它一份财报PDF当参考,直接上传就行。你看,这是无缝嵌入的协作节奏。
它把我当成一个「正在思考的创作者」,随时可能有新灵感、新需求、新变数。
所以,什么是干预模式?以前AI“你问,它答”;现在GenFlow 2.0把控制权真正交还给用户。
你走,它跟,你停,它等,你转,它调头;这可能是人机协作的理想状态,AI足够聪明,但从不抢戏。
而且,它不只是能“被干预”,生成内容出来后,还能直接在百度文库的编辑器里自由调整。
无论 PPT、报告、还是思维导图,都可以像改文档一样随手编辑,格式不崩、结构不乱,改完还能让 AI 接着优化。
这种「生成 + 可控编辑 + 持续迭代」的闭环,是真正的可用性保障;很多 Agent 产品只能输出“结果”,但 GenFlow 输出的是「可交付的工作成果」。
这也是,它和市面上多数智能体产品的关键差异。
回过头看,「一个入口,N 种模式」是一种全新的工作方式,不需要切换工具、不需要反复描述背景,也不用担心输出没法用。
同一个对话,能查数据、做图、写报告、改框架,还能中途换方向,它让你的思考更连贯,执行更无感。
在现场,我还偷偷瞄到他们内部演示了「反思模式」……这些功能目前还没放出来,据说会在后续迭代中逐步解锁。
临走前,我问百度集团副总裁王颖:这次升级什么时候能对外用?她笑了笑说,快了,快了。产品经理在赶进度,最终体验和适用边界,估计会在8月中旬在百度文库上线。
嗯,有意思,从问答到共事,从工具到搭档,蛮期待。