你可能对Coding Plan耳熟能详了,但是,字节家火山引擎这个卷王又卷出了新高度,搞了个Agent Plan:

怎么理解Agent Plan呢?
Coding Plan只能用来覆盖coding过程消耗的token,而Agent Plan是除了coding token之外,你还可以调用绘图工具(背后是Seedream5.0)、视频生成工具(背后是大名鼎鼎的seedance2.0)、联网搜索、embedding等Harness工具,所以:
Agent Plan = Coding Plan + Image生成+ Video生成+ 其他工具链
(btw,豆包TTS2.0这个TTS性价比之王为啥没加进来啊?)
这样,你就不用为每个AIGC服务单独去接一套API了!
这对我来说简直是天降甘霖!
如果你读过我之前的文章,可能知道我为自媒体工作流封装了一整套20多个skills,其中涉及文本、视频、图片几乎所有AIGC工具:
仓库地址: https://github.com/dracohu2025-cloud/draco-skills-collection

问题是:虽然skills源代码都在Github上,但每多一个Agent员工(我目前手下有8个Hermes Agent员工)总是要把.env环境变量复制粘贴一遍,然后做一轮整体调试和验证…纯机械工作费时费力…
这下好,Agent Plan都给包进去了!省事儿省大发了~
OK,不废话了,下面是保姆攻略(my style😂),两大部分:
第一部分:获取和配置Agent Plan
获取Agent Plan

我用的也是这档:
1. 最低档用不了Seedance!不能生视频的Agent不是好牛马~ 2. Medium及以上档位会送个ArkClaw轻量版实例


本质上就是一种Credits嘛…
5小时1万点,每周3.5万点,每个月10万点;
等会儿我们来测测这个AFP在不同任务中消耗的量,见后文




配置Agent Plan
将Agent Plan配置到已有的Agent上
先以Hermes Agent为例~ 其实官方已经有个写的很不错的文档了:volcengine.com/docs/82379/2373743
不过,我还是在这里带着大家走一遍~
方法一:使用Ark Helper
















OK,的确是刚才选择的ark-code-latest
方法二:手动配置
如果你不打算使用ark-helper,那么你可以采用手动配置custom endpoint的方式,步骤如下:









我是以Hermes Agent作为demo对象,其他Agent可以访问火山引擎提供的文档站:https://www.volcengine.com/docs/82379/2373738?lang=zh 每种Agent都有详细的教程~

OK,你现在已经给自己的Agent配置好了Agent Plan,接下来,让我们一起玩转它!
ArkClaw
除了自己的Agent,还可以使用官方的的ArkClaw:

第二部分:玩转Agent Plan
部分案例基于 飞书+Hermes/OpenClaw,部分案例基于ArkClaw网页版,模型采用‘ark-code-latest’,偶尔会在控制台切换到特定的原生多模态模型执行特定任务,后文不再另行说明~
案例1:自媒体工作流skills的安装和适配

速度非常快,20个左右skills,大概两三分钟就搞定了;
比如用seedream替换nano banana,以及Agent Plan自带的seedream/seedance代替需要通过API KEY打通的seedream/seedance等…


唯一例外的是目前Agent Plan不支持火山引擎TTS,因此需要通过下面的方式将参数传入:
openclaw config set env.VOLCENGINE_ACCESS_TOKEN “你的ACCESS TOKEN”
openclaw config set env.VOLCENGINE_TTS_APP_ID “你的TTS APP ID”
openclaw config get env


案例2:多模态网站构建
Agent Plan中最终要的是啥?多模态能力!对应的就是字节家的seedream5.0(生图)和seedance2.0(生视频)!


这个skill默认是支持OpenClaw的,但Hermes如果不笨的话,它自己会安装好之后挪到自己的workspace下面,如果它太笨,就提醒它把这俩skills安装到自己的workspace下面~
BTW,一张图片大概消耗几十个AFP值,但是生成视频会消耗几百个AFP值~ 具体的数值和图片/视频的分辨率、时长等相关~
接下来,让我们完成一个多模态网站的任务:“动漫风格馆”
让Agent利用seedream5.0和seedance2.0的生图和生视频能力制作一个“动漫风格馆”,集萃全世界著名的动漫风格~
HERO Video(哈哈哈~ 请忽略两个绿巨人的问题)




案例1和案例2合在一起,基本意味着,你可以把飞书+Agent Plan当成你的“数字座舱”,可以写文章、推送到公众号、生成播客、生成图片、生成视频、创建多模态网站….等等等等
在这个过程中,你几乎不需要触碰若干个不同工具的GUI,只需要和Agent交互就能得到想要的一切!
案例3:专业数据查询






Case1:
帮我从中国金融数据集中查询和分析招商银行过去5年的盈利能力是否承压
ArkClaw输出的内容如下:
基于获取的招商银行财务数据,现将过去5年盈利能力分析报告如下:
📊 招商银行过去5年盈利能力核心指标
注:2025年数据为全年数据,统计截止2025年12月31日
🔍 关键发现与分析
1. 净资产收益率(ROE)持续下行,盈利能力承压明显
2. 净利润增长陷入停滞
3. 净利率逆势提升,成本管控成效显著
4. 总资产收益率同步下行
⚠️ 主要压力来源分析
📈 结论
招商银行过去5年盈利能力确实面临持续承压,主要体现为:
虽然通过精细化管理维持了净利率的提升,但核心盈利能力指标ROE的持续下行反映了银行业整体面临的经营困境。未来招商银行需要在财富管理、零售银行等优势领域进一步突破,寻找新的盈利增长点。
Case2:
企业风险数据集 恒大集团涉及多少起诉讼?分别是什么类型的案件?有多少是已结案的?

我对于此类数据诉求不多,就不展开更多案例了
写在最后
在3月底开始使用Hermes之后,我每天跟Agent打交道的时间可能已经超过了6小时,已经大幅度超过了和人交互的时间,在这个过程中,我有个强烈的感受:
Agent这场战争,全模态者为王!
在全模态都拥有SOTA(最先进)模型的厂商将获得最终的胜利~
海外的话,OpenAI是有这个优势的,这就是为啥最近很多人会觉得用了Codex之后就回不去Claude Code了… GPT-5.5的coding能力强是一方面,另一方面就是在coding过程中GPT-Image-2能直接帮你把视觉物料都准备好,真的可以实现一站式coding~
再看国内,我觉得目前字节领先,编程、绘图、视频、音频等模型在各细分领域都基本处在第一梯队,阿里紧随其后,然后是逐渐发力的腾讯和也拥有全模态能力的MiniMax并列第三,其他家基本都还在卷大模型的编程能力… 但各家编程能力不相伯仲那天,图片、视频、音频等内容的生成能力才是胜负手~ 毕竟,人本来就是多模态生物,能看到能听到才是王道!

