微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。该框架建立在这样一个前提之上:行为规范本身应当成为评估的核心输入,而非仅仅作为背景参考。
微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为
隐藏内容,支付积分阅读
已有90人购买此隐藏内容
隐藏内容,支付费用阅读
¥
已有86人购买此隐藏内容
隐藏内容,仅限以下用户组阅读
隐藏内容,登录后阅读
登录之后方可阅读隐藏内容
隐藏内容,评论后阅读
请在下面参与讨论之后,方可阅读隐藏内容
隐藏内容,加入AI圈子后阅读
您需要加入AI圈子之后才能查看帖子内容
您猜对了答案,下面是向您展示的隐藏信息:
[]
[¥]
向
提问:
隐藏内容,猜对答案后阅读
猜错啦:您选中的是「」,正确答案是:「」
多选人参与投票
单选人参与投票
PK人参与PK
·已选
已选·
投票后查看结果,您的选择是?
思想因碰撞产生火花,真理因辩论获得升华
热门评论
:
请先登录!
图片审查中...
登录之后回答问题,请先登录!
编辑答案:
我的回答:
最多上传一张图片和一个附件
x


