-
豆包2.1 Pro 实测:国产大模型杀进”生产级”,编程和Agent这次是真的能打了
让一个大模型连续干18个小时不掉链子,是什么体验?豆包2.1 Pro 给出的答案是跑完整套芯片RTL设计流程,多轮迭代一气呵成。这次火山引擎不再只谈对话,而是把代码交付和长程Agent摆上台面,直接对标国际顶尖旗舰,API价格还压到行业最低梯队。它是参数堆出来的纸面强,还是真能扛生产?上手扒了一遍才有底气说。 产品概述 豆包2.1 Pro(Doubao-Seed-2.1 Pro)是字节跳动旗下火山…- 1.1k
- 0
-
OpenHuman:当个人 AI 助手开始说”我了解你”
如果你关注过个人 AI Agent 这个赛道,大概率听过两个名字:OpenClaw 和 Hermes Agent。OpenClaw 做的是"让 AI 常驻你的电脑",Hermes Agent 做的是"让 AI 从经验中学习技能"。它们都在抢"个人 AI 助手"这个坑位。OpenHuman 走的是第三条路:它让你把邮箱、日历、GitHub、…- 1k
- 0
-
Playwright MCP 上手实录:让 AI 帮你操控浏览器的正确姿势
说一个你可能也遇到过的场景。你让 AI 帮你查一个网站上的信息,AI 说它不能访问网页。你让它帮你填一个在线表单,它告诉你它没有浏览器。你让它帮你截一张网页的图,它回你一段文字描述。这事搁在 2025 年之前算正常,但放到现在,已经不应该了。 MCP 协议的出现让这件事开始松动。以前 AI 只能通过 API 跟外部世界交互,就像一个只会打电话的人。但 MCP 给它装上了手脚,让它能操作数据库、读写…- 1k
- 0
-
CLI-Anything:让 AI Agent 操控一切软件,港大这个项目是认真的吗?
我在 GitHub 上泡了五年多,看到这个数字的第一反应是警惕:又一个靠"Agent"概念冲上热榜的项目。今年上半年带 Agent 标签的新仓库,十个里有八个是套壳 Demo,README 写得天花乱坠,跑起来第三条命令就报错。 但 CLI-Anything 不太一样。它做的事情既激进又务实:**直接把 Blender、GIMP、OBS Studio 这些图形软件,一键转成 A…- 900
- 0
-
Claude Fable 5 评测:Anthropic 把神话级模型推向大众,但门票变贵了
代码库大到一个团队要干两个月,它一天跑完。这不是科幻,是 Claude Fable 5 在 Stripe 5000 万行 Ruby 代码上的真实战绩。Anthropic 把原本只给少数机构的 Mythos 级能力公开了,代价是价格翻倍、6 月 23 日后从订阅里踢出去单独收费。它到底强在哪,普通人用不用得起,上手试完这篇给你盘清楚。 这到底是什么 Claude Fable 5 是 Anthropi…- 1.4k
- 0
-
Agent Browser:把浏览器变成 AI 的确定性操作界面
让 AI 自己操作浏览器,这事听起来很酷。但真正做过的人都知道,坑比想象中多得多。CSS 选择器在动态页面里一碰就碎,等页面加载的时间比执行任务本身还长,一个登录状态丢了就得从头再来。 Agent Browser 是 Vercel Labs 专为 AI Agent 设计的无头浏览器 CLI 工具,在 ClawHub 上以 Skill 形式发布,方便集成进 OpenClaw 工作流。它的核心思路很直…- 101
- 0
-
AI 总是犯同样的错?这个 Skill,让我重新理解了什么叫”学习”
你有没有遇到过这种情况。跟 AI 说了一个小时的偏好,换个窗口,它全忘了。纠正了它三次同一个错误,第四次它还会犯。这不是 AI 笨,是你和它之间缺了一样东西:记忆。 直到我试了 self-improving-agent,才发现问题比我以为的更根本。大多数人跟 AI 共事的模式,本质上是在做一个"永不毕业的新员工培训"。你说了一遍又一遍,它从不做笔记。这件事的荒谬之处,我自己竟然…- 78
- 0
-
Qwen3.7-Max 深度评测:Agent 时代,阿里端出了真正的旗舰
35 小时写了一个 GPU 内核驱动,加速比 10 倍。这不是科幻,是 Qwen3.7-Max 长周期自主执行实验的真实结果。阿里云峰会上刚发布的这个新旗舰,编程智能体、高难度推理、办公自动化三项维度全面超越 Claude Opus 4.6,Arena 全球总榜国产第一。但闭源、API 还没上线、价格也不透明。到底能不能打,上手再说。 这是什么模型 Qwen3.7-Max 是阿里巴巴通义千问团队在…- 529
- 0
-
Marvis 深度评测:会干活的 AI,不止会聊天
跟 AI 聊天已经不算新鲜了,但让它帮你关广告、理文件、操控手机 App 呢?腾讯应用宝团队最近放出了 Marvis(马维斯),一个能直接穿透系统底层干活的操作系统级 AI 助手。不用学、不用配,说句话它就把事办了。初看像桌面版豆包,用下来才发现完全是另一回事。 先搞懂它是什么 Marvis(马维斯)是腾讯应用宝团队在 2026 年 5 月开启内测的操作系统级个人 AI 助手。名字致敬了经典 AI…- 485
- 0
-
Gemini 3.5 Flash 测评:当 Flash 系列开始干翻旗舰,谷歌的 Agent 时代来了
写个复杂 Agent 还要等几十秒才能动?Gemini 3.5 Flash 把输出速度干到了 280+ token/秒,直接是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。在编码和智能体基准上,它甚至反过来碾压了自家上一代旗舰 Gemini 3.1 Pro。$1.5 的输入价格、90% 的缓存折扣、默认开启的 Thinking 模式,这个 Flash 系列新王,把"快…- 243
- 0
-
十年老技术开发的 AI Agent 探索之路
作者:zhiyuanfu 曾经前端被戏称为"娱乐圈"——工具、框架层出不穷,今年🔥 的明年就过时。现在 AI 把这个周期压缩到了以月计:这个月的新概念,下个月可能就是旧闻。这篇文章,就是一个在"AI 娱乐圈"摸爬滚打的老开发,试图从月抛式的焦虑中找到不会过期的东西,为大家抛砖引玉。 4-6 个终端的并发上限,怎么突破 80% 的 AI 需求,10 行 Bas…- 2k
- 0
-
Manus 深度评测:全球首款通用型 Agent,到底能不能真干活?
让 AI 自己去查资料、做报告、建网站,听起来很爽,但 Manus 真的做到了几分?这款由前 Monica 团队打造的通用 Agent,上线即爆火,GAIA 测试力压 OpenAI Deep Research。随后被 Meta 花 20 亿美元买下,又遭国家发改委叫停,产品未稳,风波不断。实测下来,研究和数据采集是强项,编程开发却一言难尽。$19 起步不算贵,但服务器稳定性扣了不少分。一句话:想做…- 108
- 0
-
World Model(世界模型):AI开始有”想象力”了
你有没有想过这个问题: 当你说"把杯子推下桌子",你的脑子里发生了什么? 你可能看到了杯子摇了一下、然后倒下、最后摔在地上——甚至能听到"啪"的一声。 这个过程,你没有真正看到,但你在脑子里"模拟"了一遍。 这就是人类的世界模型——我们有一个对世界的内部模拟,知道动作会导致什么结果。 World Model(世界模型),就是让AI也拥有这…- 892
- 0
-
CodeBanana 评测:当 AI Agent 开始替团队写代码、开会议、管项目
上周跟一位做 SaaS 的朋友吃饭,他吐槽团队里最痛苦的事不是写代码,而是"写完之后要同步给产品、测试、运营,每个人都在不同的工具里问同样的问题"。回来我搜了一圈,发现 CodeBanana 这个工具打的正是这个痛点,它把自己定位成"AI Agent 协作平台",核心逻辑是把 Agent、聊天、工作区三件事塞进同一个项目空间,让沟通直接变成执行。听起来有点理…- 46
- 0
-
AI大事件:Claude Opus 4.7再升级,梁文锋计划融资20亿,阿里、腾讯同日开源世界模型
今天我认真翻了翻AI圈的新消息,发现有几个变化挺有意思的——Anthropic这次直接把Claude Opus拉到了4.7,编码和Agent能力又上了一个台阶;具身智能那边,智元直接搞了2500人的合作伙伴大会,4款新本体现成亮相,这个赛道真的在加速;阿里的世界模型也出来了,视频编辑方向直接冲到了全球第一。数字层面上,中国日均词元调用量突破140万亿,Stanford的报告说中美模型差距只剩2.7…- 1.3k
- 0
-
Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工”
一个让人清醒的对比: 你用ChatGPT写邮件——你写Prompt,它给答案,你复制粘贴发出去。每次都是如此。 你用Agentic AI写邮件——你说"帮我跟进上周那个客户",它自动找到客户记录、查阅历史邮件、生成个性化邮件草稿、甚至帮你预约发送时间。你只需要点一个"发送"。 同样是AI,差距怎么这么大? 这就是Agentic Workflow和普通AI工具…- 911
- 0
-
详尽地带你从零开始设计实现一个AI Agent框架
作者:yabohe 年初火爆现在热度依旧的OpenClaw为AI Agent带来了新的想象。如果说2025是AI Agent智能体元年,想必2026将会是AI Agent真正商用化的开端,而AI Agent商用化的前提是各行各业开始落地实际商业领域的AI Agent。 作为一名程序员/工程师,思考的更多的可能是如何将AI Agent落地实现的层面。工程框架往往是工程应用实现的基石,框架选型也是架构…- 870
- 0
-
Workflow:AI时代的”流水线”,到底在管什么?
很多人以为Workflow就是"步骤列表"——第一步做什么、第二步做什么。听起来简单,但如果你真的这么理解AI时代的Workflow,可能会错过它最有趣的部分。 Workflow不是"说明书",而是一套让AI能稳定产出、可重复执行的工作机制。 一句话理解 Workflow = AI处理任务的"标准流水线"——定义输入什么、中间经过哪些环节…- 898
- 1
-
AI日报:智元GO-2打通“最后一公里”,腾讯阿里字节同日亮剑AI新战场
周五了,简单聊聊今天的AI圈动态。今天值得关注的还挺多——具身智能这边热闹了,智元发新模型、大会扎堆;大模型那边也没闲着,腾讯发新版本、国产这边融资不断。好了,不啰嗦了,看内容吧。 1. 智元机器人发布GO-2具身基座大模型 核心内容:智元机器人正式发布新一代具身基座大模型Genie Operator-2(GO-2),首创动作思维链技术,首次在统一架构中实现从逻辑推理到精准动作执行的闭环。基于数万…- 1.5k
- 0
-
分享本周GitHub最火的10个项目,第3个让我眼前一亮
今天刷GitHub Trending,发现这周有几个项目挺有意思的,忍不住想跟你们分享一下。 说实话,这两年GitHub上的AI项目越来越多,但真正能让人"哇"出来的越来越少。不过这周还真让我发现了几个不错的,有些是真的解决了痛点,有些是思路很巧妙。废话不多说,直接上正文。 1. AI-Scientist-v2:让AI自己搞科研写论文 说实话,看到这个项目的时候我有点震惊。Sa…- 1k
- 0
-
Cursor 3评测:你的IDE正在变成 Agent 的终端
说实话,之前每次看到\"AI 编程工具\"这几个字,我都有点审美疲劳了。代码补全、代码解释、代码审查——翻来覆去就这些功能。但 Cursor 3 不一样,它直接干了件大事:把 IDE 变成了 AI Agent 的控制台。这意味着什么?意味着你不再是在\"用 AI 写代码\",而是\"让 AI 帮你管项目\"。上周我花了三天深度体验了 Cu…- 1k
- 1
-
【万字教程】OpenClaw 核心机制 Skills 全解析
三月份,OpenClaw 小龙虾爆火,但火得有些不正常; 今天是最后一篇关于 OpenClaw 的架构拆解,也是我认为最重要的 Skills,我会尽量把他说清楚。 如果你要问我 OpenClaw 的价值,我会说他再次证明了 Agent 这种产品模式会是未来,并且他展示了普通人大概会如何与 Agent 做交互,这个答案就是 Skills... PS:OpenClaw 是当前 Agent 最典型的代表…- 980
- 0
-
AI日报:AI”动手”元年到了,Claude能控制Mac,谷歌内部Agent把服务器搞崩,具身智能进入清场模式
今天是周日,但AI圈完全没有休息的意思。我是老曹,早上刷完消息,感觉有点兴奋——这一两天动作密集:IntelliJ IDEA 2026.1 直接内置多款AI智能体;谷歌内部那个叫Agent Smith的工具把服务器搞崩了,联合创始人布林亲自下场写代码;具身智能那边,行业清场已经开始,宇树冲IPO,星动纪元刚刚完成10亿融资——有人在狂奔,有人已出局。Claude Computer Use也正式落地…- 883
- 0
-
飞书Lark CLI测评:让 AI 直接操作飞书的秘密武器
最近我一直在研究怎么让 AI Agent 真正能干实事,不只是聊聊天。然后发现了飞书刚开源的 Lark CLI,说实话一开始没抱太大期待——企业开源的工具嘛,你懂的,多半是那种文档不全、配置复杂的开发者玩具。结果试了一下,发现这玩意儿居然内置了 19 个 AI Skill,能让 AI 直接操作飞书发消息、建文档、查日程。这个定位挺有意思的,明显是冲着"AI 原生"去的。 一、L…- 911
- 0





































