Xiaomi Miloco 2.0:把家里的摄像头交给大模型当管家,这事靠谱吗

全屋智能这个词喊了快十年,大部分时候都名不副实。你买一堆智能灯、智能插座、智能门锁,回家还是要打开 App 一个个点,或者提前设好”晚上七点开灯”这种死板规则。一旦生活节奏变了,规则就开始添乱。所谓的智能,本质是一堆 if-this-then-that 的条件触发,谈不上什么理解能力。

小米的 Xiaomi Miloco 想换个思路。它不再让你预设规则,而是把米家摄像头的视频和音频当成感知入口,接上自研的 MiMo 大模型当大脑,让系统自己看懂家里在发生什么,然后主动做决策。2026 年 6 月 18 日发布的 Miloco 2.0 把整套方案重构成了 OpenClaw 平台上的一个 Agent 插件,这是它这次最大的变化。

它的目标很大:识别家庭成员,记住每个人的长期习惯,把”每天提醒吃药””坚持锻炼半小时”这种模糊的长期目标拆成可追踪的家庭任务,像一个有常识、懂这家人的管家那样,在你开口之前就把事办了。听起来很科幻,但小米这次确实把代码放出来了。

不过有个词我想先泼盆冷水。仓库标题写着 open-source,可它用的根本不是标准开源协议。这个细节后面会展开聊,因为它直接决定了你能拿这套东西干什么、不能干什么。

打动我的几个地方

先说我认为真正有价值的部分。Miloco 最核心的卖点是”通用常识”,官方的说法是无需预设任何规则,内置常识能自动识别危险并分级告警,比如小孩在玩刀具、老人摔倒。这件事传统规则引擎做不到,因为你没法穷举所有危险场景写成规则。把判断交给大模型,等于用模型的世界知识替代了人工规则库,这是从”听指令”到”会思考”的真正分水岭。

它整套能力建立在四个地基之上:通用常识、身份识别、家庭记忆、家庭任务。这四块往上叠出第五块,也就是主动智能,让系统在合适的时机自己观察、推理、介入。最上面还盖了一个家庭仪表盘,让你能用网页实时看到家里的概况、米家设备、成员档案和历史事件。

Xiaomi Miloco 2.0:把家里的摄像头交给大模型当管家,这事靠谱吗

这张图把链路理清楚了。摄像头的视频音频先进感知网关,由 MiMo-v2.5 做多模态理解,识别结果交给跑在 OpenClaw 上的 Agent,Agent 用 MiMo-v2.5-pro 做推理决策,最后通过 MIoT 网关去编排米家设备。整条链路最关键的不是哪一个模块,而是大模型同时承担了”看懂”和”想清楚”两件事。

身份识别和家庭记忆这对组合是我比较看好的设计。系统融合人脸和体态信号识别成员,再从长期交互里提炼出每个人的习惯偏好,作为主动决策的参考。更进一步,稳定的习惯还能被提升成自动执行的家庭任务。这意味着它不是冷冰冰地执行命令,而是越住越懂你。README 里有句话挺打动人:每一次你对它说的话,都在”养”一个更懂你家的 Miloco。

家庭任务这块也跳出了规则的框。它把单一的条件触发升级成了能长期运行的复杂任务:有人进门自动开灯是条件自动化,每天提醒吃药是定时提醒,坚持锻炼是习惯追踪。任务一旦触发,Agent 会自己理解意图并执行,而不是机械地走 if-else。这种把模糊目标拆解成可追踪任务的能力,是 1.0 时代完全没有的。

最让我觉得这个团队认真的,是它对”不合口味”的处理方式。官方明说开箱即用的行为不可能正好对你胃口,但你可以直接通过 OpenClaw 告诉它”家里乱的时候别提醒我”,它会记住并调整。把纠偏做成自然语言对话而不是改配置文件,这才是大模型该有的交互姿态。不过这些亮点都建立在一个前提上,你得先把它在自己机器上跑起来,这事到底麻不麻烦?

上手什么感觉

先看门槛。官方建议至少 4GB 内存、256GB 存储,而且要 24 小时不间断运行,推荐直接上一台 Mac mini。系统支持 macOS 和 Linux,Windows 用户得在 WSL 里跑。账号方面必须有小米账号和已经接入米家的设备,再加一个大模型 API Key,官方推荐用小米自家的 MiMo。

安装方式给了三条路,丰俭由人。最省事的是直接让 Agent 装,第二条是一行命令搞定,想改代码就走源码构建。

Xiaomi Miloco 2.0:把家里的摄像头交给大模型当管家,这事靠谱吗

装完重启一下 OpenClaw 网关,打开家庭仪表盘做初始化。配置就三步:在 Models 页填入 MiMo 的 api_key,绑定小米账号,然后在 Overview 页给摄像头开启感知。命令行也有等价操作,对喜欢敲命令的人很友好。整体上手流程设计得相当顺,看得出文档是认真写的。

但有两个坑必须提前说。

第一个是 Windows 用户的 WSL 配置,本地摄像头推流需要你在 .wslconfig 里改成 mirrored 网络模式,还要用管理员 PowerShell 改防火墙入站规则。这一套对普通用户基本是劝退级别的操作,能不能跑通很看运气。

第二个坑更要命,是钱。Miloco 2.0 的感知和 Agent 主要依赖云端大模型,这意味着只要它在 24 小时盯着你家的摄像头画面做理解,就在持续烧 API token。官方自己都在文档里挂了成本提示。换句话说,这不是装完就一劳永逸的方案,而是一个会按月给你账单的服务。视频流做多模态感知的 token 消耗有多大,心里得有数。

什么时候用,什么时候别碰

这套东西适合谁、不适合谁,差别非常大。我整理成一张表,省得你自己踩。

你是谁 适不适合 原因
研究 Agent 编排 IoT 的开发者 很适合 一套认真的大模型落地家居工程参考
重度米家用户且不在乎成本 可以一试 设备生态对得上,体验完整
想开箱即用省心的普通家庭 别碰 部署门槛高,还有持续 API 账单
注重数据本地化的隐私敏感者 慎重 视频音频要送云端大模型理解

最适合它的其实是开发者和技术爱好者。如果你想搞清楚大模型怎么和真实家居设备打通、Agent 怎么编排 IoT,Miloco 是目前少数把全链路代码摆出来的样本,研究价值很高。

普通家庭用户我建议先冷静。它不是买回来插上电就能用的智能音箱,从部署到调优都需要动手能力,加上持续的云端费用,性价比对家用场景并不友好。除非你本来就是重度米家用户,家里摄像头和设备齐全,又乐意为这份”主动智能”持续付费。

隐私敏感的人尤其要想清楚。它的工作原理就是把你家摄像头的画面和声音送去云端大模型理解,这跟”数据不出家门”的本地优先理念是相反的。虽然官方强调了对数据安全的重视,但架构本质决定了感知发生在云端,这一点没法回避。

社区怎么样了

先把客观数据摆出来。截至 2026 年 6 月下旬,这个仓库有约 2900 个 Stars、240 多个 Fork、110 多个开放 Issue。仓库创建于 2025 年 11 月,最近一次代码提交就在几天前,活跃度非常高。从 commit 历史看,团队还在密集修 bug,比如 6 月 24 日刚合并了一个升级 onnxruntime 来根治内存泄漏的 PR。

但有个信号值得注意。从可见的提交记录看,核心贡献者高度集中,主力基本是小米内部的同一位开发者在推进。这说明它本质上是一个公司主导的项目,而不是社区驱动的开源协作。对一个刚开源不久的厂商项目来说这很正常,但你不能指望它有 Home Assistant 那种由全球贡献者撑起来的生态厚度。

Xiaomi Miloco 2.0:把家里的摄像头交给大模型当管家,这事靠谱吗

放到全屋智能这个赛道里横向比一下定位就清楚了。Home Assistant 是社区驱动的开源霸主,本地优先、生态最广,但智能停留在规则和自动化层面。Frigate 专精本地 AI 摄像头检测,隐私好但只管”看”不管”决策”。Miloco 的独特卡位是用大模型做常识推理加主动决策,代价是绑定小米生态和云端依赖。

关于社区评价我得说句实话。这个项目 2.0 版本发布到现在才几天,目前能搜到的几乎全是各家媒体的发布通稿,外部平台上还没有沉淀出有分量的真实使用反馈和技术评测。所以我没法给你引用某个用户的真实体验吐槽,只能基于仓库数据和架构本身做判断。等再过一两个月,Issue 区和技术社区的声音才会更有参考价值。

我的真实看法

绕回开头那个钩子。Miloco 标题写着开源,但它的协议是一份自定义的非商业使用许可,GitHub 自动识别为 NOASSERTION,不是 MIT、Apache 这类标准开源协议。许可里明确写了,未经小米书面授权,不得用于开发应用、Web 服务或其他商业软件形式。所以准确的说法是源码可见,而不是自由开源。你能看、能学、能自己折腾,但不能拿去做产品。

更深一层的约束是厂商锁定。摄像头得是米家的,账号得是小米的,大脑虽然名义上支持其他大模型 API,但官方强烈推荐自家 MiMo。这意味着 Miloco 不是一个中立的开源框架,而是小米 IoT 生态的一个智能化延伸。它开源的是黏合层和编排逻辑,真正的护城河,也就是 MiMo 模型和米家设备网络,依然牢牢攥在小米手里。

隐私这件事我必须再强调一遍,因为它是这类产品绕不开的根本矛盾。一个能识别危险、记住习惯、主动服务的家庭 AI,前提是它要持续看到、听到你家里发生的一切。Miloco 把这些感知数据送上云端大模型处理,能力越强,意味着上传的家庭隐私数据越多。这不是小米一家的问题,而是大模型加家庭摄像头这条路线的原罪。你愿不愿意为了便利交出这份数据,是个人选择,但得清醒地做这个选择。

成本是另一个现实问题。规则触发的传统智能家居几乎零边际成本,而 Miloco 的核心能力建立在云端大模型的持续调用上。24 小时的视频感知意味着持续的 token 消耗,这笔账单会一直跟着你。对极客来说这是可接受的玩具成本,对想普及到千家万户的产品来说,这是个不小的门槛。

趋势上我是谨慎乐观的。从 1.0 到 2.0 的重构看得出小米想认真做这件事,把方案做成 OpenClaw 插件也降低了多平台部署的门槛,工程质量在线。2.0 才发布几天就保持着每天提交的节奏,团队投入是真金白银。但 2900 个 Stars 对小米这种体量的公司来说,说明它目前还停留在技术圈尝鲜阶段,离真正破圈还远。

一句话总结我的判断。Miloco 是大模型落地家居这个方向上一个值得研究的认真样本,它指对了方向,把全屋智能从规则触发推向了常识推理。但对普通用户,它现在更像一个需要门槛、需要花钱、需要交出隐私的极客玩具,而不是开箱即用的管家。值得关注,但别急着把它当成你家的智能中枢。

资源地址

资源 地址
主仓库 github.com/XiaoMi/xiaomi-miloco
中文用户手册 github.com/XiaoMi/xiaomi-miloco/blob/main/user_guide_zh.md

指对了方向,但还没到你家

如果让我给个明确建议:开发者和米家深度用户,值得现在就拉下来跑一跑,研究它怎么把大模型和真实设备打通,这部分价值实打实。但如果你只是想要一个更聪明的家,等它再成熟一两代,等成本降下来、本地化方案补上、生态长起来,再回头看也不迟。

它最大的意义不在于现在能用得多顺,而在于它把”用大模型做有常识的家庭管家”这条路认真走了一遍,并且把代码摆在了台面上。这对整个行业是个好事。至于那个”开源”的标签,记住它实际是源码可见加非商业许可,期待管理好,别被营销词带偏就行。方向是对的,路还长,但至少小米这一步走对了,剩下的就交给时间和成本曲线慢慢补。

开源项目

JoyAI-VL-Interaction:这不是视频理解,这是"在场感"

2026-6-26 10:44:51

实战分享

我用 2 个简单指令,让 ChatGPT 直接生成分层 PSD源文件,3 分钟干完了一天的设计活!

2026-4-26 22:30:35

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧