新架构模型 HRM-Text 创新纪录,1B 参数、1000 美元,图灵奖得主都亲自下场了

本文来自微信公众号: 机器之心 ,编辑:+0,作者:关注模型架构的,原文标题:《新架构模型 HRM-Text 创新纪录 … 后者通常分别训练两个不同规模的模型,再让大模型负责复杂规划、小模型负责快速执行,模型之间主要依靠文本接口交换信息 … HRM-Text 提供了一个有数据支撑、也可以被复现和继续检验的案例:在一个通常需要海量 tokens 和庞大集群的领域,通过改变计算结构与训练目标,一个 1B 参数模型仍然能够以较低预算进入部分 2B 至 7B 开源模型的性能区间。

原文连接