AI Infra 没什么新东西

我花了挺长时间去把 AI Infra 的核心工程挑战拆开,一个一个跟传统后台服务做对照,最后发现那些听起来唬得你一愣一愣的概念,什么模型并行啦、什么通信计算重叠啦、什么 CUDA Graph 啦、什么 KV Cache 啦,都是传统后台玩剩下的东西 … 但 AI 时代,动辄千亿参数的模型训练,需要千卡 / 万卡 GPU 集群协同,通过专用网络互联构建出一个所谓的”AI 超算”,这设计逻辑是不是有点眼熟 … 当下的 AI 正处在”AI 大型机”的阶段,硬件集中化的红利还没吃完,软件层面的去中心化创新还没成熟,恰好跟阿里当年提去 IOE 的历史阶段有点像。

原文连接