杨植麟:高质量数据的增长速度跟不上可用算力的增长,因此在传统的“基于互联网数据的 next-token prediction”范式下,继续 scaling 带来的提升会变小。但我认为还有其他 scaling 的可能性。比如我们最近在 Agent Swarm 上的实践,通过并行执行子任务来扩展 agent 数量。这可以被看作是一种 test-time scaling,同时也为 training-time scaling 提供了新路径。未来可能会出现新的 scaling 范式。长期来看,或许会有一种模型,能够在很少甚至零人类先验的情况下学习。
杨植麟:我们认为需要一个与模型本身高度契合的 scaffold。Claude Code 的 scaffold 经常变化,有时会带来兼容性问题。此外,Kimi Code 还有一些独特功能,比如视频输入。我们认为 video-to-code 非常重要,是前端开发的未来方向。
吴育昕:我们在《Muon is Scalable for LLM Training》论文中总结了一些 scaling 方法论。评估主要来自预训练 loss 和多种 benchmark,很难说哪一种最重要,通常是整体信号共同反映模型状态。