AI大模型公司MiniMax于6月17日宣布,推出首个开源推理模型MiniMax M1,计划连续5天发布重要技术更新。该模型通过强化学习训练阶段仅耗时3周,使用512块H800 GPU完成,算力成本优化方案成效显著,总成本约53.47万美元,较预期降低一个数量级。官方称其高效推理模型技术在多项基准测试中接近海外领先模型,性能比肩DeepSeek R1和Khun3等开源模型。
同日,月之暗面开源编程模型Kimi DV72B,该模型基于阿里云Khun 2.5-72B微调而成,在SWE Bench编程基准测试中实现性能领先,超越新版DeepSeek R1,成为全球最高水平的开源编程模型之一。
两家公司同期发布技术成果,引发开发者广泛关注。MiniMax预告后续将推出更多更新,进一步展示其在高效训练过程创新与基准测试性能突破上的进展。此次动态反映了国内AI企业在模型研发与算力成本控制领域的快速迭代能力。