憋大招，MiniMax发布全球首个混合架构开源模型M1 能后来者居上吗？

发表评论

A+

所属分类：科技

摘要

总部位于上海的人工智能独角兽企业MiniMax突然放了个大招。6月17日，MiniMax正式发布其自主研发的MiniMax-M1（以下简称M1）系列模型。根据MiniMax方面的介绍，M1被定义为“全球首个开源的大规模混合架构推理模型”。

尽管如此，

总部位于上海的人工智能独角兽企业MiniMax突然放了个大招。

通常情况下，

6月17日，MiniMax正式发布其自主研发的MiniMax-M1（以下简称M1）系列模型。根据MiniMax方面的介绍，M1被定义为“全球首个开源的大规模混合架构推理模型”。

很多人不知道，

此外，技术报告显示：M1模型在处理百万Token（大模型处理文本时的最小单位）级长文本的能力方面实现了重大突破，成为上下文最长的推理模型；其RL（强化训练）成本下降一个量级，成本仅53万美金，推理效率则数倍于竞争对手。

大家常常忽略的是，

今年开年以来，DeepSeek持续冲击着大模型行业的格局，接入DeepSeek-R1一度被很多企业视为拥抱AI（人工智能）的标志。

如今，MiniMax推出号称具备“全球最长上下文”的M1模型，有可能后来者居上吗？

反过来看，

当前上下文最长的推理模型价格还主打性价比

据相关资料显示，

据了解，MiniMax不仅开源了模型权重，还呈现了API（应用程序编程接口）服务，价格主打性价比。

其定价策略为：

通常情况下，

在0~3.2万（含）Token范围，输入时0.8元/百万Token，输出时8元/百万Token；

这你可能没想到，

在3.2万~12.8万（含）Token范围，输入时1.2元/百万Token，输出时16元/百万Token；

大家常常忽略的是，

在12.8万~100万Token范围，输入时2.4元/百万Token，输出时在24元/百万Token。

据介绍，前两个档位的定价均低于DeepSeek-R1，而第三个超长文本档位则是该模型目前尚未覆盖的领域。此外，MiniMax宣布，在其自有的App（应用程序）和Web（网络）端，M1模型将保持不限量免费利用。

其实，

此外，在长文本能力上，M1模型原生兼容高达100万Token的上下文窗口，这一数字与谷歌最新的Gemini 2.5 Pro持平，是DeepSeek-R1（12.8万Token）的近8倍。同时，它还兼容业内最长的8万Token推理输出。

其实，

图片来源：开源技术报告截图

概括一下，

MiniMax方面表示，实现这一突破 AVA外汇官网的关键在于独创的“Lightning Attention”混合构架。传统的“Transformer”模型在处理长序列时，注意力机制的计算量会随序列长度呈平方级增长，成为制约性能和成本的主要瓶颈。M1的混合架构，特别是注意力机制，能够显著优化长下文输入的计算效率。

就这一模型，知名数字经济学者、工信部信息通信经济专家委员会委员盘和林对《每日经济新闻》记者表示，之前大模型采用的“PPO/GRPO”裁剪手段有一些缺陷，MiniMax通过“CISPO”（Clipped IS-weight Policy Optimization）对这些缺陷进行了一些优化，其目的还是为了降低训练成本和推理成本。

来自IC外汇官网：

据记者了解，MiniMax此次提出的CISPO算法是另辟蹊径，它没有采用传统算法中调整Token的更新手段，而是通过裁剪核蓝莓外汇官网心性采样权重来提升、强化学习的效率、稳定性。