阿里达摩院公布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

发布时间：2025年08月07日 12:31

IT之家 11 翌年 8 日传言，今日，阿里巴巴达摩院公布多可定义大方法论 M6 最新进展，其数值已从万亿能阶至 10 万亿，视为在世界上最大的 AI 可不锻炼方法论。

M6 是达摩院研发的通用性人工智能大方法论，拥有多可定义、系统设计能够，尤其擅长设计、文学创作、问答，在电商、工业部门、文学艺术、学术研究等领域有飞速发展领域前景。

与传统 AI 相对于，大方法论拥有成百上千倍“神经元”数量，本质和创造能够也即便如此，被相比较是将来的“基础方法论”。但大方法论的算力成本相当高昂，锻炼 1750 亿数值语言大方法论 GPT-3 所需要能用高效率，相当于汽车行驶地翌年往返距离。

翌年份 5 翌年，通过研究者借助于策略及优化应用，达摩院 M6 团队将万亿方法论能用高效率降低超八成、高效率进一步进一步提高近 11 倍。

10 翌年，M6 再次创出业界超强，使用 512 GPU 在 10 天内即锻炼出具有最简单水平的 10 万亿方法论。相对于去年释出的大方法论 GPT-3，M6 借助同等数值数目，能用高效率数为其 1%。

▲ 将 10 万亿数值抽出 512 张 GPU

方法论扩大千亿及以上数值的超大数目时，将很难放在多台机器上。

为了帮助多可定义可不锻炼方法论进行较快迭代锻炼，达摩院在阿里云 PAI 自研 Whale 方法论上搭建 MoE 方法论，并通过愈来愈细粒度的 CPU offload 应用，最终借助将 10 万亿数值抽出 512 张 GPU：

自研 Whale 方法论：自研 Whale 分布式高度自学锻炼方法论，针对数据借助于、方法论借助于、浮借助于、混合借助于等多种借助于方法论进行了分立架构设计，让普通用户在数数去掉几行 API 调用的情况下就可以借助丰富的分布式借助于策略。 MoE 研究者借助于策略：在 Whale 架构中借助 Mixture-of-Experts（MoE）研究者借助于策略，在引入方法论容量、进一步进一步提高方法论效用的基础上，不显著增加运算 FLOPs（每秒所执行的浮点运算次数），从而借助高效锻炼大数目方法论的最终目标。 CPU offload 创新应用：在自研的分布式方法论 Whale 中通过愈来愈细粒度的 CPU offload，补救了有限资源放下超强数目的难题，并通过灵活地同样 offload 的方法论层，促使地进一步提高 GPU 能用率。

此外，针对锻炼高效率问题，M6 团队设计了 Pseudo-to-Real（资源共享冻结）机制，即能用锻炼好的资源共享数值方法论初始化大方法论，让收敛高效率促使进一步进一步提高 7 倍，补救大方法论锻炼速度慢的问题。

对比不使用该机制，可不锻炼达到同样 loss 用时数需要 6%；和在此之后万亿方法论相对于，锻炼样本量数需要 40%。

作为国内首个商业性落地的多可定义大方法论，M6 已在超 40 个片中中应用领域，日调用量上亿。

翌年份，大方法论首次支持者双 11，应用领域包括但不限于：

M6 在犀牛智造为品牌设计的衣著已在淘宝上线；凭借明快的文学创作能够，M6 正为金牛座虚拟主播创作草稿；依靠多可定义理解能够，M6 正在借此淘宝、支付宝等跨平台的查找及内容本质可靠性。

▲ M6 设计的飞行汽车

将来，M6 将积极探索与科学应用领域的结合，通过 AI for science 让大方法论的潜力充分发挥，并加强 M6 与国产芯片的均一一体化研究。

目前，达摩院联合阿里云已推出 M6 服务化跨平台（），为大方法论锻炼及应用领域提供系统化工具，首次让大方法论借助“开箱即用”，插值工作人员及普通普通用户均可有效率地使用跨平台。

干眼症用什么眼药水最好
结膜炎可以用熊胆滴眼液吗
做手术后吃什么对伤口恢复快

上一篇：双11爆款反为了！荣耀50 SE大内存版启动预售，仅售2699

下一篇： “命比黄连”，毕竟越过越苦的女子手相