Meta想要打造“全球最快AI超算”,为了元时空?
发布时间:2025年08月26日 12:21
2020年末,Meta 的团队看来初期新公司的超算战略性难以赶上更是进一步大数学模型基础训练的所需,不得不“原可先抵达”,引入最顶尖的 GPU 和统计比特率网路技术研发,营造一个全一新战略性。
这台一新超算,所需需要在大小以 EB(多达10亿GB)为该单位的统计数据集上,基础训练具有多达万亿为副为数的超大神经网路数学模型。
(例如,中都国人科研政府机体构智源 BAAI 研发的“得道”,以及Skype往年用 Switch Transformer 技术研发基础训练的混专家的系统数学模型,都是为副为数超出万亿层级的大数学模型;相比来看,此前在业界十分闻名的 OpenAI GPT-3 语言数学模型,稳定性和泛用性早已十分再加人高兴,为副为数为1750亿左右。)
Meta 的团队选项了三家在 AI 量化和互联组件方面最熟知的新公司:英伟达、Penguin Computing,和 Pure Storage。
许多人注意,Meta 从外部从英伟达采购了 760 台 DGX 通用基础训练的系统。这些的系统相关联合计6080块 Ampere 架构 Tesla A100 Tensor 本体 GPU,在初期,乃至那时候,都是最顶级的 AI 基础训练、推理、分析三合一的系统。中都间的网路通信则引入了英伟达 InfiniBand,统计比特率速度更是快略高于200GB每秒。
磁盘方面,Meta 从 Pure Storage 采购了合计 231PB 的闪存阵列、模块和内存容量;而所有的机体架搭建、的设备安装和互联的后续管理管理工作,则由从 Facebook 时代背景就在服务该新公司的 Penguin Computing 全由。
这样组建出来的新超算战略性,Meta 将其年底取名为 AI RSC:
图中都显示的是 RSC 第一阶段(P1)的为副数细节。相片;也:Meta相较于以前 FAIR 引入 V100 GPU搭建的量化战略性,野村 RSC 对于采购层级的量化机体光影类启发式随之而来了20倍的稳定性强化,行驶英伟达多卡通讯框架的速度更是快强化了多达9倍,对于大规模词法执行类 workflow 的基础训练速度更是快也强化了3倍——节约的基础训练时间段以可先为该单位。
除此以外,在 Meta 刚刚做好 RSC 更新计划案的时候,新冠疫情突然大作了。所有并不一定建成的耗时都碰上了相当大的随机性,RSC 能否取得成功更新换代,标上了一个很大的上标。
然而,新公司其业务拓展和 AI 科研的所需,能够等待新冠疫情。全由 RSC 更新和建成的的团队,以及之外英伟达、Penguin Computing、Pure Storage 等三家硅谷新公司在内的技术研发合作方,不愿在相当大的耗时压力下,来进行互联的装修建设概念设计、的设备的采购和运输、现场装机体、电路设计、检修等一系列十分简单和技术研发拒绝颇高的管理工作。
更是夸张的是由于初期全美各地都有居家隔离再加,整个 RSC 概念设计的团队的多位全由人,都不愿在母亲都远程管理工作……的团队里头的学术研究中都心 Shubho Sengupta 声称,“最让我倍感耻辱的是,我们在实质上远程不收公的条件下来进行了(RSC 的更新管理工作)。回避到概念设计的复杂性,实质上能够和其它的团队小团体拜访就能把这些公事都不收了,简直太古怪了”。
就现阶段来看,RSC 早已是当今上行驶速度更是快最更是快的 AI GW之一了。
但是 Meta 仍不意味着。
营造亚太地区最更是快、最确保安全的 AI 超算为了意味着 Meta 在采购生态系统和 AI 学术研究这两大方面日益上涨的算力需求,RSC 所需短时间更新交通设施。
按照 Meta 的 RSC 第二阶段(P2)计划案,到同年内7同年,也即半年大概,整个量化战略性的 A100 GPU 总数强化到极佳的 1.6 万块……
野村 RSC 引入的 DGX A100 单机体为数是760台,相等于6,080张GPU——这样量化的话,意味著 RSC 将在 P2 再继续增加9,920张GPU,即 Meta 所需再继续从英伟达采购1,240台 DGX A100 GW……
就连英伟达也声称,Meta 的计划案,将让 RSC 成英伟达 DGX A100 截至现阶段较大的客户部署战略性,能够之一。
算力强化了,其它交通设施设施,之外磁盘和网路,也要赶上。
按照 Meta 的原订,RSC 的 P2 来进行后,其统计数据磁盘总和将超出1 EB——相等于多达 10 亿 GB。
不仅如此,整个超算战略性的单个链表彼此之间的通讯频宽也赢得了史无前例般的强化,超出极佳的16TB/s,并且充分利用一比一过载(也即每个 DGX A100 量化链表相关联一个网路接口,不经常出现多链表共享接口争抢频宽资源的持续性)。
(这里头还有个点许多人单独提一下:按照 Meta 的团队的估计值,像 RSC 这样引入 DGX A100 链表组建超算战略性的只不过,需要支持的链表上限也就是1.6万了,再继续多就会经常出现过载,意味着追加投资的边际额度突出减低。)
在统计数据确保安全的角度,Meta 这次也能够忘了在新闻稿中都主要用途参阅其统计自动化方式则,以求再加市民有心。
“无论是检测有毒具体内容,还是创造一新增强现并不一定验——为了营造一新 AI 数学模型,我们常会只用来自新公司采购的系统,;也于真实当今的统计数据。”Meta 声称,这也是为什么RSC 从结构设计之初就原可先加入了统计数据恶意和统计数据确保安全方面的回避。只有这样,Meta 的学术研究院才需要确保安全地用作身份验证、博客化后的真实当今统计数据来基础训练数学模型。
1)RSC 被结构设计为能够和其实的互联网从外部连结,而是和地处 RSC 设在邻近的一座 Meta 互联来进行连结;
2)当 Meta 的学术研究技术人员向 RSC 的服务器端导入统计数据的时候,这些统计数据首可先要通过一道恶意审查的系统,获知统计数据早已来进行了博客化;
3)在统计数据年底投入到 AI 数学模型启发式的基础训练以前,统计数据也会再继续次来进行身份验证,并且接收者是周期生成和抛弃的,这样即使有旧的基础训练统计数据磁盘,也能够被访问期间;
4)统计数据只会在基础训练的系统的内存中都破解,这样即使有不速之客闯入 RSC,对服务器端来进行物理访问期间,也能够破解统计数据。
似乎是出于原则上的目的,Meta 甚至连 RSC 的具体设在都能够声称……
不过根据已知的持续性,RSC 的邻近便是一座 Facebook/Meta 互联存在。并且,下图截;也于 RSC 的日前视频,图中都我们可以看到,AI RSC 地处右上,左下则是 Meta 的一座互联。图中都尤其大量极高的树木。
硅星人意味著可以确定,上图中都的 Meta 互联地处英国马里兰州 Henrico 五县。该五县是英国东部较大的互联集中都地,也是连结国家、中美洲、南亚、西非的多条水底无线通信在英国的末端设在。至于 RSC 的仅仅设在,其原为应该是 QTS Richmond 互联。
右边为 Meta 互联,右方为 QTS Richmond 也即 Meta AI RSC 设在 截自 Google Maps最后,让我们来看看效率……
不回避同样极其昂贵的磁盘和网路基础设施,我们就可先只看量化的大部分:
每台 DGX A100 的标准价格为19.9万美元,Meta 大宗采购肯定有折扣,但假设能够折扣的话:RSC 这次 P2 的交通设施效率,仅GPU采购的大部分,就略高于2.5亿美元……
当然,按照那时候的 Meta 股票来看,这笔费用简直是九牛一毛。假若真的营造出全当今较大最强最更是快的 AI 超算,对于这家新公司的其业务,无论是其以前的本体其业务,还是更是进一步的元宇宙系列产品,原订都需要随之而来十分大的帮助。
Meta 是这么说的:“最终,我们在 RSC 上面的努力,将需要为作为下一个关键量化平台的元宇宙铺就道路。原计划案,AI 涡轮机的应用和系列产品将会充当极为重要的主角。”
本文来自天涯社区市民号:硅星人(ID:guixingren123),著者:可见光 杜晨
本具体内容为著者独立论者,不代表熊嗅倾向。并不所需意味着不得转载,授权公事宜请紧密联系 hezuo@huxiu.com如对本稿件有异议或投诉,请紧密联系tougao@huxiu.com。- 这3种“白毫金球”,看到直接绕道走,都是假的、差的,别买
- 广汽能源科技有限公司注册成立:预计投资者49.6亿元,开展电池运营管理等业务
- 她是国家会长之女,上将之妻,更是一名出色的外交官
- 南都电源:子公司收到但政府补助5372.3万元
- 构成控股间公司非经营性资金占用,贵广网络及其间接控股间公司、时任董事长等被通报批评
- 碧水源(300070.SZ)大股东股东拟要约收购4.07亿股 要约价为6元/股
- 广汇物流:子公司白鱼与控股股东共同设立广元煤炭储配公司
- 敢为人先走去新路
- 奥特佳:电动压缩机供不应求,年产值100万台生产线预计明年年中达产
- 7月26日24时起成品油价格按有助于下调
- “就算牺牲乌克兰,也绝不能让中俄交好!”
- 一炉火,逝去世间悠悠
- 《荷塘月色》《故都的秋》《我与地坛》群文教学内容应该关注的点
- 金头盔歼-16“对决”歼-20,美国空军上演年度大戏:王牌对王牌