欢迎光临本站!

苹果M1 MAX为什么快

来源:原创    更新时间:2021-10-30 12:00:40    编辑:星谷下载    浏览:63

苹果秋末新品发布会,已有一段时日,但这次M1 PRO /MAX新芯片的消息,从没停歇。他变强了,为什么强,强在哪儿?我们今天就来聊一聊。

           

▌CPU,内核没变,方案改变

虽然各方面参数强的夸张,很夸张,但比较容易忽视CPU部分,以旗舰SoC芯片M1 MAX为例:

           

其实这代CPU内核设计和以往M1相同:

性能大核上,就是以前的内核做了个镜像,翻了个倍,设计上基本是一致的。

效能小核上,每核的L2缓存没变,但核心数量少了一半。

也就是说,只是方案从“4大4小”变成了“8大2小”,要省电还是M1省电,但M1 PRO和M1 MAX的峰值性能确实比M1强了很多。

           

而M1 PRO和M1 MAX的最大区别,也仅仅是这下半部分GPU,上半部分是一样的,就像是可以掰成两半的苏打饼干。

也就是说,这次实际的设计目标就是M1 Max,而M1 PRO应该是出于制造成本考虑的“物理阉割版”。

           

这代M1 PRO /MAX单核峰值频率3228MHz,2核3132MHz,3~4核3036MHz,和前代大致相同。

小核单核峰值2GHz,二者都不支持超线程。

可能由于本身就很先进,这时候只管堆料就行,没必要重新设计。

缓存设计,同,又不同

缓存上,飘哥在之前《苹果M1全网最硬核评测》中已经全面介绍过了。

M1是“大核12MB + 小核4MB”的共享L2缓存,已经是当时CPU里最大的缓存设计,同期主流X86 PC的二级缓存(L2 Cache)都没他大。

           

这代M1 PRO /MAX,要说没区别,也区别。要说有区别,也有区别。

           

由于镜像大法,虽说是8个(Firestorm)性能核心的CPU,但其实是2组4核心集群,L2缓存规模和布局没变,2组集群分别使用各自的12MB L2缓存(共24MB),并非共用一个更大的统一24MB L2缓存。同时,每组核心频率、负载也是各管各的。

           

但区别在于,性能大核心数量翻倍,缓存也翻倍,平均每核心缓存大小和以前一样。但(Icestorm)效能小核心虽然数量少了一半,L2缓存大小没变,平均每核心缓存翻倍,依然是4MB,也就是每核心从1MB变成2MB。

           

此外值得注意的是,因为规格翻番,所以SLC Block缓存块也翻番。

这个SLC不是指SLC颗粒,而是System Level Cache系统级缓存的缩写,可以理解为AMD的Infinity Cache。由于是CPU、GPU、NPU共享的,所以位置往往位于三者之间。

M1和和A14一样都是16MB,而如今每一个SLC Block都是16MB,M1 PRO的2个就是32MB,M1 MAX就是足足64MB。

▌NPU,本该翻一番,但可能一番没翻

比较意外的是,根据苹果官方宣传里,这次NPU性能没变,还是16核(11.8TFLOPS算力)。NPU也就是嵌入式神经网络处理器,特性优化设计的专用核心,效率比通用核心不知道高到哪里去了。

           

这次GPU部分虽然也做了上下对称设计,很多模块都是翻倍的,包括给H264/265硬解的视频解码单元,M1 MAX相比M1 PRO也翻倍。但目前官方数据都是16核,但M1 MAX芯片上也多了一个NPU部分,不知道最终性能有什么变化。

▌512bit内存,离谱的快

这次最恐怖的就是内存性能。苹果依旧使用UMA统一内存架构,也就是内存和显存共用,降低延迟和带宽需求,提升效率。其实在M1之前,A12X就已经用这种方案了。

           

颗粒就焊在芯片的内存控制器边上,距离越近,延迟越低。上代M1是双通道LPDDR4X 4266MHz 128bit(2x 64bit),1.5V电压。

           

如今直接用上了LPDDR5,由于DDR5单Die双通道的特性,实际可以理解为每片颗粒内部是2x 64bit = 128bit位宽,因此内存位宽为:

M1PRO是2 x 2 x64bit =256bit

M1MAX是4 x 2 x64bit =512bit

也就是说,M1 MAX不是说看着有4片Die就是4通道,实际是等效8通道。按照最大512bit位宽来算,“等效工作频率 x 位宽/8 = 带宽”,而他的内存频率为6400MHz(≈6400MT/s),那么:

6400MT/sx 512bit/8 =409.6 GB/s

           

岂止是远超M1的68.25GB/s,这已经是3995WX配8通道DDR4 3200内存的两倍内存性能了...接近海力士的HBM2E内存(460GB/s)。

           

另外这代由于内存通道变多,参考M1实际平台内存延迟有96ns,这代的延迟可能会更高。

此外内存控制器分配缓存为48MB,大缓存也可以抵消一些延迟带来的影响。内存控制器肯定是更新更强的,布线也经过全面改动,

           

由于内存共享显存,相较于3080、3090这些GDDR6X显存动辄一百多ns的延迟,其实还是低的多的。

当然,由于电压从上代的1.5V降低到了1.1V,内存/显存功耗会降低不少,这代最大64G统一内存/显存,省电的同时,显然也不会爆显存。

           

反观RTX 3090上那24G的高功耗GDDR6X显存,容量相较之下小的多,但约120W的显存功耗,甚至都比别人一台笔记本电脑平台功耗都高了...(不过GDDR6X的带宽确实更大)

▌GPU显示核心

GPU方面,也是肉眼可见的翻倍,M1 PRO的规模比M1大一倍,M1 MAX比M1 PRO又更大一倍。

           

从8核,提升到16核和32核GPU。同时翻番的还有TMUs纹理单元、ROPs光栅单元。

根据以往评测,M1的GPU稍低于RX560的水准(Metal下相比DX12有额外性能损失),那么四倍于这个性能,那刚好就稍低于桌面端3060或者2070差不多了,基本符合官方宣传图里那个暗示3080 Max-Q的图表。

           

M1MAX的GPU包含256个TMUs、128个ROPs、4096个ALUs也就是流处理器。GPU核心频率1278MHz,

           

单精度浮点性能10.4TFLOPS,功耗约70W。对比其他浮点性能接近的显卡,M1 MAX确实有着最低的功耗,极其离谱的能耗比。

           

根据Anandtech的测试,在GFXBench 5.0 Aztec Ruins测试中,这块GPU实际表现介于6800M和3080低功耗版之间。

           

但对于Affinity基准测试这类专业应用,M1 MAX GPU(32891分)在部分任务中甚至超越了AMD Radeon Pro W6900X(32580分)这档专业卡,

           

在图像处理方面,果然还是有着先天优势。

总结

功耗方面,M1的TDP是25W(峰值34W),其中CPU部分是15W(极限24W,单大核3.8W),GPU8.5W(极限10W)。

           

这代M1 PRO和M1 MAX的还没出来,按照以往大小核心负载功率估算,这次由于大核变多小核变少,猜测最大可能去到34W功耗(M1 MAX 性能模式)。

根据官方信息,GPU部分最高只有60W,性能接近160W的3080移动版。

芯片规模上,M1 MAX封装了570亿个晶体管。这什么概念?

M1 PRO为337亿个,那么GPU部分则(570-337)x2=466亿个晶体管,CPU+I/O部分为570-466=104亿个晶体管。

           

Zen 3旗舰CPU R95950x两块die加起来41.5亿晶体管,I/O die是20.9亿,总共103.9亿(和M1 PRO / MAX基本差不多),而NV旗舰独显RTX3090是280亿晶体管。

也就是说,5950X + 3090也只有400亿晶体管,苹果这570亿的规模,这个有史以来苹果最大的芯片,真的是堆料堆炸了。

但堆料归堆料,这次苹果的策略就是大核高IPC,跑低一点的频率,在相同性能条件下,换取更好的能耗比表现。

           

真正的难点在于如何做到这么多Die之间互联,延迟会不会起飞,按照苹果的水,在这种看不到的地方往往也很下功夫。

这次只是笔记本这种低功耗移动端,下回万一用在Mac Pro这种散热空间足够,会是什么规格呢?可能会来个CPU更强的M2。

           

目前已经有传闻,代号Jade4C-Die(和2C-Die)的芯片,会用32个性能核心,128个GPU核心,1600GB/s内存带宽,功耗300W内,可能会用在Mac Pro 2022上?


评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜