苹果芯片吹上天,沉重的代价在后面。

一个多星期前,水果公司更新了MacBook产品线。在2021版MacBook Pro系列发布的同时,性能更强大的M1 Pro和M1 Max系列芯片在去年首款桌面M1处理器之后得到了扩展。19日的线上发布会,C元没有跟进。当时虽然有了一些想法,但是很多疑惑和猜测还是需要评测数据来验证。当然现在随着越来越多的信息和评价陆续发布,有些话终于可以说了。首先深度解读发布会上苹果的性能对比图。注意,苹果毕竟是苹果,和某些厂商找软柿子做图片好看完全不一样。这次库克直接对标的是顶级游戏笔记本GP66 Leopard——。基准是微星GP66 Leopard (11UG-018),采用英特尔第11代i7-11800H处理器。国内价格超过13000元。相同功耗下,M1/MAX的CPU性能是i7-11800H的1.7倍。
而面对同样的GP66,只有“大杯”M1 Pro可以用30w左右的功耗达到其RTX3070图形处理器100w功耗所能达到的性能。
而更先进的M1 Max处理器则直奔雷蛇Blade 15 Advanced的顶级游戏“麻烦”。看图,在60w的功耗下,“超级杯”M1 Max处理器的GPU部分的性能与RTX3080在160w时相当。
那么,现在的跑分数据呢?
根据最新曝光的Geekbench 5跑分数据,以M1 Max为榜首的单核跑分为1749,多核跑分达到11542,几乎是M1芯片的两倍,与2019款Mac Pro高配版(搭载12核英特尔至强W-3235处理器)几乎持平。从“挤牙膏”到死人的苹果身上“挤牙膏”,是相当一段时间以来市场和用户对英特尔公司战略的嘲讽。从2008年到2017年的九年间,英特尔处理器已经更新了七代。在消费级市场,一直是i3双核4线程、i5四核4线程、i7四核8线程的步伐。每一代的同频性能都比上一代提升3%-5%,打不过。久而久之,英特尔也得到了“牙膏厂”的绰号。我不知道苹果自研桌面芯片的最初动机,但无论如何,我相信至少有一部分原因是我无法忍受这种“挤牙膏”的策略。只是这一次,苹果被挤得稍微狠了一点,不仅跑到了“牙膏厂”,连黄和这一对皮衣都恶心到了。
黄/马谡:你惹你了?接下来,让我们品尝苹果M1系列的中杯、大杯和超级杯。CPU部分,10核M1Pro/M1Max由8个性能核和2个能效核组成。很多人可能对这些图片没有直观感受。最左边最小的是基本的苹果M1处理器,其晶体管总数为160亿,由TSMC N5工艺制造。而安卓主流旗舰芯片骁龙888,算上基带后晶体管总数只有100亿,略差三星5LPE工艺。
M1、M1 Pro和M1 Max处理器核心的x射线图,以及右边的两个,大杯M1 Pro和大杯M1 Max,晶体管总数达到惊人的337亿和570亿。(日前,阿里巴巴公布的128核服务器专用核“永恒”拥有600亿个晶体管。)一个M1Max中的晶体管数量相当于手机中的6个骁龙888。让我们先品尝“超级杯”M1马克斯。CPU是一个超宽的执行架构。高性能内核拥有192KB指令高速缓存、128KB数据高速缓存和高达24MB(12MB*2)的L2高速缓存,而两个高能效内核还拥有128KB指令高速缓存、64KB数据高速缓存和4MB L2高速缓存。其高能效核心缓存的富裕程度已经超过了大部分安卓终端上所有手机的SOC的超大核心。这样过剩的晶体管背后,是恐怖的性能和外围电路。
M1芯片最显眼的x光照片是32核苹果自主研发的GPU核心阵列,整齐地排列在处理器中央,由控制器和总线连接,旁边是巨大的片内SLC缓存。如果每个缓存区的大小为16M,那么整个处理器的SLC缓存可以达到64M。虽然不太合适,但这里有个对比:主流安卓旗舰处理器骁龙888,L3缓存大小只有4M!左右两侧是四组128位LPDDR5内存控制器,共同构成了M1 Max《毁灭者柯南》的最大内存带宽。在满配64G片上LPDDR5 6400内存的前提下,最大带宽达到惊人的409.6GB/s,相比之下,英特尔第11代处理器11800H在桌面上的最大内存带宽仅为51.2GB/s,在内存带宽上,将在一些敏感的深度学习应用中提供无与伦比的硬件优势。说“超级杯”,继续看“大杯”的M1 Pro。
M1Pro是由“巨无霸”M1马克斯切掉下半部分组成的。即便如此,晶体管总数仍然达到了惊人的337亿,并预留了32M SLC缓存和两套128位LPDDR5内存控制器。当然,“减半”后204.8GB/s的内存带宽还是很惊人的。挤掉“牙膏厂”之后,再来说说对马谡和老黄皮衣的影响。如果不考虑不同架构和平台的差异,不同API的效率差异,只考虑GPU的浮点运算能力:满血的M1 Pro是16核GPU,浮点运算能力高达5.2万亿次浮点运算(tflops),足以对标AMD的RX5500显卡或者NVIDIA的RTX1660ti就连小刀的M1 Pro(14核)也有4.6tflops的运算能力,直接把RX5500M和RTX1650Super用鲜血标注在了标准笔记本上;大哥M1 Max的热血版更恐怖,——浮点运算能力10.4TFlops,4096执行单元,并发线程极限98304,纹理填充速率3270亿/秒,像素填充速率1640亿/秒。可以直接标注满血的RTX2080,也可以标注功耗降低的缩小版RTX3080。老黄好不容易才拿下皮衣。至于马谡,她需要牺牲RX Vega56才能勉强超过32核GPU的满血M1 Max。这里需要再次强调的是,——正如本文开头苹果发布会的PPT中解释的那样,赶超160w RTX3080的浮点性能,M1 Max“满血版”只需要60w功耗。但是,库克,代价是什么?
回顾M1芯片的推出,是在2020年11月,差不多一年前。当时,M1的单核性能与目前的M1 Pro/Max相同,多核性能的差异仅来自于内核数量从8变为10。GPU部分更简单。M1多达8个GPU核,对应M1 Pro和M1 Max的16核/32核,无论是3D Mark评分还是浮点运算能力,都是1:2:4的简单性能关系。换句话说,在技术没有进步的前提下,单核一年没有变化。如果我们回头看看苹果A系列处理器的超大核,每一代的进步都是极其可观的,但是从A12开始,这种进步开始放缓。到A13/M1,苹果已经开始部分依赖代工技术的进步和频率的提升。而苹果的对手,不知道是牙膏挤多了,还是突然发力。几乎一致认为,他们将在明年推出极具竞争力的竞品。首先是苹果的老搭档对手。不出意外的话,2022年将是牙膏厂的GPU爆发元年。最新的Xe架构GPU即将出现。即使英特尔目前的制造工艺落后于TSMC(自然,落后于苹果先进的TSMC技术),英特尔仍然期望与苹果目前的基准产品相比,实现“大约两倍”的能效提升。不要以为这是吹牛。根据泄露的具有512个处理单元的英特尔DG2处理器,苹果在GPU上相对于英特尔图形集群的优势将迅速降低。
英特尔DG2移动独立显卡未来预计配置和参数至于AMD,其RNDA2架构也有超过50%的提升。目前苹果在桌面产品上的优势,如果从非专业人士的角度来看,可以称得上是对友商竞品的碾压。但代价是:核心架构在今年还会保留,而且要为超大规模TSMC的最新制程技术付出非常高的成本。需要注意的是,在芯片设计领域,虽然在相同的技术条件下,规模越大(即晶体管越多),产品的性能在一定程度上会越好。但实际上,就半导体产品的技术指标而言,在相同的性能和功耗下,使用的晶体管越少,你的能力就越强大,因为这意味着企业可以用更低的成本制造出来。作为研发密集型的半导体产业。d,其研发;d投资是固定投资,而晶体管数量是可变投资。随着产品的批量生产,我们自然希望固定投资比例越高,可变投资比例越好。要达到同样的功能,自然是晶体管越少越好。苹果的野心和国产方向很多人关注的是苹果新推出的M1 Pro/Max系列处理器的CPU和GPU性能,但很多人忽略了苹果近年来一直专注的另一个领域,NPU,也就是神经处理单元。NPU作为一种特殊的计算单元,对于神经网络具有CPU/GPU等通用计算单元无法比拟的能效和性能优势。在图像识别、自然语言处理等任务中,NPU往往能以比CPU/GPU更低的负载和更高的速度完成。因为优势如此明显,在未来移动终端的很多应用中,端侧NPU计算能力成为了很多公司的发展方向。无论是mainland China的海思还是紫光,台湾的联发科,美国的高通还是韩国的三星,他们的移动处理器近年来都在朝着加强神经网络计算能力的方向发展,这些计算能力最终都会落地。
当然,在这一点上,苹果领先于所有人。以苹果在iOS 15中更新的“字符识别”功能为例。苹果可以直接实时读取照片中的文本信息,没有任何延迟,并允许用户简单地复制它。相比之下,Android上的类似功能通常需要小米门户或华为智能屏等特有功能——长按触发,然后经过运算分析后读出。这背后看似是功能上的差异,其实是算法和计算能力上的巨大差距。苹果的不敏感、无延迟、无限制的字符识别,有非常大的概率是苹果为未来可穿戴智能设备低功耗、全时无延迟感知外界环境而进行的预研过程中的简单成果。感觉和不感觉,延迟和不延迟有什么区别?
如果呢?让我们想象一下,未来的智能眼镜,可以让用户一目了然的获取足够的信息,高效无感知的为你处理。所以用户不需要看一个公告,背一个地标,一遍一遍的看一个内容,更不需要拍照,逐字逐句的读。未来智能穿戴设备或许可以直接帮你阅读理解,拆分选择重点。出国旅游时,菜单翻译只需看一眼就能瞬间替代,复杂公式的计算不用拍照也能自动实时完成。这对于提高生活便利性是不可想象的,而这一切的背后,需要强大的计算能力和算法。然而,这可能只是苹果野心的一小部分。目前,中国有许多公司正在制造先进的工艺芯片,大多数公司都在寻找像TSMC这样的代工厂,少数公司会选择像SMIC这样的国内代工厂。同时,大量公司在做人工智能/神经网络相关芯片的研发,比如寒武纪、地平线、新源、中兴微等。目前这个方向是一个独立的赛道,起跑线比较近,不像ARM/X86架构下,国内和国外起点有10年的差距,还有大量的技术/专利壁垒。同时也是未来社会快速发展的方向之一,背后有着数千亿的巨大市场和需求。

其他教程

70多集illustrator 2018视频教程,任性带走。

2022-8-17 18:44:41

其他教程

植物大战僵尸2碎片怎么获得(植物大战僵尸2快速获得碎片)

2022-8-17 18:46:43

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索