paypal注册(paypal登录入口)

原始机器心脏

作者:张骞

内存不够买DRAM?英特尔:很多情况下没必要。

人们常说,人工智能的新浪潮是由数据、算法和计算能力驱动的。近几年模型参数的爆发式增长,让大家看到了计算能力的基础作用。

为了满足企业用户对计算能力的强烈需求,目前很多AI硬件(如GPU)都在努力提高峰值计算能力,但这种提升通常是以简化或删除其他部分(如内存的分层架构)为代价的[1],导致AI硬件的内存发展速度远远落后于计算能力的增长速度。

sotransformer模型参数(红点)与AI硬件内存大小(绿点)增长趋势对比。图片:3359github.com/amirgholami/ai _和_记忆_墙/blob/main/imgs/pdf/model _ size _ scaling.pdf

所以在遇到大模型的训练和推理时,用户总会觉得视频内存或者内存不够用,这就是所谓的“记忆墙”问题。

为了打破记忆墙,人们想了很多办法。比如上一段的庞-AI项目时间火,就是适合训练阶段的方法。在这个项目中,开发者高效利用了“GPU CPU异构内存”的策略,使得一个消费级显卡可以训练出180亿个参数的大型模型。

在推理阶段,模型对硬件的主要要求是加载模型的所有参数,所以对计算能力的要求比较低。一般对于计算密集型模型,可以采用INT8量化或模型并行等策略,使用多个GPU及其内存资源推理单个模型。但实际上,在工业应用场景中有很多机器学习或深度学习模型可以利用CPU和内存进行推理,比如推荐系统、点击预测等。

对于这些机型,除了内存容量的需求,我们可能还需要考虑异常情况下的数据恢复时间、硬件成本、维护成本等。这也对破解记忆墙的方案选择提出了新的要求。

行业的推理障碍:记忆墙

在工业场景中,海量数据和高维模型确实能带来更好的结果,但这些数据的高维稀疏特性给计算和存储带来了极大的挑战。毕竟像推荐系统这样的模型,隐含层规模可能在百万量级,参数总数甚至可以达到10万亿量级,是GPT-3规模的百倍。因此,它的用户往往需要一个特别强大的记忆支持系统来实现更好的在线推理能力。

既然内存不够,直接堆内存模块(比如DRAM)不够吗?这在原理上是可行的,但是一方面DRAM内存的价格并不便宜。这种型号需要的内存不是几百GB,而是动辄几十TB。但单个DRAM内存一般只有几十GB,很少超过128GB。所以总体来说,无论是成本还是扩容,这个方案都不容易被大家接受。

另外,DRAM内存还有一个问题,就是数据易失,或者断电会丢失数据。有时候重启模型或者故障排除时,权重只能从较慢的存储设备重新加载到内存中,比如SSD或者机械硬盘,延迟很大时间,对于在线推理业务来说很难容忍。

打破推理记忆墙,没有DRAM用什么?

那么除了购买DRAM这种不经济的选择之外,对于提供在线推理服务或者使用这类应用来打破内存墙的企业来说,有没有其他的选择呢?

如果仔细对比不同存储级别的容量和延迟数据,可以发现DRAM内存和SSD/HDD存储其实差距很大。如果能开发出一种全新的存储组件或设备来填补这一空白,记忆墙问题可能会得到缓解。

这就是英特尔Optane持久存储器(PMem)诞生的背景。其独有的奥腾存储介质,结合先进的内存控制器等软硬件技术,使其性能接近DRAM内存,容量可增加数倍(单个容量可达512GB)。在基于第三代英特尔至强可扩展处理器的双通道平台上使用时,理论上可以提供最大12TB的内存容量(4TB DRAM 8TB持久内存)。相比之下,基于纯DRAM的方案在容量扩展上远远落后。

除此之外,傲腾持久存储器还有两个重要的特点:字节可寻址和数据持久,分别结合了内存和存储的优势。传统上,存储是需要分块读写的,就像图书馆借书时,整个书架上目标为书籍的书都要扛回家才能排序,而按字节寻址内存,就相当于精确定位目标书籍的位置,只借出去。

奥腾持久存储器在存储层次中的地位和作用。

以图书的存储和检索为例,了解不同存储层次的特点。

数据持久化弥补了DRAM内存固有的不足,即掉电后仍能保留数据,使得计算系统有计划或无计划关机时,大量内存数据库的数据和服务的恢复速度大大加快。毕竟省去了从固态盘或者硬盘把几百GB,甚至TB级别的数据读回内存的时间。

PayPal的实践证明,持久内存是非常划算的!

要看奥腾持久记忆能否帮助用户打破AI记忆墙,如果只是说说不去实践的话。

以全球知名的在线支付服务商PayPal为例。和其他金融服务公司一样,PayPal也难逃欺诈的挑战。即使其在该领域的响应水平高于行业平均水平,每年的损失仍将超过10亿美元。因此,PayPal特别注重反欺诈。为此,它不仅建立了一个具有强大反欺诈预防模型的实时决策系统,而且还不断加强该系统处理和分析相关数据的效率,以便实时识别新的欺诈模式。

来源:PayPal新闻编辑室

对于已经承担数百Pb数据处理任务的PayPal IT基础设施来说,数据量的增加和反欺诈决策平台数据处理分析效率的提高是一个严峻的挑战。虽然从2015年开始引入了Aerospike的数据库技术,将主索引数据存储到内存中以达到更好的实时性,但随着主索引数据规模的不断扩大,节点中的内存容量很容易被耗尽,进而会影响数据读取、写入和处理的实时性能。这时候购买新节点就要花很多钱了。注意,这里的成本不仅包括硬件成本,还包括伴随的管理成本和功耗成本。

所以PayPal更倾向于能够提高单位节点存储密度的方案。

基于这些诉求,PayPal选择进口英特尔的傲腾持久内存,这里还有一个前提,就是Aerospike是这款创新硬件发布后首批支持的数据库厂商之一。

借助Aerospike数据库的混合内存架构(HMA),PayPal可以将主索引转移到奥腾持久内存,而不是过去的DRAM。这样做的好处很明显,因为傲腾持久内存的单个容量远高于DRAM,每GB成本明显低于DRAM,可以帮助PayPal将每个节点的总存储空间翻两番提高(从3.2 TB提升到12 TB)。因此,PayPal只需使用较小的集群就能满足业务所需的高性能,从而减少约50%的服务器数量,降低约30%的每集群成本。

将主索引存储在傲腾持久内存中还有一个额外的好处,就是我们前面提到的数据持久化。这使得Aerospike的索引重建时间从59分钟缩短到4分钟,满足了PayPal对更长运行时间时间和更高可靠性的要求。据悉,英特尔与Aerospike多年的合作也带来了一系列更深入的优化,包括在傲腾持久内存中存储更多数据(不仅仅是索引)。

在采用了奥腾持久内存加持的Aerospike实时数据平台后,PayPal根据2015年的欺诈数据量和之前使用的平台做了一个评估。发现新方案可以将其欺诈计算的服务水平协议(SLA)符合率从98.5%提高到99.95%,并将欺诈交易的漏检量降低到30%左右。同时,与以前的基础设施相比,使用的服务器总数可以减少近90%(从1024个减少到120个),相关硬件空间可以减少到1/8左右,吞吐量可以增加到5倍(每秒交易量从20万增加到100万),硬件成本可以减少到1/3左右(预计硬件成本可以从1250万美元节省到350万美元)

需要指出的是,事实上,傲腾持久内存并不是PayPal IT基础架构中的一个孤立组件,与之紧密配合并内置AI加速能力(英特尔深度学习加速技术)的第二代英特尔至强可扩展处理器也是该解决方案的灵魂。相信如果换成具有AI加速能力,内存子系统带宽和性能更好的第三代英特尔至强可扩展处理器,打破内存墙的效果会更加明显。

AlphaFold2的端到端高吞吐量优化

值得一提的是,在AI for Science领域,结合至强可扩展处理器引以为傲的持久内存带来的突破内存墙的实践也开始大放异彩。

以近几年闹得沸沸扬扬的AlphaFold2为例。作为人工智能领域的著名模型,AlphaFold2的落地部署面临着计算能力和存储的严峻挑战,这也为第三代英特尔至强可扩展处理器提供了空间,该处理器内置了高位和宽带宽(AVX-512等技术)的优势以及大量的奥腾持久内存。

资料来源:www.exxactcorp.com

根据英特尔相关技术专家透露的信息,他们正在优化英特尔计算存储创新产品组合上的AlphaFold2。一方面,在模型推理阶段,他们通过使用注意力单元的张量切片和使用Intel OneAPI的算子融合,提高了算法的计算效率和CPU利用率,加快了并行推理速度,缓解了算法执行各环节的内存瓶颈等问题。

另一方面,通过使用傲腾持久内存,他们实现了TB级内存对AlphaFold 2的战略级支持,轻松解决了多个实例并行执行时内存峰值叠加的内存瓶颈。这个瓶颈有多大?据Intel专家预测,当输入长度为765aa,并行执行64个实例时,内存容量需求将超过2TB。在这种情况下,对于广大用户来说,使用奥腾持久内存是一个可行且实惠的解决方案。

除了奥腾持久内存,还有哪些解决方案可以打破内存墙?

虽然傲腾持久内存的出现为一些应用场景提供了打破内存墙的可行路径,但是到目前为止,硬件领域还没有内存墙的解决方案。但是其他技术路径齐头并进的势头还是让我们看到了解决这个问题的希望。热点解决方案包括在即将爆发的异构系统中实现统一的、池化的内存资源(集中管理和分配HBM,不同计算单元匹配的显存和系统内存),前瞻性的存储和计算一体化架构等。

针对计算能力和存储能力之间的瓶颈,在异构系统中创建共享内存资源是近年来的一个热点创新方向。为了实现CPU与GPU、FPGA等各种专用加速芯片的高速互联,英特尔早在2023年就率先成立了名为CXL(Compute Express Link)的标准组织。存储方面,CXL将提供新的内存接口。与原有DDR相比,具有更高的可扩展性和更高的带宽,支持包括奥腾产品在内的多种存储方案。而且其架构设计不局限于单个系统,可以在多台计算机之间连接,实现多机共享。大内存技术解决方案代表企业MemVerge创始人兼CEO范成功评价CXL是改变游戏规则的新技术。它可以实现内存和计算的相对独立,有望实现多台计算机之间的内存池共享和一个真正可组合的基础设施,可以动态地向系统添加计算、内存和存储资源[2]。

计算的集成就是让存储具备计算的能力,从而解决数据重复重定位带来的效率低下问题。现在国内外很多企业都开展了集成存储和计算技术的研发,包括传统的芯片厂商如Intel、SK海力士、IBM、美光、三星、TSMC、阿里以及很多新兴的AI和存储企业[3]。

但是,这些方案在成本和技术成熟度方面还需要更多的验证。

所以,虽然我们都希望看到更多前瞻性的解决方案尽快落地,但短期来看,英特尔傲腾持久内存仍然是一个相对容易实现且性价比较高的内存墙解决方案。而且傲腾的持久内存容量继续升级,可能很快就会出现1TB容量的单品。想必到那时,它打破记忆墙的效果会更加突出。

参考链接:

[1]https://www.oneflow.org/a/share/jishuboke/75.html

[2]https://www . 51c to . com/article/693956 . html

[3]http://www . dzsb . net/index . PHP/2023/05/05/quanqiu Cun suanyitiji shuyanjijiliangchanqinguangzuijinzh/

其他教程

全民k歌 效果(全民K歌点亮)

2023-1-5 23:47:16

其他教程

视频里经常出现的文字转声音(如何把视频里的声音转文字)

2023-1-5 23:49:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索