揭示大模型背后的机理,清华49页长文全方位剖析参数高效微调方案。

机器之心专栏
机器之心编辑部
本文的研究者来自清华大学,包括刘志远、唐杰、孙茂松等。对大模型参数的有效微调进行了全面的理论和实验分析。
预训练语言模型(PLM)无疑已经成为各种NLP任务的基本框架,而在PLM的发展中,有一个看似不可逆转的趋势:模型的规模越来越大。更大的模型不仅会在已知任务上取得更好的结果,还会显示出完成更复杂的未知任务的潜力。然而,更大的模型在应用中也面临着更大的挑战。传统的超大型预训练模型全参数微调的方法会消耗大量的GPU计算资源和存储资源,巨大的成本令人望而却步。
这种成本也造成了学术界的一种惯性,即研究者只在中小模型上验证自己的方法,而习惯性忽略大尺度模型。
在近期发表的论文《Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models》中,清华大学和北京致远人工智能研究所的研究人员从最近五次NLP会议中随机抽取了1000篇论文,发现使用预训练模型已经成为基本的研究范式,但很少涉及大模型(如下图1所示)。
图1:在1000篇随机选择的论文中使用预训练模型的统计分布。
在这种背景下,一种新的模型自适应方案————参数高效方法受到了越来越多的关注。与标准的全参数微调相比,这些方法只微调一小部分模型参数,其余保持不变,大大降低了计算和存储成本,同时具有与全参数微调相当的性能。研究人员认为,这些方法实质上是在一个“Delta参数”上进行调整,因此它们被命名为Delta调整。
地址:https://arxiv.org/pdf/2203.06904.pdfOpenDelta工具包:https://github.com/thunlp/OpenDelta的研究人员定义并描述了Delta调优问题,并通过统一的框架回顾了之前的研究。在这个框架中,现有的增量调优方法可以分为三类:基于增量的、基于规范的和重新参数化的方法。
除了它的现实意义,研究者认为它还具有非常重要的理论意义。Delta调优在一定程度上揭示了大模型背后的机制,有助于人们进一步发展大模型乃至深度神经网络的理论。因此,他们提出了一个理论框架,从最优化和最优控制的角度来讨论Delta调整,以指导后续的结构和算法设计。
此外,研究人员对代表性方法进行了全面的实验比较,并在100多个NLP任务的结果中展示了不同方法的综合性能比较。结果包括Delta调优的性能、收敛性能、高效性能、规模效应、泛化性能和迁移性能的研究和分析。
他们还开发了一个开源工具包OpenDelta,使从业者能够高效灵活地在PLM上实现Delta调优。
Delta调优:方法和分析给出了预训练模型。
PLM调整的目标是生成一个具有以下参数的模型。将
在原始模型中定义
操作如上。对于传统的全参数微调,有
,其中

与训练数据相关的所有参数的更新值。在增量调谐中,
这意味着修改少量参数。从经验上讲,全参数微调
德尔塔调谐已经。因此,根据调整后的参数形式和结构,可以将高参数效率的Delta调优分为三种策略,并对之前的方法进行整理:
基于加法的方法这种方法引入了原始模型中不存在的额外的可训练神经模块或参数。在这种方法中,根据上面的定义,我们有
和。常见的增量方法包括适配器调优、前缀调优、提示调优等等。他们无一例外地在模型中插入小规模的神经模块或可调参数,只对这少量参数进行微调,就能达到模型高效适应的效果。Adapter-tuning是这种方法的开创性工作,它证明了在许多任务中,只需在每层中添加一个简单的神经网络,就可以与全参数微调相媲美。
同时,该适配器也显示了其在多任务和多语言场景中的潜力。前缀调优和提示调优是近年来非常流行的增量调优算法。他们在输入层或表示层中插入一些可调整的向量进行微调。其中,提示调优可以看作是前缀调优的简化版,即在输入层只增加了软提示。这种方法有一个很大的优点,就是不需要修改模型的内部结构。同时,随着模型参数的数量增加到100亿,已经证明可以达到对部分数据进行所有参数微调的效果。然而,这种方法也面临着巨大的优化问题。实验表明,其优化效率往往低于其他微调范式,收敛时间较长,在中小规模模型上的性能较差。
图3:3的形式表达式:Delta调优。
基于规范的方法这种方法指定原始模型中的某些参数变得可训练,而其他参数则被冻结。在这种方法中,训练参数集可以表示为
此时,更新的参数表示为。当.的时候
什么时候,

到达
的增量值,否则为。
指定的方法不在模型中引入任何新的参数,也不寻求改变模型的结构,而是直接指定一些要优化的参数。想法很简单,效果却出奇的好。例如,某些方法只能微调BERT和RoBERTa最后一层的四分之一,而可以产生全参数微调的90%的性能。
一位工作BitFit指出,仅通过优化模型内部的部分项,冻结其他参数,该模型仍然可以在多个基准测试中重现所有参数95%以上的微调性能。BIT的实证结果也表明,即使使用少量随机参数集进行Delta调优(这明显降低了性能),模型在GLUE基准测试中仍然可以产生合格的结果。另一个有价值的观察结果是,在模型自适应过程中,不同的偏置项可能具有不同的功能。
除了手动或启发式指定要更新的参数之外,您还可以学习这种指定。Diff剪枝就是其中的代表作品之一,它会对模型参数进行微调。
重新参数化为预训练参数
和差向量。
,也就是。
这时,关键问题是鼓励差向量尽可能稀疏。这项工作是由
可以通过微近似来正则化向量,以实现稀疏目标。事实上,由于在学习阶段引入了新的参数进行优化,Diff修剪比全参数微调占用更多的GPU内存,这可能在大型PLM应用中面临挑战。屏蔽方法学习PLM的选择性屏蔽,只更新特定任务的临界权重。为了学习这样一组掩码,引入了与模型权重相关的二进制矩阵,其中每个值由阈值函数生成。在反向传播期间,噪声估计器更新矩阵。
基于重新参数化的方法这种方法通过转换将现有的优化过程重新参数化为具有有效参数的形式。要重新参数化的参数集表示为
,并假设每个
使用新参数。
来表示,然后更新后的参数表示为
,其中
存在。
简单来说,重新参数化的方法往往基于一个类似的假设:即预训练模型的适应过程本质上是低秩或低维的。因此,这个过程可以等同于一个具有有效参数的范例。
例如,我们可以假设模型适应具有“内在维度”。通过将微调过程重新参数化为低维子空间的优化过程,我们可以仅通过微调子空间中的参数来获得满意的性能。从这个意义上讲,PLM可以作为一个通用的压缩框架,将优化复杂度从高维压缩到低维。一般来说,较大的PLM通常具有较小的内部维度,预训练过程隐式地降低了PLM的内部维度。受这些观察的启发,还提出了重新参数化的Delta调整方法。该方法利用低维代理参数对(部分)原始模型参数进行重新参数化,只对代理参数进行优化,从而降低了计算和内存开销。
另一部名著LoRA假设模型调整时权重的变化具有较低的“内在秩”。基于这一假设,他们提出针对自我关注模块中原始权重矩阵的变化,优化低秩分解。在部署中,将优化的低秩分解矩阵相乘,以获得注意力权重矩阵的增量。这样LoRA就可以在GLUE benchmark上匹配微调性能。他们在各种规模和架构的PLM上展示了这种方法的有效性,甚至在GPT3上也是如此。
这种低维假设不仅适用于单任务适应,还可以扩展到多任务场景。假设IPT对于多个任务具有相同的低维本征子空间,只需要调整子空间的参数就可以同时在100多个NLP任务上取得满意的结果。该方法不使用随机子空间,而是试图找到多个NLP任务共享的公共子空间。实验表明,在一个250维的低维子空间中,仅通过调整250个参数,就可以在100个以上的NLP任务上重现80%以上的提示调优性能。
参数化方法通常基于相似的低维或低秩假设。
德尔塔调音的理论视角:德尔塔调音本质上有共同点吗?研究者认为Delta调谐法不仅具有很高的实用价值,而且具有深远的理论意义。它们似乎都证明了一件事:大模型的适应过程似乎是一个非常低消耗的过程(与预训练相比),用很少的数据和很少的参数调整就可以完成。Delta调整的成功激励研究者进一步探索模型适应背后的理论框架。本文提出了最优化和最优控制的框架,从理论上解释了Delta调整。
优化角度Delta调优试图通过微调少量参数,达到在原有大规模语言模型上微调所有参数的效果,减少内存占用。研究者从优化的角度分析了Delta调优的效果,并讨论了在低维假设下一些Delta调优方法的设计。使用增量调整后,目标函数及其从属参数可能会改变。
对于新的目标函数,仅优化与增量调整相关的参数。如果初始值足够好,在一定的假设下,模型的性能不会受到很大的损害。然而,为了确保Delta调整的有效性,有必要开发问题的结构来设计这个新的目标函数。其出发点是利用问题固有的低维特征。一般来说,有两种想法在实践中被证明是有用的:
在特定的低维子空间中搜索解向量;在特定的低维函数空间中逼近目标函数。对于深度学习中的大多数应用,目标函数通常有许多局部极小值,因此当初始值接近某个局部极小值时,只有个体搜索方向是重要的,或者可以用这个邻域中更简单的函数来逼近目标函数。因此,这两种优化思路都有望取得较好的效果,低维参数的优化通常更加有效和稳定。
解空间的低维表示。先前的研究表明,预训练语言模型的参数优化遵循低维流形(Aghajanyan等人,2021),因此该流形可以嵌入到解向量的低维表示中。如果这个低维表示是准确的,那么对原模型上所有参数的微调就相当于对这个低维参数的微调。如果低维表示存在误差,那么当预训练模型的目标函数和新的目标函数满足Lipschitz连续性时,可以控制最终的全参数微调和低维参数微调之间的差异。
一些Delta调优方法受益于这种设计思想。如在LoRA(胡等,2021a)中,权重矩阵采用低秩逼近;在BitFit (Zaken等人,2021)和diff剪枝(Guo等人,2021)中,只有一些选定的参数被优化。这些方法的本质是在关于解向量的更小的子空间中更新参数,最终得到更好的结果。
函数空间的低维表示。另一种方式是直接设计原目标函数的一个近似函数,期望这个函数的近似误差很小。这种函数近似可以是增量网络(Houlsby等人,2019年)或增强特征空间(Lester等人,2021年)。因为我们通常更关心语言模型的最终效果,所以直接考虑目标函数本身的近似效果是合理的。
在实践中,有许多不同的方法来构造这样的函数近似。最简单的方法是固定网络中的一些参数,只微调其余的参数。这种方法期望网络的一部分能大致反映整个网络的性能。因为网络中的功能是用数据流来描述的,所以可以将低秩表示注入到原网络中的数据路径中,新的模型是一个增量网络,比如适配器。函数的误差由增量网络的表示能力决定。
如果开发变压器的自回归结构,还可以获得一些更精细的函数逼近。例如,提示调优(Lester et al .2021)将一系列提示标记作为前缀添加到输入中,并且仅微调这些提示标记所依赖的参数。这种方法可以看作是特征空间的扩展,并且得益于Transformer的性质,这样的函数可以更好地逼近原函数,引导语言模型专注于特定的任务。相关的方法是前缀调整(李良,2021)。观察到即时调优比更大的模型和更大的数据集具有更好的优势也是合理的,因为这些方法的本质是用低维函数逼近高维函数。当模型和数据规模增大时,自然有更多的自由度来选择函数逼近的子空间。
两种低维表示通常可以得到形式相似的Delta调谐法。(何等,2022)对适配器、前缀调优和LoRA做了统一的表述,可以看作是从函数逼近的角度看待各种Delta调优技术。
研究人员的讨论表明,这些Delta调优方法都依赖于低维假设。实际上,在不同的任务中甚至存在共同的低维子空间(秦等,2021b)。苏等(2021)和实验部分也显示了不同任务之间的迁移。因为Delta调优的实际效果必然与任务有关,为了达到微调所有参数的效果,更好地利用问题本身的结构或者设计一些混合算法是有益的。
最优控制角度是基于前面从最优控制角度解释深度学习的理论。研究人员发现,Delta调整可以被视为寻找最优控制器的过程。对于一个自回归分类模型,该模型将在最后一步(标记为位置
)来生成标签的预测,并且优化过程可以表示为
,其中。这里的功能
定义了在Delta干预下PLM变化的正向传播。具体来说,可以学习
激活自
的固定参数,因此在第一个
层的表示
可以正确地转换成。
因此,两个连续图层之间的制图表达变换由函数决定
和变压器中的剩余连接。无论是基于加法的方法的适配器和前缀,还是spe的位匹配
来表示增量调谐(在论文中详细推导)。
研究人员将Softmax函数用于Delta调整
和正则项。
Delta参数作为终端,被视为控制变量的运行损失,Delta整定问题被表示为离散时间控制问题,因此Delta整定中的前向和后向传播相当于庞特里亚金极大值原理中的共态过程的计算。综上所述,增量调整可以看作是为特定的下游任务寻找PLM最佳控制器的过程。
研究者的分析可以启发新型Delta调整方法的设计,也证明了Delta参数对PLM的干预等价于控制器的设计。通过应用控制器设计的理论,他们期望提出更多有理论保证的delta整定方法,即设计的Delta结构在PLM全激励时可以得到原理上的解释。
Delta调优的全方位实验分析Delta调优作为一种高效的模拟和调用大型PLM的方法,在各种实际应用场景中有着巨大的潜力。在本节中,研究人员进行了系统的实验,以更深入地了解不同主流delta调优方法的属性。
1.性能、收敛性和效率分析。首先,研究者选择了全参数微调和四种有代表性的Delta调优方法(包括即时调优(pt)、前缀调优(PF)、LoRA(LR)和Adapter(AP))对其性能、收敛性和效率进行了全面的比较分析。
为了测试更多样化的语言建模能力,研究人员选取了100多个典型的NLP任务,包括文本分类(如情感分类、自然语言推理)、问答(如抽象阅读理解)、语言生成(如文本摘要、对话)等。并以序列对序列的格式对所有任务的输入和输出进行建模,从而便于用同一模型(T5)对所有任务进行统一建模。除了PT是在T5-base和T5-large上测试,其他方法都是在T5-base上测试。
性能分析:实验结果如上表所示,从中可以发现:(1)一般来说,由于不同的Delta调优方法只对少数参数进行微调,增加了优化的难度,因此在大多数情况下在性能上无法与FT相匹配,但二者之间的差距并非不可逾越,证明了高效自适应参数大规模应用的潜力;(2)PF、LR、AP虽然设计元素不同,但性能不相上下。其中任何一种都可能在某些任务中表现出比其他方法更好的性能(甚至超越FT)。根据平均结果,所有方法的性能排名为FT LR AP PF PT。与此同时,研究人员还发现,Delta调优法的性能与其可调参数的数量并不一致,即可调参数越多并不一定带来更好的性能。相比之下,Delta Tuning的具体结构设计可能会发挥更大的作用。(3)作为这些方法中最容易实现的方法(即不修改模型内部结构),PT的性能在大多数情况下远远落后于其他Delta调优方法。
收敛性分析:研究者选取了不同的微调方法在一些数据集上不同训练步数下的性能变化,其中PT因为其收敛速度相对于其他方法太慢而没有列在上图中。可以发现,总体来看,这些微调方法的收敛速度顺序为:FT AP LR PF。虽然PF在所有Delta整定方法中可调参数数量最多,但仍然面临一定的收敛困难,所以收敛速度与可调参数没有直接关系。
在实验中还发现,每种Delta调优方法的性能和收敛性对可调参数的个数不敏感,而对具体结构更敏感。总而言之,研究人员的实验在收敛性和整体性能上得出了非常相似的结论,并且这些结论得到了大量数据集上的结果的充分支持。
效率分析:Delta调优可以减少参数的梯度计算,从而节省GPU内存,体现计算资源的高效率。为了验证Delta调优在GPU内存上的效率,研究人员进行了实验,比较不同规模的PLM中不同Delta调优方法的GPU内存消耗。
具体来说,他们选择了T5-base、T5-large、T5-xl三个规模的T5机型,测试了不同批量下的峰值GPU内存。研究人员使用NVIDIA A100(最大GPU内存=39.58GB)进行实验。从上图可以看出,当批量较小时(比如1和8),Delta调优最多可以节省3/4的GPU内存,而当批量较大时,Delta调优至少可以节省1/3的GPU内存。上述结果表明,增量调优在计算资源方面是高效的。
2.可组合性分析认为不同的增量调优方法是相互兼容的,这意味着它们可以同时应用于同一个PLM。因此,研究人员研究了Delta调整的组合是否会带来性能的提高。具体来说,他们探索了两种组合:同时组合和顺序组合,并选择了三种具有代表性的Delta调优方法,包括提示调优、BitFit和Adapter。
组合:研究人员首先探索了同时应用三种Delta调优方法的效果,并使用RoBERTa-large在八个GLUE子任务中进行实验。他们在全规模数据和低资源场景下进行了实验,探索了手动输入模板对性能的影响。手册模板旨在弥合预培训和下游任务适应之间的差距。
从上表可以看出,(1)无论是否有手动模板,在Delta调优的组合中引入Adapter几乎总是有助于平均胶水性能;(2)在组合中引入提示调优通常会损害平均性能,表明提示调优可能与其他两种Delta调优方法不兼容;(3)在组合中引入BitFit一般会提高平均性能;(4)手动模板通过缩小下游任务适应和预训练之间的差距,可以显著提高零投成绩(从23.7提高到43.4)。
在少拍设置下,人工模板也能显著提高平均成绩。然而,当训练监督信号相对丰富时(在全数据场景下),人工模板的引入仅表现出微弱的性能提升,甚至可能损害性能。
顺序:除了同时组合之外,研究人员还进一步研究了上述三种Delta调优方法按一定顺序引入时的兼容性。具体来说,他们把整个微调分为三个阶段。在每个阶段,研究人员训练一种单独的调谐方法;在下一阶段,他们固定了前一阶段获得的Delta调整参数,并且只优化了新引入的Delta调整参数。
在SST-2情感分类数据集上,研究人员在RoBERTa-large上进行了有无人工模板的实验。结果如下图(节选)所示,从中可以得出结论,在某些情况下,通过不断引入新的Delta调优方法,可以不断提高整体性能,从而验证了顺序组合的优势;同时也发现在不同的设置下不存在固定的最优组合序列。最佳组合方法可能会因下游任务、所用模型架构等的不同而有所变化。
泛化差距分析:各种微调方法对训练数据的记忆和泛化能力是不同的。因此研究者报告了RoBERTa-large在全数据设置下的泛化差距(训练集效应-发展集效应),结果如下表所示。从中可以看出(1)单一Delta调优方法的泛化差距总是小于微调,这意味着过参数化可能有助于更好地记忆(过拟合)训练样本。在所有的增量调优方法中,即时调优往往具有最小的泛化差距。考虑到每种Delta调优方法都可以很好地泛化,并在开发集上表现出非凡的性能,过拟合训练集未必是好泛化的必要条件;(2)一般来说,组合几种Delta调法会加大泛化差距,甚至达到相当于全微调的程度。这表明记忆训练集可能不需要微调;换句话说,当PLM适应下游任务时,即使模型的微调能力很小,也能足够好地记住训练集;(3)一般使用人工模板不会影响泛化差距。
3.模型规模增长的性能变化
研究人员研究了模型规模增大对Delta调优性能的影响。最近发现,随着PLM模型的增长,即时调优的性能会越来越强,甚至达到可以媲美全参数微调的水平。
在本节中,研究人员将讨论是否所有Delta调整方法都可以显示该模型比例带来的比例优势。具体来说,他们对三个典型的NLP任务MNLI、QNLI和SST-2进行了实验,选取了三个规模递增的PLM(T5-small、T5-base、T5-xxl)。评估了六种有代表性的delta调整方法(适配器、LoRA、前缀调整、提示调整、最后一层调整和选择性模块调整)的性能,结果如下图所示。
从图(a-i)可以观察到,随着PLM网络规模的增大,所有Delta调优方法的性能和收敛性都有了显著的提高;(2)图(j-l)显示,与其他delta调整方法相比,对于小规模PLM(T5-small和T5-base ),即时调谐往往性能较差。而其他Delta调优方法没有这个问题;(3)在现有结果的基础上,在图11 (m-o)和(p-r)中,研究人员进一步设计了两种Delta调优方法:最后一层调优和选择性模块调优。对于最后一层调谐,仅对T5编码器的最后一层进行微调;对于选择性模块调优,随机选择T5模型中的一些模块进行微调。这两种方法都显示出优异的结果,尤其是当PLM规模非常大时,选择性模块调优略好于最后一层调优。这些结果表明,将可调参数限制在特定层可能不是一个好策略。
另一方面,当PLM的规模变得非常大时,通过跨不同层随机选择模块进行微调可以获得优异的性能。总的来说,以上结果表明,随着PLM模型规模的增大,各种微调方法的性能/收敛速度都有显著提高,这可能是Delta调优的普遍现象。
研究人员推测,这种现象的存在是因为较大的PLM通常具有较小的内在维度,因此,只需调整少数几个参数就可以获得足够强的表达力,从而在下游任务中取得非凡的表现;此外,过参数化模型在下游优化过程中可能不太可能陷入局部最优,从而加速收敛。
4.任务间迁移能力
研究人员研究了Delta调优方法在不同下游任务之间的迁移。具体来说,我们采用了四种Delta调优方法(提示调优、前缀调优、Adapter和LoRA)和五种不同类型的12个NLP任务(包括情感分析、自然语言推理、复述识别、问答、总结),将在源任务上训练的Delta参数转移到目标任务上测试零炮转移效果。
结果如下图所示,从中我们可以观察到:(1)对于属于同一类别的任务,它们之间的迁移通常表现良好;(2)对于不同类型的任务,它们之间的迁移性能较差;(3)此外,研究发现,从文本生成任务(如问答;a和abstract)可以转移到情感分析任务中并取得优异的表现,这表明文本生成任务可能是一个更复杂的任务,解决这个任务所需的语言能力可能包括情感分析能力。
Delta调优的应用:快速训练和节省存储空间。虽然Transformer模型本质上是可并行化的,但由于其规模巨大,训练起来非常慢。虽然Delta整定的收敛速度可能比传统的全参数微调慢,但随着反向传播过程中微调参数计算量的显著减少,Delta整定的训练速度得到了显著提高。先前的工作已经证实,使用适配器进行下游调优可以将训练时间减少到40%,同时保持与全参数调优等效的性能。由于其重量轻,训练得到的Delta参数还可以节省存储空间,从而方便从业者之间的共享,促进知识转移。
多任务学习。构建一个通用的人工智能系统一直是研究人员的目标。最近,超大型PLM(如GPT-3)展示了其惊人的能力,以适应不同的数据分布,并同时促进各种任务的下游性能。因此,在大规模前期训练的时代,多任务学习越来越受到重视。作为全参数微调方法的有效替代,Delta Tuning具有出色的多任务学习能力,同时保持相对较低的额外存储。成功的应用包括多语言学习、阅读理解等。此外,调谐也有望成为解决持续学习中灾难性遗忘的潜在方案。预训练期间获得的语言能力存储在模型的参数中。因此,当PLM按顺序在一系列任务中训练时,在没有正则化的情况下更新PLM中的所有参数,可能会导致严重的灾难性遗忘。因为Delta调整只调整最小参数,所以它可能是缓解灾难性遗忘问题的潜在解决方案。
集中式模型服务和并行计算。超大型PLM通常以服务的形式发布,即用户通过与模型提供商发布的API交互来使用大型模型,而不是将其存储在本地。考虑到用户与服务提供商之间难以承受的通信成本,由于其轻量级的特性,Delta调优显然是比传统的全参数微调更具竞争力的选择。一方面,服务提供商可以支持训练多个用户所需的下游任务,同时消耗更少的计算和存储空间。此外,考虑到一些增量调优算法本质上是并行的(如提示调优和前缀调优等。),Delta Tuning可以允许对同一批中来自多个用户的样本进行并行训练/测试。最近的工作还表明,大多数增量调优方法,如果本质上没有并行化,可以通过一些方法进行修改,以支持并行计算。另一方面,当用户无法获得中心模型的梯度时,Delta Tuning仍然可以通过没有梯度的黑盒算法优化大型PLM,只调用模型推理API。
参考链接:
[1] Delta Tuning:预训练语言模型的参数高效方法综合研究,2022。
[2]NLP的参数高效迁移学习,2019。
[3]前缀Tuning:优化连续提示生成,2021。
[4]参数高效提示调优的规模力量,2021。
[5]走向参数高效迁移学习的统一观点,2021。
[6] LoRA:大语言模型低秩适配,2021。
[7] COMPACTER:高效低秩超复数适配器层,2021。
[8]掩蔽作为预训练语言模型微调的有效替代,2021。
[9]通过即时调优探索低维内在任务子空间,2021。
[10]使用差异修剪的参数高效迁移学习,2020。

其他教程

2014版cad安装教程步骤(2014版cad安装软件及安装步骤分享)

2022-8-28 22:05:36

其他教程

短语了解的英文翻译(了解更多的信息英语)

2022-8-28 22:07:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索