近两年来,“给力创奇迹”的大模式成为人工智能领域众多研究者的追求趋势。 但其背后巨大的计算成本和资源消耗问题也暴露出弊端,一些科学家开始认真关注大模型,积极寻求解决方案。 新的研究表明,要实现AI模型的优良性能,不一定要依赖栈计算力和栈规模。
论文作者|沈向洋、曹颖、马毅
整理|西西
编辑|陈彩亮
在深度学习火热的10年里,其机遇和瓶颈在这10年的研究和实践中已经引起了很多目光和讨论。
其中,在瓶颈维度上,最引人注目的是深度学习的黑匣子特性(没有可解释性)和(创造奇迹) )模型参数变大,计算能力的需求变大,计算成本也变高)。 此外,还存在模型稳定性不足、安全漏洞等问题。
本质上,这些问题部分归因于深度神经网络的“开环”系统的性质。 要打破深度学习b面的“魔咒”,光靠扩大模型规模和计算能力是不够的,还必须追根溯源,从构成人工智能系统的基本原理出发,从闭环般的新视角理解“智能”。
7月12日,人工智能领域三位著名中国科学家沈向洋、曹颖和马毅联合在arXiv上发表文章称:“ontheprinciplesofparsimonyandself-consistencyfortheemergenceofintellligencence
该框架包括简单性( parsimony )和自洽性/自一致性( self-consistency )两个原理,分别适用于AI模型学习过程中的“学习什么”和“如何学习”
论文链接: https://arxiv.org/pdf/2207.04630.pdf
三位科学家认为,真正的智能需要两个特征。 一个是可解释性,另一个是可计算性。
然而,在过去的十年中,人工智能的进步主要基于使用“蛮力”训练模式的深度学习方法。 在这种情况下,AI模型也可以获得用于感知和决策的功能模块,但所学习的特征表达往往是隐含的,难以解释。
另外,仅通过堆计算力训练模型,导致AI模型规模增大,计算成本增加,出现了神经崩溃导致学习特征缺乏多样性、模式崩溃导致训练缺乏稳定性、模型对适应性和毁灭性遗忘的敏感性下降等诸多问题
3位科学家认为,之所以出现上述问题,是因为在现在的深度网络中,用于分类的判别模型和用于采样和再生的生成模型的训练大部分是分离的。
此类模型通常是开环系统,需要通过监控或自我监控进行端到端培训。
维纳等人早就、
这样的开环系统不能自动纠正预测错误,也不能适应环境的变化。
因此,他们主张在控制系统中引入“闭环反馈”,使系统能够学习主动纠正错误。 在这次的研究中,他们也发现了以下内容。
通过判别模型和生成模型构成完整的闭环系统,系统可以自主学习(不需要外部监控),更加高效、稳定,适应性强。
图注:左至右分别为沈向洋(港中深校长讲席教授、美国国家工程院外籍院士、前微软环球执行副总裁)、曹颖(美国国家科学院院士、加州大学伯克利分校教授)、马毅(加州大学伯克利分校教授)
1
智能的两个原理:简单性和自洽性
在这项工作中,三位科学家提出了描述人工智能构成的两个基本原理,分别是简约性和自洽性(也称为“自洽性”),并以视觉图像数据建模为例,从简约性和自洽性的第一原理出发,推导了压缩闭环转录框架。
简单
简单就是“学习什么”。 聪明的简单性原理
系统要求通过计算有效地得到紧凑、结构化的表示。
也就是说,智能系统如果能简单有效地模拟现实感觉数据的有用结构,就可以使用记述世界的结构化模型。 系统应该能够准确有效地评价学习模式的好坏,所使用的衡量标准是基础性、通用性、易计算性、最优化的。
以可视数据建模为例,简约原理试图找到“非线性”变换f以实现以下目标:
压缩:将高维感觉数据x映射到低维显示z;
线性化:将分布在非线性子流形上的各类对象映射到线性子空间;
“划痕”( scarification ) :将不同的类映射到具有独立或最大不连续性基础的子空间。
也就是说
将高维空间中可能存在的一系列低维子流形上的真实世界数据分别转化为独立的低维线性子空间序列。
该模型被称为“线性判别表示”( lineardiscriminativerepresentation,LDR ),压缩过程如图2所示。
图2 :求解线性和判别表示,将许多非线性低维子流形上通常分布的高维感觉数据映射到与子流形具有相同维数的独立线性子空间集上。
LDR机型系列中存在衡量简洁性的内在尺度。 也就是说,给定一个LDR,可以计算所有子空间上所有特征跨越的总“体积”和每个类别特征跨越的“体积”之和。 而且,这两个体积的比率提供了自然的度量标准,表明LDR模型有多好(往往越大越好)。
根据信息论,分布的体积可以通过其速度应变来测量。
根据马毅团队2023年的工作“red unet:a white-boxdeepnetworkfromtheprincipleofmaximizingratereduction”,使用高斯率失真函数进行ResNet等一般
图5 :非线性映射f的构造块。 图左:由扩展或压缩线性算子、非线性softmax、跳跃连接和归一化精确组成的ReduNet层,用于重复投影梯度上升。 图和右: ResNet和ResNeXt层次结构。
敏锐的读者可能已经意识到,这样的图表非常类似于流行的“久经考验”的深层网络,包括ResNet (例如,图5的中央) ( ResNet的平坦矩阵)和专家混合) MoE )。
从展开优化方案的角度来看,这为一类深度神经网络提供了强有力的解释。 甚至在现代深度网络兴起之前,ISTA和FISTA等寻求稀疏性的迭代优化方案也被解释为可学习深度网络。
通过实验,他们、
压缩可以用建设性的方法引导深度神经网络,
其体系结构和参数作为一个完全可解释的白盒包含在内。 该层迭代并逐步优化促进简化的原理性目标。 因此,对于由此获得的深度网络,ReduNets输入数据x,然后确定每层的运营商或参数是否
构建并初始化以完全前进。
这与深度学习中的常见方法非常不同。 它从随机构建、初始化的网络开始,通过反向传播进行全局协调。
由于需要对称突触和复杂的反馈形式,人们普遍认为大脑不太可能利用反向传播作为其学习机制。 这里,由于前方展开的最优化只依赖于可硬链接的邻接层间的操作,所以容易实现和利用。
如果我们注意到了
深度网络本身的作用是进行“基于梯度”的迭代优化,压缩、线性化和稀疏化数据。
那么,理解过去10年人工神经网络的“进化”很简单。 特别是,这有助于解释为什么从MLP到CNN、从ResNet到Transformer的人工选择过程只让少数AI系统脱颖而出。
相比之下,在神经架构检索等网络结构的随机检索中,没有生成能够有效执行常见任务的网络架构。 他们预计,成功的体系结构在模拟数据压缩迭代优化方案方面将变得越来越有效和灵活。 前述的ReduNet和ResNet/ResNeXt的相似性是有实例的。 当然,还有很多其他例子。
自我接触
自洽性是指“如何学习”,即
自主智能系统通过最小化被观察者和再生者之间的内部差异,寻求最自洽的模型来观察外部世界。
单纯的原理并不能使学习模型捕获外部世界数据所感知到的所有重要信息。
例如,通过最小化交叉熵并将每个类别映射到一维“one-hot”矢量,可以将该形式视为简单的形式。 你可能会学习很好的分类器,但是你学到的特征会崩溃成一个叫做“神经崩溃”的单一例子。 这样学习的特征中不包含足以再次生成原始数据的信息。 无论是考虑更常见的LDR模型类别,还是单独设置降速目标,都不会自动确定环境特征空间的正确维度。 如果特征空间维度过低,则所学习的模型缺少匹配数据。 如果太高,模型可能会过拟合。
在他们看来,感知的目标是学习所有可预测的感知内容。
智能系统应该能够从压缩显示中重新生成所观察到的数据分布,生成后,无论怎么努力,其本身都无法区分其分布。
在论文中,
自洽与简约两种原理高度互补,应始终配套使用。
仅靠自身接触无法确保压缩和效率方面的增益。
在数学和计算上,使用过度参数化的模型拟合训练数据,或在具有相同维度的域之间建立一对一的映射,无需学习数据分布的内部结构,很容易确保一致性。 只有通过压缩,智能系统才能发现高维感知数据中存在的低维结构,并以最紧凑的方式在特征空间中对这些结构进行变换和表示以供将来使用。
另外,只有通过压缩才能容易地理解过度参数化的原因。 例如,像DNN一样,通常通过数百个通道进行特征的增强,但如果其纯粹的目的是高维特征空间的压缩,就不会导致过度拟合。 提高有助于减少数据中的非线性,便于压缩和线性化。 后续层的作用是执行压缩(和线性化),通常,层越多,压缩效果越好。
在压缩为LDR这样的结构化表示的特殊情况下,在论文中,自动编码的类型(具体参照原论文)被称为“转录”( transcription )。 这里的难点是如何使目标在计算上容易处理,在物理上可以实现。
速度下降r显示了退化分布间明确的主要距离测量值。 但它只适用于子空间或高斯混合,不适用于一般分布! 内部结构化表达z的分布只能期待是子空间或者高斯的混合而不是原始数据x。
这引起了关于“自洽”学习的相当深刻的问题:为了验证外部世界的内部模型是否正确,自主系统是否真的需要测量数据空间的差异?
答案是否定的。
重要的是,要比较x和x^,代理必须知道,在同一个映射f中,只需比较各自的内部特征z=f(x )和z^=f ) x^ ),就可以使z紧凑且结构化。
测量z空间中的分布差异,实际上定义很明确,效果很好。 在自然智能中,学习内部测量的差异可以说是拥有独立自主系统的大脑唯一能做的事情。
这有效地产生了“闭环”反馈系统,整个过程如图6所示。
图6 :非线性数据从子流形到LDR的压缩闭环转移(比较并最小化z和z^的差异)。 这导致了编码器/传感器f和解码器/控制器g之间的自然的逃避游戏,其中,跟踪所解码的x^ (蓝色虚线)的分布并符合观察到的数据x (黑色实线)的分布。
单独学习DNN分类器f或生成器g的一般方法可以解释为学习闭环系统的开放部分(图6 )。 我们知道,这种目前的常用方法与开环控制非常相似,在控制领域已经存在问题,而且成本高昂。
像训练这样的部分,需要监视班级标签等的期望输出; 当数据分布、系统参数或任务发生变化时,这种开环系统的部署本质上缺乏稳定性、鲁棒性或适应性。
例如,在受监控的环境中训练的深度分类网络,经常会发生灾难性的遗忘,以处理具有新数据类别的新任务。
相比之下,闭环系统本质上是稳定和自适应的。 实际上,Hinton等人在1995年就已经提出了这个。 判别和生成的部分需要分别结合完整的学习过程——“觉醒”和“睡眠”阶段。
但是,只有闭环是不够的。
论文的主张
每个代理都需要内部博弈机制,
为了能通过自我批评进行自我学习! 其中,游戏遵循普遍有效的学习方式概念。 反复应用当前模型或策略对抗对抗性批评,根据通过闭环收到的反馈不断改进模型或策略!
在这种框架中,编码器f不仅应当通过以最大化速率降低r(z )来学习数据x的表示z,而且应当积极地检测数据x和所生成的x^之间的差异作为反馈“传感器”,如在第2.1节中所述解码器g也承担着双重作用。 f检测到的x和x之间存在差异的控制器。 也是解码器,试图最小化整体编码率以实现目标(让步于给定的精度)。
因此,最佳“简约”和“自洽”指示元组( z,f,g )可以被解释为f()和g ))之间的零和博弈的平衡,而不是基于组合速度降低的效用。
以上讨论是两个原理在有监督的情况下的表现。
但是论文强调了他们提出的压缩闭环转录框架可以通过自我监控和自我批评进行自我学习
另外,速度降低因为在学习结构中发现了明确的“子空间型”表现,所以过去的知识在学习新的任务/数据时容易残留,可以作为保持自身一致性的事前(记忆)。
根据最近的实证研究,这是可能的
生成第一个拥有固定内存的自愈神经系统
能够阶段性地学习良好的LDR显示,而不会受到毁灭性的遗忘。 在这样的闭环系统中,遗忘(如果有的话)是相当优雅的。
另外,
再次将旧类别的图像提供给系统审查,可以进一步巩固所学的表示
——这一特征与人类记忆的特征非常相似。 在某种意义上,
这种受约束的闭环公式基本上保证了视觉记忆的形成是贝叶斯和自适应的
——假设这些特征对大脑来说是理想的。
如图8所示,这样学习的自动码不仅呈现出良好的样本一致性,而且所学习的特征呈现出清晰、有意义的局部低维(淡)结构。
图8 )左图:在没有监控的情况下,将CIFAR-10数据集(有10个类别的50,000张图像)学习到的自动编码x与相应的解码x^进行比较。 图(右) 10大类无监督学习特征的t-SNE与几个邻域及其相关图片可视化。 关注可视化特征中的局部薄(接近一维)结构,从数百维特征空间投影。
更令人吃惊的是,即使训练中没有被提供类别信息,与子空间和特征相关的块对角结构也开始体现在为类别学习的特征上(图9 )。 因此,所学习特征的结构与灵长类大脑中观察到的类别选择区域相似。
图9 )通过闭环转录,属于10个类别( CIFAR-10 )的50,000张图像的无监督学习特征之间的相关性。 与等级一致的块对角结构,在没有任何监督的情况下出现。
2
通用学习引擎: 3D视觉与图形的结合
论文总结,简约性和自洽性表明深层次网络的作用可以作为外部观察和内部表达之间非线性映射的模型。
还强调闭环压缩结构存在于自然界的任何地方,适用于所有智能生物,见于大脑(压缩感觉信息)、脊髓回路)、DNA (压缩蛋白质的功能信息)等生物例子。 于是他们决定,
闭环转录可能是所有智能行为背后的共同学习引擎。
这样,智能生物和系统就可以从看起来复杂、无组织的输入中发现和提取低维结构,并将其转换为紧凑、有组织的内部结构以供存储和利用。
为了说明该框架的通用性,论文研究了其他两个任务3D感知和决策( LeCun认为这是自主智能系统的两个重要模块)。 本文只介绍3D感知中的计算机视觉和计算机图形闭环。
David Marr在其颇具影响力的著作《视觉》中提出了3D视觉经典范式,提出了“拼合”方法,将3D感知任务划分为几个模块化流程。 低级二维处理(如边缘检测、轮廓草图)、中级2.5D分析、分组、分割、地物、地面等高级三维重建(
感知是压缩闭环转录吗? 更准确地说,世界物体的形状、外观甚至动态3D显示应该是我们大脑中开发的最紧凑、结构化的显示,以正确解释所有感知到的视觉观察。 如果是,这两个原理
紧凑、结构化的3D显示是您正在寻找的内部模型。 这意味着计算机视觉和计算机图形可以在闭环计算框架内统一起来
如下图所示。
图10 )用于视觉输入的紧凑结构化的3D模型、计算机视觉和图形的闭环关系
计算机视觉通常将所有2D视觉输入解释为重建和识别内部3D模型的前向过程,而计算机图形表示渲染内部3D模型并对其进行动画处理的逆过程。 将这两个过程直接组合到一个闭环系统中可能会带来很大的计算和实践优势。 所有几何形状、视觉外观和动力学丰富的结构(例如稀疏性和平滑性)均可用于统一的3D模型,并且最紧凑,与所有视觉输入一致。
计算机视觉中的识别技术有助于计算机图形在形状和外观空间上建立紧凑的模型,为创建逼真的3D内容提供新的方法。 另一方面,计算机图形学中的3D建模和仿真技术可以预测、学习和验证计算机视觉算法分析的实际对象和场景的属性和行为。 视觉和图形社区长期以来一直在实践“综合分析”的方法。
外观和形状的统一表示? 基于图像的渲染。 在此,
从给定的一系列图像中学习并生成新视图可以被认为是利用简单性和自洽原理减小视觉和图形差异的初始尝试。
特别是,在全光采样中,发现能够以所需最小限度的图像数(简易性)实现抗锯齿图像)自洽性)。
3
更广泛的智能
智能神经科学
基本的智能原理有望对大脑的设计产生巨大的影响。 简约和自洽原理为灵长类视觉系统的一些实验观察提供了新思路。 更重要的是明确在未来的实验中需要寻找的目标。
作者团队已经证明了,
只需求内部简约和预测性显示即可实现“自我监控”,允许结构自动出现在基于压缩闭环转录学习的最终显示中。
例如,图9示出了无监控数据的转录学习自动区分不同类别特征,为大脑中观察到的类别选择性指示提供解释。 这些特征为灵长类动物脑内稀疏编码和子空间编码的广泛观察提供了合理的解释。 另外,除了视觉数据建模之外,
最近的神经科学研究表明,大脑中出现的其他结构化表示(如“位置细胞”)也可能是用压缩方法对空间信息进行编码的结果。
可以说,
最大码率下降( MCR2)的原理在精神上与认知科学中的“自由能最小化的原理”相似
( Freeenergyminimizationprinciple ),后者试图通过能量最小化为贝叶斯推理提供框架。 但是,与自由能的一般概念不同,速度下降在计算上容易处理,可以用封闭的形式表示,所以可以直接优化。 另外,这两个原理相互作用,
正确模型(类)的自主学习应当通过针对效用的闭环最大化博弈来实现,而不是单独最小化。
所以他们,
压缩闭环转移框架为如何实际实施贝叶斯推理提供了一个新的视角。
这个框架被认为明确了大脑使用的整体学习框架。
通过展开优化方案可以构造前馈段,无需通过反向传播从随机网络中学习。
此外,框架中存在互补的生成部分,可以形成闭环反馈系统来指导学习。
最后,该框架揭示了许多对“预测代码”大脑机制感兴趣的神经科学家寻求的难以想象的“预测错误”信号。 这是一个与压缩闭环转录共鸣的计算方案:
为了便于计算,必须在显示的最后阶段测量输入和生成的观测值之间的差异。
迈向更高级的智能
马毅等人的工作认为,与1995年Hinton等人提出的框架相比,压缩闭环复制在计算上更容易处理,更可扩展。 循环的学习非线性编码/解码映射(通常表示为深度网络)本质上是在外部非组织原始感觉数据(例如,视觉、听觉等)与内部紧凑且结构化的表示之间的重要“接口”
但是,他们也指出
两个原理并不总是能解释智能的所有方面。
高级语义、符号或逻辑推理的出现和发展背后的计算机制仍然难以捉摸。 直到今天,这种高级符号智能是来自持续学习还是必须硬编码仍存在争议。
在三位科学家看来,子空间之类的结构化内部表示对应于出现高级语义和符号概念所需的中间步骤——各子空间离散的(对象)类别。 以这种方式抽象的离散概念之间的其他统计、因果或逻辑关系进一步简化和建模为紧凑、结构化的(稀疏等)图,其中每个节点表示子空间/类别。 通过自动编码可以学习图形,确保自身完整性。
他们推测,
高级智能(具有可共享的符号知识)的出现和发展,只有在各个智能体学习到的紧凑、结构化的表示上才是可能的。
因此,他们提出,在高级智能存在的情况下,应该通过智能系统之间的有效信息交流和知识转移来探索高级智能出现的新原理。
另外,更高级的智能应该与这里提出的两个原理有两个共同点。
可解释性:所有原理都应该有助于将智能计算机制(包括可衡量的目标、相关的计算体系结构和学习表示的结构)作为白盒呈现出来。
可计算性:新的智能原理在计算上必须易于处理、可扩展,可以通过计算机或自然物理实现,最终由科学证据证实。
只有具备可解释性和可计算性,我们才能推动人工智能的进步,而不依赖当前昂贵且耗时的“试错”方法,描述完成这些任务所需的最小数据和计算资源,而不是简单地提倡“越大越好”的勉强方法智慧不应该是最足智多谋的人的特权,应该在正确的原则下,人人都能设计和构建新一代的智能系统,无论大小,其自主性、能力和效率最终都能模仿甚至超越动物和人类。
论文链接
:https://arxiv.org/pdf/2207.04630.pdf