2022年人工智能编程,工业界最喜欢的ai算法

萍生于凹非寺

量子位|公众号QbitAI

AI搜索引擎再次进化?

给这个AI一个主题,分钟回顾论文综述,而且自己提供论文引文。

或者输入科学类名词,AI就可以迅速生成该名词专用的维基百科。

这个AI的名字叫Galactica

(简称: GAL )。

是最新的开源

是将AI转化为科学生产力的科学语言大模型。

然后学科实现了“大统一”,可以使用数学、物理、计算机…这样的AI。

模型刚公开,立即引起了网友的热议。 目前,相关推文已被推送近15万条,累计点赞、转发、引用超过5000条。

脸书的前技术人员也出来了,来到了站台。

另外,网民自己体验过的所写文献的综述“看起来相当好”,不断地喊着。

下一步不是会有新的想法吗?

其实写文献综述和做维基百科还是GAL功能的一部分,除了这些,你可以回答专业问题,写科学代码,评论分子和蛋白质。

具体效果怎么样,一起看看吧~

作为科学生产的工具,如果能提到科学生产力的话,论文的检索是必不可少的。 不,GAL会解决的。

它涵盖了机器学习、数学、计算机科学、生物和物理五个科学领域。

选择好的学科,在左边的框中输入想找的论文主题后,右边的GAL会推荐你阅读最合适的论文。

除了推荐论文外,GAL还有另一个实用功能。 生成演讲。

例如关于密度泛函理论( DFT )

的pre,因为不擅长写演讲,所以直接GAL,自己搞定。 (手动移动狗头) ) )。

GAL也可以用于注释分子和蛋白质,以下是GAL生成的RDKit (可以生成用于机器学习的分子描述符)

操作手册。

在一些细节问题上,GAL也捏得很厉害!

例如,即使看不懂复杂的公式和代码,交给GAL就可以直接翻译成漂亮的语言。

不仅如此,还可以在公式和代码之间进行相互转换,或者在不同类型的代码之间进行转换。

更重要的是,它还具有表达式简化和错误检查功能。

怎么说? GAL要实现如此复杂的功能,就必须提到训练数据集。

据官方消息,GAL是一种新的高质量科学数据集,名为NatureBook

经过培训,这将使模型能够使用科学术语、数学和化学式以及源代码。

其中包括4800多万人

论文、教科书、讲义,以及数百万的化合物和蛋白质、科学网站、百科全书等。

此外,为了检索论文并归一化引用,GAL的数据集包含3亿000多万条

上下文参考和5000万件以上

不同源之间标准化的独特引用。

如果有这么庞大的数据集,接下来会面临两个问题。

第一个问题是如何管理这些高质量的数据集

为了实现这一点,GAL采取了两个步骤:

所有数据都是通用的标记格式

进行处理,通过各种源数据之间的墙壁。 预培训包含特定任务的数据集

这样可以保证在处理特定任务时更加专业。 另一个问题是如何设计接口的交互。

首先,如上所述,GAL可以支持各种类型的任务。

因此,在设计接口交互时可以将各种任务分类,不同的分类支持不同类型的数据。

GAL具有高级管理和高质量的科学数据集,与其他模型相比有何效果?

直接访问数据!

在推理中,GAL的优势非常突出,在数学MMLU (大规模多任务语言理解)中

中表现优于Chinchilla,数学上也优于PalM 540B和GPT-3 175B。

但是,GAL没有接受过一般数据集的训练,但在BIG-bench上的成绩优于BLOOM和OPT-175B。

看完之后不是也在痒痒吗? 先停下来再说吧。

传送门: https://galactica.org/

参考链接: [1] https://Twitter.com/paperswithcode/status/159254693679476736

[2] https://github.com/paperswithcode/galai

[3] https://galactica.org/static/paper.pdf

—完—量子位QbitAI 头条签约关注我们,第一时间了解前沿科技动态

动态分享

新手小白怎么做短视频剪辑工作,怎么从电影上剪辑制作短视频赚钱

2022-12-10 4:27:11

动态分享

2020年影视后期,当今影视后期现状

2022-12-10 4:29:31

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索