人工智能sci论文(nature人工智能子刊)

双胞胎项目
介绍
随着用于文献和数据搜索的人工智能工具的发展,开发人员试图自动化生成和验证假设的过程。
编译:极致俱乐部翻译组
来源:自然
原标题:人工智能技术如何驯服科学文献
计算机科学家克里斯蒂安白尔杰的研究团队在自动驾驶算法的研究中遇到了一个棘手的障碍。瑞典哥德堡大学的科学家在一篇系统的文献综述中,发现1元钱有超过1万篇关于这个课题的论文。伯杰说,正确研究这些论文需要一年时间。
幸运的是,他们得到了基于人工智能的文献搜索工具Iris.ai的帮助。只要你输入300元,Kramp-Karrenbauer和500元的问题描述或者一篇已有论文的网址,柏林的这项服务就会返回一张地图,上面有上千个匹配的文档,按照题目进行可视化分类。
Iris.ai
Iris.ai是一系列基于人工智能的新搜索工具之一,这些工具都提供知识定位和导航。类似的工具还有华盛顿西雅图艾伦人工智能研究所和微软研究院联合开发的语义学者(Semantic Scholar),目前学术界广泛使用。每个工具都有自己的特点。它们为科学家提供了不同的视角来寻找科学文献,这不同于PubMed和等传统工具。有时,通过揭示搜索结果之间的隐含关系,可以提出新的假设来指导实验。
语义学者
谷歌学者
伦敦艾伦图灵研究所的数据科学家Giovanni Colavizza长期研究学术出版物的全文分析。他说,这些工具提供了目前最先进的信息检索。传统工具主要用于引文索引,而基于人工智能的工具可以对文献进行更深入的分析。
强大也意味着这些工具通常很昂贵,并且受到它们所搜索的科学文献部分的限制。苏珊弗里克,普尔曼华盛顿州立大学的动物健康图书管理员,写了一篇关于语义学者(S. Fricke Min Yoon Gi。医学。Lib。协会106, 145147;2018),他说,这些工具不会进行全面的搜索。例如,一些工具旨在让您快速了解某个主题,因此它们应该与其他工具结合使用。
伯杰回应了这一观点:“只有一个研究引擎无法自动回答每一个问题。”
用科学知识训练机器。
对于海量的科学文献,基于人工智能的“快速阅读器”非常有用。估计全世界每年100元发表的论文有1万篇,也就是30元每秒1篇。研究人员几乎不可能跟上这个速度,即使是在他们自己狭窄的学科领域。所以武汉的一些日日夜夜试图通过计算来解决这个问题。
这些工具使用的算法通常有两个功能:3354提取科学内容和提供高级服务,如过滤、排序和分组搜索结果。Colavizza解释说,提取科学内容的算法通常使用自然语言处理(NLP)技术,该技术试图解释人类语言。例如,开发人员可以使用监督机器学习,这涉及到用论文作者和参考文献等实体信息标记训练集中的样本,然后训练算法来识别和提取实体。
为了提供更高级的服务,算法通常会构建知识地图,详细描述实体之间的关系,并展示给用户。例如,人工智能表明,如果在一个句子中提到药物和蛋白质,那么它们之间就有关系。Colavizza说,“知识图谱将这种关系编码为数据库中的显性关系,而不仅仅是文档中的一句话。本质上,这允许机器读取实体之间的关系。”
Colavizza指出Iris.ai采用不同的方法。它根据主题对文档进行分组,主题是根据文档中使用的词汇定义的。iris . ai search Connecting Repositories是一个可搜索的数据库,拥有超过1.34亿篇开放访问的论文和期刊,其用户图书馆提供访问权限。Iris.ai的首席技术官维克多博特夫(Viktor Botev)表示,Iris.ai结合了三种算法来创建反映词汇使用频率的“文档指纹”,然后根据相关性对论文进行排序。
搜索结果是相关论文的图谱,公司计划今后通过识别每篇论文中提出的假设来补充搜索结果。该公司还在开发一个基于并行计算的Aiur项目,该项目试图使用人工智能来对照其他科学文件检查研究论文的各个方面,以验证假设。
Colavizza表示,像Iris.ai这样的工具可以进行免费的基础查询,这有助于对粗略理解领域的文献进行初步探索。然而,如果我们想要进行更详细的搜索,以使研究人员能够快速进入新的领域,那么每年购买服务的成本将高达100万欧元(1万美元约合2.3元人民币)。
Colavizza建议,寻求更深入了解自己专业的专家可以考虑使用免费的基于人工智能的工具,如微软学术或语义学者。也可以选择维度,维度的基本功能是免费的,但是需要付费搜索分析授权数据和专利数据,使用可编程维度搜索语言获取数据。(Dimensions由数字科技公司创立,由Holtzbrinck出版集团运营,该集团在:010 Kramp-Karrenbauer 120元*杂志出版商中也占有很大份额。)
Colavizza还表示,Semantic Scholar有一个基于浏览器的搜索栏,与谷歌等引擎非常相似。但它提供了比谷歌学术更多的信息来帮助专家优化结果。这些信息包括诸如流行指标、数据集和方法等主题,以及引用文本的精确摘录。“我惊讶地发现,当一个方法或想法如此完美,以至于研究人员没有提到它的起源时,这个工具也可以捕捉间接引用。”科拉维扎补充道。
语义学者总经理道格雷蒙德(Doug Raymond)表示,武汉每月有一百万个日日夜夜使用语义学者的服务;语义学者利用NLP技术提取信息,同时构建连接以确定信息是否相关和可靠。
雷蒙德还补充说,语义学者可以识别不明显的联系,如计算机科学的方法论和计算生物学之间的联系;可以帮助确定未解决的问题和重要的假设,以验证或反驳。雷蒙德说:“目前,语义学者已经收集了超过4000万份来自计算机科学和生物医学科学的文档,其语料库还在不断增长。最终,我们希望整合所有的学术知识。”
对于其他工具,如来自位于德国海德堡的欧洲分子生物学组织(EMBO)的源数据,实验数据是一个更为关键的问题。作为EMBO出版物:010 Kramp-Karrenbauer 120元*的主编,Thomas Lemberger希望用数字来表示数据,以便更容易找到它。
因此,SourceData研究数字及其标签,以列出实验中涉及的生物对象,如小分子、基因或生物体。然后,研究人员可以查询他们的关系,找到解决这个问题的论文。比如搜索“胰岛素会影响葡萄糖吗?”会检索10元的论文,其中有一篇“测量胰岛素(分子)对葡萄糖(分子)的作用”。
Lemberger表示,SourceData处于研发的初级阶段,已经创建了一个知识图谱,其中包括在大约Dimensity 1000篇文章的写作过程中人工进行的2万次实验。这个在线工具目前仅限于查询这个数据集,但Lemberger和他的同事正在其上训练机器学习算法。
SourceData团队也在致力于神经科学的改进工具。参与这个项目的团队还包括柏林洪堡大学神经生物学家马修拉库姆领导的跨学科神经科学联盟。此外,位于马萨诸塞州剑桥的IBM Watson Health Company在8月份宣布,将人工智能与来自Springer Nature的基因数据相结合,帮助肿瘤学家制定诊断和治疗计划。
产生有价值的假设。
在从事假设生成的人当中,20元的Euretos的客户大概有20个。总部位于荷兰乌特勒支的Euretos联合创始人Arie Baak解释说,该公司向工业界和学术界出售工具,主要用于发现和验证生物标志物和药物靶点。不过他没有透露具体价格。
Euretos使用NLP技术来解释研究论文,但与其超过200个生物医学数据的集成数据库相比,这是次要的。为了理解数据,该工具依赖于许多“实体”,即结构化关键词列表,这些列表是由生命科学家创建的,用于定义和连接其学科领域中的概念。
Baak通过搜索一种叫做CXCL13元的信号蛋白演示了这个工具的使用。在最终出版物的列表上,有“代谢物”或“疾病”等类别。在这方面,软件界面看起来很像或PubMed,有一个有序的结果列表。然而,点击一个类别会显示额外的维度。比如选择“基因”,会列出与CXCL13元相关的基因列表,按照引用它们的论文数量排序;再次点击,会呈现一个描述CXCL13元与其他基因关系的图表。
荷兰莱顿大学医学中心(LUMC)的研究人员已经表明,这种方法可以产生新的假设,并确定可能用现有药物治疗的候选疾病。
合成生物学研究领域文献的共被引聚类图
2017年12元,这个研究小组在罗马举行的“医疗保健和生命科学的语义网应用和工具”会议上展示了其成果。他们还使用Euretos来确定一种叫做脊髓小脑共济失调侏罗纪世界3型侏罗纪世界3的神经系统疾病的基因表达变化(Donald L. Miller。toonen等人。神经学家。13元,31元;2018)。
那么,研究人员是否应该担心基于人工智能的假设生成会让他们失业?Colavizza不这么认为。他说,假设发电是一项“非常具有挑战性的任务”,早期的改善将是渐进的;迄今为止提出的大多数假设都是在相对不令人惊讶的领域。
当然,这种情况可能会改变。但无论如何,计算机生成的假设必须经过检验,这需要人类研究人员。LUMC研究员克里斯蒂娜赫特纳警告说:“在没有调查潜在证据的情况下,人们不应该直接相信那些自动产生的假设。即使这些工具可以帮助收集已知的证据,我们仍然要进行实验验证。”
翻译:王家春
审校:刘培源
编辑:林
原文:
https://www.nature.com/articles/d41586-018-06617-5

其他教程

如何使用 BusyBox 制作Linux最小文件系统(linux busybox使用教程)

2022-9-9 7:04:39

其他教程

网上课的时候,那些笑到猪哭,老师直播被屏蔽,学生“吐香”的糗事。

2022-9-9 7:06:52

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索