了解宇宙万物的“第三种方法”,人工智能正在改变科学

来源:www.xjctc.net   时间: 2019-12-18

今天的物理和天文实验产生的大量信息都不能在一个人或团队中处理。

一些实验数据每天以千兆字节增加,这种趋势只会变得更加明显。

想象一下,一个平方公里的射电望远镜,预计将在2020年中期开始进行科学观测,每年产生的信息量将与整个互联网相媲美。

面对如此大量的信息,许多科学家不得不求助于人工智能。

这是研究人员眼中的神奇工具。

通过少量的手动输入,人工智能系统,包括人工神经网络(计算机模拟的人脑神经网络),可以轻松处理数千条信息并发现异常和人类识别的模式。

使用计算机协助科学研究的历史可以追溯到75年。

早在几千年前,人类就开始从数据中寻找有效的信息。科学家认为,机器学习和人工智能中使用的尖端技术是研究科学的一种新方法。

这种被称为生成建模的方法可以仅基于数据来找到与观察数据相关的许多解释中最合理的。更重要的是,此过程不需要预编程,可能会对系统产生影响。生成模型的支持者认为,其创新水平可被视为理解宇宙的潜在“第三条道路”。

通常,我们通过观察了解一切。约翰内斯开普勒试图通过研究第谷布拉赫的占星图(所有行星都在椭圆轨道上运行)来找到天体运动定律,并且建模也促进了科学进步。天文学家模拟了银河系及其邻近星系仙女座星系的运动,预测这两个星系将在数百万年后相互碰撞。观察和建模都可以帮助科学家建立假设并使用进一步的观察来检验假设。相反,生成模型与上述两种方法不同。

“这是观察和建模之间的第三种方法,”天文学家Kevin Schawinski说。他之前曾在苏黎世联邦理工大学(苏黎世联邦理工学院)工作,是当今一代模特最狂热的支持者之一。 “它提供了解决问题的新方法。”

一些科学家只是将模型和其他新技术分类为研究传统科学的工具。但大多数人的共识是,人工智能可以产生巨大的影响,其在科学研究中的作用将更加突出。费米实验室的天体物理学家Brian Nord以人工神经网络研究宇宙而闻名。

他担心人类科学家所做的一切都可以自动化,并且没有太多这样的控制。诺德说:“这种想法让我感到恐慌。”

神奇的GAN,基于生成的探索

在学习期间,Schawinski在数据驱动科学领域已经成名。在他的博士期间,他的主题是基于表征对数千个星系进行分类。由于当时没有可以解决问题的软件,Schawinski想到了大规模外包的方式。因此,科普星系公园项目应运而生。

自2007年以来,天文学家已经开始使用计算机进入关于星系分类的最佳猜测,这通常被证明是多数决策原则下的正确分类。该项目取得了成功,但Schawinski意识到人工智能可以被取代。 “今天,一个才华横溢,有机的学习背景和云计算科学家可以在一个下午完成所有工作。”

Schawinski在2016年开始使用生成模型的新工具。基本上,生成模型具有在确定条件X的前提下获得结果Y的概率。该方法已被证明是非常有效和广泛使用的。例如,您使用生成的模型处理一组面部照片,每个面部照片都标记了主角的年龄。当计算机程序梳理这些“训练数据”时,它会有意识地将较旧的脸部与皱纹的数量增加相关联。

最后,它具有“识别”面部年龄的能力。原则是它可以预测任何年龄段面临的变化。

上面的面都是生成的。左边的第一行(A)和第一列(B)通过生成具有真实人脸构建块的对抗网络(GAN)来构造。然后,GAN将A中面部的基本特征(例如年龄和面部)与B的详细特征(例如头发颜色和眼睛颜色)组合,以在上图中生成其他面部。

最着名的一代模型系统是发电对抗网络(GAN)。在完全接触训练数据之后,生成的对抗网络可以修复像素的损坏或真实图像,或者锐化那些模糊的照片。通过比较(即对应于术语“游戏”)来生成针对网络以推断缺失信息:网络生成器的一个组件负责生成错误数据,而另一个组件鉴别器负责区分数据这些假数据。随着程序的运行,两个组件的性能也得到了显着提升。特别是在由生成的对抗网络提供的超现实面孔中,如上图所示,有一些让你感觉“不在我们的世界,但真的很可怕”。

更广泛地说,生成的模型吸收数据(通常是图像,但不完全是),并将其分成一组基本但抽象的构建块。科学家把它变成了数据的“隐藏空间”。该算法操纵隐藏空间的元素以探索它如何影响源数据,并且还有助于发现系统中正在运行的物理更改。

隐藏空间的概念是抽象的,难以想象,但假设您在判断面部性别时使用粗略的类比来思考大脑是如何工作的。您可能会关注难以用语言表达的发型,鼻子形状和其他特征。计算机程序也类似地寻找数据中的重要特征:虽然它不知道胡须或性别是什么,但是如果训练数据是用标记为“男性”,“女性”或“有胡子”的照片学习的,则计算机程序将迅速推断出两者之间的相关性。

在12月《Astronomy & Astrophysics》期刊上发表的一篇论文中,Schawinski和他在苏黎世联邦科技大学的同事Dennis Turp和Ce Zhang用生成模型来研究星系演化的物理变化。 (他们使用的软件类似于生成的对抗网络,但其处理隐藏空间的技术与对抗网络的生成不同,因此技术上不是一代对抗网络。)他们的模型创建了人工数据集。测试物理变化的假设。例如,他们想知道恒星“淬灭”形成速率的快速衰减与星系密度之间的相关性。

对于Schawinski来说,关键问题是数据本身可以挖掘多少数据以及有关恒星和星系演化的信息。 “让我们忘记所有关于天体物理学的事情。”他说,“我们只能用数据本身重新识别这些知识多少?”

首先,星系的图像被压缩到它们的隐藏空间。 Schawinski然后微调空间中的元素以对应于银河系的特定环境变化。例如,周围物质的密度。然后他可以再生一个星系来观察差异。 “所以现在我有了一个假设的发电设备,它将使我手中的所有星系最初都处于低密度环境中,看起来就像是在高密度环境中。”

Schawinski发现,当星系将环境从低变为高时,星系的颜色变得更红,星系中的恒星变得更加集中在中间。 Schawinski指出,这些观测结果与现有的星系观测结果一致,但问题是为什么会这样。

Schawinski说,后续分析步骤尚未实现自动化。 “我必须作为人类参与进来。然后想象一下什么样的物理原理可以解释这种效应?“这个问题有两种解释:星系很高密度环境的变红可能是由于高密度的环境中充满了大量的灰尘,或者因为恒星的形成较少。 (换句话说,银河系中的恒星正在变老。)现在,通过生成模型,您可以测试这两种想法。更改隐藏空间中与尘埃和恒星形成速率相关的元素,以探索它们如何影响星系的颜色。 “答案显而易见,”Schawinski说。 “银河系的红色是恒星的形成较慢,不受尘埃的影响。因此,我们应该采用这种解释。”

使用概率模型,天体物理学家可以研究从低密度到高密度的宇宙星系过程的变化,以及导致这些变化的物理过程,这种方法不同于传统的模拟方法。 Schawinski教授指出,假设驾驶是模拟的本质,研究中涉及的基本物理定律决定了系统显示的结果。基于所有物理假设的建立,我们将行星结构和暗物质行为引入系统,模拟其过程并运行它。结果在一定程度上与现实相反,但实际上,我们并不了解所需的实际情况和假设。条件,我们希望数据本身的结果。

模拟的成功并不能取代天文学家和研究学者的地位,但这意味着在天体物理学领域,对象和过程的学习程度发生了变化:我们通过生成概率模型从大型数据库中生成信息。 Schawinski教授指出,虽然这不是一个完全自动化的科学,但它表明我们有能力在一定程度上为自动化科学过程建立工具。

生成概率模型显然是强大的,但它真的代表了一种新的科学方法吗?

由Quanta基金会资助的纽约大学和Flatiron研究所的宇宙学家David Hogg教授指出,虽然这项技术令人惊叹,但它最终是一种从数据中提取规则的复杂方法。几个世纪以来,天文学家一直在使用这种先进的方法进行数据观测和分析。

Hogg教授和Chawinski教授严重依赖AI来完成他们的工作。霍格教授使用神经网络根据光谱对星星进行分类,并使用数据驱动模型推断恒星的其他物理属性。他认为他的工作和Schawinski教授的工作已经通过实践进行了测试,这不是第三种科学方法。他们致力于建立一个成熟的数据使用社区,特别是在数据比较中,尽管霍格教授的工作仍有待观察。

AI助手

无论它在概念上是否新颖,很明显AI和神经网络在当代天文学和物理学中发挥了重要作用。

在海德堡理论研究所,物理学家Kai Polsterer教授的天文信息学团队致力于开发以数据为中心的天体物理学方法。最近,他们一直在使用机器学习算法从星数据集中提取红移信息,这在过去是一项艰巨的任务。

Polsterer教授称这个基于人工智能的系统是一个“无怨无悔的助手”,可以将数据梳理数小时而不会产生轮胎或抱怨,并完成所有繁琐的工作,为研究人员提供时间和精力,做一些他们擅长的有趣的科学研究。

波尔斯特尔教授指出,系统还不完善,算法只能进行训练,不能对未知输入做出响应。例如,如果你进入一个已知的星系,系统可以估计它的红移信息和年龄,但如果你输入一张自拍或烂鱼的照片,系统也会输出一个估计年龄的极端误差。在这种情况下,人类科学家扮演着重要的角色,他认为这项技术最终需要研究人员进行监测和解释。

在费米实验室工作的诺德教授指出了一个重要的观点:神经网络方法不仅提供计算结果,而且还提供错误间隔。这是每个大学生在统计学上学到的。在科学领域,如果只计算而不提供相关的误差估计,那么结果是不可信的。

和其他人工智能研究人员一样,诺德教授也担心神经网络系统结果的“难以解释”。通常系统只提供结果,而不提供具体结果是如何获得的。

然而,并不是所有人都认为这是一个问题。法国cea saclay理论物理研究所研究员伦卡兹德博罗娃指出,人类的直觉也“不容易解释”,例如,如果你看到一张照片,立刻认出它是一只猫,但事实上你不知道发生了什么。从某种意义上说,大脑是一个黑匣子。

不仅是天体物理学家和宇宙学家推动数据驱动、数据驱动的科学向人工智能迁移,量子物理学家还利用神经网络解决一些非常困难和重要的问题。

来自周边研究所理论物理研究所和安大略省滑铁卢大学的Roger Melkoof教授使用神经网络技术来解决描述多粒子系统的数学波函数问题。 Melkoof教授将基本AI技术称为“维度的索引诅咒”,波函数形式可能随粒子数呈指数增长。这个模拟过程的难度类似于试图找到在国际象棋或Go游戏中玩的最佳方式。也就是说,在你尝试下一步之前,你会想象你的对手会如何回应。选择这些动作中最好的一个。但是每一步,概率都会呈指数级增长。

当然,人工智能系统已经掌握了国际象棋和围棋游戏的游戏玩法,征服了十年前的国际象棋,到2016年,AlphaGo击败了顶级人类棋手。因此,Melkoof教授认为人工智能同样适用于量子物理学。

第三种科学研究方法

Schawinski教授是否认为人工智能是科学研究的“第三条道路”是正确的,或者正如霍格教授所认为的那样,这种方法只是传统观察和数据分析的“插件”,但毫无疑问,人工智能正在发生变化科学发现的方式并在推动中发挥重要作用,那么人工智能革命将在科学研究中走多远?

有人谈到了“机器人科学家”的成就。十年前,一位名叫亚当的AI机器人化学家研究了面包酵母的基因组,发现了制造特定氨基酸的基因。 Adam通过观察具有某些基因缺失的酵母菌株观察了这些基因的菌株结果。

最近,格拉斯哥大学的化学家Lee Cronin教授一直在使用机器人随机混合化学物质,看看会形成什么样的新化合物。该系统通过质谱、核磁共振和红外光谱实时监测反应,并最终预测哪个组合最强烈。克罗宁教授指出,即使这个机器人系统不能带来进一步的发现,它也能将化学家的研究速度提高约90%。

苏黎世联邦理工学院(federal institute of technology)的另一组科学家去年利用神经网络从一组数据中得出了相关的物理定律。他们的系统类似于开普勒机器人。通过从地球上记录太阳和火星在天空中的位置,重新发现太阳系的日心模型,观测碰撞球,得到动量守恒。法律。由于物理定律通常有多个表达式,研究人员想知道这个系统是否能提供新的方法来表达已知的物理定律。

以上这些都是人工智能开始科学发现过程的例子,尽管在每一种情况下,我们都可以讨论这种新方法的革命性。但最具争议性和紧迫性的问题是,在这个数据积累的时代,我们能收集多少信息。

计算机科学家朱迪亚珀尔(Judea Pearl)和科学作家达娜麦肯齐(Dana Mackenzie)在《The Book of Why》中(2018年)指出,数据不是很聪明,数据无法解释因果关系,使用个别模型分析数据的论文或研究只给出结果或转换数据,无法解释。schawinski教授同意pearl教授的观点,但是指出这个概念改变了这个概念。他从未声称用这种方法推断因果关系,但只有用这种方法才能比传统方法做得更多。

科学需要创造力,但到目前为止,没有适当的方法将创造力引入机器编程。 Polsterer教授说:“提出新的逻辑理论需要创造力。无论什么时候你需要创造力,你都需要人类。“创造力来自哪里? Polsterer教授认为创造力与“无聊”有关,机器也不会觉得无聊。 “如果你想要有创意,就必须讨厌无聊。我不认为机器会很无聊。“但另一方面,我们使用诸如”创意“和”灵感“之类的词来描述Deep Blue和AlphaGo等程序。描述机器“思想”中发生的事情的难度反映了探索我们自己的思维过程是多么困难。

Schawinski教授最近离开了学术界,进入了一家私人公司并经营一家名为Modulos的创业公司。 Modulos聘请了许多ETH科学家。该公司的官方网站口号是“在AI和机器学习开发风暴中心工作”。无论当前人工智能技术与成熟技术之间存在何种障碍,他和其他专家都认为机器人已经准备好做越来越多的人类科学家的工作,即使机器在这方面有些限制。

在可预见的未来,我们能否创造出一种机器,利用生物硬件来解决即使是世界上最聪明的人也无法独立完成的物理或数学问题。预计科学的未来是否最终可能成为机器驱动的家园。

  • 友情链接:
  • 版权所有© 新疆计算机培训中心 | 新ICP备10201303号-1 | www.xjctc.net . All Rights Reserved | 网站地图