• 工作总结
  • 工作计划
  • 心得体会
  • 领导讲话
  • 发言稿
  • 演讲稿
  • 述职报告
  • 入党申请
  • 党建材料
  • 党课下载
  • 脱贫攻坚
  • 对照材料
  • 主题教育
  • 事迹材料
  • 谈话记录
  • 扫黑除恶
  • 实施方案
  • 自查整改
  • 调查报告
  • 公文范文
  • 思想汇报
  • 当前位置: 雅意学习网 > 文档大全 > 公文范文 > 正文

    AI化学狂想曲

    时间:2023-05-28 13:50:19 来源:雅意学习网 本文已影响 雅意学习网手机站

    晁晨航,吕萍,洪鑫

    浙江大学化学系,杭州 310027

    我是论文A,目前住在期刊O中。这里的生活实在是冷清,从被发表到现在只有不到200人来看过我,引用我的人就更是屈指可数。别看我现在这个样子,两年前的我也曾是家中骄子。为了我的诞生,父亲夜以继日地在实验台上奋斗2年有余,尝试了上百个反应,写完了几本实验记录本,终于完成了我的数据积累。在我诞生之后,我也曾被寄予厚望,希望能有个好去处。然而诸事不顺,兜兜转转最终我落脚在期刊O,过上了现在的生活。令我感到比较惋惜的是,这么多实验积累的数据一直无人问津。如果有人能够把它们利用起来,那也不枉费父亲的一番心血。

    某日,正当我准备休息时,突然出现一位不速之客。与其他关注我正文内容的读者不同,他匆匆扫过我的摘要部分,便将目光锁定在支持信息部分。底物、催化剂、添加剂、反应条件、产率、ee值等信息,无一例外全被他收入囊中。似乎对他来说,数据本身比我的文章结论更重要。“数据够多够全,这次收获颇丰啊!机器学习模型又可以练得更强了!”对方欣慰地感慨。

    “机器学习?”我听父亲提起过,不过那是他在感叹计算机热潮时随口发的牢骚,“有本事让人工智能来做反应啊!那些东西总归是虚拟的,是不能取代我们这些实实在在做实验的。”那时涉世未深的我十分赞同父亲的观点,毕竟是真实的化学反应造就了我。比起看不见摸不着的算法,我更认同实验尝试对科学发展的贡献。

    更加令我无法理解的是“机器学习+化学”这一组合。据我所知,化学和计算机打交道比较多的是计算化学方向。我的反应机理部分便是通过量子化学计算得出了反应势能面,进而推断出合理机理。而在我的印象里,机器学习所属的人工智能方向和有机化学方法学完全没有重合。莫非他们想让人工智能来做化学?这听起来未免太过科幻了。

    这件事并未掀起太大波澜,我的生活很快回归了平静而又枯燥的日常。一年后的某天,我突然收到被引用数增加的消息。按照惯例,我出发前往对方所在的期刊数据库服务器,准备登门拜访并祝贺其成功发表。“对方所在期刊的影响因子还不小,比我要高一个档次,”我看着信息喃喃自语,“不知道我这次被引用是作为背景、前人工作还是实验方法。被引为前人工作说明我的成果被重视了,但比起这个我还是更喜欢有人来使用我的方法。”不等我再做思考,我已出现在目的地门前,门禁扫描了我的信息卡:

    “19号引用文献——‘数据来源’认证成功,请进。”

    “数据来源,这算什么?!”感到诧异的我推门而入。一个熟悉的身影映入眼帘。“你莫非就是一年前浏览我数据的那位,那位做机器化学的?”

    “是机器学习+化学,”对方微笑着说,“我是论文M,如您所说,去年曾在O期刊数据库和先生有过一面之缘。”

    “幸会,幸会,我早就想和先生您聊聊了,”我说道,“自从那时听您提到‘机器学习+化学’,我就一直十分好奇。虽然我不懂机器学习,但这几年来人工智能的飞速发展我也略有耳闻。比如那只很厉害的阿尔法狗,不是没有人能下围棋赢过它嘛。不过下棋归下棋,我们化学作为实验科学,那都是实实在在、一个个反应做出来的。我实在不知道人工智能可以怎样帮助到化学。难道像科幻小说一样,真的会有人工智能化学家吗?”

    “人工智能化学家还早着呢,强人工智能对我们来说也是科幻罢了。”M先生停顿了一下,反问道,“不过你就那么确定化学就仅能通过实验进行研究吗?”

    “化学是一门基于实验的科学,这不是众所周知的事实吗?”我反问道,“我的诞生就历经了实验员父亲无数次实验。他在数不清的失败之中积累经验、总结规律,不断改进条件,最终得到了一个不错的结果。至于计算化学方面,我之前也问过父亲,为什么不用量子计算化学来预测我们的实验结果。他说现在的计算化学受计算机算力的局限,要精确计算一个复杂体系需要花费大量的时间和经济成本,这比起直接的实验探究并没有效率与精度的优势。”

    “我记得你的方向是有机化学方法学,”面对我的质疑,M先生不紧不慢地说道,“据我所知,你们那里的工作方法可以概括为‘换条件筛反应’,就是通过筛选催化剂、溶剂、添加剂等反应条件来得到最优条件。”

    他说得某种程度上确实没错,父亲就是这样工作了两年多,将原本约20%产率、约80% ee值的一个反应筛到了产率和ee值都大于90%。但我非常反感他的表述和轻蔑的态度,什么叫“可以概括为‘换条件筛反应’”,这里面可大有讲究,科研工作者必须熟练掌握化学原理,利用化学知识来合理设计实验体系与条件,并且在大量实验中积累经验,从而在海量的可能中最有效地找到正确的道路。

    “如果真的只是像你说的那样简简单单‘换条件筛反应’的话,拿我这个论文实验来说,做十年也做不完!没有对化学知识的掌握和对实验结果的分析总结,怎么可能做好有机化学方法学?”我反驳道。

    M先生没有在意我的态度,微笑道:“你说得确实没错,做化学科研就是需要对化学知识的掌握以及对实验结果的分析与总结。那你不妨为我解释一下你支持信息中的手性催化剂A1配体吡啶上的甲基换成A2的乙基之后为什么立体选择性变好了呢?”

    “那自然是因为位阻变大,影响了反应过渡态能量。”

    “那换成A5的叔丁基之后,为什么立体选择性又变小了?”

    “这……也许是因为位阻太大,可能某种程度上会有影响……”

    “那A10这里改成硝基为什么能大大增加产率?”

    “强吸电子性呗。”

    “A13改成三氟甲基怎么才增加这么一点点?”

    “……”

    “溶剂四氢呋喃、N,N-二甲基甲酰胺、乙酸乙酯、乙腈是怎么影响产率和ee值的?”

    “应该是极性吧。”

    “那产率与ee值变化顺序与极性一致吗?”

    “也许还有其他原因之类的,那啥极化率、变形性,我记得还有啥来着?”

    这场辩论中毫无疑问是我占了下风,但我不服气,继续辩驳道:“这都是因为有机化学反应影响因素过多。虽然我的反应结果中找不到很清晰的规律,但总能得到一些经验性的知识来指导我下一步的催化剂设计;
    溶剂也是如此,也许极性不是唯一的影响因素,但是参考极性来设计实验也是个不错的方法。”

    “你说得很正确!”M先生不知为何露出了欣慰的笑容,“有机反应,或者说大部分化学反应的影响因素都非常复杂,一代代化学人仅靠着化学知识与经验规则,就将化学发展到如今这样的程度实属不易。但是越往前进,我们面临的困难与挑战就越是指数级增加。即便现在有了量子计算化学这个手段,其高额的计算成本也使其不能像化学知识与经验规则一样在实验室中广泛使用。”

    听完这段话,我陷入了沉默。化学反应是发生在原子和电子层面的事情。那里在量子力学的统治之下,仅凭人脑很难完全掌握这个过程,能够用化学知识和经验规则摸清一些趋势就已经谢天谢地了。但我也清楚,即使只用最简单的元素碳、氢、氧来组合,也能产生无穷无尽的有机化合物,更遑论周期表上那118种元素。化学的宇宙浩如烟海,可能的化学反应甚至比宇宙中的星球还多,完全掌握和预测化学宇宙看起来是如此高不可攀。

    M先生打破了凝固的气氛:“虽然人脑不能基于量子力学来穷尽计算所有的化学反应,但是化学家照样可以从事化学科研。这是因为化学家做的无非是分析实验数据,寻找反应规律,形成化学知识。即便所得规律仅是经验认识,化学家们同样能够很好地运用它们来指导和设计实验。”

    “确实如此,难道你说的机器学习也能做这样的工作吗?”我提出了疑问。

    “基于统计原理,运用机器学习的手段来分析实验数据自然是可行的。”M先生嘴角微微上扬,“就拿你的反应来说,催化剂种类筛选的数据无非关注两个点,一个是催化剂的结构,一个是该催化剂对应的产率与ee值。我们完全可以将这两组数据通过机器学习的方法训练出一个模型,这个模型就表达了催化剂结构与产率、ee值之间的关系。有了该模型之后,只要输入新的催化剂结构,就可以很快得到模型预测的产率与ee值[1]。”

    “听你这么一讲,这机器学习+化学似乎是一件很容易的工作。”我思考了一会儿,反问道,“产率和ee值这样的数据信息好说,但是化学结构并不是一个计算机可读的信息吧。电脑怎么会认得化学结构式呢?”

    “你这个问题切中要害!”M先生激动地说,“计算机当然无法理解化学结构,所以化学结构需要被编码成计算机可读的形式。我们将其称为分子描述符,比如说基于键连关系的编码SMILES(Simplified Molecular Input Line Entry System)。”

    “基于键连关系的连接方式进行编码的话,的确可以做到让计算机读取分子结构,”我打断了他,“可是,我并不认为计算机理解化学结构式能有什么用。只要学过元素周期表,就连中学生也可以写出甲醇的结构式,但这绝不意味着他们可以仅靠‘CH3OH’这一串字符就得到甲醇可燃性、熔沸点、酸性等一系列化学性质。只有熟练掌握化学原理并且了解足够多的实验现象,化学家才能将结构与性质对应起来。难道说你们要将化学原理教给计算机吗?”

    “直接让计算机学会化学原理很难实现,但可以将表达分子化学性质的定量参数作为分子描述符,通过大数据的训练让计算机得到基于化学性质的构效关系模型。这和我们人类的学习方式也有相通之处。”

    看我有点跟不上思路,M先生便对分子描述符的理念进行了具体介绍:“人在学习羧酸的性质时,通常会举一些例子来帮助理解。比如说按酸性顺序,氟代乙酸、氯代乙酸、溴代乙酸、碘代乙酸、乙酸的酸性依次递减,而从吸电子性的角度来看,F、Cl、Br、I、H的电负性也是依次降低的。通过这两组定性的排序,不需要任何外加的化学知识,人的大脑就能轻易地得出‘取代基吸电子能力越强,羧酸酸性越强’这一经验规律。在机器学习中,我们可以运用同样的策略,将取代基的吸电子能力编码后作为描述符使用,最终建立起一个‘取代基吸电子能力-羧酸酸性’的定量模型。再拿你的这个例子来说,我们对催化剂筛选进行机器学习的目的,就是建立催化剂结构与产率、ee值之间的关系模型。但其实决定产率与ee值的是催化剂性质。就像你之前分析的那样,有位阻、电子等很多相关性质。所以,我们可以使用位阻、电荷分布等性质参数作为分子描述符。而分子描述符的选取与反应目标内在的相关性越高,这个模型就越准确。”

    “诶?这么说在不同体系的机器学习过程中,其实是需要选取不同的描述符吗?”我好奇地问。

    “没错,现在并不存在一套放之四海而皆准的分子描述符。同样的描述符在不同的反应体系中的预测表现会出现很大的差异。我们在进行具体的机器学习模型训练时,必须针对反应目标的特点,结合化学知识来选择最佳的分子描述符,”M先生继续解释道,“比如要根据已知的烷烃类化合物沸点预测未知烷烃的沸点,分子量就是一个重要的参数;
    但是对于手性催化剂筛选而言,同样采用催化剂的分子量作为分子描述符肯定不是一个好选择。”

    “这么看来分子描述符的数据量需求不小啊,那如果所需的参数并没有实验数据该怎么办呢?”

    “可以用量子计算化学得到呀!相关的计算根据具体要求并不需要非常精确,对算力需求也没有机理研究那么高。”M先生补充道,“目前,基于不同策略的分子描述符已经得到了长足的发展,有一、二、三维描述符,其中常见的有分子性质、分子指纹、分子图、格点描述符[2]、SPMS描述符[3]、三维表达式[4-7]、基于电子结构的描述符等。有许多描述符可以使用RDKit[8]、Dscribe[9]等平台快捷生成,也有一些则需要通过电子结构计算获得。”

    “描述符生成之后就是选择模型算法训练了。机器学习已经发展出一系列成熟的模型。基于学习方式可分为监督学习、无监督学习、半监督学习、自监督学习和强化学习等。化学反应预测目前主要采用监督学习方法,其中包括多元线性回归、支持向量机、树模型、神经网络等。”M先生充满激情地说,“当然,机器学习在化学中的应用十分广泛,并不局限于反应预测。还有诸如化合物性质预测[10]、分子从头设计[11]、逆合成分析[12,13]、智能合成机器[14]等方面。可以预见的是,以机器学习为代表的人工智能技术在化学领域的广泛应用,将促进化学研究范式变革,为化学的发展注入新的动力[15]。”

    听完M先生慷慨激昂的发言,我感慨良多。假如化学实验能与智能建模协同进行,可以减少多少不必要的机械劳动啊!研究员们将时间解放出来去做更多创新性的工作,整个化学领域的研究水平都将得以提升。

    正当我陷入对化学美好未来的无限遐想之时,M先生给我泼了盆冷水:“虽然愿景很美好,机器学习在化学中的应用目前仍面临许多挑战,比如重要的一条就是缺乏高质量的实验数据库。目前全世界有成千上万的化学研究团队,然而大部分实验数据是不公开的。公开发表在文献上的数据往往只记录实验成功的那一小部分,十分影响合成数据的完整性。即便如此,文献数据也无法批量获取。各大出版商垄断了文献的发表,却没有对文献数据进行很好的数字化,致使有价值的实验数据被分散在各处,增加了大量不必要的人工时间成本。”

    “但这终究是阻挡不了历史的潮流,就如同工业革命凭借其先进的生产力席卷整个世界一样,先进的科学研究范式也将在学术界掀起一场变革!”

    多么美妙的畅想,我闭上了眼,仿佛来到了未来。在那里,我看到了实验机器人又快又准地进行着实验操作,看到了智能终端对实验数据的实时监测与汇总,看到了AI控制程序自动处理数据并设计新的实验,看到了脱下白大褂的研究员们坐在电脑桌前维护升级整个系统。成千上万的科学发现源源不断地从智能科研工厂中涌出,去向田间地头,去向高楼大厦,去向微纳芯片,去向星辰大海……科学界的工业革命为整个世界带来了翻天覆地的变化。

    “醒醒!别睡了,去做实验啦!”室友的声音把我从梦中吵醒。睁开倦怠的双眼,我发现我正趴在桌上,面前的电脑屏幕还在播放人工智能导论的视频。

    原来只是个梦啊,真是可惜,我还想多了解一点机器学习,真想亲眼看到科学革命后的世界。“别看了,快走吧!你一个做有机化学的看这人工智能有啥用?”室友不屑地说,“有这时间不如去开俩反应来得有用。”

    “一个刚刚出生的婴儿有什么用呢?等到他长大成熟的那天,你会看到翻天覆地的变革。”

    猜你喜欢 描述符产率催化剂 铈基催化剂在挥发性有机物催化燃烧治理中的研究进展分子催化(2022年1期)2022-11-02污水厂污泥产率随季节变化研究城市道桥与防洪(2022年3期)2022-05-08锰矿渣制备多孔整体式催化剂探究建材发展导向(2021年16期)2021-10-12生物质棉秆制备活性炭的试验研究湖北农机化(2021年11期)2021-07-01CeCl3和CeO2对松木屑的催化热解作用研究安全与环境工程(2021年2期)2021-04-02原煤深度解离分步释放浮选试验研究煤炭加工与综合利用(2020年6期)2020-07-17基于AKAZE的BOLD掩码描述符的匹配算法的研究计算机应用与软件(2020年6期)2020-06-16欧洲共同语言参考标准在中国高校学术英语写作教学适用性的研究:可理解性,可行性和有用性速读·下旬(2019年11期)2019-09-10基于深度学习的局部描述符电子制作(2019年2期)2019-02-14如何在开停产期间保护克劳斯催化剂智富时代(2018年3期)2018-06-11

    推荐访问:狂想曲 化学 ai

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章