Nature 专栏:让 AI 一键写系统性综述的话 ChatGPT 远远不够,一百年以后再看
科研人员正在利用人工智能工具迅速整合和理解大量科学文献,但实现高质量自动生成文献综述仍面临挑战。尽管提高了研究效率,但存在生成低质量综述的潜在风险,因此现阶段仍需谨慎使用,人眼审查仍然靠谱。
随着网络普及和文献数量激增,科研人员面临一个主要挑战,即尽管获取了大量数据用于理解复杂领域,但由于信息量巨大,人类无法完全阅读和理解所有文献。
就如同面对巨大图书馆,每本书都包含宝贵知识,但无人能阅读全部书籍以获取完整认知。
虽然科学进步提供了大量数据,但有效整合和理解这些数据依然是亟待解决的问题。
最近,《Nature》刊登了一篇专栏文章,介绍了现有文献综述自动化生成方法,并指出这些方法面临的困境和用户痛点。
尽管处于 ChatGPT 时代,但要实现完全无人类干预让AI完成系统性综述生成仍是一项艰巨任务,需集查询、整理、文献筛选、总结归纳等能力,并避免幻觉错误。
AI应用于文献综述
科研人员数十年来一直致力于提升“将大量相关研究编译成综述”的速度,然而由于工作量巨大,许多综述提交时已经过时。
ChatGPT等大型模型展现出卓越的语言理解能力,再次引发了对自动化综述的兴趣。美国初创公司 FutureHouse近日创建了新系统,声称能够在几分钟内生成比维基百科更准确的科学知识综合页面,已为约17,000个人类基因生成了维基百科式条目,其中大部分以前缺乏详细描述。
一些科学文献搜索引擎已开始引入AI驱动能力,以帮助用户通过查找、排序和总结出版物来制作叙述性文献综述,但当前质量较低。
大多数研究人员认为实现自动化“金标准综述”仍需很长时间,该过程需要严格的程序搜索和评估论文,还包括元分析来合成结果,或者可能需要10年甚至100年才有所进展。
AI辅助评审
长期以来,计算机软件一直辅助研究人员搜索和解析研究文献。
在大型语言模型(LLMs)出现之前,科学家们就已开始利用机器学习和其他算法来识别特定研究,或快速从论文中提取发现,但类似ChatGPT这样的大模型显著提升了自动综述的能力。
然而,要求ChatGPT或其他AI聊天机器人从头撰写学术文献综述并非现实。若要对某主题的研究进行综述,LLM可能会整合来自各个来源的信息,而不会优先考虑最相关、最高质量的文献。
LLM的工作机制导致模型对同一问题生成不同答案,并可能“插入”一些错误信息,如“不存在”的学术引用,与人类进行综述的过程相去甚远。
一种更复杂的过程是检索增强生成(RAG),将预选的论文语料库上传至LLM,并要求模型从中提取关键信息,这在一定程度上减少了错觉现象,但无法完全避免。
像Consensus和Elicit等AI驱动的科学搜索引擎可以设置信息来源,将用户问题转换为对学术数据库的搜索返回最相关结果,尽管大多数公司未透露系统的确切细节,但大致原则相同。
根据搜索结果,LLM总结这些研究,将其整合为带引用来源的答案,用户可以根据需要选择引用的工作。
丹麦南部大学奥登塞分校的博士后研究员Mushtaq Bilal相信这些工具能提高综述和写作的效率,并自行开发了Research Kick工具。
搜索引擎引用的内容是绝对存在的,用户可以进一步查看以自行判断。
不同的辅助工具有各自独有特点,例如Scite系统能快速生成支持或反驳某主张的论文详细分析,而Elicit等系统则从不同部分提取间接(方法、结论等)。
大多数AI科学搜索引擎无法全自动生成准确文献综述,其输出更像是“一个本科生通宵总结几篇论文主要观点”,科研人员最好利用这些工具优化综述过程的部分环节。
然而这些工具也存在一些弱点,如只能搜索开放获取论文和摘要而非全文,Elicit搜索约1.25亿篇论文,Consensus则包含超过2亿篇。
大多数研究文献需付费才能获取,搜索大量全文计算工程庞大,让AI运行成千上万篇文章的全文将需要很长时间并且耗费巨大计算成本。
系统性综述依旧艰难
叙述性文献总结已相当困难,要系统综述相关工作更是雪上加霜,即使是专业研究人员也需数月甚至数年才能完成。
根据Glasziou团队的分析,系统综述至少包括25个仔细步骤,研究人员需从长列表中筛选出最相关论文,提取数据,过滤可能存在偏见的研究并综合结果。
这些步骤通常需要其他研究人员重复以检查不一致性。
在ChatGPT出现前,Glasziou开始尝试创造科学界世界纪录:在两周内完成一篇系统综述。
Glasziou与同事包括Marshall和Thomas等已开发出计算机工具以提高效率,例如可快速识别随机实验的RobotSearch;RobotReviewer可帮助评估研究是否存在因未充分盲化而产生偏见的风险。
第一次尝试总共用了九个工作日;后来团队将记录缩短至五天。这一过程还能进一步加速吗?
Elicit致力于帮助研究人员进行系统综述而非简单叙述性综述,但该工具并非提供一键式系统综述,而是自动化其中一些步骤,例如筛选论文和提取数据等。
许多使用Elicit进行系统综述的研究人员经常上传通过其他搜索引擎找到的相关论文,但用户一般就透明度和可复制性问题表示担忧。
没有理解具体算法,单纯叙述的文章就不能算系统综述。
今年早些时候,Glasziou团队成员Clark领导了研究,研究了借助生成式AI工具辅助系统综述相关研究,最终团队在已发表研究中仅找到15项,并将AI性能与人工进行充分对比。
尚未发表或未经同行评审的结果表明,这些AI系统能从上传的研究中提取数据并评估临床试验的偏差风险。
现有模型在阅读和评估论文方面表现不错,但在其他任务方面表现糟糕,包括完善文献搜索和设计等。
潜在风险
自动化信息合成伴随风险。
研究人员长期以来已知许多系统评价存在冗余或质量不佳等问题,而AI可能会加剧这些问题;作者可能会有意或无意地使用AI工具快速完成非严格程序或包含低质量工作的评审,导致误导性结果。
除了综述他人工作外,Glasziou表示,这些模型还可以促使研究者快速检查以往发表文献中的错误,进一步提升研究水平。
未来,AI工具可寻找P-hacking等明显迹象帮助标记和过滤质量较差的论文。
Glasziou称之为一种平衡:AI工具可助科学家进行高质量审查,但也可能导致部分研究者迅速生成低质量论文,目前对出版文献影响尚不明确。
一些研究者认为,合成和理解世界知识的能力不应仅存在于不透明营利性公司,期望未来看到非营利组织构建并仔细测试AI工具,保证每次提供答案都正确。
参考资料:
https://www.nature.com/articles/d41586-024-03676-9
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。