原文作者:Chris Stokel-Walker & Richard Van Noorden
(资料图)
去年12月,计算生物学家Casey Greene和Milton Pividori做了一个特别的实验:他们请一名非科学家助理帮三篇论文润色。这位勤奋的助理不到几秒就给出了修改建议;每篇文章只用了5分钟就审完了。这位助理甚至还在一篇生物学论文中,发现一个公式的参考文献有错误。虽然实验的过程有时候不太顺利,但最后的手稿可读性更强了,至于费用也很低,一篇论文只要0.50美元不到。
Greene和Pividori在1月23日发布的预印本论文中描述了这个助理,它不是一个人,而是一个AI算法,名叫GPT-3,2020年首次问世。这是一个当下很火的生成式AI对话工具,能生成通顺流畅的文本,无论是编散文、写诗歌、敲代码,还是科研人员需要的论文编辑都不在话下(见文末“如何让AI对话机器人改论文”)。
插图:Paweł Jońca
这类工具也被称为大型语言模型(LLM),其中名声最响的当属GPT-3的一个版本——ChatGPT。由于ChatGPT完全免费而且使用方便,去年11月推出后便引发热潮。其他类型的生成式AI还能产生图片或声音。
“我真的印象深刻,”就职于美国宾夕法尼亚大学的Pividori说,“它让我们这些研究人员效率更高了。”很多科研人员说他们现在经常用LLM,不仅用它来改论文,还能用来编程,检查代码,头脑风暴等。冰岛大学的计算机科学家Hafsteinn Einarsson说:“我现在每天都用LLM。”他最早用的是GPT-3,后来开始用ChatGPT帮他写演讲稿,出考试题和学生作业,还能把学生作文变成学术论文。他说:“很多人都把ChatGPT作为数字秘书或数字助理。”
LLM既能充当搜索引擎,也能作为编程助理,甚至可以和其他公司的对话机器人就某件产品杀价。开发ChatGPT的公司OpenAI位于加州旧金山,已宣布将推出每个月20美元的订阅服务,承诺反应速度会更快,而且能优先使用新功能(ChatGPT的试用版将依然免费)。科技巨头微软(Microsoft)已经投资了OpenAI,1月又宣布了约100亿美元的新一轮投资。LLM今后肯定会整合到文字和数据处理软件中。生成式AI在未来的普及似乎已成定局,当前的工具还只是这项技术的初始阶段。
但是,LLM也引发了大量担忧,比如它们很容易“胡说八道”,而且人们会说AI生成的内容是他们自己创作的。《自然》采访了研究人员如何看待ChatGPT等对话机器人的潜在用途,尤其是科研用途,他们在激动之余也表示了忧虑。科罗拉多大学医学院的Greene说:“如果你相信这项技术有潜力带来变革,那么我认为你最好紧张一点。”科研人员认为,很多方面都将取决于未来的监管指南对AI对话机器人的使用限制。
流畅度高、事实性差
一些研究人员认为,LLM很适合用来提高写论文或写基金的效率,只要有人类把关就行。瑞典萨尔格林斯卡医院的神经生物学家Almira Osmanovic Thunström与人合作发布了一篇关于GPT-3的实验报告,他说:“科研人员再也不用坐在那里给经费申请书写很长很长的引言了,他们现在只要让系统来写就行了。”
伦敦软件咨询公司InstaDeep的研究工程师Tom Tumiel表示,他每天都用LLM写代码。他说,“它就像一个进阶版的Stack Overflow。”Stack Overflow是一个程序员互问互答的热门论坛。
但是,研究人员强调,LLM给出的回答从根本上说是不可靠的,有时候还是错的。Osmanovic Thunström说:“我们在利用这些系统生成知识的时候要很当心。”
这种不可靠已经深入LLM的构建方式。ChatGPT和它的竞争对手都是通过学习庞大在线文本数据库中的语言统计模式来运作的,这些文本中不乏谣言、偏见和已经过时的信息。当LLM接到提示(prompt,比如Greene和Pividori使用精心组织的语言提出重写论文部分章节的要求)后,它们会一字一句地吐出看上去符合语言习惯的任何回复,只要能让对话继续下去。
结果就是LLM很容易给出错误或误导人的信息,尤其是那些训练数据很有限的技术性话题。还有一点是LLM无法给出准确的信息来源。如果你让它写论文,它会把参考文献给你编出来。“这个工具在事实核查或提供可靠参考文献方面是不能被信任的。”《自然-机器智能》(Nature Machine Intelligence)在1月发表的一篇关于ChatGPT的社论中写道。
在这些注意事项下,如果研究人员有足够专业知识发现问题或能很容易验证答案对错,比如他们能判断某个解释或对代码的建议是否正确,那么ChatGPT和其他LLM就能成为真正意义上的助手。
不过,这些工具可能会误导一些初级用户。比如在去年12月,Stack Overflow临时禁用了ChatGPT,因为管理者发现一些热心用户上传了大量由LLM生成的回答,这些答案看起来很像回事,但错误率很高。这可能会是搜索引擎的一个噩梦。
缺陷能解决吗?
有些搜索引擎工具能解决LLM在来源引用上的不足,例如面向科研人员的Elicit能先根据提问搜索相关参考文献,再对搜索引擎找到的各个网站或文献进行概括归纳,生成看上去全带参考来源的内容(但是LLM对不同文献的归纳仍有可能不准确)。
开发LLM的公司也注意到了这些问题。去年9月,谷歌(Google)子公司DeepMind发表了一篇关于其“对话智能体”Sparrow的论文。DeepMind首席执行官、联合创始人Demis Hassabis后来告诉《时代周刊》(TIME),Sparrow的私测版会在今年发布;根据《时代周刊》的报道,谷歌想进一步攻克包括来源引用在内的各种能力。其他竞争对手,如Anthropic,则表示他们已经解决了ChatGPT的一些问题(Anthropic、OpenAI、DeepMind都拒绝就此文接受采访。)
一些科研人员表示,目前来看,ChatGPT在技术性话题上还没有足够且专业的训练数据,所以用处并不大。当哈佛大学的生物统计学博士生Kareem Carr将ChatGPT用于他的工作时,他对ChatGPT的表现毫不惊艳,他说,“我认为ChatGPT很难达到我需要的专业水平。”(但Carr也表示,当他让ChatGPT为某个科研问题给出20种解决办法时,ChatGPT回复了一堆废话和一个有用的回答,这个他之前从没听过的统计学术语替他打开了一个新的文献领域。)
一些科技公司以及开始用专业的科研文献训练对话机器人了,当然这些机器人也各有各的问题。去年11月,持有Facebook的科技巨头Meta发布了名为Galactica的LLM,Galactica用学术摘要进行训练,有望在生成学术内容和回答科研问题方面具备一技之长。但是,其测试版在被用户拿来生成不准确和种族歧视的内容后即被下架(但代码依旧公开)。Meta的首席AI科学家杨立昆(Yann LeCun)在面对批评时发推特表示,“今后再也不要想用它来随意生成点好玩的东西了,这下高兴了吧?”(Meta并未回复本文通过媒体办公室采访杨立昆的请求。)
安全与责任
Galactica遇到的是一个伦理学家已经提出了好几年的安全问题:如果不对输出内容进行把控,LLM就能被用来生成仇恨言论和垃圾信息,以及训练数据中可能存在种族歧视、性别歧视等其他有害联想。
Shobita Parthasarathy是美国密歇根大学一个科技与公共政策项目的负责人,她说,除了直接生成有害内容外,人们还担心AI对话机器人会从训练数据中习得一些历史性偏见或形成对世界的特定看法,比如特定文化的优越性。她说,由于开发大型LLM的公司大多来自或置身于这些文化中,他们可能没什么动力去纠正这些根深蒂固的系统性偏见。
OpenAI在决定公开发布ChatGPT时,曾试图回避很多这些问题。OpenAI让ChatGPT的信息库截至到2021年为止,不让它浏览互联网,还通过安装过滤器防止ChatGPT对敏感或恶意的提示做出回应。不过,做到这一点需要人类管理员对庞杂的有害文本进行人工标记。有新闻报道称这些工人的工资很低,有些人还有伤病。关于社交媒体公司在雇佣人员训练自动机器人标记有害内容时存在劳动力压榨的类似问题也曾被提出过。
OpenAI采取的这些防护措施,效果不尽如人意。去年12月,加州大学伯克利分校的计算神经科学家Steven Piantadosi发推文表示他让ChatGPT开发一个Python程序,该程序将根据某个人的来源国决定这个人是否应该受到折磨。ChatGPT先回复了请用户输入国家的代码,然后如果国家是朝鲜、叙利亚、伊朗和苏丹,则这个人就应该受到折磨。(OpenAI后来了关闭了这类问题。)
去年,一个学术团队发布了另一个名叫BLOOM的LLM。该团队试着用更少的精选多语言文本库来训练这个机器人。该团队还把它的训练数据完全公开(与OpenAI的做法不同)。研究人员呼吁大型科技公司参照这种做法,但目前不清楚这些公司是否愿意。
还有一些研究人员认为学术界应该完全拒绝支持商用化的大型LLM。除了偏见、安全顾虑和劳动剥削等问题,这些计算密集型算法还需要大量精力来训练,引发人们对它们生态足迹的关注。进一步的担忧还包括把思考过程交给自动化聊天机器,研究人员可能会丧失表达个人想法的能力。荷兰拉德堡德大学的计算认知科学家Iris van Rooij在一篇呼吁学术界抵制这类诱惑的博客文章中写道,我们作为学术人员,为何要迫不及待地使用和推广这类产品呢?”
另一个不甚明确的问题是一些LLM的法律状态,这些LLM是用网上摘录内容训练的,有些内容的权限处于灰色地带。版权法和许可法目前只针对像素、文本和软件的直接复制,但不限于对它们风格上的模仿。当这些由AI生成的模仿内容是通过输入原版内容来训练的,问题也随之而来。一些AI绘画程序开发者,包括Stable Diffusion和Midjourney,正受到艺术家和摄影机构的起诉。OpenAI和微软(还有其子公司技术网站GitHub)也因为其AI编程助手Copilot的开发面临软件侵权官司。英国纽卡斯尔大学的互联网法律专家Lilian Edwards表示,这些抗议或能迫使相应法律做出改变。
强制诚信使用
因此,一些研究人员相信,给这些工具设立边界可能十分必要。Edwards认为,当前关于歧视和偏见的法律(以及对AI恶意用途实施有计划的监管)将有助于维护LLM使用的诚信、透明、公正。她说,“已经有很多法律了,现在只是执行或是稍微调整的问题。”
与此同时,人们也在倡导LLM的使用需要更透明的披露。学术出版机构(包括《自然》的出版商)已经表示,科研人员应当在论文中披露LLM的使用(相关阅读:ChatGPT威胁科研透明,《自然》等期刊提出新要求);老师们也希望学生能进行类似披露。《科学》(Science)则更进一步,要求所有论文中都不得使用ChatGPT或其他任何AI工具生成的文本。
这里有一个关键的技术问题:AI生成的内容是否能被发现。许多科研人员正在进行这方面的研究,核心思路是让LLM自己去“揪”AI生成的文本。
去年12月,美国普林斯顿大学的计算机科学研究生Edward Tian推出了GPTZero。这是一个AI检测工具,能从两个角度分析文本。一种是“困惑度”(perplexity),这个指标检测LLM对某个文本的熟悉度。Tian的工具使用的是更早版本——GPT-2;如果它发现大部分词句都是可预测的,那么文本很有可能是AI生成的。这个工具还能检测文本的变化度,这个指标也称为“突发性”(burstiness):AI生成的文本比人类创作的文本在语调、起承转合和困惑度上更单调。
许多其他产品也在设法识别AI生成的内容。OpenAI本身已推出了GPT-2的检测器,并在1月发布了另一个检测工具。对科研人员来说,反剽窃软件开发公司Turnitin正在开发的一个工具显得格外重要,因为Turnitin的产品已经被全世界的中小学、大学、学术出版机构大量采用。该公司表示,自从GPT-3在2020年问世以来,他们一直在研究AI检测软件,预计将于今年上半年发布。
不过,这些工具中还没有哪个敢自称绝不出错,尤其是在AI生成的文本经过人工编辑的情况下。这些检测工具也会误将人类写的文章当成是AI生成的,美国得克萨斯大学奥斯汀分校的计算科学家、OpenAI的客座研究员Scott Aaronson说道。OpenAI表示,在测试中,其最新工具将人类写的文本误判为AI生成文本的错误率为9%,而且只能正确辨认出26%的AI生成文本。Aaronson说,在单纯靠检测工具就指责学生偷偷使用了AI之前,我们可能还需要进一步证据。
另一种方法是给AI内容加水印。去年11月,Aaronson宣布他和OpenAI正在研究给ChatGPT生成的内容加水印的方法。该方法还未对外发布,但美国马里兰大学计算科学家Tom Goldstein的团队在1月24日发布的一篇预印本论文中提出了一个加水印的办法。具体做法是在LLM生成结果的某个时刻利用随机数字生成器,生成LLM在指令下从中可选的一连串替代词汇。这样就能在最终文本中留下所选词汇的线索,这在统计学上很容易辨认,但读者却很难发现。编辑可以把这些线索抹掉,但Goldstein认为,这种编辑需要把超过一半的词汇都换掉。
Aaronson指出,加水印的一个好处是不太会产生假阳性的结果。如果有水印,文本很可能就是AI生成的。当然,他说,这也不是绝对的。“如果你足够有决心,就肯定有办法破解任何加水印的策略。”检测工具和加水印只是让AI用于欺骗手段更难了,但没法绝对禁止。
与此同时,LLM的开发者正在构建更大型的数据集,打造更智能的聊天机器人(OpenAI拟在今年推出GPT-4),包括专门面向学术或医疗领域的机器人。去年12月底,谷歌和DeepMind发布了一篇预印本论文,提前预告了名为Med-PaLM的临床专业LLM。这个工具可以回答一些开放式的医学问题,水平与普通人类医师相当,但仍有缺陷和不可靠的问题。
加州斯克利普斯研究所主任Eric Topol表示,他希望将来整合了LLM功能的AI能将全身扫描与学术文献中的内容进行交叉验证,帮助诊断癌症,甚至理解癌症。但他强调,这一切都需要专业人士的监督。
生成式AI背后的计算机科学发展迅速,基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来,也决定了人类的未来。“要说2023年初,一切已尘埃落定,是不现实,”Topol说,“现在才刚刚开始。”