智东西
编译 | 陈骏达
编辑 | Panken
智东西7月31日消息,根据顶级学术期刊《自然》(Nature)昨日报道,生成式AI在学术写作中的使用已迎来爆发式增长。相关研究显示生物医学领域更大数据库PubMed上10%的论文摘要都有AI写作嫌疑,相当于每年15万篇论文中都有AI的参与。
德国柏林应用科技大学的研究表明,主流AIGC检测工具的平均准确率仅有50%,还很容易将人类写作内容判定为AI生成。而不少AI生成的论文却能轻易地通过转述、同义词替换等方式瞒天过海。此外,英语母语者的AI工具使用更难被检测出来。
虽然AI工具此前就在学术界广泛应用,但利用生成式AI直接输出论文或者代笔写作仍引起争议。AI工具让剽窃行为更容易了,还有可能造成版权内容的滥用。
AI辅助写作并非一无是处,不少学者因为使用生成式AI辅助写作而避免了用不熟悉的语言发表论文的麻烦,能将精力专注于科研本身。有不少期刊都允许了生成式AI工具的使用,但要求作者必须在论文中详细披露使用情况。
一、AI可能参与15万篇摘要写作,非英语母语者更易被发现
自ChatGPT于2022年底发布以来,AI在学术写作中的使用呈爆发式增长。来自德国图宾根大学的研究显示,2024年上半年生物医学论文中至少有10%的摘要使用了AI进行写作,按年计算约为每年15万篇论文。
这一研究团队分析了2010年-2024年生物医学领域数据库PubMed中1400万篇论文的摘要,他们发现以ChatGPT为代表的生成式AI工具的出现后,特定修饰性文体词汇的使用量出现异常的激增。研究团队用这些词汇的出现频率估计了使用AI写作的摘要的比例。
研究人员还发现,AI写作工具的使用在不同国家间也有差异。他们的数据显示,来自中国和韩国等国家的论文使用AI写作工具的频率比英语国家的论文更高。
▲学术写作中文体词汇使用量激增(图源:《自然》)
据该研究团队分析,英语国家的论文作者使用AI的频率可能也和其它国家接近,但他们的使用方式可能更难以发现。
其实在这波生成式AI浪潮出现之前,AI已经在药物发现、蛋白质结构预测等领域投入使用,这些使用并未引起过大的争议,其背后原因可能是在这类应用中,AI很明显扮演的还是辅助的角色。
生成式AI在学术写作中的应用带来了两大问题。一方面,剽窃因生成式AI而变得更容易了。剽窃者可以让生成式AI用学术期刊的风格转述他人研究,而转述后的文本与原文相似程度一般都较低,因此很难被判定为抄袭。
此外,AI模型在训练过程中消耗了大量版权内容,而模型极有可能将版权内容在没有任何提示的情况下输出给用户。《 *** 》就曾发现OpenAI的AI聊天机器人ChatGPT曾直接输出过《 *** 》报道中的原话,并未标注来源。他们也因此起诉OpenAI侵权。
二、猫鼠游戏中检测工具落败,可轻易规避还容易误判
为应对日益泛滥的AI工具使用,有不少企业推出了AIGC内容检测工具,但这些工具在和生成式AI的“猫鼠游戏”中纷纷落败。
去年年底,德国柏林应用科技大学的几名学者发表研究,他们发现学术界中经常使用的14种AI检测工具中只有5个实现超过70%的正确率。而平均识别正确率仅有50%-60%。
▲市面上主流AIGC检测工具表现不佳(图源:Weber‑Wulf et al. )
这些AIGC检测工具在面对人工编辑、机器转述后的AI生成内容时表现更差。仅需经过同义词替换和调整语序等简单操作,AIGC检测工具的正确率就将降低至50%以下。研究认为AIGC检测工具的综合识别准确率仅有50%。
▲图中05、06分别为AI生成后人类编辑和机器转述后的文本,AIGC检测工具在这两类文本上的表现很差(图源:Weber‑Wulf et al. )
数据显示,市面上的AIGC识别工具在识别人类写作论文时的准确率很高。但如果作者先用自己熟悉的语言撰写原创论文,然后让翻译软件翻译为另外一个语言,就有可能被识别工具误判为AIGC。这可能对学者和学生的学术声誉造成极为负面的影响。
三、辅助写作与学术不端界限模糊,AI写作工具也有其价值
不过,生成式AI工具的使用确实给部分研究者带来了便利。利雅得沙特国王大学(King Saud University)的信息技术研究员亨德·哈利法(Hend Al-Khalifa)分享道,在生成式AI工具出现前,许多不精通英语的同事在论文写作时都面临很大的障碍,而现在,这些学者可以专注于研究本身,不必再写作上耗费太多时间。
AI辅助写作与学术不端行为之间的界限很难划定。马里兰大学计算机科学家索海尔·费兹(Soheil Feizi)认为,使用生成式AI来转述现有论文的内容显然是抄袭。
但使用AI工具来辅助表达观点的行为不应该受到惩罚。在主动披露AI工具使用的前提下,研究者可以使用详细的提示词生成文本,或是利用AI工具编辑草稿。
多本期刊也规范了AI工具在学术写作中的使用,并未直接禁止。顶级学术期刊《科学》(Science)规定AI不可被列为合著者,而作者应披露所使用的AI系统和提示词,并对内容准确性和是否涉嫌抄袭负责。
▲学术期刊《科学》对AI使用的相关规定(图源:学术期刊《科学》官网)
学术期刊《自然》则规定研究者应该在“研究 *** ”部分记录生成式AI工具的使用。统计数据显示,截至2023年10月,100本排名靠前的期刊中,有87本都制定了使用生成式AI工具的指南。
结语:AI工具并非洪水猛兽,改变学术导向才能治本
在刚刚过去的大学毕业季中,有不少国内高校也在毕业论文答辩和评审过程中引入了AIGC检测工具。然而,这一指标的引入并未有效遏制与AI工具相关的学术不端行为。市面上还出现了专门降AI率的各种服务,在被误判为AI生成后,不少学生的论文因降AI率而变得面目全非。
对学术研究中的生成式AI工具采取对抗性态度或许很难根治这一问题。来自德国柏林应用科技大学的学者在总结研究时也强调,AI在学术写作中的滥用问题光靠AIGC检测很难完成,调整以论文和结果为导向的学术风气才是解决这一问题的关键。
来源:《自然》
发表评论
2024-10-12 02:07:43回复
2024-10-12 02:10:54回复
随着科技的进步,生成式AI在学术写作中的应用愈发广泛,尽管带来了便捷与高效的同时也存在诸多争议和担忧关于版权滥用及剽窃的问题浮出水面,自然杂志的报道为我们揭示了这一现象的多个层面:从使用频率到检测工具的挑战再到辅助写作的模糊界限以及学术界的态度调整等都在其中体现出了双刃剑的特性既有便利也有风险的存在提醒着我们在享受科技带来的红利时更应关注其背后的伦理问题并寻求合理的解决方案期待未来能在科技进步的浪潮中寻找到平衡让技术真正服务于人类的发展而非成为潜在的风险之源!