文本创作ai 用魔法打败魔法?!使用AI生成文本检测工具判别人类和AI写作究竟靠不靠谱?
AI背后
近年来人工智能(AI)的快速发展,特别是生成式预训练变换器(GPT)大型语言模型(LLM)领域变革性的进展,催生了一系列公开可用的在线文本生成工具。生成式AI工具盛行大大降低了文本创作的门槛,却也给向来以“原创性”为核心价值的学术领域带来了前所未有的风险挑战。
国内外高校、研究机构与学术出版机构陆续出台了应对政策,要求作者主动披露生成式AI工具的使用;与此同时,教育与出版工作者们热切期盼“技高一筹”的AI生成文本检测工具能为学术生态保驾护航。
这场先进技术博弈的“高端局”
目前事态如何?
不久前发表于 for (国际教育诚信杂志)的“ of tools for AI- text”一文中,欧洲学术诚信网络( for , ENAI)技术与学术诚信工作组的 Weber-Wulff等研究人员全面测试了现有14种在线检测工具用于判别人类撰写文本和AI()生成文本的性能,基于准确度、精确度和错误分析进行评估,并披露了部分工具在实际使用时遇到的问题。(点击文末“阅读原文”查阅全文)
现将全文主要观点及内容提炼并译述如下,以供感兴趣的读者参阅探讨。
主要
观点
现有最先进的检测工具在判别人类撰写文本和AI生成文本上存在严重局限性(不准确也不可靠),还存在偏向性,更倾向于将文本判定为人类撰写而非AI生成;
对于检测AI生成文本的“简单解决方案”并不(甚至可能不会)存在,内容混淆技术(如使用人工改写或机器翻译)会显著降低检测工具的性能;
由于这些AI生成文本的检测工具仅提供简单的输出(如可能或有多大概率为AI生成),而无法进行验证或提供证据,报告不能作为指认学术不端行为的唯一依据。
研究目的
研究人员测试了现有的AI生成文本检测工具的功能,评估这些工具提供输出结果的准确性、在使用改写工具等混淆技术时的有效性,以及机器翻译工具对人类撰写文本的影响。具体来说,旨在回答以下几个问题:
Q1:AI生成文本的检测工具能否可靠地检测人类撰写文本?
Q2:AI生成文本的检测工具能否可靠地检测生成文本?
Q3:机器翻译是否会影响对人类撰写文本的检测?
Q4:人工编辑或机器改写是否会影响对生成文本的检测?
Q5:不同的AI生成文本检测工具获得的结果是否一致?
研究方法
·测试集(由9名研究人员准备,共54个样本)
01-Hum:人工撰写的文本
02-MT:非英语的人工撰写文本,随后由AI/机器翻译成英语
03-AI、04-AI:AI生成的文本(03和04采用不同提示语)
05-ManEd:AI生成的文本,随后经人工编辑
06-Para:AI生成的文本,随后经AI/机器改写
·检测工具(14个,请下滑查阅)
Check For AI
at Scale
Go
GPT Zero
GPT-2 Demo
Text
GPT
Zero GPT
△文末有彩蛋,解锁以上工具官网
·评估方法
研究人员被分成2~3人的小组,负责评估来自不同类型文本样本的测试结果。基于指定文本被判别为人类撰写或AI生成的概率,对原始文本(01-Hum和02-MT)和AI生成文本(03-AI、04-AI、05-ManEd和06-Para)分别使用五级分类。进而根据准确性和错误类型两个标准对分类结果进行评估。
研究结果
一、准确度评估
14种检测工具中,在分类准确度评估中获得最高分,其次是和GPT-2。有趣的是,GPT-2并未经过训练来检测GPT-3.5的输出,但可达到70%以上的准确度。此外和Go 的准确度也达到70%以上。
然而,单看整体平均准确度具有一定误导性,不同文档类型之间准确度实际存在差异。研究人员通过进一步分析揭示了机器翻译、人工编辑和机器改写对整体准确度的影响。
1.机器翻译的影响
人工撰写(01-Hum)情况下的整体准确度为96%。然而,在人类使用非英语撰写并通过机器翻译成英语(02-MT)的情况下,准确度下降了20%。可见机器翻译在文本输出中留下了一些AI的痕迹。
2.人工编辑的影响
与03-AI和04-AI(机器生成而无进一步修改,74%)相比,05-ManEd(机器生成并经过人工编辑,42%)准确度下降接近一半。这恰好反映了在禁止使用AI生成文本的情况下学术不端行为的典型场景,即获取由AI生成的文本后进行一些微小修改(被称为“”),而结果显示现有检测工具对这种最常见的情况却很大可能无法检出。
3.机器改写的影响
最令人惊讶的可能是06-Para(AI生成并进行机器改写)的情况,即利用机器改写AI生成的文本,检测工具将其判定为人工撰写的文本。这种情况下的整体准确度仅26%,意味着进行机器改写后,大多数AI生成文本无法被检出。
比较不同检测工具结果的一致性,发现大多数检测工具基本遵循一个模式,即在识别由人工撰写的文本时准确度较高,而在识别由AI生成或机器修改的文本时准确度较低。可见检测结果存在倾向于判定为人类撰写文本的偏见。
二、精确度评估
检测工具性能的另一个重要指标是精确度,即真阳性样本在所有被判定为阳性的样本中所占百分比,反映了检测工具提供的阳性结果分类正确的概率。在14种检测工具中, at Scale未给出阳性判定故无法计算,而GPT Zero的部分假阳性(PFP)判定结果出现最多。
三、错误分析
检测工具的两类错误结果输出,即误判(假阳性)和漏判(假阴性)均可能对学术环境产生不好的影响。
1. 误判:如果检测结果的输出是阳性或部分阳性,很可能会引发对不端行为的指控;在个别结果不明确或部分阴性的情况下,也可能会产生对不端行为的怀疑。研究人员分析了这些检测工具的误判可能性,发现GPT Zero的假阳性率(FPR)达50%,故它不适合用于学术环境下判别AI生成文本,容易对被误判的行为人造成较大伤害。
2. 漏判:如果检测工具未能发现AI生成文本,违规使用了AI生成工具的行为人很可能会因此获得不公平的优势,而这种不端行为的实际受害者是那些诚实的行为人。研究人员为此计算了这14个检测工具的假阴性率(FNR),其中13个对03-AI和04-AI文本判别输出了假阴性或部分假阴性的结果,仅能正确检出所有;而没有一个检测工具能正确检出所有经过人工编辑(05-ManEd)或机器改写(06-Para)的AI生成文本。
四、使用问题
研究人员在测试过程中还出现了一些可能由工具测试版本导致的实际使用问题。
·在某个时刻停止工作,只显示了这样一条声明——“服务器错误!我们可能只是负载过重。请几分钟后再试一次?”问题发生在最初一轮测试时,后续重测也未得到改善。其他工具会陷入明显的无限循环或输出错误信息,须稍后重新进行测试。
· GPT 无法接受计算机代码,只接受英语文本,显然是将代码识别为非英语文本了。
·输出一个包含计算机程序代码的“NaN%可靠度”,还显示了一个机器人头像。这种情况下可以认为它正确识别了生成文本,但结果呈现却令人困惑。
讨论与展望
经过测试,研究人员认为现有的AI生成文本检测工具的确表现不佳,与一些工具发布的声明( 2023; 2023;.ai 2023;Zero GPT 2023)存在明显差异,既不准确也不可靠(准确度均低于80%,仅有5个超过70%),常出现假阳性或假阴性的判定结果。总体来说,约20%的AI生成文本很可能会被检测工具误判为人类撰写。它们还不够强大,在使用人工编辑或机器改写等混淆技术时性能表现更差,也无法很好地处理从非英语机器翻译为英语的文本。总的来说,约50%的经过一些混淆处理的AI生成文本很可能会被检测工具误判为人类撰写。工具提供的结果对于普通用户并不易理解,甚至诸如还会向用户提出“您应该编辑您的文本,使被识别的AI生成文本减少”的不当建议。
AI生成文本检测工具通常仅提供简单的判定结果输出,例如“这份文档可能是由AI写的”或“有11%可能来自GPT-3、GPT-4或”,而无任何验证或显示证据的可能性,因此基于这种结果被指控违规使用未授权内容的不端行为人也无从辩解。从测试结果来看,使用不同检测工具的假阳性率范围从0%()到50%(GPT Zero),假阴性率范围从8%(GPT Zero)到100%( at Scale),差异很大,这提示用户在解释检测结果时应极为谨慎,因此检测报告不适合被用作指认学术不端行为的唯一依据。
此外,研究人员发现的一个工具GLTR()不提供判别分类,故测试时将其排除在外,但它会根据单词在上下文中出现的频率进行突出显示标记,结果的解释由用户决定。这种信息的可视化非常有用,单词颜色标记不一定意味着文本是由AI生成的,但可能意味着文本没有任何创新或附加值,这在某些情况下可作为其质量的相关指标。
由于AI生成文本检测工具不可靠,对合理(道德)和违规(非道德)使用AI工具的差异进行定义、描述和培训时需考虑将教育的重点放在预防性策略上,包括如何合理使用生成式AI工具的讨论,以及这些工具的优点和局限性。该领域的未来研究应测试AI生成文本检测工具在使用不同(多种)模糊化水平生成文本上的性能,探讨AI生成文本在群体水平上的检测,以及涉及将内容上传到云端(或机构)的AI检测工具中可能产生的法律影响和数据隐私问题。
来源: of tools for AI- text.Int J Educ 19, 26 (2023)
作者: Weber-Wulff, Alla -, Sonja ,Tomáš Foltýnek, Jean -Dib, ,Petr Šigut & Lorna
翻译:徐婷婷,《厦门大学学报(自然科学版)》编辑部