AI检测器闹乌龙:人类作品频频被误判为AI生成,是算法的局限还是另有隐情?

AI检测器频频误判,人类作品反被指为AI生成,源于AI模型对人类内容的学习。AI内容溯源的边界正在消失。

原文标题:糟糕,大佬45年前论文,被判AI生成

原文作者:机器之心

冷月清谈:

近期,AI内容检测器在识别AI生成内容方面表现不佳,频频出现误判。知名作家Adam Kay的作品被检测出近30%的内容由AI生成,而该书出版于AI技术尚不成熟的十年前。类似情况在学术界也屡见不鲜,多位学者的论文被错误地判定为AI生成。甚至连经典文学作品如《罗密欧与朱丽叶》和历史文件《独立宣言》也未能幸免。这种现象的原因在于AI模型使用大量人类创作内容进行训练,导致检测器在识别时容易将人类表达误判为AI风格。这种误判不仅荒诞,而且可能对出版业产生负面影响,甚至出现写作水平越高越容易被判定为AI生成的情况。有观点认为,AI检测器的逻辑存在根本性缺陷,因为其判断标准本身就建立在它所学习的人类知识之上。AI内容溯源的边界变得模糊,如何准确识别AI生成内容成为一个难题。

怜星夜思:

1、AI检测器频繁误判,将人类作品判定为AI生成,这反映了AI技术发展中的哪些局限性?我们应该如何看待和改进这些局限?
2、文章提到高水平写作反而更容易被AI检测器判定为AI生成,你认为这背后的原因是什么?这对未来的写作风格和内容创作会产生什么影响?
3、如果AI生成的内容大量涌入,并且难以与人类创作的内容区分开来,你认为这对学术研究、新闻传播等领域会带来哪些挑战?我们应该如何应对这些挑战?

原文内容

图片
机器之心编辑部


这是 AI 的时代,也是 AI 检测器的时代。


近段时间,随着 AI 生成的内容(AIGC)越来越多,其中还有不少试图假冒真实内容,AI 内容检测也正成为一种越来越迫切的需求,尤其是在注重实证、真实性至关的重要的论文写作上。


然而,这些 AI 内容检测器的表现究竟如何呢?


可能远远不及预期。


前两天,知名畅销书作家 Adam Kay 在社交媒体 X 分享了自己的经历:他心血来潮,把自己的作品丢进一款 AI 检测器里查重,结果系统信誓旦旦地判定其中有 29.7% 的内容由机器生成。


最尴尬的地方在于,这本书早在近十年前就已出版,当时的 AI 技术连他书中的一句长难句都读不明白。



这条吐槽帖迅速引爆网络,目前浏览量已突破 210 万次,同时也激起了全网一场浩浩荡荡的「测谎仪大挑战」。越来越多的人拿着绝对不可能由 AI 生成的文本去测试,得到的结果无一不令人啼笑皆非。


学术界可谓是这场误判的重灾区。比如爱丁堡大学全球公共卫生教授兼主任 Devi Sridhar 教授的以前的文章就被检测判定有 90% 的内容都是 AI 生成的。



阿伯丁罗伯特戈登大学公共政策系的荣誉退休教授 Paul Spicker 45 年的一篇论文也被判定有 77% 的内容是 AI 生成的。



也有更多网友分享了自己的检测结果。比如网友 decentricity 用自己 2008 年的一篇关于 AI 的论文进行了检测,最终荣获 100% 纯 AI 生成的错误认证。这位网友调侃说自己用的是「GPT 负 6」。



不仅学术圈,就连新闻报道也会被错误检测。比如在下面的例子中,Zavinski 测试了自己刚刚撰写的一篇 2000 字的报纸报道,复盘了当地小镇七十年代城市改造失败的历史。他特意使用了通俗易懂的平实文风,并且一手资料完全没有在互联网上公开过。即便如此,系统依然判定这篇报道有 91% 的可能性是 AI 写的,顺便还给出了「可读性差」的扎心评价。



至于破折号识别法,更是几乎已经普及,也迫使相当多的人类作者改变自己的写作习惯。



还有更离谱的,就连经典的《罗密欧与朱丽叶》原著也被认为有 41% 的内容是 AI 生成的:



就连《独立宣言》也未能幸免,AI 检测器认为有 99.99% 的内容来自 AI:



为什么 AI 检测器会给出如此让人大跌眼镜的结果?


作家 Adam Kay 给出了自己的见解,如今大量人类创作内容被 AI 公司用于模型训练,因此,当大模型判断某些段落像 AI 风格时,本质上并不是人在模仿 AI,而是 AI 在复现它曾经学习过的人类表达。


所以,在不久的将来,当出版商像教育机构一样,在印刷前把所有内容都拿去跑一遍 AI 检测时,那些被拿去训练的成千上万作者的作品,会不会反而被标记为 AI 生成?这正是当下这种局面带来的一个相当荒诞的副作用。



更是有网友指出,写作水平越高(词汇更丰富、语法更规范),反而越容易被检测工具判定为 AI 写的。



「AI 检测器简直就是个笑话。它们是用人类创作的数据训练出来的,却反过来用来质疑人类的智能与原创性。仅凭这一点就把某人的作品标记为 AI 生成,既不可靠,也不公平,而且在逻辑上站不住脚。」


这样的质疑并非个例。



这位网友表示「这些东西本质上都是胡扯,先用人类的集体知识去训练 AI,然后又用同一个 AI 来判断一段内容是不是由 AI 生成的,而这个判断本来就建立在它最初训练所依赖的人类智能之上。说到底,这真的是一种相当荒诞的逻辑。」



AI 写的内容,本来就来自人类,我们还怎么识别 AI?像不像 AI 这件事本身,或许就已经失去了明确的边界。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得这就像是模仿笔迹,再像也无法完全一样。AI生成的内容缺乏人类的情感和生活体验,这可能是区分的关键。我们可以关注文本中是否包含真实的情感表达、个人经历和独特的见解。当然,这需要我们更加关注内容的内涵,而不仅仅是表面的形式。

我倒是觉得这事儿挺黑色幽默的。AI学习人类的文本,然后用学习的成果来反咬一口,说原创是抄袭。这就像儿子控诉老子不是亲生的。要改进嘛,我觉得得从数据源头抓起,明确哪些数据可以用于训练,哪些应该排除在外。另外,检测标准也得更人性化,不能一刀切。