AI检测器闹乌龙:人类作品频频被误判为AI生成,是算法的局限还是另有隐情?

AI检测器频频误判,人类作品也被识别为AI生成?专家45年前论文、经典文学都未能幸免!是技术缺陷还是另有隐情?

原文标题:糟糕,大佬45年前论文,被判AI生成

原文作者:机器之心

冷月清谈:

AI内容检测器在识别AI生成内容方面面临巨大挑战。近期,大量案例表明,这些检测器经常将人类创作的内容误判为AI生成,甚至包括已出版书籍、学术论文和经典文学作品。这种误判源于AI模型使用大量人类创作内容进行训练,导致其在判断文本来源时出现偏差。许多人指出,写作水平越高,越容易被误判为AI生成。这种现象引发了对AI检测器可靠性和公平性的广泛质疑,并促使人们反思AI检测的逻辑基础。

怜星夜思:

1、AI检测器频频出错,将人类创作的内容误判为AI生成,你觉得这会给学术界带来哪些潜在的负面影响?
2、文章中提到,AI检测器可能因为“写作水平越高(词汇更丰富、语法更规范),反而越容易被检测工具判定为AI写的”。如果是真的,这背后反映了什么问题?我们应该如何看待这种现象?
3、文章作者认为,AI检测器的问题在于“用人类创作的数据训练出来的,却反过来用来质疑人类的智能与原创性”。你认为除了这个原因,还有哪些因素导致AI检测器如此不靠谱?

原文内容

图片
机器之心编辑部


这是 AI 的时代,也是 AI 检测器的时代。


近段时间,随着 AI 生成的内容(AIGC)越来越多,其中还有不少试图假冒真实内容,AI 内容检测也正成为一种越来越迫切的需求,尤其是在注重实证、真实性至关的重要的论文写作上。


然而,这些 AI 内容检测器的表现究竟如何呢?


可能远远不及预期。


前两天,知名畅销书作家 Adam Kay 在社交媒体 X 分享了自己的经历:他心血来潮,把自己的作品丢进一款 AI 检测器里查重,结果系统信誓旦旦地判定其中有 29.7% 的内容由机器生成。


最尴尬的地方在于,这本书早在近十年前就已出版,当时的 AI 技术连他书中的一句长难句都读不明白。



这条吐槽帖迅速引爆网络,目前浏览量已突破 210 万次,同时也激起了全网一场浩浩荡荡的「测谎仪大挑战」。越来越多的人拿着绝对不可能由 AI 生成的文本去测试,得到的结果无一不令人啼笑皆非。


学术界可谓是这场误判的重灾区。比如爱丁堡大学全球公共卫生教授兼主任 Devi Sridhar 教授的以前的文章就被检测判定有 90% 的内容都是 AI 生成的。



阿伯丁罗伯特戈登大学公共政策系的荣誉退休教授 Paul Spicker 45 年的一篇论文也被判定有 77% 的内容是 AI 生成的。



也有更多网友分享了自己的检测结果。比如网友 decentricity 用自己 2008 年的一篇关于 AI 的论文进行了检测,最终荣获 100% 纯 AI 生成的错误认证。这位网友调侃说自己用的是「GPT 负 6」。



不仅学术圈,就连新闻报道也会被错误检测。比如在下面的例子中,Zavinski 测试了自己刚刚撰写的一篇 2000 字的报纸报道,复盘了当地小镇七十年代城市改造失败的历史。他特意使用了通俗易懂的平实文风,并且一手资料完全没有在互联网上公开过。即便如此,系统依然判定这篇报道有 91% 的可能性是 AI 写的,顺便还给出了「可读性差」的扎心评价。



至于破折号识别法,更是几乎已经普及,也迫使相当多的人类作者改变自己的写作习惯。



还有更离谱的,就连经典的《罗密欧与朱丽叶》原著也被认为有 41% 的内容是 AI 生成的:



就连《独立宣言》也未能幸免,AI 检测器认为有 99.99% 的内容来自 AI:



为什么 AI 检测器会给出如此让人大跌眼镜的结果?


作家 Adam Kay 给出了自己的见解,如今大量人类创作内容被 AI 公司用于模型训练,因此,当大模型判断某些段落像 AI 风格时,本质上并不是人在模仿 AI,而是 AI 在复现它曾经学习过的人类表达。


所以,在不久的将来,当出版商像教育机构一样,在印刷前把所有内容都拿去跑一遍 AI 检测时,那些被拿去训练的成千上万作者的作品,会不会反而被标记为 AI 生成?这正是当下这种局面带来的一个相当荒诞的副作用。



更是有网友指出,写作水平越高(词汇更丰富、语法更规范),反而越容易被检测工具判定为 AI 写的。



「AI 检测器简直就是个笑话。它们是用人类创作的数据训练出来的,却反过来用来质疑人类的智能与原创性。仅凭这一点就把某人的作品标记为 AI 生成,既不可靠,也不公平,而且在逻辑上站不住脚。」


这样的质疑并非个例。



这位网友表示「这些东西本质上都是胡扯,先用人类的集体知识去训练 AI,然后又用同一个 AI 来判断一段内容是不是由 AI 生成的,而这个判断本来就建立在它最初训练所依赖的人类智能之上。说到底,这真的是一种相当荒诞的逻辑。」



AI 写的内容,本来就来自人类,我们还怎么识别 AI?像不像 AI 这件事本身,或许就已经失去了明确的边界。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得这就像是模仿笔迹,再像也无法完全一样。AI生成的内容缺乏人类的情感和生活体验,这可能是区分的关键。我们可以关注文本中是否包含真实的情感表达、个人经历和独特的见解。当然,这需要我们更加关注内容的内涵,而不仅仅是表面的形式。

我倒是觉得这事儿挺黑色幽默的。AI学习人类的文本,然后用学习的成果来反咬一口,说原创是抄袭。这就像儿子控诉老子不是亲生的。要改进嘛,我觉得得从数据源头抓起,明确哪些数据可以用于训练,哪些应该排除在外。另外,检测标准也得更人性化,不能一刀切。

与其想着怎么堵住AI,不如想想怎么更好地利用它。AI可以成为我们创作的辅助工具,帮助我们提高效率,激发灵感。关键在于我们要掌握AI技术,而不是被它所控制。只有这样,我们才能在AI时代保持自己的创造力。

与其说是“使用”AI检测器,不如说是“防范”它。既然知道现在这玩意儿这么不靠谱,那就尽量避免让自己的作品被它误判。比如,可以有意识地增加一些个人风格,避免使用过于标准化的语言。当然,最根本的还是要保证自己的作品是原创的,这样才能理直气壮地面对任何检测。

这说明AI确实在“学习”人类高质量的写作方式,但它学到的可能只是一些表面的东西,比如用词、句式等等。人类作者要应对这种情况,我觉得可以从以下几个方面入手:
* 保留个人风格: 不要为了迎合AI检测器而改变自己的写作习惯,恰恰相反,应该更加注重发展自己的独特风格。比如,可以多使用一些个性化的表达方式、独特的视角等等。
* 注重内容创新: 尽量选择新颖、独到的选题,避免重复前人的研究。这样即使AI检测器认为你的文章“像”AI,但你的内容独特性仍然可以证明你的原创性。
* 加强逻辑论证: AI虽然可以模仿人类的语言,但在逻辑推理方面仍然存在局限性。因此,在写作时要特别注重逻辑的严密性,确保论证过程清晰、有说服力。

我觉得可以考虑引入“人类专家”的参与。AI检测器可以作为初筛工具,将疑似AI生成的内容提交给人类专家进行复审。专家的经验和判断力可以弥补AI的不足,从而提高检测的准确性。就好比医生看病,AI可以辅助诊断,但最终的诊断结论还是需要由医生来给出。

我倒是觉得不一定全是坏处。如果AI检测能够帮助我们识别出那些低质量、抄袭的内容,那也能净化内容创作环境。关键在于如何平衡AI检测的准确性和公正性,避免误伤原创作者。也许未来会出现专门的“AI写作顾问”,帮助作者优化文章,使其既能表达清晰,又能避免被AI检测器误判。

其实我觉得是标准的问题。现在AI发展这么快,每天都有新的模型出现,新的写作风格也在涌现。AI检测器的标准如果跟不上 AI 发展的速度,那肯定会越来越不准确。而且,不同领域的写作风格差异很大,用一套标准去检测所有文章肯定不靠谱。

最根本的问题在于它的训练方式吧。AI是通过学习人类的文章来判断文章是不是AI写的,这本身就很矛盾。打个比方,就像让一个模仿大师去鉴别谁是原创,它只能识别出不像自己的,但很难保证不会冤枉别人。

我倒是觉得没那么悲观。AI检测器可以作为一个辅助工具,帮助编辑发现一些潜在的问题,但最终的判断权还是应该掌握在人手里。作者也可以利用AI工具来提升自己的写作效率和质量。关键是要正确看待和使用AI技术,不要把它当成唯一的标准。

我觉得这反映了当前AI技术发展的一个悖论:AI的学习和创作高度依赖人类的知识和数据,但又试图通过检测来区分自己和人类。这种区分在本质上是模糊的,因为AI的输出本身就是对人类输入的模仿和再现。就好比一个学生用老师教的方法解题,结果老师反过来说他抄袭了自己。

我觉得关键在于转变思路,与其追求完全区分,不如思考如何让人类和AI更好地协作。比如,可以利用AI来辅助写作,提高效率,但要始终保持人类的独立思考和判断,确保最终作品的质量和原创性。相当于给作家配了个AI助手,润色文字、查找资料,但核心思想还是得作家自己来。

更进一步说,也许我们应该重新定义“原创性”。在AI时代,完全独立于任何已有知识和灵感的创作可能越来越少。重要的是,创作者能够基于已有的素材进行创新,形成独特的视角和表达。就像音乐混音一样,采样是常态,但好的混音能够创造出全新的音乐体验。

这其实是一种“寒蝉效应”。创作者可能会因为担心被AI检测器误判,而主动避免使用一些独特的表达方式或复杂的句式,从而限制了自己的创作空间。原本百花齐放的文坛,可能因为AI检测器的存在而变得单调乏味。

学术界可能要完犊子… 以后大家为了避免被判定为AI,都开始写一些晦涩难懂的文章,故意使用一些生僻字和复杂的句式。表面上看起来是为了创新,实际上是为了通过AI检测。这就像考试作弊一样,最终只会损害整个学术界的声誉。

从积极的角度看,这也许会促使我们思考:什么是真正属于人类的、独特的创造力?也许我们会更加注重情感的表达、观点的独特性,以及那些无法被AI模仿的个人风格。

我觉得这会扼杀创新。为了避免被AI检测器误判,大家可能会倾向于使用更简单、更套路化的表达方式,长此以往,整个内容创作领域都会变得越来越同质化。

AI检测器可能还存在“幸存者偏差”。我们看到的都是被误判的案例,但可能也有很多AI生成的劣质内容被正确识别出来了。只是这些案例没有引起关注而已。所以,我们不能因为个别误判就全盘否定AI检测器的价值,而是要理性看待它的局限性,不断改进算法,提高准确率。

细思恐极啊!如果真是这样,那岂不是鼓励大家写得更口语化、更随意,反而能避开AI检测?这简直是逼着人类作者降低写作水平,去迎合机器的标准!这种现象应该引起重视,避免AI检测本末倒置,反而扼杀了高质量的写作。