CUHK博士论文解读:如何测试大型语言模型的正确性、安全性及公平性?

香港中文大学博士论文研究如何测试大型语言模型的正确性、无毒性和公平性,提出了多个评估框架,揭示了现有模型的不足之处。

原文标题:【CUHK博士论文】大型语言模型的测试与评估:正确性、非有害性与公平性

原文作者:数据派THU

冷月清谈:

本文介绍了香港中文大学博士研究期间,对大型语言模型(LLM)可靠性进行评估的探索性工作,主要关注LLM的正确性、无毒性和公平性三个方面。

**正确性方面:** 提出了FactChecker和LogicAsker两个测试框架。FactChecker利用知识图谱生成事实型问答测试用例,评估LLM的事实知识准确性。LogicAsker则通过将逻辑表达式转换成自然语言,生成推理问题,评估LLM的逻辑推理能力。

**无毒性方面:** 开展了两项红队测试工作。一是通过MTTM框架,测试文本内容审核软件在用户刻意扰动下的稳健性,发现现有审核软件存在漏洞。二是建立了多语言安全基准XSafety,涵盖10种语言的14个安全问题,发现LLM对非英语查询更容易生成不安全响应,并提出了一种提示方法来提升LLM的多语言安全性。

**公平性方面:** 提出了BiasAsker和XCulturalBench两个评估框架。BiasAsker用于识别和衡量对话式AI系统中的社会偏见,可从数千个属性角度评估对数百个群体的偏见态度。XCulturalBench则用于评估LLM的文化偏见,发现现有LLM存在严重的文化偏见问题,并提出了两种缓解方法。

怜星夜思:

1、FactChecker 和 LogicAsker 这两个框架在实际应用中会面临哪些挑战?
2、如何看待LLM在非英语环境下更容易产生不安全响应这个问题?
3、除了论文中提到的方法,还有什么其他方法可以缓解LLM的文化偏见问题?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本文介绍了我博士研究期间在语言模型可靠性领域的探索性工作,从自动化软件测试和自然语言处理的角度研究LLMs的正确性、无毒性和公平性。


大型语言模型(LLMs),如ChatGPT,由于其非凡的对话技巧和智能,在过去几年中迅速渗透到人们的工作和日常生活中。ChatGPT已成为人类历史上用户数量增长最快的软件,并成为下一代人工智能应用的重要基础模型。然而,LLMs的生成并非完全可靠,它们经常产生包含事实错误、偏见和毒性的内容。鉴于其庞大的用户数量和广泛的应用场景,这些不可靠的响应可能会导致许多严重的负面影响。本文介绍了我博士研究期间在语言模型可靠性领域的探索性工作,从自动化软件测试和自然语言处理的角度研究LLMs的正确性、无毒性和公平性。
首先,为了衡量LLMs的正确性,我们提出两个新的测试框架:FactChecker和LogicAsker,分别用于评估事实知识和逻辑推理的准确性。FactChecker通过从大规模知识库中检索事实三元组来构建知识图谱,然后根据知识图谱生成各种类型的问题以及预期答案,用来作为测试用例。LogicAsker是一个最小功能测试框架,它首先通过收集逻辑学中的所有基本原理和定律来构建原子技能集合,然后通过将标准逻辑表达式转换为自然语言来生成推理问题作为测试用例。我们的测试框架可以自动且全面地生成测试用例,并有效地揭示最先进的LLMs(如ChatGPT和LLaMa)的失败之处。此外,我们还证明了生成的测试用例可以提高LLM的事实正确性和逻辑推理能力。
其次,针对LLMs的无毒性,我们介绍了两项针对LLMs的红队测试工作。首先,我们发现LLMs的保护措施——文本内容审核软件,在面对用户有意的扰动时不够稳健,无法通过审核。我们引入了MTTM,一个用于文本内容审核软件的蛻变测试框架,其蛻变关系是有毒句子在经过语义保留的扰动后仍应被识别为有毒。实验结果表明,MTTM可以发现商业内容审核软件中的错误,并提高其可靠性。其次,我们发现所有先前的安全基准以及对齐都仅限于一种语言,例如英语。我们建立了第一个用于LLMs的多语言安全基准XSafety,涵盖了十种语言中14个常见的安全问题,这些语言跨越了几个语系,并发现所有LLMs对非英语查询产生的不安全响应明显多于英语查询。此外,我们提出了一种简单有效的提示方法,通过增强安全对齐的跨语言泛化来提高LLM的多语言安全性。
第三,为了评估LLMs的公平性,我们提出了两个评估框架BiasAsker和XCulturalBench,分别用于衡量LLMs的社会偏见和文化偏见。我们首先介绍BiasAsker,一个用于识别和衡量对话式AI系统中社会偏见的自动化框架。BiasAsker可以生成不同类型的问题来从5,021个有偏见的属性角度衡量对841个群体的偏见态度。在10个商业系统和模型上的实验表明了BiasAsker的有效性。然后,我们确定了LLMs中存在的文化偏见问题,这是由于模型训练和对齐中主要使用英语数据所致,并引入了XCulturalBench,一个多语言文化相关基准,包含具体(例如节日和歌曲)和抽象(例如价值观和观点)的文化对象。实证结果表明,具有代表性的GPT模型存在严重的文化偏见问题。我们还表明,在模型开发和部署中采用两种直接的方法可以显著缓解LLMs中的文化偏见问题。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我认为还有一个挑战是测试结果的解读。这两个框架都只能给出LLM在特定测试用例上的表现,但如何将这些结果推广到更广泛的应用场景中,还需要进一步的研究。

还可以考虑在模型训练过程中引入一些文化敏感性约束,例如,惩罚模型对特定文化群体产生负面刻板印象的行为。

我觉得这跟文化差异也有关系。不同的文化对“安全”的定义可能不同,LLM在训练过程中可能主要学习了英语文化中的安全标准,所以在处理其他文化背景的查询时,可能会产生一些在该文化中被认为是不安全的响应。

对,FactChecker的知识库构建确实是个问题。而且,它如何处理知识库中存在矛盾或模糊信息的情况?LogicAsker的挑战我觉得还在于测试用例的多样性,毕竟逻辑推理的种类很多,如何确保测试用例能够覆盖各种类型的逻辑推理?

我觉得FactChecker最大的挑战在于知识库的构建和维护。知识库的规模和质量直接影响测试用例的有效性,而且世界上的知识是不断变化的,如何保证知识库的时效性也是一个难题。LogicAsker的话,可能在于如何将复杂的逻辑表达式转换成自然且易于理解的自然语言,这需要在逻辑性和自然语言表达之间找到一个平衡点。

我觉得可以开发一些专门针对文化偏见的评估工具,用于检测和量化LLM中的文化偏见,并将其作为模型训练的目标之一,从而引导模型减少文化偏见。

我觉得这主要是因为训练数据的问题。英语作为互联网上的主要语言,LLM的训练数据中英语占比更大,所以对英语的理解和生成能力更强,安全措施也更完善。而其他语言的训练数据相对较少,导致模型在处理这些语言时更容易出错。

我觉得可以从数据采集和标注方面入手,增加更多非英语文化的数据,并邀请不同文化背景的人员参与数据标注,确保数据的文化多样性。

除了数据量,数据质量也很重要。英语的训练数据可能经过了更严格的筛选和清洗,而其他语言的数据质量可能参差不齐,导致模型学习到一些不良信息。