香港中文大学博士论文研究如何测试大型语言模型的正确性、无毒性和公平性,提出了多个评估框架,揭示了现有模型的不足之处。
原文标题:【CUHK博士论文】大型语言模型的测试与评估:正确性、非有害性与公平性
原文作者:数据派THU
冷月清谈:
**正确性方面:** 提出了FactChecker和LogicAsker两个测试框架。FactChecker利用知识图谱生成事实型问答测试用例,评估LLM的事实知识准确性。LogicAsker则通过将逻辑表达式转换成自然语言,生成推理问题,评估LLM的逻辑推理能力。
**无毒性方面:** 开展了两项红队测试工作。一是通过MTTM框架,测试文本内容审核软件在用户刻意扰动下的稳健性,发现现有审核软件存在漏洞。二是建立了多语言安全基准XSafety,涵盖10种语言的14个安全问题,发现LLM对非英语查询更容易生成不安全响应,并提出了一种提示方法来提升LLM的多语言安全性。
**公平性方面:** 提出了BiasAsker和XCulturalBench两个评估框架。BiasAsker用于识别和衡量对话式AI系统中的社会偏见,可从数千个属性角度评估对数百个群体的偏见态度。XCulturalBench则用于评估LLM的文化偏见,发现现有LLM存在严重的文化偏见问题,并提出了两种缓解方法。
怜星夜思:
2、如何看待LLM在非英语环境下更容易产生不安全响应这个问题?
3、除了论文中提到的方法,还有什么其他方法可以缓解LLM的文化偏见问题?
原文内容
来源:专知本文约1000字,建议阅读5分钟
本文介绍了我博士研究期间在语言模型可靠性领域的探索性工作,从自动化软件测试和自然语言处理的角度研究LLMs的正确性、无毒性和公平性。