NLP基础模型的分类偏差分析与缓解:情感分类、阅读理解及零样本学习

该研究深入分析了NLP基础模型在文本分类中存在的偏差,并提出了有效的缓解方法,包括重加权、蒸馏框架和对比评估等。

原文标题:【博士论文】针对基于文本的基础模型的分类偏差分析与缓解

原文作者:数据派THU

冷月清谈:

本研究深入分析了NLP基础模型在文本分类任务中存在的偏差和虚假相关性问题。研究的第一部分关注“预训练-微调”范式,通过情感分类和多选阅读理解任务,揭示了模型学习虚假停用词关系和利用世界知识解题的风险,并提出了一种评估问题质量的方法。研究的第二部分则聚焦于指令跟随型LLMs在零样本文本分类中的偏差,例如标签词选择引入的隐式先验和多选问答中的排列偏差。针对这些问题,研究提出了基于重加权和蒸馏框架的去偏方法,实验证明能够有效提升模型的稳健性和性能。最后,研究还探讨了偏差在新任务和新领域中的表现,提出了一种LLM对比评估方法,并考察了去偏方法在音频领域的应用。

怜星夜思:

1、文章提到了“预训练-微调”范式中,模型可能学习到虚假的停用词关系。大家觉得在实际应用中,我们应该如何防范这种现象,除了文章中提到的方法外,还有什么其他的思路吗?
2、文章提到指令跟随型LLMs在零样本文本分类中存在标签词选择的偏差,这个挺有意思的。如果我们要设计一个对用户情感进行分类的模型,应该如何选择标签词,才能尽可能减少这种偏差呢?
3、文章最后提到了对比评估,通过让LLMs进行成对决策来评估NLG任务。大家觉得这种方法相比传统的BLEU、ROUGE等指标,有哪些优势和不足?未来NLG的评估方向会是什么?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本论文系统分析了NLP基础模型在文本分类任务中的偏差形式及虚假相关性。我们研究系统中存在的特定偏差,评估这些偏差对模型预测的影响,并探讨缓解技术能否减少其影响。

文本分类的目标是将文本归入预定义的类别之一。作为自然语言处理(NLP)中的标准任务,文本分类在多个领域具有广泛的应用,例如分析用户在平台上的情感演变、识别和过滤欺诈性评论,以及在管道处理中提取有用特征。尽管传统上文本分类是由人工完成的,但深度学习方法的快速发展极大地推动了自动文本分类器的研究热潮。这一趋势随着预训练大语言模型(LLMs)的出现而进一步加速。这些模型经过大规模数字文本数据的训练,使其在各种自然语言理解(NLU)和生成(NLG)任务上展现出前所未有的能力。
当前,NLP基础模型主要通过两种方法进行应用:“预训练-微调”(pre-train and fine-tune)范式,或基于提示的指令跟随(prompting instruction-following LLMs)。尽管这些方法在NLP基准测试中表现卓越,并被广泛采用,但它们的可靠性仍然存在一定的争议,尤其是其对虚假相关性(spurious correlations)和隐含偏差(implicit bias)的敏感性。
本论文系统分析了NLP基础模型在文本分类任务中的偏差形式及虚假相关性。我们研究系统中存在的特定偏差,评估这些偏差对模型预测的影响,并探讨缓解技术能否减少其影响。论文的第一部分聚焦于**“预训练-微调”范式**,并通过两个典型的NLP任务——**情感分类(sentiment classification)多选阅读理解(MCRC, Multiple Choice Reading Comprehension)**来研究系统学习虚假相关性的风险。在情感分类任务中,我们证明了微调后的模型可能利用训练数据中的停用词(stopword)分布来建立虚假停用词关系。在MCRC任务中,我们发现模型可能忽略上下文信息,而是利用世界知识(world knowledge)来解题,我们据此提出了一种评估问题质量的方法。
论文的第二部分研究了指令跟随型LLMs在零样本(zero-shot)文本分类中的偏差。我们分析了基于提示的分类器(prompt-based classifier)的构建方式,并研究其在文本分类和多选问答(MCQA, Multiple Choice Question Answering)任务中的偏差。对于文本分类任务,我们发现标签词(label words)的选择可能引入隐式先验(implicit prior),导致某些类别比其他类别更受偏向,从而显著影响系统性能。然而,我们提出了一种基于重加权(reweighting)的去偏方法,实验表明,无论是在零资源(zero-resource)设定下,还是在我们提出的无监督重加权去偏方法(unsupervised reweighting debiasing)下,都能增强模型的稳健性,并降低其对标签词选择的敏感性。此外,我们发现在MCQA任务中,指令跟随型LLMs会表现出显著的排列偏差(permutation bias),即系统对输入选项的顺序非常敏感,这种偏差也会对任务表现造成负面影响。实验表明,应用排列去偏(permutation debiasing)能够显著提升模型性能,我们进一步提出了一种**蒸馏框架(distillation framework)**来提高该去偏过程的效率。
最后,论文探讨了偏差在新任务和新领域中的表现,并提出了一种LLM对比评估(LLM comparative assessment)的新方法,通过让LLMs进行成对决策,实现通用、零样本、高效的NLG评估。研究发现,该方法存在位置偏差(position bias),但通过对两种排列结果的概率进行平均,可以获得更准确的决策和排名。此外,我们将该方法扩展至专家模型(product-of-experts)框架,从而在较少的比较次数下实现更快的收敛。此外,我们探讨了如何在专家模型中考虑偏差,结果表明,在低数量比较的情况下,调整偏差可以提升性能。
最后,论文考察了我们的去偏方法是否能推广到其他模态,特别是音频领域。我们提出了一种利用自动语音识别(ASR, Automatic Speech Recognition)基础模型的新方法,实现零样本音频分类(zero-shot audio classification),并进一步证明,我们的重加权去偏方法同样在音频模态任务中具有良好的效果。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


NLG的评估,我感觉最终还是要回归到“用户满意度”。不管用什么指标,最终目的都是为了生成更符合用户需求的内容。所以,我觉得未来的评估可能会更多地引入用户反馈,例如通过用户点击率、停留时间、评论等指标来衡量生成质量。当然,如何获取有效的用户反馈,以及如何将用户反馈融入到评估体系中,还有很多挑战需要克服。

标签词选择确实是个学问!为了尽可能减少偏差,我们可以尝试以下思路:

1. 语义中立原则:尽量选择语义色彩不强烈的词语作为标签,避免词语本身带有情感倾向。
2. 多样性原则:使用多个同义词或近义词作为标签,增加模型的泛化能力。
3. 数据驱动原则:分析训练数据中各个类别下常见的用词,选择与这些用词相关性较低的词语作为标签。
4. 实验验证原则:通过A/B测试等方法,比较不同标签词组合对模型效果的影响,选择效果最佳的组合。
5. 参考用户习惯:调研用户常用表达情感的词汇,选择与用户语境更贴近的标签词。

我觉得还可以考虑引入外部知识库来辅助判断。例如,利用WordNet等知识库,判断停用词在特定语境下的实际含义,避免模型仅仅基于停用词的表面形式进行推理。当然,这个方法的实现上可能需要更多工程上的考量。

我觉得可以考虑使用短语或者句子作为标签,而不仅仅是单词。例如,不用“正面”、“负面”,而是用“用户表达了积极的情绪”、“用户表达了消极的情绪”。这样可以更清晰地表达标签的含义,减少歧义。不过需要注意的是,使用长文本作为标签可能会增加模型的训练难度,需要权衡一下。

针对“预训练-微调”范式中模型学习到的虚假停用词关系,我认为可以尝试以下方法:

1. 数据增强:通过加入包含更多样化停用词搭配的数据,让模型难以简单地通过停用词进行判断。
2. 对抗训练:设计对抗样本,专门迷惑模型使其关注停用词,然后通过对抗训练来纠正这种倾向。
3. 特征选择/权重调整:在特征工程阶段,可以考虑降低停用词的权重,或者直接将其排除在特征集合之外。也可以研究下当前有没有比较好的停用词表生成或者筛选算法。
4. 正则化方法:在模型训练过程中,引入针对停用词的正则化项,惩罚模型过度依赖停用词的行为。
5. 模型结构调整:尝试使用对词序不那么敏感的模型结构,例如Transformer-XL或者Longformer,或者研究一下有没有什么方法可以显示的告诉模型,停用词不重要。

大家觉得这些思路怎么样?

对比评估这种方法确实很有意思,它相对于传统指标,优势在于:

1. 更符合人类直觉:人类在评价生成质量时,往往是通过比较来进行判断的。对比评估模拟了这种比较的过程,因此结果可能更贴近人类的 subjective judgment。
2. 更好地捕捉细微差异:传统指标往往只能衡量词级别的相似度,而对比评估可以捕捉到更细微的语义和风格差异。
3. 无需人工标注完美答案:传统指标需要依赖人工标注的参考答案,而对比评估只需要判断两个生成结果的优劣,降低了标注成本。

但它的不足也很明显:

1. 计算复杂度较高:需要进行大量的成对比较,计算成本较高。
2. 结果解释性较差:只能得到相对 ranking,而无法给出具体的质量评分。
3. 容易受到LLM自身偏差的影响:如果LLM在评估过程中存在偏见,可能会影响最终的 ranking 结果。

至于未来NLG的评估方向,我认为可能会朝着以下几个方向发展:

1. 更注重语义理解和推理能力:不仅仅关注表面上的词汇匹配,更要关注生成结果是否符合逻辑、是否能够正确推理。
2. 更注重生成结果的多样性和创造性:鼓励模型生成更具创新性的内容,而不仅仅是模仿参考答案。
3. 更注重用户体验和实际应用效果:将评估与实际应用场景相结合,关注生成结果是否能够满足用户的需求。

我有一个脑洞大开的想法:能不能用表情符号作为标签?比如:+1:代表正面,:-1:代表负面。表情符号本身就带有情感色彩,而且跨文化通用性比较强。当然,这只是一个玩笑,实际应用中可能存在很多问题(比如表情符号的歧义、文化差异等)。

我觉得对比评估可以看作是一种众评的方式,让多个LLM参与评估,相当于集思广益,可以减少单一评估者的主观偏差。但是,这种方法也存在“搭便车”的风险,某些LLM可能会偷懒,直接抄袭其他LLM的答案。所以,如何设计合理的激励机制,让每个LLM都认真参与评估,是一个需要考虑的问题。

抖个机灵,不如直接训练一个“反停用词”模型,专门识别哪些句子是靠停用词来判断的,然后把这些句子扔掉(手动狗头)。认真说,如果停用词真的这么重要,那我们是不是可以重新审视一下停用词表的构建方法了?可能现在的停用词表过于笼统,没有考虑到语境的差异。