DataMan:浙大&千问团队提出预训练数据管理器,显著提升大语言模型性能

浙大&千问团队发布DataMan,一个预训练数据管理器,通过质量评分和领域识别优化LLM预训练,显著提升模型性能。

原文标题:ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

原文作者:机器之心

冷月清谈:

浙江大学和阿里巴巴千问团队联合发布了DataMan,一个用于大语言模型预训练的数据管理器。DataMan通过14个质量评估维度对预训练数据进行评分和领域识别,从而优化LLM的预训练过程。

DataMan的核心思想是“逆向思维”,即通过引导LLM自我识别对其性能有益的质量标准。研究人员首先分析了文本困惑度的异常值,并结合超级LLM的分析,迭代提炼出13个质量标准,并结合总体评分,构建了全面的质量评分体系。然后,DataMan利用这些标准对SlimPajama语料库进行标注,并使用Qwen2-1.5B模型进行微调,学习对文本进行自动评分和领域识别。

实验结果表明,使用DataMan筛选的数据训练的模型在多个下游任务上表现优异,胜率最高可达78.5%,甚至超过了使用更多数据训练的模型。DataMan还能有效进行领域识别,用于构建特定领域的LLM,进一步提升性能。此外,研究还探讨了数据量与模型性能的关系,以及困惑度与上下文学习性能之间的失调现象。

怜星夜思:

1、DataMan 提出的 14 个质量评估维度,在实际应用中该如何权衡和调整?哪些维度可能对不同类型的任务更为重要?
2、DataMan 采用了 "逆向思维" 的方法,让 LLM 自我识别重要的质量标准。这种方法的局限性是什么?如何进一步改进?
3、DataMan 主要关注预训练数据的质量,但数据的多样性也很重要。如何平衡数据质量和多样性,以获得最佳的预训练效果?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


文章全面探讨了大语言模型在预训练数据选择上的重要性,并提出了一种名为 DataMan 的数据管理器,用于对预训练数据进行质量评分和领域识别,以优化 LLMs 的预训练过程,本文由浙江大学和阿里巴巴千问团队共同完成。

Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。通过大量的实验,利用 DataMan 所筛选出的部分数据进行模型训练,胜率最高可达 78.5%,且性能超过多使用 50% 数据训练的模型。


  • 论文标题:DataMan: Data Manager for Pre-training Large Language Models

  • 作者单位:浙江大学 & 阿里巴巴

  • 论文链接:https://arxiv.org/abs/2502.19363


一. 逆向反思指导质量标准

随着大语言模型(LLMs)的快速发展,数据在模型性能提升中的作用越来越受到关注。现有的数据选择方法主要依赖于有限的手工规则和直觉,缺乏全面和明确的指导原则。为了解决这个问题,作者们提出了 “逆向思维”(reverse thinking)的概念,即通过提示 LLMs 自我识别哪些质量标准对其性能有益,来指导数据选择。


具体来说,这一过程共分为四步:

1)分析文本困惑度的异常:通过分析预训练所使用的文本数据,特别是那些困惑度(PPL)处于前 2% 和后 2% 的文本,来理解哪些文本特征与困惑度异常有关。该步使用一个超级 LLM(Super LLM)来分析这些异常现象背后的原因,并试图找出哪些文本特征对 LLM 的性能有积极影响。
2)迭代提炼质量标准:通过上述分析,作者迭代地提炼出了 13 个与文本质量相关的标准。这些标准包括准确性、连贯性、语言一致性、语义密度、知识新颖性、主题聚焦、创造性、专业性、语法多样性、结构标准化、风格一致性、原创性和敏感性。
3)构建全面的质量评分体系:除了上述 13 个质量标准外,作者还构建了一个综合性的评分标准,称为 “总体评分”(Overall Score)。这个评分标准综合考虑了上述 14 个标准,旨在提供一个更全面的文本质量评估。
4)验证质量标准的有效性:为了验证这些质量标准的有效性,超级 LLM 将对这些标准进行评分,并与人类评分进行了比较。结果显示,超级 LLM 的评分与人类评分有超过 95% 的一致性,这表明这些质量标准是有效的。

二. 数据卷王 DataMan

DataMan 是一个综合性的数据管理器,它能够对文本进行质量评分和领域识别,旨在促进预训练数据的选择和混合。DataMan 的训练和管理数据的过程主要包括以下几个步骤:

1)数据标注:DataMan 模型首先对 SlimPajama 语料库进行标注,标注内容包括 14 个质量评分标准和 15 个常见的应用领域。标注过程通过提示 Super LLM 生成文本的评分,并使用这些评分来创建一个用于模型微调的数据集。
2)模型微调:使用 Qwen2-1.5B 作为基础模型,通过文本生成损失进行微调。微调过程中,DataMan 模型学习如何根据给定的文本自动评分和识别领域。
3)数据采样:基于 DataMan 模型对数据的质量评分和领域识别,可以采用不同的数据采样策略。例如,通过 top-k 采样,根据质量评分和领域分布概率,从源和领域分布中采样数据,以最大化样本的代表性,同时确保数据源和领域的多样性。


三. 实验设置

DataPajama:DataPajama 是一个经过清洗和去重的 447B token 的预训练语料库,其已经由 DataMan 模型为其的每个文档打上 14 个质量评分和 15 个领域类型标签。尽管这一过程很昂贵(等于 1146 NVIDIA A800 小时),但可以通过大规模的并行化和低成本的 DataMan 模型来缓解,以可以服务于各种目的,如数据选择、数据混合或特定领域的持续预训练。

数据选择:该研究使用不同的数据选择方法从 DataPajama 中选择 30B token 的子集进行实验。这些方法包括:

1)Uniform:随机选择。2)DSIR:使用重要性重采样(DSIR)方法选择与英语维基百科或书籍领域相似的文档。3)Perplexity Filtering:基于困惑度过滤数据。4)Sample with Qurating:根据 Qurating 提出的四个质量标准(写作风格、事实、教育价值和所需专业知识)进行采样。5)Sample with DataMan:基于 DataMan 的 13 个质量标准进行采样。

模型训练:使用 Sheared-Llama-1.3B 模型架构,对从 DataPajama 中选择的 30B token 子集进行训练。训练设置包括使用 RoPE 嵌入和 SwiGLU 激活函数,以及 Adam 优化器等。

四. 实验发现

通过大量实验,该研究验证了 DataMan 方法的有效性,并展示了使用 DataMan 选择的数据进行训练的模型在多个下游任务上的优异性能。

Dataman 性能如何?

如下表所示,使用 DataMan 选择的数据进行训练的模型在语言建模、任务泛化能力和指令遵循能力上均优于使用均匀采样的基线模型。此外,使用 DataMan 的 13 个质量标准进行采样,相较于使用均匀采样,可以显著提升模型的性能,尤其是在上下文学习(ICL)任务中。


在指令跟随性能上,作者们的模型始终超过 SOTA 基线,总体得分达到了令人印象深刻的胜率 78.5%。


在垂直领域上继续预训练?

作者们应用 DataMan 的领域识别来过滤医学、法律和金融领域的垂类数据,并进行继续预训练以得到领域特定的模型。如图所示,模型性能得到了进一步提升,这验证了 DataMan 的域混合能力。


数据量与模型性能的关系?

该研究使用同样的方法抽样采样了一个更大的 60B 子集,以探究数据量的影响。如下表所示,模型在 ICL 等下游任务中都取得了进一步提升。


PPL 与 ICL 的失调?

下图我们绘制了 10 个下游任务中所有模型的困惑度(PPL)和上下文学习(ICL)性能之间的关系,包括 Pearson 和 Spearman 相关系数。结果表明,这种错位在 LogiQA 和 MMLU 任务中最为明显。更深入的分析确定了两个主要原因:i)- 域不匹配:预训练通常使用广泛的通用语料库,这使得模型在一个公共文本上表现出较低的困惑度。然而,像 MMLU 这样的任务,它跨越了 57 个不同的专门领域(如抽象代数和解剖学),可能会因为域不匹配尔在 ICL 中受到影响。ii)-ICL 任务的复杂性:许多 ICL 任务需要复杂的推理,而不是简单的文本生成,而困惑性评估难以捕获。这一点在 LogiQA 中尤为明显,该任务通过来自公务员考试中的专家撰写的问题来评估人类的逻辑推理技能。



© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


这14个维度确实很难一下子全都兼顾。我感觉可以先根据任务类型选择几个核心维度,比如做文本摘要,连贯性和语义密度就比较重要。其他维度可以先设定一个基础值,后续再根据实际情况调整。当然,如果有足够的算力,也可以尝试不同的权重组合,看看哪个效果最好。

关于DataMan的14个维度在实际应用中的权衡和调整,我觉得需要根据具体的任务来进行。比如对于一些事实性要求比较高的任务,像新闻写作,准确性、事实性这些维度就比较重要;而对于一些创意性写作,可能更侧重创造性、语言风格等维度。实际操作中,可以先用DataMan的默认权重进行测试,然后根据结果微调各个维度的权重,找到最佳的组合。

可以设定一个质量阈值,高于阈值的数据优先考虑,然后在这个前提下,尽可能选择多样化的数据。或者可以根据不同的任务需求,动态调整质量和多样性的权重。比如对于一些特定领域的预训练,可以更侧重于领域内的数据质量,而对于通用领域的预训练,可以更侧重于数据的多样性。

我觉得最大的局限性在于,LLM的判断是基于现有的数据和模型结构,它可能很难跳出这个框架去思考真正重要的质量标准。就像一个从小在象棋规则下长大的AI,它可能很难理解围棋的规则和精髓。改进的话,可以尝试引入一些外部知识库或者推理机制,让LLM能够从更广阔的视角去理解文本质量。

我认为可以尝试不同的提示策略,引导LLM从不同的角度去思考质量标准。或者可以尝试用多个不同的LLM进行“逆向思维”,然后比较它们的输出,看看哪些标准是共识的,哪些是有争议的。这样可以更全面地理解文本质量,并减少单个LLM的偏见。

我想到一个思路,可以尝试用一些强化学习的方法,让agent去学习如何选择数据,目标是最大化模型的最终性能。这样agent就可以在质量和多样性之间进行权衡,找到最佳的平衡点。

可以考虑结合一些多目标优化算法,比如遗传算法或粒子群算法,来自动搜索不同维度权重的最佳组合。这样可以减少人工调参的工作量,并且有可能找到一些意想不到的有效组合。

平衡质量和多样性确实是个难题。我理解DataMan更倾向于高质量的数据,但这可能会导致数据分布过于集中,影响模型的泛化能力。一种可能的做法是,先用DataMan筛选出高质量的数据,然后在这个基础上,再根据领域、主题、风格等维度进行多样性补充,确保数据既有质量,又有代表性。

“逆向思维”虽然很巧妙,但感觉还是依赖于Super LLM的判断,如果Super LLM本身存在一些偏见,那提取出来的标准可能也会有偏差。另外,LLM的“理解”和人类的理解还是有差距的,它可能更关注一些统计特征,而忽略了一些人类认为重要的语义信息。改进的话,可以考虑结合人类专家的知识,对LLM提取的标准进行修正和补充。