小样本高维表格数据机器学习新突破:剑桥博士论文解读

剑桥博士论文提出小样本高维表格数据机器学习新方法,通过模型和数据增强,有效提升泛化能力,为解决数据稀缺问题提供新思路。

原文标题:【剑桥博士论文】小样本高维数据上的表格机器学习

原文作者:数据派THU

冷月清谈:

本文总结了一篇剑桥博士论文的核心内容,该论文针对小样本、高维度表格数据机器学习中常见的过拟合问题,提出了四种创新方法。其中,两种方法以模型为中心,通过共享辅助网络约束模型参数,分别是WPFS和GCondNet,有效降低了过拟合风险,提升了预测性能。另外两种方法以数据为中心,提出了数据增强策略TabEBM和TabMDA,将预训练的表格分类器转化为数据生成器,无需额外训练即可显著提升分类性能。这些技术在医学、金融和科学研究等数据稀缺且高维度的领域具有重要的应用价值,为克服数据限制、推广机器学习应用提供了新的思路。

怜星夜思:

1、论文中提到的参数共享方法(WPFS和GCondNet)在实际应用中,哪种方式更灵活,更容易根据不同的数据集进行调整?为什么?
2、论文中提出的数据增强方法(TabEBM和TabMDA)都依赖于预训练模型,如果没有合适的预训练模型,是否还能应用这些方法?或者说,有没有其他类似的数据增强思路?
3、这篇论文主要关注的是表格数据,那么这些方法是否可以推广到其他类型的数据,比如图像或文本数据?如果可以,需要做哪些调整?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
本论文在机器学习领域开辟了新的方向,旨在减轻过拟合问题,并在表格数据的生成与增强方面取得突破。


本论文提出了四种新方法,以提高机器学习模型在小样本且高维度表格数据集上的泛化能力。表格数据(其中每一行代表一条记录,每一列代表一个特征)在医学、科学研究和金融等关键领域中广泛存在。然而,由于数据采集的困难,这些领域往往面临数据稀缺的问题,难以获得大样本量。同时,新型数据采集技术使得高维数据的获取变得可能,从而导致特征数量远远超过样本数量的数据集。数据稀缺和高维性对机器学习模型带来了显著挑战,主要原因在于由于维数灾难和样本不足,模型更容易发生过拟合,无法充分刻画数据的潜在分布。现有方法在这类场景下通常难以实现有效泛化,导致性能不尽如人意。因此,在小样本且高维数据集上训练模型需要专门设计的技术,以克服这些限制,并从有限数据中更高效地提取有用信息。

我们提出了两种全新的以模型为中心的方法,以应对小样本和高维数据下神经网络的过拟合问题。我们的关键创新在于通过共享辅助网络来约束模型参数,这些辅助网络捕捉表格数据中潜在的关系,从而在一定程度上决定预测模型的参数,减少其自由度。首先,我们提出了 WPFS,这是一种参数高效的架构,通过权重预测网络对模型参数实施硬参数共享。其次,我们提出了 GCondNet,该方法利用图神经网络(GNNs)实现对底层预测模型的软参数共享。在应用于生物医学表格数据集时,这两种方法主要通过降低过拟合风险,实现了预测性能的提升。

尽管单独依赖模型中心的方法较为常见,但结合数据中心方法往往能带来额外的性能提升,尤其是在数据稀缺的任务中。为此,我们还提出了两种新颖的数据增强方法,用于生成合成数据,以增加训练集的规模和多样性,从而捕捉到数据分布中更多的变异性。我们的关键创新在于将预训练的表格分类器转化为数据生成器,并以两种新方式利用其预训练信息。第一种方法 TabEBM 构建了专门的类别特定能量基模型(EBM),以近似类别条件分布,从而生成额外的训练数据。第二种方法 TabMDA 则引入了上下文内子集划分(ICS)技术,这种技术使得在预训练的上下文分类器所学习的流形空间内进行标签不变转换,进而有效扩充了训练数据集。两种方法均具有通用性、快速性、无需额外训练,并且可以应用于任何下游预测模型。它们均能显著提升分类性能,尤其在小数据集上效果尤为明显。

总体而言,本论文在机器学习领域开辟了新的方向,旨在减轻过拟合问题,并在表格数据的生成与增强方面取得突破。我们的技术在医学、金融和科学研究等普遍面临数据稀缺和高维性难题的领域具有直接应用价值。通过证明即便在有限数据条件下也能实现更高效的学习,这项工作为未来克服数据限制、推广机器学习应用铺平了道路。






关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我认为GCondNet可能更具优势,因为它使用GNN来动态调整参数共享的程度,更加精细化。WPFS的硬参数共享虽然参数效率更高,但缺乏灵活性,可能在复杂数据集上表现不如GCondNet。当然,这两种方法的计算成本也需要考虑,GCondNet的GNN计算可能会带来额外的开销。

感觉不太好直接推广。图像和文本数据已经有很成熟的深度学习方法了,表格数据之所以要用这些trick,很大程度上是因为表格数据的结构性和信息密度跟图像文本不太一样。如果直接套,可能会出现“橘生淮南则为橘,生于淮北则为枳”的情况。

我觉得即使没有现成的预训练模型,也可以先用一个简单的分类器(比如逻辑回归或者浅层神经网络)在现有数据上进行预训练,然后再用TabEBM或TabMDA进行增强。或者,可以尝试自监督学习的方法,先学习数据的内在表示,然后再用于数据增强。 数据增强的关键在于生成具有代表性的新样本,所以思路是比较开放的!

我觉得参数共享的思路可以借鉴到其他领域,比如图像识别中的卷积神经网络,不同的卷积核其实就是在共享参数。数据增强方面,虽然表格数据的增强方法不能直接用于图像或文本,但可以借鉴其核心思想,即通过某种方式生成新的、具有代表性的数据,来扩充训练集。例如,可以使用GAN来生成图像或文本数据。

理论上讲,万物皆可盘。但从实际操作来看,表格数据和图像、文本的鸿沟还是很大的。硬要套用的话,可能需要把图像或者文本数据转换成某种“表格”形式,比如提取图像的特征向量,或者将文本进行embedding。但这样做的效果嘛,就很难说了。不如直接用针对图像和文本的成熟方法,效果肯定更好!

谢邀,抛开实际应用谈技术都是耍流氓。两种模型我都跑过数据,WPFS在特征关联性比较强的数据集上表现会更好,相当于特征工程帮你做了。GCondNet的优势在于它可以通过学习来自己提取特征之间的关系,所以更灵活,但计算资源消耗也更大,属于大力出奇迹的模型。

其实吧,数据增强这个东西,核心在于“增强”两个字。如果没有预训练模型,其实也可以考虑一些更简单粗暴的方法,比如魔改一下特征,加点噪声,或者干脆按照某种规则随机生成一些数据。 效果嘛,肯定不如论文里的方法,但总比没有强。而且说不定歪打正着,能有意外收获呢!主要还是看你的数据集和任务啦。

这个问题问得挺有意思!从理论上讲,GCondNet利用图神经网络进行软参数共享,应该更灵活。因为GNN可以根据数据的图结构学习更复杂的参数关系,调整起来也更方便。而WPFS的硬参数共享可能更简单粗暴,但适应性相对较差。不过,具体哪个更好用,还得看实际数据集的特点,多做实验才能知道啊!

好问题! 预训练模型是这两方法的基石。没有的话,效果肯定大打折扣。不过数据增强的思路有很多,可以考虑传统的SMOTE、或者GAN来生成数据。当然,也可以针对表格数据的特点,设计一些特定的规则来进行数据变换,比如随机替换某些列的值,或者根据已有数据分布进行采样。