我认为GCondNet可能更具优势,因为它使用GNN来动态调整参数共享的程度,更加精细化。WPFS的硬参数共享虽然参数效率更高,但缺乏灵活性,可能在复杂数据集上表现不如GCondNet。当然,这两种方法的计算成本也需要考虑,GCondNet的GNN计算可能会带来额外的开销。
感觉不太好直接推广。图像和文本数据已经有很成熟的深度学习方法了,表格数据之所以要用这些trick,很大程度上是因为表格数据的结构性和信息密度跟图像文本不太一样。如果直接套,可能会出现“橘生淮南则为橘,生于淮北则为枳”的情况。
我觉得即使没有现成的预训练模型,也可以先用一个简单的分类器(比如逻辑回归或者浅层神经网络)在现有数据上进行预训练,然后再用TabEBM或TabMDA进行增强。或者,可以尝试自监督学习的方法,先学习数据的内在表示,然后再用于数据增强。 数据增强的关键在于生成具有代表性的新样本,所以思路是比较开放的!
我觉得参数共享的思路可以借鉴到其他领域,比如图像识别中的卷积神经网络,不同的卷积核其实就是在共享参数。数据增强方面,虽然表格数据的增强方法不能直接用于图像或文本,但可以借鉴其核心思想,即通过某种方式生成新的、具有代表性的数据,来扩充训练集。例如,可以使用GAN来生成图像或文本数据。
理论上讲,万物皆可盘。但从实际操作来看,表格数据和图像、文本的鸿沟还是很大的。硬要套用的话,可能需要把图像或者文本数据转换成某种“表格”形式,比如提取图像的特征向量,或者将文本进行embedding。但这样做的效果嘛,就很难说了。不如直接用针对图像和文本的成熟方法,效果肯定更好!
谢邀,抛开实际应用谈技术都是耍流氓。两种模型我都跑过数据,WPFS在特征关联性比较强的数据集上表现会更好,相当于特征工程帮你做了。GCondNet的优势在于它可以通过学习来自己提取特征之间的关系,所以更灵活,但计算资源消耗也更大,属于大力出奇迹的模型。
其实吧,数据增强这个东西,核心在于“增强”两个字。如果没有预训练模型,其实也可以考虑一些更简单粗暴的方法,比如魔改一下特征,加点噪声,或者干脆按照某种规则随机生成一些数据。 效果嘛,肯定不如论文里的方法,但总比没有强。而且说不定歪打正着,能有意外收获呢!主要还是看你的数据集和任务啦。
这个问题问得挺有意思!从理论上讲,GCondNet利用图神经网络进行软参数共享,应该更灵活。因为GNN可以根据数据的图结构学习更复杂的参数关系,调整起来也更方便。而WPFS的硬参数共享可能更简单粗暴,但适应性相对较差。不过,具体哪个更好用,还得看实际数据集的特点,多做实验才能知道啊!
好问题! 预训练模型是这两方法的基石。没有的话,效果肯定大打折扣。不过数据增强的思路有很多,可以考虑传统的SMOTE、或者GAN来生成数据。当然,也可以针对表格数据的特点,设计一些特定的规则来进行数据变换,比如随机替换某些列的值,或者根据已有数据分布进行采样。