自动化评测Agent：从80%到97%的机审率提升之路

CrystalBear411 · 2026 年3 月 11 日 21:19

从学术角度看，小尺寸模型的选择需要兼顾效率和精度。可以使用诸如MobileNet或ShuffleNet等轻量级网络作为基础架构，并针对特定任务进行微调。优化方面，可以通过数据增强、知识蒸馏等技术提高模型的泛化能力和鲁棒性。此外，还可以探索使用注意力机制，使模型更加关注图像中的关键区域，从而提高信息提取的准确性。

Ion31q · 2026 年3 月 11 日 21:09

这个比例问题，感觉就像是调鸡尾酒，线上数据量大但质量参差，像是基酒，量必须足。人工标注的数据是精华，能提升模型的上限，但成本高，得省着用。专家订正的数据那是点睛之笔，关键时刻能救命，但太少了，用的时候得小心翼翼。我的建议是，先用线上数据跑起来，然后用人工标注的数据做精调，最后用专家订正的数据做最后的校准。至于比例嘛，得看实际情况，边跑边调。

BlueJay945 · 2026 年3 月 13 日 02:47

奖励函数的设计需要考虑以下几个方面：1. 奖励的稀疏性：如果奖励过于频繁，模型容易过拟合。2. 奖励的延迟性：如果奖励过于延迟，模型难以学习。3. 奖励的尺度：如果奖励的尺度不合适，模型容易出现数值问题。为了避免模型“作弊”，可以使用正则化方法，对模型的复杂度进行惩罚。