2026大数据挑战赛“月月星”获奖名单公布:两支高分队伍分享股票预测建模经验

大数据挑战赛“月月星”获奖公布,高分队伍分享时序建模、特征工程与模型融合经验。

原文标题:快讯|2026大数据挑战赛月月星评选获奖队伍公布,附赛事经验分享!

原文作者:数据派THU

冷月清谈:

2026中国高校计算机大赛-大数据挑战赛线上赛A阶段第一次“月月星”评选结果公布,获奖学生队伍每队将获得800元奖金。文章重点整理了当前榜单表现较好的两支队伍的参赛思路:一支队伍采用传统机器学习模型融合方案,围绕时序特征、横截面特征、市场环境特征构建输入,并使用LightGBM Ranker、HistGradientBoosting、随机森林等模型,通过OOF二层融合降低波动;验证上采用时间序列交叉验证并设置时间间隔避免数据泄露,选股阶段加入候选池筛选、精排和风险惩罚。另一支队伍强调数据理解、缺失值与异常值处理、合理的时序验证,以及稳定、可解释特征的重要性,并认为在股票预测类任务中,模型鲁棒性往往比复杂架构更关键。文章还提到赛事报名已过半,参赛队伍超过1500支,报名人数突破2300人,报名截止时间为7月15日12:00。

怜星夜思:

1、股票类比赛里,传统机器学习模型真的比深度学习更适合吗?
2、时间序列比赛为什么不能随机划分训练集和验证集?
3、在这类选股比赛中,特征工程和调参哪个更重要?
4、比赛中加入“空仓”或减少持仓,是不是会影响收益排名?

原文内容

图片



2026中国高校计算机大赛-大数据挑战赛线上赛A阶段第一次月月星奖项评选环节开始啦,经过组委会对参赛队伍提交模型和代码进行审核和复现荣获月月星的团队名单已出炉,恭喜获奖(每队发放奖金800元)的学生队伍!


目前榜单成绩最好的两支队伍在参赛中有哪些实战的经验呢?让我们一起围观他们的分享吧!


康神开播了?真的假的
获奖经验分享

大家好,很高兴能和大家分享这次比赛的一些经验。我们的方案基于多个传统模型融合,单模型表现也还可以。下面从特征工程、模型、训练验证和组合策略四个方面介绍一下主要做法。


1. 特征工程


基础时序特征包括均线、收益率、波动率,窗口覆盖3、5、10、20、40天,从短期到中期都有尝试。横截面特征贡献比较明显,加入了个股当日涨跌幅排名、相对市场均值的超额收益等,用来刻画个股在横截面上的相对位置,与选股排序任务匹配度较高。还加入了市场情绪、涨跌比、整体波动率等环境特征,让模型感知当前市场背景。外部数据没有做扩展,直接使用比赛提供的训练集和测试集,保持流程稳定且易于复现。


2. 模型


先用了LightGBM、HistGradientBoosting、随机森林建立基线,表现都比较稳健。LightGBM Ranker与排序任务目标一致,实际使用感受较好。模型融合是核心环节:训练多个基模型,用OOF预测结果作为输入训练第二层融合模型,以降低单模型波动。此外训练了两个辅助方向,分别预测当日Top1和短期爆发型标的,为最终选股提供额外参考。收益预测和涨跌概率分开建模,未强制使用同一模型。


3. 训练与验证


时序数据划分验证集时不能随机打乱,采用时间序列交叉验证,共4折,折间留5天间隔防止数据泄露。每折验证集设20天,训练集至少120天,参数可根据实际情况调整。随机种子固定为20260416,便于实验复现和对比。超参数未做大规模搜索,基本沿用默认值,主要调整了树的数量,精力更多放在特征和标签设计上。


4. 组合策略


选股采用多阶段筛选:先生成候选池,再精排,最后加入风险惩罚。设计了target_precision_gate标签,要求收益为正、当日排名前25%、短期和中期表现稳定、最大回撤不超过3%,目的是提高命中率。仓位未强制满仓,市场状态不好时减少入选数量或空仓,保留现金。参数方面,LightGBM约200至300棵树,HistGradientBoosting约300轮,整体思路是先保证特征和验证可靠,再做参数微调。


以上是我们在比赛中的一些做法和思路,供大家参考,也欢迎一起交流探讨。







milky-frog
获奖经验分享


很荣幸获得第一阶段的月月星奖项,在此分享一些参赛过程中的心得体会,希望对大家有所帮助。


数据理解与处理


拿到赛题后,我们首先花了较多时间理解数据本身的特性。股票数据具有较强的时序性和截面特征,不同时间段的市场状态差异很大。我们在数据清洗阶段重点关注了缺失值处理和异常值识别,确保输入数据的质量。此外,我们发现合理划分训练集和验证集对于评估模型的泛化能力至关重要——简单的随机划分在时序问题上往往会高估模型表现,因此我们采用了时间序列相关的验证方案来更真实地反映线上效果。


特征工程


特征工程方面,我们的思路是从多个维度刻画股票的状态。除了基础的价量特征外,我们尝试了不同时间窗口的衍生指标,并关注了截面维度上股票之间的相对关系。我们认为,好的特征应该具备一定的稳定性和可解释性,过于复杂的特征组合虽然在训练集上表现好,但往往在线上会出现较大的偏差。因此我们在特征筛选上比较保守,优先选择逻辑清晰、在不同时间段表现一致的特征。


模型与策略


在模型选择上,我们没有一味追求复杂的深度学习架构,而是根据赛题特点选择了适合的方案。我们发现,对于本赛题而言,模型的鲁棒性比极致的拟合能力更重要。一个在多数情况下表现稳定的策略,长期来看往往优于一个偶尔表现极好但波动很大的策略。我们在迭代过程中也踩过一些坑,比如过度优化某个特定时间段的表现,导致在其他时段出现明显回撤。


最后,感谢主办方提供的平台和数据,也祝所有参赛队伍在后续比赛中取得好成绩!




目前,大赛报名阶段已过半,已有来自高校和企事业单位的1500支队伍参赛,报名总人数突破2300人。参赛选手可以下载数据在本地进行算法设计和调试,并通过竞赛平台提交结果文件及模型代码,报名截止至7月15日12:00


每一次努力都值得被看见,每一份才华都值得被赞赏。让我们一起,用代码书写梦想,用数据描绘未来!


扫码观看大赛启动会回放



大赛官方渠道主要包括:

大赛官网:https://nercbds.tsinghua.edu.cn/bdc.html

大赛邮箱:data@tsinghua.edu.cn

大赛QQ群:112186245 / 759142692/762146461



欢迎点击原文,了解更多大赛详情




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



从统计学习角度看,时间序列样本并不是独立同分布的,存在自相关和趋势变化。随机划分会破坏时间结构,并可能造成数据泄露。文章里提到折间留5天间隔,其实就是一种embargo思路,目的是避免相邻时间窗口的信息重叠影响评估。

1 个赞

也不能简单说传统模型一定更适合。深度学习在高频数据、新闻文本、盘口序列、多模态数据里还是有优势的。但如果赛题只给结构化日频数据,传统机器学习往往是性价比最高的选择。这里两支队伍都强调验证方式和鲁棒性,我觉得这比模型名字更关键。

3 个赞

针对“特征工程和调参哪个更重要”,我的感受是特征工程优先级更高。参数调到最后可能只是小数点后几位的提升,但一个好的横截面排名特征、波动率特征,可能直接改变模型理解问题的方式。

2 个赞

回答“为什么不能随机划分”这个问题:因为随机划分会把未来信息混到训练里,模型等于提前看过后面的市场状态。线下分数会虚高,线上提交就容易崩。时间序列任务里,验证集最好模拟真实预测场景,也就是用过去预测未来。

调参像给菜撒盐,特征工程像决定你锅里到底有没有肉。没肉的时候盐撒出花也没用。当然不是说调参没价值,但比赛早期把时间都花在网格搜索上,通常收益不如多想想标签和验证集。

1 个赞