华中科技大学团队分享:大数据挑战赛股票预测夺全国第六的秘诀

华中科技大学团队在大数据挑战赛中,通过情绪特征挖掘与多模型协同,构建了高精度股价预测模型,荣获全国第六名,并分享了宝贵经验与未来展望。

原文标题:2025大数据挑战赛全国八强团队获奖经验+ppt分享(三)

原文作者:数据派THU

冷月清谈:

在2025大数据挑战赛中,来自华中科技大学的“小须鲸rvqp”团队荣获全国第六名的佳绩。他们所面对的赛题是“预测未来股价涨幅最大和最小的股票”,这是一个极具挑战性且贴近实际的金融市场预测问题。团队认识到传统时序模型在考虑市场情绪和个股关联方面的不足,决定从情绪特征挖掘多模型协同两大方向着手,构建兼顾个股特性与市场共性的混合预测模型。

在实践过程中,团队积累了宝贵的经验。首先,他们强调特征工程的重要性,通过将换手率作为情绪指标、嵌入股票代码以学习行业板块信息,并构造涨跌幅标签来强化对极端波动的关注,显著提升了模型感知能力。其次,团队自研了DFformer模型,该模型采用双流结构,能动态提取单支股票的时间模式(个性)和捕捉股票之间的关联(共性,并通过动态融合机制高效结合两者。此外,为提升模型鲁棒性,他们创新地引入了包含S-DF、M-DF、L-DF三种结构的混合专家系统(MoE),使其能动态适应不同市场风格,避免单一模型失效。最后,团队还通过注意力矩阵、火山图等可视化手段,增强了模型决策过程的可信度和可解释性。

通过此次比赛,团队不仅提升了在时序预测、特征工程和模型融合方面的技术理解,也锻炼了团队协作能力,并意识到将模型应用于实际场景时需关注数据、行情等现实问题。他们也清醒地认识到,模型在多模态信息(如新闻、舆情)融合方面仍有很大的提升空间,并将其作为未来的努力方向。

怜星夜思:

1、文章里提到了用换手率作为情绪指标,还嵌入了股票代码。大家觉得在实战中,除了这些,还有哪些特征对预测股价特别有用或者特别难搞定但很关键?
2、文中提到了用图表可视化模型决策过程,大家觉得这在实际的金融投资中有多重要?特别是当模型给出买卖建议时,普通投资者或基金经理能多大程度上信任它?
3、团队最后提到未来会尝试多模态信息融合(新闻、舆情)。大家觉得这方面最大的挑战会是什么?比如怎么处理大量非结构化数据,或者怎么避免“噪音”影响预测?

原文内容

图片




团队名称

小须鲸rvqp的团队

团队成员

李鹏程(华中科技大学)

卢天浩(华中科技大学

徐殊欣(华中科技大学

团队名次

全国第


赛题描述说明介绍



关注微信公众号“数据派THU”,后台回复“20250522”,即可获取“赛题描述”和“代码规范”




参赛分享与收获





首先非常荣幸能够参加本次的大数据挑战赛,我们想从三个方面分享一下我们团队的参赛体会和收获。


第一是我们对赛题的理解与兴趣。这次比赛的赛题是“预测未来股价涨幅最大和最小的股票”,这是一个非常具有挑战性也极具现实意义的题目。股票市场不仅受历史数据影响,还深受投资者情绪、市场热点、政策新闻等多重因素影响,是一个典型的多源、动态、非结构化的复杂系统。我们团队对此一直很感兴趣,尤其是如何将人工智能技术应用于真实的金融市场预测中。我们认为,传统的时序预测模型往往只关注历史价格,忽略了市场情绪和个股之间的关联,导致泛化能力不足。因此,我们决定从“情绪特征挖掘”和“多模型协同”两个角度入手,设计一个既能捕捉个股特性、又能理解市场共性的混合预测模型。


第二是我们团队的经验分享。在设计MeDformer的过程中,我们经历了多次迭代和优化,也积累了不少实战经验:1.特征工程是关键:我们使用了换手率作为情绪指标,发现高换手率股票波动更大,更能反映市场情绪;同时嵌入股票代码来隐式学习行业板块信息;还构造了涨跌幅标签来强化对极端波动的关注。这些特征显著提升了模型的感知能力。2.双流机制捕捉个性与共性:我们自研的DFformer模型采用双流结构,一流动态提取单支股票的时间模式(个性),另一流捕捉股票之间的关联(共性),最后通过动态融合机制将两者结合,大大提升了信息的利用效率。3.混合专家系统MoE)提升鲁棒性:我们创新地引入了MoE架构,包含S-DFM-DFL-DF三个不同结构的专家模型,分别捕捉短期、中期、长期特征。通过动态选择机制,模型能适应不同市场风格,避免单一模型失效的风险。4.我们通过注意力矩阵、火山图、散点图等方式可视化模型决策过程,发现模型能自动聚焦关键时间点和特征,增强了结果的可信度和可解释性。通过本次大赛,我们不仅积累了宝贵的实践经验,还提升了算法设计和创新的能力,尤其意识到在将模型应用到实际场景中时,需要关注数据、行情等现实问题从而贴合实际需求。在和其他队伍的交流中,也极大地拓宽了我们的视野和思路,他们的巧思也给我们提供了新的启发。


最后,我们想由衷感谢大赛主办方提供了这样一个高水平的竞技和交流平台。也感谢评委老师们的中肯意见和建议,让我们看到了模型的不足和优化方向。通过这次比赛,我们不仅提升了对时序预测、特征工程、模型融合等技术的理解,也锻炼了团队协作和项目推进的能力。当然,我们也清醒地认识到,模型在多模态信息(如新闻、舆情)融合方面还有很大提升空间,这也是我们未来继续努力的方向。





决赛答辩ppt分享






编辑:文婧
校对:丁玺茗


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


引用问题1:“文章里提到了用换手率作为情绪指标,还嵌入了股票代码。大家觉得在实战中,除了这些,还有哪些特征对预测股价特别有用或者特别难搞定但很关键?” 个人觉得宏观经济数据是不可忽视的,比如GDP增长、CPI、PMI指数等,它们虽然不是个股特征,但对整体市场情绪和资金流动有决定性影响。另外,期权数据中的隐含波动率也可以作为市场情绪的领先指标。难搞定的可能是量化财报数据中的“水分”和非结构化数据的情感极性判断。

引用问题3:“团队最后提到未来会尝试多模态信息融合(新闻、舆情)。大家觉得这方面最大的挑战会是什么?比如怎么处理大量非结构化数据,或者怎么避免‘噪音’影响预测?” 最大的挑战无疑是非结构化数据的处理和去噪。新闻和舆情数据量巨大,实时性要求高,且往往包含大量冗余、重复信息甚至虚假信息。如何有效地进行情感分析、实体识别和事件抽取,并将其与量化指标关联起来,同时避免过拟合和噪音干扰,需要高阶的自然语言处理(NLP)技术和强大的计算资源。

我来说个俗的,除了那些高大上的,我觉得“小道消息”或者说“内部消息”如果能合法地搞到手,那才是王道!哈哈哈。开玩笑的啦。其实很多券商研报里面的行业趋势分析也挺有用的,只不过这些文字信息怎么转化成可量化的特征,是个大难题。还有就是高频交易数据,普通散户根本拿不到,但大佬们肯定玩得飞起。

引用问题1:除了文中的特征,我觉得“资金流向”是个非常重要的指标,特别是主力资金的动向,它往往能反映大户的真实意图。虽然获取和清洗这些数据本身就有不小的难度,但其对短期股价的影响是立竿见影的。另外,政策面信息,例如某些行业利好或利空的消息,以及公司公告(如业绩预告、分红、股权激励等),这些看似简单的信息,背后蕴含的市场解读也需要非常精细的特征工程来捕捉。

要我说啊,挑战就是“杠精”太多!:joy: 网上各种评论,有真的有假的,有情绪化的,有抖机灵的。模型怎么去分辨哪些言论真的代表了大众情绪,哪些只是少数人的极端观点,或者哪些是故意带节奏的呢?这比大海捞针还难吧。而且,新闻标题党那么多,光看标题就容易被忽悠,模型会不会也犯这种错误?哈哈。

针对问题2:“文中提到了用图表可视化模型决策过程,大家觉得这在实际的金融投资中有多重要?特别是当模型给出买卖建议时,普通投资者或基金经理能多大程度上信任它?” 我觉得对普通投资者来说,可视化固然好,但更多的是看个热闹。真正要信任,还得是经过时间和实盘检验的业绩。基金经理可能更看重模型在特定市场环境下的适应性和风险控制能力,毕竟要对结果负责。完全无脑信任一个黑箱模型,风险太大了。

我觉得除了技术层面,最大的挑战可能在于“信息偏差”和“传播效应”。新闻和舆情很容易被操纵,或者被带有偏见地解读。一个负面消息可能因为传播速度快,被无限放大,从而形成羊群效应,但这并不代表基本面真的改变了。如何区分这些噪音和真实的价值信号,避免模型被“带偏”,甚至被利用来制造市场波动,是个很现实的问题。

引用问题2:在实际金融投资中,模型可解释性至关重要。这不仅仅是为了增加信任,更是为了理解模型的潜在偏误和局限性。例如,当模型在一个特定的市场环境下表现异常时,通过可视化,我们可以快速定位是哪些特征或决策逻辑导致了问题,从而进行针对性的优化或调整策略。基金经理在接受模型建议时,需要理解其背后的风险敞口和假设条件,可解释性工具能帮助他们更好地消化这些信息,而不是盲目相信或拒绝。