清华大学Python科研应用系列讲座回顾:聚焦数据采集与文本分析,赋能跨学科研究。
原文标题:“学术之路”回顾 | Python科研应用系列分享会
原文作者:数据派THU
冷月清谈:
讲座内容从基础的Requests库讲解静态网页数据提取入门,深入到AJAX技术原理、F12抓包分析,以及Selenium浏览器自动化工具处理复杂动态与交互页面。此外,还介绍了PyMuPDF和pdfplumber库在解析PDF金融文档中的关键技巧。在实战环节,毛涵洁同学以巨潮资讯网A股年报为例,演示了如何运用多进程并发技术提升数据采集效率,并进一步讲解了多进程文本分析、词频统计与情感分析等深度挖掘技术,以及Selenium在跨国研究数据闭环中的应用。
此次系列讲座切实回应了同学们在交叉学科研究中面临的“数据获取难、处理效率低”的核心痛点,不仅帮助参与者掌握了Python这一重要的科研“生产力工具”,更强化了利用数字化手段驱动学术创新的意识,有效促进了跨学科学术交流,为培养兼具专业素养与数据分析能力的复合型人才奠定了基础。
怜星夜思:
2、讲座里提到Requests、Selenium、PyMuPDF这些库。除了Python,进行数据采集和文本分析还有哪些好用的语言或工具?各自的优缺点是啥?什么场景下用什么最合适?
3、这种教授编程工具的讲座特别实用。大家觉得,在未来,像金融、环境这种非编程专业,是不是会越来越需要自己掌握这种数据处理和分析的能力?它会怎样改变我们的学习和工作方式?
原文内容
近日,清华大学五道口金融学院研究生分会和清华大学学生大数据研究协会联合举办了【"学术之路"讲座——Python科研应用分享会】。本期讲座邀请了能源环境经济研究所2025级博士研究生毛涵洁同学,为有志于学习编程但非计算机、非数据科学专业的同学提供极具实操性的“跨界科研工具箱”,通过三期连讲的形式,手把手带领同学们实现从静态网页解析到复杂动态数据抓取的科研进阶。讲座以Python爬虫与金融文本分析为主题,分为基础篇、进阶篇、实战篇三部分。
活动回顾
近日,【“学术之路”讲座——Python科研应用分享会】第一讲拉开帷幕。本期讲座由展开同学主持,毛涵洁同学担任主讲。她从爬虫的技术本质出发,带领同学们认识了 Requests 库这一核心利器。讲座以新浪财经ESG频道为例,带领零基础同学完成了静态网页数据的精准提取,打通了数据采集的第一道关卡。
第二讲由毛涵洁同学继续主讲。她深入剖析了AJAX技术原理,并指导同学们使用浏览器开发者工具(F12)进行抓包分析,掌握直接定位并获取后台JSON数据接口的方法,实现高效的数据采集。针对更复杂的交互页面,讲座还介绍了Selenium浏览器自动化工具作为“保底方案”,并分享了PyMuPDF与pdfplumber库在解析金融PDF文档中的关键技巧。
收官讲座由熊陈言同学主持。本场聚焦真实金融科研场景,毛涵洁以巨潮资讯网A股年报的批量下载与处理为例,演示了如何运用多进程并发技术大幅提升采集效率。随后,进一步讲解了多进程文本分析、词频统计与情感分析等深度挖掘技术,并以国际金融公司(IFC)数据库的抓取为例,完整展示了Selenium在跨国研究数据闭环中的应用。
活动总结
来源 | 清华大学五道口金融学院研究生分会
关于我们




