Python科研应用:数据采集与文本分析系列讲座回顾

清华大学“学术之路”系列讲座回顾:Python助力科研数据采集与分析,解决跨学科研究痛点。

原文标题:“学术之路”回顾 | Python科研应用系列分享会

原文作者:数据派THU

冷月清谈:

清华大学举办的“学术之路”系列讲座聚焦Python在科研中的应用,针对非计算机专业的学生,提供了从静态网页解析到动态数据抓取的实用技能。讲座共三期,内容涵盖Requests库的使用、AJAX技术原理剖析、Selenium自动化工具的应用、以及PyMuPDF与pdfplumber库在PDF文档解析中的技巧。实战篇以巨潮资讯网A股年报的批量下载与处理为例,演示了多进程并发技术在数据采集中的应用,并讲解了文本分析、词频统计与情感分析等深度挖掘技术。讲座旨在解决跨学科研究中数据获取和处理效率低下的问题,培养具备数据分析能力的复合型人才,并促进跨学科学术交流。“学术之路”系列讲座将持续关注前沿科研方法与学术成长需求。

怜星夜思:

1、除了金融领域,Python爬虫技术在其他哪些科研领域有广泛应用?各自有哪些独特的挑战?
2、讲座中提到了多进程并发技术,对于初学者来说,还有哪些简单易用的方法可以提高数据采集效率?
3、在金融文本分析中,情感分析的应用场景有哪些?如何提高情感分析的准确性?

原文内容

图片

近日,清华大学五道口金融学院研究生分会和清华大学学生大数据研究协会联合举办了【"学术之路"讲座——Python科研应用分享会】。本期讲座邀请了能源环境经济研究所2025级博士研究生毛涵洁同学,为有志于学习编程但非计算机、非数据科学专业的同学提供极具实操性的“跨界科研工具箱”,通过三期连讲的形式,手把手带领同学们实现从静态网页解析到复杂动态数据抓取的科研进阶。讲座以Python爬虫与金融文本分析为主题,分为基础篇、进阶篇、实战篇三部分。

活动回顾

近日,【“学术之路”讲座——Python科研应用分享会】第一讲拉开帷幕。本期讲座由展开同学主持,毛涵洁同学担任主讲。她从爬虫的技术本质出发,带领同学们认识了 Requests 库这一核心利器。讲座以新浪财经ESG频道为例,带领零基础同学完成了静态网页数据的精准提取,打通了数据采集的第一道关卡。


图为嘉宾介绍HTML相关基础知识▲

第二讲由毛涵洁同学继续主讲。她深入剖析了AJAX技术原理,并指导同学们使用浏览器开发者工具(F12)进行抓包分析,掌握直接定位并获取后台JSON数据接口的方法,实现高效的数据采集。针对更复杂的交互页面,讲座还介绍了Selenium浏览器自动化工具作为“保底方案”,并分享了PyMuPDF与pdfplumber库在解析金融PDF文档中的关键技巧。


图为嘉宾进行爬虫技术原理讲解▲

收官讲座由熊陈言同学主持。本场聚焦真实金融科研场景,毛涵洁以巨潮资讯网A股年报的批量下载与处理为例,演示了如何运用多进程并发技术大幅提升采集效率。随后,进一步讲解了多进程文本分析、词频统计与情感分析等深度挖掘技术,并以国际金融公司(IFC)数据库的抓取为例,完整展示了Selenium在跨国研究数据闭环中的应用。

图为嘉宾讲解实战案例▲


活动总结

本次系列讲座立足于金融科研实操,从基础解析到动态抓取,再到大规模处理与文本分析,切实回应了同学们在交叉学科研究中面临的“数据获取难、处理效率低”的核心痛点。通过系统的编程思维训练与实战案例拆解,参与同学不仅掌握了Python这一重要的科研“生产力工具”,更强化了利用数字化手段驱动学术创新的意识。活动有效促进了跨学科学术交流,为培养兼具专业素养与数据分析能力的复合型人才奠定了坚实基础。


“学术之路”系列讲座将持续关注前沿科研方法与学术成长需求,为同学们提供更多高质量的学习交流平台。

图为嘉宾与学员合影留念▲



来源 | 清华大学五道口金融学院研究生分会





关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



说到爬虫,那可真是万金油! 像我做材料的,就经常用爬虫去Materials Project或者Web of Science上扒数据。不过挑战也挺大的,有些网站反爬虫机制厉害,headers、cookies、验证码,各种花式操作防着你。有时候还得用代理IP,跟对方斗智斗勇,简直比科研本身还费劲!

分享个小技巧,可以尝试使用线程池(ThreadPoolExecutor)来并发执行爬虫任务。 线程相对于进程来说,资源消耗更小,更适合IO密集型任务。当然,要注意线程安全问题,避免出现数据竞争。

我了解到一个比较前沿的应用是,可以通过情感分析来判断公司管理层的态度,比如在财报的文本中分析,如果多次出现积极正面的词汇,可能代表管理层对公司未来发展非常有信心。反之,如果负面词汇较多,就需要警惕风险了。不过,这种分析需要结合公司的实际情况,不能片面解读。

别把情感分析想的太玄乎,其实有时候人工标注数据更靠谱! 特别是对于一些专业术语或者行业黑话,模型很难准确识别。所以,可以先花点时间人工标注一部分数据,然后用这些数据来训练模型,效果会更好。简单来说,就是“人工+智能”,双剑合璧!

情感分析在金融领域应用广泛,例如可以分析新闻报道、社交媒体评论、研报等文本,了解市场情绪,预测股价走势;可以分析客户评论,评估金融产品的口碑;还可以用于风险管理,识别潜在的舆情风险。为了提高情感分析的准确性,可以采用以下方法:
1. 使用更专业的金融领域情感词典。
2. 结合上下文信息进行分析,避免断章取义。
3. 使用深度学习模型,例如Transformer,捕捉文本中的复杂语义关系。
4. 定期更新模型,适应市场变化。

个人认为,Python爬虫的应用相当广泛,例如在社会学研究中,可以爬取社交媒体数据进行舆情分析;在生物学研究中,可以爬取基因序列和蛋白质结构信息;在环境科学研究中,可以爬取气象数据和污染监测数据。每个领域都有其独特的挑战,例如社会学可能面临数据伦理和隐私保护的问题,生物学可能面临数据量巨大和格式复杂的问题,环境科学可能面临数据来源分散和质量参差不齐的问题。总而言之,具体问题需要具体分析。

抛砖引玉一下,我觉着Python爬虫在人文学科也能大放异彩,比如可以用它来搜集古代文献资料,进行数字化整理和研究。不过,古代文献的文字识别和语义分析难度比较大,需要结合自然语言处理技术才能有效提取信息,对爬虫的准确性要求很高。

多进程并发确实是提升效率的有效手段,但对于入门者来说,可以先尝试使用异步IO库(例如asyncio)来提升效率。异步IO可以在等待网络请求时切换到其他任务,避免CPU空闲,从而提高整体效率。 此外,合理设置请求头(User-Agent)和使用requests库的Session对象,也可以减少被网站封禁的风险,间接提高采集效率。而且,不要忘记设置合理的请求间隔,避免给服务器造成过大压力。

我之前做项目的时候,用过一个叫tqdm的库,它可以显示进度条,让你清楚知道爬了多少数据。虽然不能直接提高效率,但是看着进度条一点点前进,感觉更有动力了!而且,代码写得清晰易懂也很重要,方便debug,也能省不少时间。