时序数据压缩:大数据智能学术论坛前沿洞察

大数据智能学术论坛探讨时序数据压缩,专家分享了文件格式、压缩策略和直接计算等方面的最新研究,促进了学术界与工业界的交流。

原文标题:大数据智能学术论坛第一期 | 时间序列数据压缩专题成功举办

原文作者:数据派THU

冷月清谈:

本次大数据智能学术论坛聚焦时间序列数据压缩,清华大学、浙江大学、中国人民大学的专家分享了各自的研究成果。张焕晨介绍了新一代开源数据文件格式F3,强调其高效性、互操作性和可扩展性,并通过Web Assembly实现跨平台兼容。陈璐分享了时序与时空数据压缩优化策略,包括基于差分编码和零值压缩的算法,以及针对轨迹数据的参考轨迹压缩方法。张峰探讨了压缩数据直接计算技术,提出了自适应的流数据处理框架,并探索了压缩技术与硬件加速的结合。论坛促进了学术界与工业界的交流,为时序数据压缩技术在人工智能工程化和大数据处理领域的应用提供了参考。

怜星夜思:

1、F3文件格式如果能大规模应用,会对现有的数据存储和处理生态带来哪些影响?它的标准化推广可能面临哪些挑战?
2、在物联网设备产生的大量时序数据中,如何在保证数据精度的前提下,进一步提升压缩率?除了文中的方法,还有哪些创新的压缩思路?
3、压缩数据直接计算技术,在实际应用中会遇到哪些安全挑战?如何保障数据在压缩状态下的隐私和安全?

原文内容


3月16日,由清华大学大数据系统软件国家工程研究中心主办的“大数据智能学术论坛”第一期在线上成功举办。本次论坛聚焦“时间序列数据压缩”主题,邀请清华大学张焕晨助理教授、浙江大学陈璐研究员、中国人民大学张峰教授三位行业专家作专题分享,并围绕时序数据压缩的技术机遇与挑战、创新方法及未来方向展开深入探讨。论坛吸引了来自学术界和工业界的百余名师生参与。

图片 


(一)论坛开场


清华大学大数据系统软件国家工程研究中心执行主任、软件学院院长王建民作论坛开场介绍,清华大学软件学院宋韶旭副教授主持会议。王建民院长指出,在AI大模型与具身智能行业强势崛起、工业物联网与移动互联网技术迅速发展的背景下,面向社会大众的数据处理需求日益增长,数据在时间和空间维度上的处理与存储面临重大挑战,进而引出本次论坛的研讨核心——“时序数据压缩”技术。同时重点介绍了大数据系统软件国家工程研究中心作为我国大数据领域的重要科研平台,在推动大数据与人工智能技术的融合创新方面发挥的重要作用。另外,王院长也对未来大数据智能化、人工智能工程化及国家工程研究中心的发展作出了展望。



(二)嘉宾报告亮点


张焕晨(清华大学):下一代开源数据文件格式(F3)设计与优化新范式


张焕晨老师介绍了其团队在数据文件格式方面的最新研究成果——新一代开源数据文件格式(F3)。


他指出,F3具备高效性、互操作性和可扩展性的核心优势。其团队通过对Parquet和ORC进行全面基准测试,发现现代存储介质(如SSD)的带宽大幅提升,而计算资源逐渐成为瓶颈。因此,F3采用轻量级编码和解压缩技术,以减少CPU开销。


F3引入了基于Web Assembly的轻量级压缩框架与技术,将解压缩逻辑嵌入文件中,实现跨平台兼容性和动态扩展能力,同时优化对随机访问和向量数据的支持。这一设计使得不同平台和应用程序能够无缝读取和处理F3文件,无需依赖特定的解压缩库。同时,也呼吁学术界与工业界联合推动标准化,打造更高效、灵活的通用存储格式。



陈璐(浙江大学):时序与时空数据的压缩优化策略探索


陈璐老师分享了其实验室在时序数据和时空数据压缩方面的研究成果与技术突破。首先指出目前数据压缩面临的几点挑战,包括实时性、资源约束与压缩率和精度的问题等。时序数据的压缩需兼顾实时性和精度,而时空数据的压缩则需处理时间和空间的双重维度。


陈璐分享了一种基于差分编码和零值压缩的算法,并提出浮点数据的整数与小数分离压缩方法,通过分析数据的波动性,动态选择参考值提升压缩率,调整编码策略。实验结果表明,该方法在保持较高压缩率的同时,显著提升了查询效率,同时支持精度可控的有损压缩。


时空数据压缩方面,针对轨迹数据的不确定性,陈璐团队提出了一种基于参考轨迹的压缩方法,平衡实时性与压缩率。通过选取典型轨迹并利用三元组表示差异,该方法在保证精度的同时,显著减少了存储需求。


在金融、交通等多个应用场景都验证了其研究算法的高效性,为物联网设备数据处理提供新思路。


张峰(中国人民大学):压缩数据直接计算技术研究


张峰老师重点探讨了压缩数据直接计算技术的最新进展及多元应用场景。他指出,传统的压缩方法在流数据处理和时序数据库中存在性能瓶颈,而压缩数据直接计算技术可以有效解决这一问题。


张峰团队提出了一种自适应的流数据处理框架,结合轻量级压缩算法和动态成本模型,实现了高效的压缩数据传输和处理,在IOTDB等系统中实现吞吐量提升3倍以上。针对时序数据库的查询需求与技术优化,张峰团队正在研究面向时序数据的同态查询理论体系,支持压缩数据上的直接查询(如Filter、Projection),实现压缩数据的直接计算,提升查询效率,减少解压开销。


同时,其团队也在积极探索压缩技术与硬件加速(如GPU)的结合,以及加密场景下的隐私保护压缩等多项工作,对未来数据压缩提出展望。

图片 

本次论坛通过深入探讨,展示了时间序列数据压缩领域的最新研究成果和技术突破,不仅促进了学术界的交流与合作,也为工业界提供了宝贵的技术参考。随着技术的不断成熟,时间序列数据压缩将在人工智能工程化和大数据处理等更多领域展现出其巨大的应用价值。

编辑:文婧


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从信息论的角度看,数据压缩的极限取决于数据的熵。要提高压缩率,要么减少数据本身的熵,例如通过预处理去除冗余信息;要么使用更高效的压缩算法,例如基于上下文建模的算法。在物联网场景下,还可以考虑结合数据语义进行压缩,例如将相似的传感器数据聚类后再进行压缩。

在物联网场景下,可以考虑结合设备特性和数据特点,使用自适应的压缩算法。例如,对于传感器数据,可以根据传感器精度动态调整量化级别;对于具有周期性的数据,可以采用基于预测的压缩方法。此外,还可以利用边缘计算能力,在设备端进行初步的压缩和过滤,减少传输的数据量。

这块我稍微了解一些。压缩数据直接计算的安全挑战主要在于如何在不解压数据的情况下进行计算,同时防止恶意攻击者窃取或篡改数据。同态加密是一种可行的方案,但计算复杂度较高。另一种思路是研究专门针对压缩数据的安全算法,例如在压缩过程中加入水印或指纹,以便检测数据篡改。

从学术角度看,F3如果能广泛应用,无疑会推动数据存储和处理技术的进步,特别是对于异构环境下的数据共享和分析。但标准化推广确实面临挑战,既要考虑技术的先进性,也要顾及现有生态的兼容性,还需要解决潜在的安全问题。此外,商业推广也需要考虑成本、收益以及市场接受度等因素。

F3想一统江湖?我觉得影响挺大的!如果真能普及,以后数据存储和处理就更方便快捷了,想想就激动。不过,推广肯定是个大难题,不同的公司、不同的系统,都有自己的利益,要让他们放弃自己的一套,用你的F3,没那么容易。而且,还得考虑兼容性问题,以前的数据怎么办?新旧系统怎么对接?都是挑战啊!

压缩数据直接计算,听起来就很Geek!安全挑战肯定不少啊,万一算法被破解,数据就直接暴露了。我觉得可以考虑同态加密,这样可以在不解压的情况下进行计算,保证数据的安全性。另外,访问控制和权限管理也很重要,要确保只有授权用户才能访问和处理数据。

F3如果大规模应用,存储成本,跨平台数据交换,数据处理效率都能得到提升。挑战在于标准制定需要考虑各方利益和兼容性,以及用户迁移的意愿,需要有足够吸引力才能推动。

压缩率和精度,鱼和熊掌不可兼得啊!物联网设备数据量大,但很多时候我们并不需要那么高的精度,适当牺牲一点精度来换取更高的压缩率我觉得可以接受。另外,我觉得可以试试基于AI的压缩方法,让AI学习数据的规律,然后进行智能压缩,说不定能有意想不到的效果!

安全方面,同态加密是目前比较流行的方案,但计算开销也比较大。可以考虑结合差分隐私技术,在数据中加入噪声,保护个人隐私。另外,还可以研究一些轻量级的加密算法,在保证安全性的同时,尽量减少对性能的影响。