高效近似算法提升影响力最大化及变种问题求解效率

本文提出了一系列针对影响力最大化及其变种问题的高效近似算法,提升了在独立级联模型、预算受限和边际效用递减等场景下的求解效率。

原文标题:【博士论文】影响力最大化及其变种的高效近似算法

原文作者:数据派THU

冷月清谈:

社交网络影响力最大化(IM)问题旨在找到k个节点,使其影响的节点数量最大化。本文提出了一系列针对IM问题及其变体的高效近似算法。

针对IM问题,本文提出了一种高效的随机反向可达集生成算法,显著提高了现有算法在独立级联模型下的效率,并针对非均匀权重模型提出了无索引采样算法。此外,本文还解决了现有算法在大影响力网络中扩展性差的问题,通过减小可达集的平均大小来提高效率。

对于预算受限下的自适应影响力最大化(BAIM)问题,本文设计了第一个可实用的算法,并通过增量更新方法解决了自适应IM问题中计算成本高的问题。

最后,本文探讨了符合边际效用递减定律且预算受限的利润最大化(BPM)问题,并提出了相应的算法及优化策略,以解决实际应用中预算受限和边际效用递减效应的问题。实验结果验证了所提算法的有效性。

怜星夜思:

1、论文中提到的"在大影响力的网络中,随机反向可达集的大小通常相当大",具体是什么原因导致的呢?有没有一些实际的例子?
2、论文提到了增量更新方法来降低计算成本,这个增量更新的具体操作是什么?相比于重新计算有什么优势?
3、边际效用递减在影响力最大化中是如何体现的?文章中是如何解决这个问题的?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了一系列针对影响力最大化问题及其变体的高效算法。


在现代社会中,社交网络已经成为传播信息和沟通的基本渠道。诸如Facebook、Twitter、Instagram 和LinkedIn 这样的平台彻底改变了我们如何连接、分享和互动。除了个人使用之外,许多公司现在也将这些网络作为主要的广告媒介来推广他们的产品。这一趋势在影响力最大化(IM)领域催生了大量的研究。然而,在大数据时代,这些网络的不断增长使得影响力最大化算法的效率变得越来越重要。为了应对这一挑战,我们提出了一系列针对影响力最大化问题及其变体的高效算法。
给定一个具有𝑛 个节点和𝑚 条边的社交网络𝐺 和一个正整数𝑘,影响力最大化问题要求找到𝐺 中的𝑘 个节点,使得这𝑘 个节点影响的节点的期望数量最大化。现有算法的一个关键阶段是随机反向可达集(RR-set)的生成,这一阶段显著影响了现有算法的效率和可扩展性。我们对这一关键阶段进行了研究,并在独立级联(IC)模型下提出了一种高效的随机反向可达集的生成算法。通过这个新的生成方法,现有算法在独立级联模型下的期望复杂度最大可以提高图的平均度这样的级别。对于非均匀权重的独立级联模型,我们提出了一种无索引采样算法来提高采样效率。此外,现有的影响力最大化算法在大影响力的网络中存在扩展性差的问题,因为在这种情况下,随机反向可达集的大小通常相当大。我们通过减少可达集的平均大小来解决这一棘手问题,而且不牺牲近似保证。实验结果证明了所提算法的有效性。
然后,我们考虑了预算受限下的自适应影响力最大化(BAIM)问题。给定一个社交网络𝐺、每个节点的成本和预算𝐵,预算受限下影响力最大化(BIM)旨在找到一个节点集合𝑆 ⊆ 𝑉 ,使得𝑆 的总成本不超过𝐵, 并有最大的期望影响力。在自适应设置下,种子节点在观察到前一个种子的扩散结果后逐步选择。对于这个问题,我们设计了第一个可实用的算法,通过以概率方式选择成本感知的贪婪策略或单个有影响力的节点。该算法实现了期望近似保证。此外,自适应影响力最大化相关问题的可扩展性仍然是一个困难的问题。这是因为它们通常涉及多轮(例如,轮次等于种子数量),并且在每一轮中,它们必须重新构建足够多的反向可达集,以便达到所想要的近似保证,这导致过高的计算成本。为了解决这个困境,我们提出了一种增量更新方法。具体来说,它在构建反向可达集时保留额外的信息,在复用这些反向可达集时可以从第一次受影响的地方开始快速纠正偏差,从而节约了计算成本。
最后,实验展示了我们的算法在影响力和运行时间方面相对于其他算法的优越性。最后,我们探讨了符合边际效用递减定律(DMU)且预算受限的利润最大化(BPM)问题。给定一个社交网络𝐺,预算不受限的利润最大化问题旨在确定一个子集𝑆 ⊆ 𝑉 ,以最大化净利润。净利润可以由预期效用Γ(𝑆) 减去相关成本𝑐 (𝑆) 计算得到。然而,这样的设置存在两个显著的局限性:(i)它假设预算没有限制,然而实际情况中预算通常受限,比如市场营销,因此是不现实的;(ii)它使用期望影响力作为效用度量,忽视了经济学中一个广为人知的概念——边际效用递减效应。因此,我们引入了符合边际效用递减定律的效用函数,它采用了斜率递减的分段线性函数,接着我们构建了一个新的优化问题,称为符合边际效用递减定律且预算受限的利润最大化。我们首先设计了一个新的算法,它可以返回具有近似保证的集合𝑆,用于解决上述优化问题。然后,我们进一步介绍如何利用混合多根反向可达集的组合来高效计算期望效用Γ¹𝑆º。我们还引入了一个优化版本,从而改进了时间复杂度。实验表明了我们提出的算法的有效性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


“边际效用递减在影响力最大化中是如何体现的?”——简单来说,就是随着你选择的种子节点越来越多,新增节点带来的影响力增益会越来越小。 就好比你推广一个产品,最开始推广给目标用户效果很好,但随着用户覆盖面的扩大,新增用户带来的收益会逐渐减少。 文章中用斜率递减的分段线性函数来模拟这种递减效应,并构建了新的优化问题来解决。

针对“增量更新的具体操作和优势”这个问题,可以这样理解:增量更新的核心思想是复用之前的计算结果。具体来说,在第一轮计算后,会保存一些中间结果,例如每个节点的激活概率、影响范围等。在后续轮次中,当网络结构发生变化时,利用这些中间结果,只对变化的部分进行更新,而不是重新计算整个网络的影响力传播。这样可以大大减少计算量,提高效率。

对于“增量更新的具体操作和优势”,我的理解是,增量更新就像修补程序一样,当网络发生变化(比如增加/删除边或节点)时,我们只需要更新变化部分相关的反向可达集,而不是全部重新计算。 优势在于节省了大量计算资源,尤其是在大规模网络中,效率提升非常明显。

题主问的是“大影响力网络中随机反向可达集规模大的原因”。 其实可以这么理解,影响力大的节点,其“粉丝”多,也就是在网络中,连接到它的节点多。反向可达集的构建是从被影响节点出发,反向遍历到影响节点。影响力大的节点,波及范围广,反向遍历时自然容易触及到更多节点,最终导致反向可达集规模变大。 比如说微博上一些大V,粉丝几百万甚至上千万,如果把粉丝看作节点,大V的影响力就很大,反向可达集的规模自然也就很大。

引用一下问题:“在大影响力的网络中,随机反向可达集的大小通常相当大”,这是因为在大影响力网络中,少数节点可以影响到大量的其他节点。 当我们进行反向查找时,从这些被影响的节点出发,会回溯到很多起始节点,导致反向可达集很大。 举个例子,想象一下一个明星的粉丝网络,明星就是那个大影响力节点,他的粉丝数量巨大,如果我们从粉丝出发回溯,反向可达集就会包含大量的粉丝,导致集合很大。

关于“边际效用递减在影响力最大化中的体现和解决方法”,我的理解是,在影响力最大化中,边际效用递减意味着每增加一个影响者,其带来的新增影响力会逐渐减少。这是因为随着影响者数量的增加,受众的重叠度会越来越高,导致一部分影响力被浪费。文章中通过引入斜率递减的分段线性函数来模拟边际效用递减效应,并将预算限制考虑在内,构建了一个新的优化问题,然后设计了相应的算法来解决这个问题。

关于“大影响力网络中随机反向可达集规模大的原因”,我的理解是,在大影响力网络中,一些关键节点拥有大量的连接,这些连接指向许多其他节点。由于影响力传播的特性,从网络中随机选择一个节点,它很有可能被这些关键节点影响到,从而在构建反向可达集时,会包含大量的指向这些关键节点的路径,导致反向可达集的规模变得很大。就像病毒传播一样,一个超级传播者可以感染很多人,反过来追踪感染源,就会发现很多人都与这个超级传播者有关联。

对于“边际效用递减在影响力最大化中是如何体现的”这个问题,我的理解是,一开始选择一些关键的影响者,他们可以影响很多人,但是随着选择的节点越来越多,新增节点的影响力会逐渐减弱,因为他们可能影响到的人群已经之前被其他影响者覆盖了,这就体现了边际效用递减。 文章中通过引入一个效用函数,该函数会随着已选择节点的增加而降低新增节点的效用,从而模拟了边际效用递减的效应,并设计了算法来解决这个新的优化问题。

关于增量更新,我的理解是它避免了每次都重新计算整个反向可达集。它在初始构建时会存储一些额外的信息,比如每个节点的影响范围、传播路径等。当网络结构或参数发生变化时,只需根据变化的部分更新受影响的节点及其相关信息,而不需要从头开始计算,从而节省了计算资源和时间。