社交媒体信息传播的普适规律:临界性与复杂性

文章首发于集智俱乐部公众号,原文地址

导语:

关于社交媒体上出现“信息雪崩”统计定律,至少目前为止还没有一个在各个系统都表现得足够鲁棒的实证研究。而对于信息传播来说,完全不同的过程很可能背后存在着合理的驱动机制。最近在 nature communications 上发表的一篇文献,分析了来自Titter、Telegram、微博等社交平台的近亿个时间序列,超过将近10年的时间窗口,展示了社交媒体上的信息传播过程的普适性和临界性。其中普适性体现在,无论具体系统的细节如何,我们都可以在不同的系统上观察到宏观尺度的统一模式;临界性则来自于信息雪崩持续时间和规模的幂律分布,相应的超规模关系(hyperscaling relations)。文章在数据上的统计检验指出,社交媒体上信息传播过程是简单传播规则和复杂传播规则的结合,并且还指出这个过程的复杂性和传播信息中包含的语义内容有关。

研究领域:社交媒体,信息传播,雪崩,临界性,渗流模型,相变

论文题目:Universality, criticality and complexity of information propagation in social media

论文链接:www.nature.com/articles/s4…  

1. 社交平台中的雪崩现象

社交媒体大幅改变了人们产生、接受和消化信息的习惯。越来越多的证据表明,线上的沟通和交流正在前所未有地改变当前的社会。例如,公众关于新冠疫情的讨论伴随着所谓的“信息大流行”,影响着大家对于疫苗接种的态度。同时,大家在华尔街 Reddit 频道线上的交流也导致很多人去购买GameStop股票,以反对对冲基金和专业投资者进行的卖空操作,最终导致这家公司在仅仅几天内就增长了超过22亿美元的市值。这也令科学家们对这种信息传播现象背后的机制产生了浓厚的兴趣。

社交媒体上信息传播的分析,至少在定性上和某些自然现象是十分相似的,如神经元放电、地震等等。这些过程的特征是爆发活动模式(bursty activity patterns)。这些活动通常由时间上的点状事件组成,活动的爆发(或者称为雪崩)被定义为相邻事件的时间序列,爆发被长时间的低活跃状态(活动数量少的一段时间)隔开。

雪崩活动可以在宏观尺度上用爆发的规模S和持续时间T的分布 P(S) 和 P(T) 来描述。对于现实世界的很多系统,P(S) 和 P(T) 通常都是幂律衰减的。这个特征被认为是系统处于临界状态或临界状态附近的证据。另外,在临界点时,在给定持续时间之后,雪崩平均尺寸和时间之间一定会满足超规模关系。对于不同的系统,这些参数都会有不同的取值。

在社交平台中,雪崩通常指的是公众对于某个话题短时间内的大量讨论。现有对社交媒体中雪崩现象的研究还停留在小规模的数据集,尽管这些不同的工作都发现雪崩的规模分布以及持续时间分布都满足幂律衰减,但得到的指数参数非常不同。另外,在实证研究都没有发现规模大小和持续时间之间存在着幂律关系。这些不同可以认为是由于对不同工作中对雪崩不同的定义,以及不同时间分辨率的选择对雪崩分布的影响所致。

本文收集了来自Twitter、Telegram、微博、Parler、StackOverflow 和 Delicious 横跨10年的数据,囊括了超过2亿条时间序列,每条序列中所有的事件都包含相同的主题标示,总共包括9亿多个事件(events)。在此基础上,作者团队明确了如何在不同数据下刻画雪崩现象,并得到了跨平台的普适规律。

2.问题定义以及现有的传播模型

对雪崩更精确的定义如下。给定时间序列 { t 1 , t 2 , } \{t_1,t_2,\dots\} ,雪崩定义在从 t b t_b 开始的一系列事件 { t b , t b + 1 , , t b + s 1 } \{t_b,t_{b+1},\dots,t_{b+s-1}\} ,其中 t b t b 1 > Δ t_b-t_{b-1} > \Delta , t b + s t b + s 1 > Δ t_{b+s}-t_{b+s-1} > \Delta ,并且对于所有的 i = 1 , , S i=1,\dots,S ,都有 t b + i b + i 1 < = Δ t_b+i_{b+i-1} <=\Delta 。其中 Δ \Delta 是一个时间分辨率超参数。根据 Δ \Delta 取值的不同,同样的时间序列会被分解成不同的雪崩。S是雪崩规模的大小,即在给定时间序列内的事件数量,T是雪崩持续时间,即 T = t b + s 1 t b T=t_{b+s-1}-t_b

除此之外,还可以定义渗流强度 P P_{\infty} 和相应的磁化率 χ \chi

P = < S M > P_{\infty} = <S_M>
χ = < S M 2 > < S M > 2 < S M > \chi = \frac{<S^2_M> - <S_M>^2}{<S_M>}

其中 S M S_M 是每个序列中的最大雪崩规模。 < S M 2 > <S^2_M> < S M > 2 <S_M>^2 分别是 S M S_M 的一阶矩和二阶矩。

和疾病传播类似,当前被广泛接受的说法是,信息是一个简单传播(simple contagion)过程,即一次接触就使节点激活这种机制就足以描述整个过程。不过也有相当数量的研究支持复杂传播(complex contagion)范式。如最早由Centola和Macy提出的,认为在一个复杂传播过程中,个体参与信息传播需要来自和多个熟人的接触 [1]。复杂传播也由一些模型进行了证明,如线性阈值模型和随机场伊辛模型(Random Field Ising Model, 下简称 RFIM)[2]。

3. 信息传播特点的研究

3.1 普适性 

本文定义了最优分辨率 Δ \Delta^* 作为描述时间序列的一维渗流模型的相变点,数据集中的每个时间序列被视为一维渗流模型的一个实例。研究中测量了每个时间序列中最大雪崩的大小,并定义了渗流强度及相应的磁化率(susceptibility)。最优分辨率 Δ \Delta^* 通过最大化磁化率得到,最终可以对每一个时间序列都计算一个最优分辨率,即

Δ = a r g m a x χ ( Δ ) \Delta^* = arg max \chi(\Delta)

对于不同分辨率,使用对应的最优分辨率归一化后可展现出近乎相同的定量相变行为(如图1所示)。这表明信息在社交媒体上的传播可以看成是一个普适过程。

image.png

图1. 分别展示了渗流强度(a),相应的磁化率(b) 和时间分辨率的关系。不同的颜色代表不同的社交媒体。子图都使用最优分辨率对横坐标进行了归一化。

进一步,使用最优分辨率计算雪崩的规模S和持续时间T,并刻画它们的分布(如图2a,2b),发现不同的数据集都表现出了一致的行为,并且也成功验证了时间T和规模S之间的关系(如图2c),再次验证这种普适过程的存在。

image.png

图2. (a) 雪崩规模的分布。(b) 雪崩持续时间的分布。(c) 雪崩持续时间和规模的关系。(d) 不同平台的拟合参数和模型模拟参数对比

3.2 临界性

图2的幂律分布结果表明,信息传播过程背后存在着临界现象,这种临界性可以通过对临界指数的拟合来进行刻画。本文通过数值模拟的方式,使用平均随机场伊辛模型(mean-filed RFIM)和分支过程(Branching Process, 下简称BP)[3] 分别对传播过程进行了模拟。其中,平均随机场伊辛模型是多对多的复杂传播过程,分支过程是一对多的简单传播过程。拟合结果在全数据集上的结果如图2a-2c所示,对每个平台分别进行拟合的结果如图2d所示。结果显示,不同平台的临界指数表现出了一致性,并且使用RFIM方法拟合的传播结果与实际数据更加吻合。

3.3 复杂性

从现象上看,数据的表现和RFIM的拟合结果更加相符,一定程度上可以说明在整个数据上的宏观行为更偏向复杂传播过程。另外,本文为进一步验证结论,提出了一个最大似然方法验证拟合结果的有效性(该方法启发于工作[4])。这个方法支持三种不同的测试。

  1. 评价一段时间序列最佳的拟合参数——具体来说是BP的分支率(branching ratio)和RFIM的无序参量(disorder parameter)——和模型的临界值的比较;
  2. 可以用p-value评价每个拟合方法的有效性;
  3. 通过对比不同方法的似然概率,来评价一个序列用BP还是用RFIM建模更好。

图3展示了两个模型拟合的有效性检验。

image.png

图3. (a) 是RFIM的结果,(b) 是BP的结果,竖直的虚线代表模型的临界值所在。(c) 是对数似然的占比概率,蓝绿色表示BP比RFIM更好的时间序列,红色则表示相应时间序列用RFIM更好。(d) 根据 (c) 的分类方式,将时间序列明显区分成两种不同的行为(这里仅取靠近临界点附近的时间序列作为对应分类的代表),并计算对应序列的雪崩规模分布。实心点代表使用的模型是RFIM,空心点是BP。虚线对应的分别是两种模型的最佳幂指数拟合。

通过分析,作者发现最佳拟合参数的范围很广(图3a, 3b),包含了模型的临界状态和很大一部分的亚临界状态,即大多数事件都属于引发大雪崩的少数时间序列。因此对于BP和RFIM来说,系统的大尺度行为主要都是由少数的时间序列决定,它们的参数空间都非常狭窄且在临界点附近(图3a, b的子图)。

此外,这种测试还表明,大部分的时间序列都可以由这两个模型中的至少一个很好地描述。并且从图3c中可以看出,每条时间序列都可以被分成两个几乎同等大小的类别。一个由BP描述更好,另一个则由RFIM描述更佳。其中RFIM的优势略明显。社交平台上的信息传播,是复杂传播和简单传播的 混合模式,结合图2我们可以进一步得出鲁棒的结论,复杂传播略占优势,因为在整体层面的表现和RFIM兼容性更好。

实际上,BP类别的时间序列在整体上出现了一个明显的“交叉”(图3d),交叉前代表小雪崩满足BP传播,交叉之后的大雪崩则再次向RFIM靠拢。

3.4 不同传播模式的语义信息

文章还对这两种不同的传播模式的信息语义内容进行了定性的分析。

image.png

图4. 展示了不同分类下,Twitter 数据占比前30个的标签内容。蓝绿色是更符合RFIM模型的序列标签,红色是更符合BP模型的序列标签。标签大小表示占比排序。

从图4中可以看出,BP中的典型标签都是通俗类的话题,大部分都是和音乐、电影和电视节目相关。而用RFIM筛选出来的话题则都是和政治、社会新闻等有争议的主题相关。这体现了标签的语义信息和对应时间序列的普适性分类存在一种相关性。本文推断,这两种“信息雪崩”传播的关键差异在于产生雪崩背后的动力学不同,这种分类之后的分析结果为这个推断提供了令人惊讶但非常可靠的理论依据。

4. 结语:超越时序特征

作者团队呼吁重新思考这种仅考虑时序特征的信息传播过程算法的合理性。这些算法目前仅仅考虑了时序特征,而忽视标签的语义信息,甚至是背后传播的网络结构,而这两者对于信息传播来说是非常重要的。

文章最后作者推测,本文结论的普适性很可能超出了文中所展示的这些数据集。如果真的是这样,那么背后一定存在一种机制得以解释这种普适性。理解这个背后的机制,以及如何开发出这种可以对在线社交媒体的信息传播进行预测的机制,仍旧是一个挑战。

参考文献

[1] Centola, D. & Macy, M. Complex contagions and the weakness of long ties. Am. J. Sociol. 113, 702–734 (2007).

[2] Dodds, P. S. & Watts, D. J. A generalized model of social and biological contagion. J. Theor. Biol. 232, 587–604 (2005).

[3] Watson, H. W. & Galton, F. On the probability of the extinction of families. J.R. Anthropol. Inst. G.B. Irel. 4, 138–144 (1875)

[4] Clauset, A., Shalizi, C. R. & Newman, M. E. Power-law distributions in empirical data. SIAM Rev. 51, 661–703 (2009).

猜你喜欢

转载自juejin.im/post/7080093132544540702