遭遇巨人歌利亚——读《链接:网络新科学》

本文载于《数字媒体阅读报告》

黠之大者

FBI在千禧年逮捕了一个加拿大少年黑客,他用不起眼的电脑当“弹弓”,打败了信息时代的巨人“歌利亚”,使一些网站因不断收到“好的,我听见了”而瘫痪;基督教的成功归功于一个保守而虔诚的犹太人:保罗。保罗最初反对基督教,后来却变为一个虔诚的基督徒。因为他对神学的熟悉和对社会网络的控制能力,基督教开始广为传播。保罗和黑客少年成功的关键隐藏在网络的结构和运行的拓扑结构中,也隐藏在他们操作网络的能力上。魔鬼就隐藏在“结构”之中,然而关于网络社会的研究长久以来被既有的科学框架的简化论所束缚。图或网络具有自身的属性,这种属性隐藏在它们自身的结构中,可以限制或增强我们使用网络的能力。尤其是在我们尚无法把握各种复杂网络的结构之前,理解网络结构就成了认识周围复杂世界的关键。

《链接:网络新科学》一书作者艾伯特-拉斯洛•巴拉巴西(Barabási)是美国圣母院大学教授,致力于对于复杂网络的研究:找到下一场科学革命——网络新科学的奥秘。巴拉巴西和阿尔伯特、郑浩雄一起在1998年开始了对网络的研究,一年后在《科学》上发表了关于无标度网络的论文,掀起网络科学研究的新浪潮。诚如两千年前希腊哲学家引导我们“认识你自己”一样,《链接》一书引导我们认识世界的网络结构。

##随机宇宙

人类对于网络的认识最初源于规则网。例如哥斯堡七桥问题,一个四个点七个边的图,图上带有奇数边的点,不是行程的起点,就是终点。如果一个图中有两个以上这样的点,就不存在一次遍历七桥的路线。在哥斯堡图上,有4个这样的点,因而无法找到所需的路线。

用规则网作为复杂网络的理想型显然存在不足。人类智识群体由规则网滑到另一个极端:随机网络。Eros和Renyi认为自然界所能提供的最简单解答:随机连接节点。他们得出结论,创造网络最简单的办法是掷骰子。规则网络图的特别之处就在于每个节点都有恰好同样书里那个的链接。而在随机网络图中,根本不存在这样的规则性。随机网络模型的柱状图遵循Poisson distribution,其分布有一个显著的峰值,表明大多数节点的平均链接数都是一样的。在峰值的两边,分布迅速下降,与平均值相差较大的值极为少见。这就是广为所知的ER模型(Eros-Renyi模型,下文简称为“ER模型”)。

然而,如爱因斯坦却倾向于相反的观点:对于宇宙,上帝不喜欢掷骰子。社会网络极其复杂,没有任何成员能够游离在外,其中的每个节点都能被访问到,因此,世界上不存在完全和外部世界隔绝的孤岛。

##六度分隔的小世界 郑浩雄创建了一个简单的网络爬虫,让它下载文件,查找文件中的所有链接,然后按照这些链接访问并下载指向的文档。就这样自动进行下去,直到得到所有关联的页面。用它获得网络的完整地图。首先,该机器人访问圣母院大学网站域名下的所有300000份文档,绘制出地图。我们只是关心网页上的链接,它们告诉我们如何从一个页面跳转到另一个页面。结果发现随着链接的增加,节点间的距离会骤然变小。巨大的网络变小了,造成了我们周围一个又一个网络的小小世界。 大量的社会链接能够将无比巨大的网络也缩小成小小世界。例如Renyi比Eros小7岁,但是在布达佩斯的时候,他们的父母早就有交往,因而两人得以结识。

中心节点和连接者所造成的群集现象是ER模型的随机世界观的第一个裂隙。瓦茨和斯托加茨发现了一个惊人的特点:即使只是添加少数几个链接,就能把所有节点之间的平均间隔大大降低,这少数几个节点却不会改变网络的群集系数。

规模不是演员网络最重要的因素,虽然三级片明星饰演过的影片数量惊人,但是他们没能靠近好莱坞的中心。网络真正的中心留给了在多个大型集群里都有自己的位置的节点。对于演员网络,这种节点就是饰演过多种类型影片的演员;根据美国电话电报公司的一项研究,一小部分电话号码打出或接听了极大量的电话,这主要包括电话销售公司和客户服务电话等;生态学家认为,食物链的中心节点就是其中的关键物种,该物种对于保持生态系统的稳定居功至伟。

对于社会,这种节点就是那种和各个领域的人都有交往的人。万维网的拓扑结构具有高度的不均衡现象。对于万维网,这种节点不但提供独特的链接,而且提供各种不同类型链接的网站。 中心节点的确很特殊,在任何存在中心节点的网络中,它们都对网络结构起到关键作用,使该网络呈现小世界的特点。联结者现象(具有大量链接节点的存在)是对ER模型和watts和stogazt模型的致命打击,我们必须完全抛弃随机世界观。

以上都是网络新科学的关于小世界网络的研究,但这种研究在社会科学中很早就有涉及。20世纪60年代,耶鲁大学的社会心理学家米尔格兰姆(Stanley Milgram)就设计了一个实验。他将一套信件随机发送给居住在内布拉斯加州奥马哈的160个人,信中放了一个波士顿股票经纪人的名字,信中要求每个收信人将这套信寄给自己认为是比较接近那个股票经纪人的朋友。朋友收信后照此办理。最终,大部分信在经过五、六个步骤后都抵达了该股票经纪人。于是米尔格兰姆提出六度分隔理论。然而,类似其它传统的社会网络研究,六度分隔理论仍然缺乏“可计算性”,网络新科学的研究深化了这些关于网络结构的认识,使得洞见具有了可证伪性。

##幂律分布中的标度 通常各种社会现象都符合或者可以转化为正态分布,进而使用大数定律和中心极限定理为基础的统计方法,采用最小二乘法或者最大似然估计方法进行分析,正态分布的特点是其数学分布较为均匀,以人的身高为例,绝大多数正常的成年人都在一个稳定的范围内,即使存在高度如姚明的“小巨人”或者身高有限的侏儒,但并不存在真正的身高超过3米的巨人和身高小于5厘米的“米粒姑娘”。在分析符合正态分布的社会现象的时候,我们往往可以采用平均数(或众数)来测度群体的基本情况,在一个固定的分布中,总有一种处于理想状态的“平均人”或“常人”存在着,他代表着该群体的平均状况。

如幂律分布(以经济学中的帕累托定律和语言学中的zipf律为代表)所揭示的,存在着诸多的社会现象不符合正态分布的状况,而幂律分布往往很难转化为正态分布来处理。在符合幂律分布的社会现象中存在真正的巨人,他们所占有的资源远远超过其他人所占有的资源的总和,恰如帕累托定律所揭示的,也许20%的人占有了整个社会的80%的财富,同样,可能仅仅是20%的人为整个社会贡献了80%的财富。做了20年铁路工程师的帕累托如此钟爱物理学中的数学之美,为了使经济学变成物理学一样严谨的科学,写成《普通社会学纲要》。他发现20%的豆荚结了80%的豆子,20%的人占有了80%土地,(后来发展成为墨菲管理定律,20%的员工创造了80%的利润),这就是帕累托分布的起源。1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种关系就称为Zipf定律。

Barabási在其1999年发表在《科学》杂志上的一篇著名的论文《随机网络中尺度的涌现》一文中指出如基因网络和互联网这样具有复杂拓扑结构的网络中节点之间的联系符合一种普遍的无尺度的幂率分布。他认为这是由于两个原因造成的,一方面,新的节点持续不断地加入;另一方面,新的节点偏好选择那些已经具有良好连通性的网络。这篇论文引起巨大轰动,此后从这一角度出发,学界将之应用自然科学以外的到各个领域,其中不乏运用复杂网络的方法分析人类传播行为的研究出现。

幂律分布的最突出特点,不仅是其中有许多小事件,而且是许多小事件伴随着少数极大的事件。这种超乎寻常的大事件是不可能存在于钟形曲线内的。在这分布图的末端,幂律分布和钟形分布也存在重要的性质差异,钟形曲线末端呈指数递减,递减速度比幂律分布曲线大。出现这种呈指数级递减的末端,原因在于钟形曲线上缺乏中心节点。相比之下,幂律分布曲线递减速度较慢,允许罕见事件如中心节点的存在。

在随机网络中,分布的峰值意味着大多数节点的链接数量都相当,偏离此数值的节点极其少见。因此,随机网络的节点连通性具有自身的尺度特征,这种特征由普通节点体现出来,并受等级分布峰值的限制;而在幂律分布中,缺乏峰值,这说明在真实网络中,不存在带有随便性的典型节点,我们看到的是连续的有等级特征的节点,从罕见的中心节点到无数小节点一级一级分布开来。最大的中心节点后面紧跟着两三个较小的中心节点,然后是十几个更小的节点,以此类推,直到最后无数小节点。

在互联网中发现幂律的存在,不仅使我们吃惊,还迫使我们承认中心节点确实存在。缓慢降低的幂律分布很自然地能和高度链接的异常节点结合起来,它预言每个无尺度网络都会有几个大的中心节点确定网络的拓扑结构。该拓扑结构决定了真实网络的结构稳定性、动态行为、稳健性(robustness)、容错性以及承受攻击的能力。

##阿基里斯的脚踵 1965年美国东北部大停电,凸显了人造复杂网络的一个问题:由连通性所导致的脆弱性。大停电事故是一个典型的级联故障;经济领域经常出现级联故障,如1997年亚洲金融危机;互联网也存在路由器破坏造成的级联故障,重新发送的信息进一步加剧网络拥挤。与之不同,尤卡坦陨星撞击灭绝了成千上万物种,其中就包括恐龙,但整个生态系统显示出人造系统所不具备的容错性。1911年禁止猎捕海獭,海獭物种迅速恢复,海胆减少,海藻增多,为海洋鱼类提供了食物,避免了加州海滩的退化,保护好一个处于中心节点的物种,就极大地改变了海岸的生态。

这种容错性是通过高度互联的复杂网络保证的。 Shlomo Havlin等发现对于无尺度网络来说,如果次数幂小于等于3,这一阈值就不存在。而绝大多数无尺度网络,无论是互联网还是细胞,都是无尺度的,而且其次数幂都小于3。因此,这些网络只有当所有节点被移除后才会崩溃。但实际上,删除多个节点后,造成的破坏就开始明显显现出来,进一步删除更多中心节点,就目睹了网络的大崩溃,把互联网分割成了细小的互相隔绝的碎片。破坏少数几个中心节点,一个无尺度网络就能立即瘫痪。

我们发现网络的崩溃不是渐进的过程,随机网络存在一个错误临界阈值,只随机删除几个节点对网络的整体性影响不大,直到超过这一阈值才会崩溃;但互联网络却拒绝崩溃,证明了互联网络和人类的其它系统不同,它具有高度的稳健性。偶尔删除一个中心节点也不会带来致命的危害,其它的按等级分布的中心节点依然维持着网络的整体性。

无尺度网络结构中隐藏着人们未曾料到的阿基里斯的脚踵。邓肯-瓦茨证明删除的节点的连通性越高,就越有可能使整个系统瘫痪。其面对故障的稳健性和面临针对中心节点的攻击的脆弱性是共存的。针对中心节点的攻击可以使网络迅速崩溃。如细胞的蛋白质网络,在发生随机突变的情况下不会崩溃,但某种药物或疾病关闭了编码生成连通性最强的蛋白质的基因,细胞就无法生存了;针对中心节点进行攻击的菲律宾爱虫电脑病毒(Love bug)可以在几小时之内传遍全世界,造成全球互联网崩溃。    判断性网络是无尺度的,还是随机的,我们无需完整的性网络地图,我们只需检测这个网络的等级分布。Liljeros证明了性网络的无尺度特征,艾滋病病毒的传播网络的无尺度拓扑特征使这一病毒会不断传播,难以消亡。被治疗的中心节点越多,该传染病的阈值越高,这一病毒消亡的可能性越高。即便是我们无法找到所有的中心节点,但只要朝偏向高连通度的节点的这个方向去做,就能降低疾病传播的速率。

《圣经》中描述了大卫与巨人歌利亚之间的战斗,大卫,取出弹弓,借助上帝的帮助轻而易举地将巨人歌利亚杀死。歌利亚的死去使得敌军土崩瓦解,大卫一战成名。庞大的互联网中心节点也如同歌利亚一般,异常强大,它们带领着一个无标度的网路大军,所到之处,无往不胜。面对如洪水猛兽般的网络大军,黑客们只需要寻找中心节点,取其上将首级。当这些少数的巨人歌利亚倒下之后,网络大军就走到了崩溃的边缘。

##网络地图 米尔格兰姆的实验对象根本就不知道联系到目标对象的最短路径。即使手头有指南针,而且知道出口大体上是在北方,想找出出口也会耗费大量的事件,而且我们的行动效率也会很低,相反,如果手头有迷宫地图,不出5分钟,我们就能走出来;大多数疾病,并不是由特定的某一个疾病基因引起的,多基因通过隐藏在细胞中的复杂网络相互作用。后基因组计划即绘制细胞内部的网络地图,有了生命之书,我们现在需要的是生命地图。

社会网络、蛋白质网络等大多数网络是无向的,万维网和食物链是有方向的。有向性使万维网成为一个非均匀网络。

万维网被分隔成3个主要的大陆:IN大陆、中央大陆、OUT大陆、从IN大陆到OUT大陆的管道、IN大陆和OUT大陆上的触须、孤岛。互联网呈现碎片状的特征,孤岛和IN大陆部分处于隔离状态,无论网络机器人多么努力也找不到那上面的文档。无论网络是随机的还是无尺度的,只要链接是有向的,就会存在3个大陆,3个大陆并不是仅有的分隔,仔细观察还会发现大陆会进一步分为很小的村庄和大城市。

现在我们开始把细胞看作似乎一个整体,即作为一个网络,而不是一袋子独立的化学物质。例如,过去认为控制癌症的p53基因远没有想象的那么大力量,摆脱对p53细胞周期调控因子的迷信,而关注p53网络,这使我们看到另一条道路:首先需要破译网络地图的拓扑结构,找到修复p53细胞周期调控因子功能的药物。

##互联网的觉醒:自组织和适应性 我们先遮盖细节,只观察节点和链接;完成这一步之后,我们必须跨越拓扑结构,关注链接上的动能,弄清楚节点和节点之间的动力学机制。

幂律的存在,将复杂网络从ER模型的随机性的丛林里拯救出来,将其放在色彩斑斓的,充满了丰富理论营养的自组织的舞台的中心。1965年,Leo Kadanoff突然意识到:在临界点附近,我们就不能再把原子当成独立的粒子看待,而应该把它们看作是属于一个个社区,共同行动的群体。可以把原子看作是装在一个个盒子里,每个盒子里的原子都有同样的行为方式。Kenneth Wilson的重正化理论证明了每当无序变成有序的临界点,即由混沌到有序的临界点的时候都会发现幂律的存在,他给相变理论的金字塔添上了顶端的最后一块石头,并于1982年获得诺贝尔物理学奖。一旦系统被迫发生相变,一切随之改变,继而出现幂律。相变理论表明了从混沌到有序的过程受到自组织的影响。爱因斯坦对印度不知名的物理学者玻色论文,并在其基础上写成论文《单原子气体量子论》。爱因斯坦预测,如果全部的粒子足够冷却,粒子中的一大部分会安顿在最低的能量点上,他们会形成新的形态,称作“玻色-爱因斯坦凝聚”。直到1995年才被证明,“玻色-爱因斯坦凝聚”成了物理学家的标准工具箱。

我们遇到一个问题,幂律的存在是否意味着网络是从无序到有序的相变的产物?答案是网络并不处于由随机到有序的道路上,它们也不处于随机性和混沌的边缘,无尺度拓扑结构表明网络的形成源于自组织原则的作用,不管网络多大、多复杂,只要存在优先原则和增长因素,它就会保持中心节点和无尺度拓扑结构。

在某些网络中胜者通吃,会获得所有链接,因而带有明显的“玻色-爱因斯坦凝聚”特征。但胜者通吃网络并不是无尺度的,这种网络只有一个中心节点和多个微型节点。而无尺度网络中,节点带有明显的等级分布。胜者通吃行为会破坏无尺度拓扑结构中中心节点的等级分布,使其变成星状网络,如微软公司。节点永远为了为获得联系而竞争,因为在相互联系的世界中,连接数量就代表了生存能力。公司争夺客户、演员争夺角色、普通人找你过多的社会链接。 与胜者通吃的星状网络相比,无尺度网络是一个适应性网络。

自组织网络具有的适应性和对内部故障的容忍度是其天然优势,基地组织是一个没有蜘蛛的网络,没有变成中央集权的网络,没有军队和企业所采用的属性结构,它发展成为一个自组织的网络,网络中的等级化的中心节点使组织联系在一起。因此,即使去除了拉登和他最亲近的亲信,也可能无法根除它带来的威胁。我们最大的敌人,可能是对这种新秩序不熟悉,而且缺乏有效的语言来表述我们的经历。针对基地组织的战斗,其手段可能是尽可能多的去除网络中的中心节点;然而是基地组织崩溃并不能终结这场战争,只有充分消除其自组织的法则——伊斯兰好战分子的愤怒——才能根除恐怖分子节点建立链接的需求和渴望。

你知道字母a存储在大脑的哪个位置吗?自组织结构也不知道答案从哪里来的。 我们无法预言网络何时会具有自我意识,但显然它已经有了自己的生命,它在不断成长,不断演化。《黑客帝国》描绘了全球互联网具有智能后的图景,也许这并不仅仅是想象。或许有一天,互联网会觉醒。

Avatar
王成军
“Education is the kindling of a flame, not the filling of a vessel.” ― Socrates