书
大规模生物网络构建与分析
ConstructionandAnalysisofLargescale
BiologicalNetworks
刘 伟 谢红卫 著
国防科技大学出版社
·长沙·
书
大规模生物网络构建与分析
ConstructionandAnalysisofLargescale
BiologicalNetworks
刘 伟 谢红卫 著
国防科技大学出版社
·长沙·
图书在版编目 (CIP)数据
大规模生物网络构建与分析/刘伟,谢红卫著 —长沙:国防科技大
学出版社,201712
ISBN978-7-5673-0482-6
Ⅰ①大… Ⅱ①刘… ②谢… Ⅲ①机器学习—分析方法
Ⅳ①TP181
中国版本图书馆 CIP数据核字(2017)第 017198号
大规模生物网络构建与分析
DAGUIMOSHENGWUWANGLUOGOUJIANYUFENXI
国防科技大学出版社出版发行
电话:(0731)84572640 邮政编码:410073
责任编辑:魏云江
新华书店总店北京发行所经销
国防科技大学印刷厂印装
开本:740×960 1/16 印张:125 插页:2 字数:202千
2017年 12月第 1版第 1次印刷 印数:1-300册
ISBN978-7-5673-0482-6
定价:3600元
前 言
生物分子网络是描述复杂生命系统的最直接、最有力的工具之一。
研究生物网络是了解生命活动过程的重要途径。随着实验方法的改进和
实验数据的积累,对已有生物网络数据的分析和利用成为生物学家面临
的一大挑战,而相关的生物信息学分析方法成为近年来研究的热点。本
书总结了本课题组近年来在生物网络构建与分析领域的主要研究成果,
旨在使用生物信息学方法解决生物网络的结构分析、信号流走向确定、
人体组织特异网络构建以及基于网络的疾病研究等问题。
第 1章介绍生物网络分析的通用生物信息学方法。内容包括生物网
络的基本组成、一般作用方式和特点,生物网络研究的几个主要阶段以
及生物信息学在生物网络研究方面取得的最新进展。
第 2章提出了一种新的指标来度量生物网络中节点属性的重要性。
在信号网络中,衡量单个蛋白质的重要性有助于发现细胞信号转导过程
中关键的蛋白质以及生物系统的薄弱环节,进一步辅助疾病诊断,具有
重要的理论意义和实用价值。但是该领域中缺乏这方面的评价指标,因
此本章提出了一种新的指标 SigFlux。该指标与基因必要性和进化速率
显著相关,表明它可以用于度量信号网络中单个蛋白质的重要性。同
时,发现高 -SigFlux值、低 -连接度的蛋白质在重要分子如受体和转
录因子中显著富集,证明该指标能够在整个网络的范围内度量蛋白质的
重要性。
第 3章提出了多种生物信息学方法来预测信号转导网络中的信号流
走向。在生物网络中,信号流走向是蛋白质相互作用的重要属性。然
而,目前高通量技术得到的大部分蛋白质相互作用都被假定为是没有方
向的。为了解决这个问题,本章分别基于结构域、功能注释和蛋白质序
列信息来预测蛋白质相互作用对之间的信号流走向,用于推断信号网络
·1·
国防科技大学出版社版权所有
未经许可禁止转载
中蛋白质相互作用的信号流走向。以人、小鼠、大鼠、果蝇和酵母中已
知方向的蛋白质相互作用作为黄金标准阳性集,蛋白质复合体作为标准
阴性集。采用交叉验证对该方法进行评估,证实该方法具有较高的准确
率和覆盖度以及较低的错误率。进一步,本章采用贝叶斯方法整合结构
域、蛋白质功能等多种数据源进行信号流走向的预测,利用综合的似然
比打分值判断方向,相比任意单个预测方法具有最高的可信度和最广的
应用范围。本章将发展的新方法用于整合的人类蛋白质相互作用网络,
推断出一个高可信的有向信号网络。该网络包含了大量潜在的信号通
路,且与已知数据库的重合部分具有较高的一致属性。比较原有通路预
测方法,本章提出的方法可用于蛋白质组规模的相互作用中信号流走向
预测,提供蛋白质相互作用网络的整体方向性注释,为生物网络研究提
供全新的理解。
第 4章介绍人体组织特异网络的构建与分析方法。首先讨论基因组
织特异性的定义和检测方法,然后比较了看家基因和组织特异基因的不
同功能和特点,最后以人类组织特异表达数据为基础构建人的各种组织
特异网络,并分析了它们的网络属性。
最后两章讨论了生物网络与疾病相关的研究成果。第 5章介绍了基
于生物信息学的癌基因和药物靶标发现方法,提出了一种新的基于网络
特征、序列特征和功能注释信息的癌基因发现方法。第 6章则将组织特
异网络与疾病异常类相结合,研究了生物网络属性与疾病异常类之间的
关联关系。
感谢国防科技大学生物信息学课题组全体老师和同学在研究中的贡
献和支持。感谢北京蛋白质组学研究中心的老师在作者学习过程中给予
的培养和帮助。本书作为生物网络研究方面的专著,可作为高等院校生
物信息学相关专业师生的参考书。由于著者的水平有限,本书的选材和
文字难免存在不当和疏漏之处,敬请读者不吝批评指正。
作 者
2017年 10月于国防科技大学
·2·
国防科技大学出版社版权所有
未经许可禁止转载
目 录
第 1章 生物网络的信息学分析方法
11 静态网络属性分析!!!!!!!!!!!!!!! ( 2 )
111 单个节点的属性 !!!!!!!!!!!!! ( 3 )
112 子网络 !!!!!!!!!!!!!!!!! ( 5 )
113 总体属性 !!!!!!!!!!!!!!!! (10)
12 单个节点的动态属性分析!!!!!!!!!!!! (17)
13 条件特异子网的构建与分析!!!!!!!!!!! (19)
131 动态蛋白质复合物的发现 !!!!!!!!! (19)
132 组织特异子网的构建与分析 !!!!!!!! (20)
133 内容相关子网的识别 !!!!!!!!!!! (22)
14 网络动态的分析与模拟!!!!!!!!!!!!! (25)
141 物理相互作用网络的动态研究 !!!!!!! (25)
142 遗传相互作用网络的动态研究 !!!!!!! (26)
143 网络动态的建模与仿真 !!!!!!!!!! (28)
15 生物网络构建与分析的未来预期!!!!!!!!! (31)
参考文献 !!!!!!!!!!!!!!!!!!!!! (32)
第 2章 生物网络中单个蛋白质重要性的度量
21 数据集!!!!!!!!!!!!!!!!!!!! (41)
211 小鼠的海马神经元中的信号转导网络 !!!! (41)
·1·
国防科技大学出版社版权所有
未经许可禁止转载
212 小鼠基因敲除表型 !!!!!!!!!!!! (41)
213 小鼠进化速率 !!!!!!!!!!!!!! (42)
22 用于度量蛋白质重要性的新指标 SigFlux !!!!! (42)
221 SigFlux定义 !!!!!!!!!!!!!! (42)
222 SigFlux计算 !!!!!!!!!!!!!! (44)
23 SigFlux与蛋白质的必要性显著相关 !!!!!!! (46)
24 SigFlux可以指示蛋白质的进化速率 !!!!!!! (46)
25 SigFlux与连接度的比较 !!!!!!!!!!!! (49)
251 SigFlux和连接度分别表征蛋白质的整体属性和
局部属性 !!!!!!!!!!!!!!!! (49)
252 蛋白质的 SigFlux和连接度分布 !!!!!! (50)
参考文献 !!!!!!!!!!!!!!!!!!!!! (53)
第 3章 蛋白质相互作用中的信号流走向预测
31 基于结构域的预测方法!!!!!!!!!!!!! (56)
311 数据集 !!!!!!!!!!!!!!!!! (57)
312 基于结构域预测蛋白质相互作用中信号流走向
的方法 !!!!!!!!!!!!!!!!! (58)
313 方法评估 !!!!!!!!!!!!!!!! (61)
32 基于蛋白质功能注释的预测方法!!!!!!!!! (65)
321 蛋白质功能注释 !!!!!!!!!!!!! (66)
322 根据功能注释预测蛋白质相互作用中信号流走
向的方法 !!!!!!!!!!!!!!!! (69)
323 方法评估 !!!!!!!!!!!!!!!! (71)
33 基于蛋白质序列的预测方法!!!!!!!!!!! (74)
331 蛋白质序列的数学表示方法 !!!!!!!! (74)
332 支持向量机方法介绍 !!!!!!!!!!! (78)
·2·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
333 根据蛋白质序列预测蛋白质相互作用中信号流
走向的方法 !!!!!!!!!!!!!!! (81)
334 方法评估 !!!!!!!!!!!!!!!! (82)
34 基于贝叶斯方法的整合方法!!!!!!!!!!! (84)
341 贝叶斯整合方法的建立 !!!!!!!!!! (85)
342 贝叶斯方法评估 !!!!!!!!!!!!! (89)
343 预测蛋白质相互作用中信号流走向的网页工具
!!!!!!!!!!!!!!!!!!!! (92)
344 基于结构域、功能注释和蛋白质序列的方法与
贝叶斯方法比较 !!!!!!!!!!!!! (94)
35 在整合的人蛋白质相互作用网络中推断潜在信号通路
并进行属性分析!!!!!!!!!!!!!!!! (97)
351 整合的人类蛋白质相互作用数据集 !!!!! (98)
352 人蛋白质相互作用网络的方向标注 !!!!! (98)
353 预测有向网络的属性分析 !!!!!!!!! (103)
参考文献 !!!!!!!!!!!!!!!!!!!!! (110)
第 4章 人体组织特异网络的构建与分析
41 基因组织特异性的定义!!!!!!!!!!!!! (116)
411 看家基因 !!!!!!!!!!!!!!!! (117)
412 组织特异基因 !!!!!!!!!!!!!! (117)
42 基因组织特异性的检测方法!!!!!!!!!!! (118)
421 小规模实验技术 !!!!!!!!!!!!! (118)
422 基因转录组技术 !!!!!!!!!!!!! (119)
423 蛋白质检测技术 !!!!!!!!!!!!! (120)
424 不同检测方法的比较 !!!!!!!!!!! (121)
43 不同组织特异性基因的功能与特性!!!!!!!! (122)
·3·
目 录
国防科技大学出版社版权所有
未经许可禁止转载
431 不同组织特异性基因的功能 !!!!!!!! (123)
432 不同组织特异性基因的特性 !!!!!!!! (123)
433 基因组织特异性与疾病的关系 !!!!!!! (125)
44 基因组织特异性研究的主要发现!!!!!!!!! (127)
45 人的大规模组织特异网络的构建与分析!!!!!! (128)
451 蛋白质表达和相互作用数据集 !!!!!!! (129)
452 组织特异网络的构建 !!!!!!!!!!! (130)
453 组织特异网络的分析 !!!!!!!!!!! (135)
参考文献 !!!!!!!!!!!!!!!!!!!!! (138)
第 5章 基于生物信息学的药物靶标发现
51 用于药靶发现的数据库资源!!!!!!!!!!! (146)
511 疾病相关的基因数据库 !!!!!!!!!! (146)
512 候选药靶数据库 !!!!!!!!!!!!! (147)
513 疾病相关的基因芯片数据库 !!!!!!!! (148)
514 其他相关数据库 !!!!!!!!!!!!! (148)
52 用于药靶发现的生物信息学方法!!!!!!!!! (149)
521 基因组方法 !!!!!!!!!!!!!!! (149)
522 基因芯片方法 !!!!!!!!!!!!!! (150)
523 蛋白质组学方法 !!!!!!!!!!!!! (152)
524 代谢组方法 !!!!!!!!!!!!!!! (154)
525 整合多组学数据的系统生物学方法 !!!!! (155)
53 潜在药靶的生物信息学验证!!!!!!!!!!! (158)
531 蛋白质的可药性 !!!!!!!!!!!!! (158)
532 药物的副作用 !!!!!!!!!!!!!! (159)
54 采用生物信息学方法预测药物靶标的优势!!!!! (160)
55 基于蛋白质的多种属性预测潜在的癌基因!!!!! (161)
·4·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
551 癌基因和相互作用数据集 !!!!!!!!! (162)
552 蛋白质的生物学特征提取 !!!!!!!!! (163)
553 癌基因分类模型构建与评估 !!!!!!!! (166)
554 新的潜在癌基因预测 !!!!!!!!!!! (168)
参考文献 !!!!!!!!!!!!!!!!!!!!! (172)
第 6章 生物网络属性与疾病关联研究
61 基因异常类的划分!!!!!!!!!!!!!!! (179)
62 异常类中疾病蛋白属性分析!!!!!!!!!!! (179)
621 按照异常类分析疾病蛋白的属性 !!!!!! (179)
622 根据共有蛋白分析异常类 !!!!!!!!! (181)
63 异常类对应网络的属性分析!!!!!!!!!!! (183)
64 异常类与组织特异性的关联分析!!!!!!!!! (186)
641 计算疾病蛋白的富集系数和 p值 !!!!!! (186)
642 分析异常类与组织/细胞之间的对应关系 !! (187)
参考文献 !!!!!!!!!!!!!!!!!!!!! (189)
·5·
目 录
国防科技大学出版社版权所有
未经许可禁止转载
书
第 1章 生物网络的信息学
分析方法
生物网络是描述复杂生命系统的最直接、最有力的工具之一,其中
节点对应系统中的基因或者蛋白质,两节点之间的连线则表示分子之间
的相互作用。很多生命活动都涉及多种分子的协同作用,按照生物网络
发挥的主要功能可以分为蛋白质相互作用网络、代谢途径、信号转导网
络和基因调控网络等。针对各种生物网络数据,人们已经开展了大量的
研究工作,如采用复杂网络理论对生物网络的度分布、聚集系数、小世
界特性的研究,采用子图搜索算法和子图比较算法挖掘生物网络模体,
采用聚类方法挖掘生物网络模块,多物种中生物网络的比较研究等。但
这些分析方法都是基于静态的分子网络模型,即假定一对蛋白质能够发
生相互作用,那么在这两个节点之间存在一个连接,网络的结构和特性
不随着时间和条件的改变而改变。在实际生物系统中,网络时刻都在发
生改变,也正是这种改变才使得生物体能够对外界刺激快速作出响应,
完成各种复杂的生物学功能。因此,对生物网络进行动态分析是揭示生
物系统运行规律的关键[1-3]
。
动态生物网络的研究历史分为三个阶段。第一阶段:在对单个节点
属性的分析过程中,人们发现部分节点展现出很强的动态性,可依据节
点在不同条件下的表达变化情况进行划分,并且各类蛋白质因其动态性
差异具有特定的功能。第二阶段:通过将静态相互作用与基因表达或代
谢流量相结合,提取那些在不同实验条件下呈现活跃状态的节点和相互
作用,构建条件特异的相互作用网络,如动态的蛋白质复合物、时间特
异子网、组织特异子网等。第三阶段:以实验方法直接测定不同条件、
不同物种以及不同时间对应的相互作用网络,对网络的动态行为进行分
析和模拟。这些研究的主要目标是:从表征系统的绝对属性过渡到分析
·1·
国防科技大学出版社版权所有
未经许可禁止转载
在特定情况下的系统动态响应,揭示生物系统的内部运行机制。下面就
按照这三个阶段对动态生物网络的研究作一介绍。
11 静态网络属性分析
自然界和人类社会中存在的大量复杂系统可以通过形形色色的复杂
网络加以描述。一个典型的复杂网络由许多节点和连接节点之间的边组
成,其中节点代表复杂系统中不同的个体,每个节点都有自身的动力学
行为,边代表个体之间的相互作用。互联网、超文本传输协议、食物链
网络、基因网络、蛋白质相互作用网络、无线通信网络、高速公路网、
电力网络、神经网络、超大规模集成电路、人体细胞代谢网络、流行病
传播网络等都是复杂网络,如图 1-1所示。
图 1-1 网络作为一种通用的语言用于表征多种复杂系统
网络作为一种通用的语言,提供了一个强大的表示和分析工具。当
把一个系统描述为网络的形式之后,就可以用图论的理论分析网络的统
计性质,如用网络的平均路径长度、度分布、聚类系数等来描述网络。
目前,基于复杂网络的分析方法,研究人员已开展了大量针对生物网络
数据的研究工作,如采用复杂网络理论对生物网络的度分布、聚集系
·2·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
数、小世界特性的研究,采用子图搜索算法和子图比较算法挖掘生物网
络模体,采用聚类方法挖掘生物网络模块等。下面对这些方法作一
介绍。
111 单个节点的属性
网络是一个包含大量个体与个体之间相互作用的系统,可以用节点
和节点之间的作用关系构成的图 G=(V,E)来表示,其中 V代表顶点
集合,E代表边集合。按照图中的边是否有方向,可以把图分为有向图
和无向图。图 1-2给出了一个生物网络的示意图。
图 1-2 生物网络结构示意图
描述网络拓扑属性的常用指标包括连接度 (degree)、聚集系数
(clusteringcoefficient)、最 短 路 径 长 度 (shortestpathlength)、介 度
(betweenness)等。
·3·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
1111 连接度
连接度定义为与某个节点发生相互作用的其他节点的数目。对于无
向图,连接度是图中某节点的边的数目。对于有向图,连接度定义为出
度和入度的和。网络的度分布是指随机地选择一个节点,其连接度为 k
的概率 P(k),它是度量网络属性的重要指标。
网络中存在少量连接度很高的节点则称为中心 (hub)节点。作为
网络中的枢纽,中心节点在生物的进化和维系相互作用网络的稳定性等
方面有着不可替代的作用。这些蛋白质往往参与重要的生命活动,并发
挥关键的生物学功能。通过比较中心节点和其他节点在生物学重要性上
的区别,可以发现中心节点具有很高的必要性,即在基因敲除实验中更
容易导致个体的死亡,并且发现其进化速率也受到一定的抑制。
1112 聚集系数
聚集系数描述了顶点的邻接点之间连接的可能性。网络中一个节点
i的聚集系数 Ci定义为:
Ci=2ni/ki·(ki-1) (1-1)
其中,ni表示与节点 i相连的 ki个节点之间的边的数目。
网络的平均聚集系数定义为全部节点聚集系数的平均值。聚集系数
可以反映网络的模块性质,平均聚集系数越大,表明网络中存在的模块
结构越多。
1113 最短路径长度
已知网络中的两个节点 i和 j,最短路径 lij定义为所有连通 (i,j)
的通路中,经过其他顶点最少的一条 (几条)路径,其长度称为最短
路径长度。平均路径长度是对网络中任意一对顶点的最短路径长度求平
均,用于描述网络中分离任意两个顶点所需的平均步数。
1114 介度
节点的介度定义为:所有的节点对之间通过该节点的最短路径的条
数。介度反映了一个网络中节点可能需要承载的流量。节点的介度越
·4·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
大,流经它的数据分组越多,意味着它更容易拥塞,成为网络的瓶颈。
通常,中心节点的介度往往很大。
通过分析生物网络中单个节点的拓扑属性,能够衡量网络中单个蛋
白质的重要性,从而有助于发现细胞过程中关键的蛋白质以及生物系统
的薄弱环节。例如,致病基因通常具有较高的连接度,与其他致病基因
距离较近,因此分析网络属性可用于发掘新的致病基因,进一步辅助疾
病诊断和治疗。同时,通过分析网络中所有节点的拓扑属性,可以帮助
人们了解完整的生物网络所具有的规律和特点。
112 子网络
结构模块是网络中由少量节点 (表示基因、蛋白质或者其他生物分
子)按照一定拓扑结构构成并且相对于随机网络在网络中显著出现的小
规模模式。在酵母转录调控网络中,人们提出了六种网络模块,它们分
别是自调控 (autoregulation)、多组件回路 (multicomponentloop)、前
馈回路 (forwardloop)、单输入模块 (singleinputmotif)、多输入模块
(multiinputmotif)和调控链 (regulatorchain),如图 1-3所示。实际
上,这六种模块广泛存在于各种生物学网络中,它们主要是一些具有结
构特征的模式,是网络复杂结构构成的基本单元。有学者做了一个生动
的比喻,生物模块就像我们玩过的乐高玩具插件,很多不同形状和大小
的乐高插件通过相同的协议规则发生相互作用,从而搭建出变化多端的
结构。不同插件可以在新的组合中重复使用,丢失或者损失的插件也很
容易被替代,新的插件源源不断地被推出,系统正是通过这种方式逐渐
地演化。
通过鉴别各种内部高度连接的节点集合,可以将生物网络划分成不
同的结构模块,模块是发挥特定的生物学功能的基本单位。例如,在基
因调控网络中,一些生物大分子集合共同调控细胞周期的不同时相过
程;蛋白质相互作用网络中,蛋白质复合物、蛋白质 -DNA复合物构
成的模块是很多生物功能的核心部件;信号转导网络中,各种信号通路
展现了对不同信号流向的控制。在实际网络中,各种模块并非同样显
著,每个网络都会有一系列独特的模块类型。这些模块揭示了相互作用
·5·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
模式的特点,表现了该网络的特征。
说明:虚线表示自调控,圆形节点表示调控因子,方形节点表示被调控因子。
图 1-3 酵母转录调控网络中的六种模块
1121 网络模块的搜索算法
由于网络模块的划分方法多种多样,可以将网络划分为包含 10~
20个成员的子集合,也可以划分成更大或者更小的模块,可能产生上
亿的组合方式。模块划分并非是很简单的任务。为了识别和理解结构模
块以及它们之间的关系,人们开发了多种工具用于分析网络的模块性,
如专门针对 KEGG网络开发的 PathwayBlast软件等。Milo等首次将生物
网络与随机网络进行比较,寻找具有统计显著性的模块,并证实结构模
块具有重要的信息处理作用。其基本原理如图 1-4所示,在一个真实
·6·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
说明:图中虚线部分为待搜索模块,网络模块是在真实网络中比随机网络
中出现得明显更加频繁的模式。随机网络中,每个节点与真实网络中的对应节
点具有相同的出度和入度。
图 1-4 网络模块搜索示意图
·7·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
网络中搜索如图 1-4(a)中下部所示的 3-节点模块,考察该模块在真
实网络中是否显著富集。为此,需要构建大量的随机网络作为参照,为
保证结果可信,随机网络中每个节点与真实网络中的对应节点具有相同
的出度和入度。可以看到,在真实网络中,这种网络模块大量存在,而
在构建的随机网络中出现次数较少。通过统计性的分析和比较,可确定
该模块在实际网络中的富集程度。但是在该方法的搜索过程中采用了穷
举法,其所需的计算时间会随着网络规模的增大而迅速增加。因此,
Kashtan等提出了一种基于子网随机采样的新方法,搜索具有统计显著
性的结构模块,可以用于复杂网络的模块分析,并且提供了一种现成的
工具 MFinder。最近几年,该领域的研究人员提出了很多基于随机采样
的方法以及改进的快速方法,开发了更加便捷的模块搜索工具,如
MAVisto和 FANMOD等。结构模块划分作为网络生物信息学分析的基本
方法,与模块功能紧密相关,为网络的功能分析和生物学解释提供了很
大的帮助。
比较现有的网络模块搜索工具,可以发现它们存在一些共性的
问题:
(1)搜索效率问题。由于基于统计显著性比较的方法需要产生大
量的随机网络,因此在搜索过程中要进行大量的运算,特别是面对大规
模的蛋白质相互作用网络,为了批量地得到所有的网络模块,需要进行
复杂的长时间的计算过程。
(2)模块大小限制。现有工具主要针对 3-节点和 4-节点模块进
行搜索,当模块中蛋白数量较大时,基于统计显著性比较的方法往往由
于运算时间过长而难以奏效。
1122 网络模块的生物学意义
控制回路是生物学系统的必要组成部分,是系统实现其生物学功能
的基本单位,如表 1-1所示。通过搜索大规模信号转导网络中结构模
块,可以发现其中存在大量 3-节点和 4-节点的显著富集模块。结果
发现,大部分显著富集的模块为前馈回路,而不是反馈回路。前馈回路
可以形成多层感知器模块,组成信号通路的级联结构。同时,前馈回路
还可以实现信号的多通路传递,保证部分分子缺失时系统的稳定性。
·8·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
表 1-1 网络模体的生物学意义
模体类型 图例 作用
负自身调节 加快响应时间,减少 X浓度
的细胞可变性
正自身调节 减缓响应时间,可能的双稳态
协调前馈环
当 Z输入函数是逻辑 AND时,
信号敏感的延迟过滤掉短暂
的 ON输入脉冲;当 Z输入函
数是逻辑 OR时,则过滤掉
OFF脉冲
非协调前馈环 生成脉冲信号,加速信号敏
感响应
单输入模块 协同控制,按时间顺序启动
各启动子的活性
多输出前馈环
对每 个 信 号 起 前 馈 环 作 用,
按时间顺序开启各启动子的
活性
双扇
致密重叠
调节因子
基于多输入的组合逻辑,依
赖每个基因的输入函数
·9·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
在基因调控网络中,也广泛存在着多种结构模块,不同的模块表明
了调控信号不同的传导方式。例如,大肠杆菌的转录调控网络没有反馈
回路,说明原核生物基因调控机制相对简单。而对于真核生物,反馈是
一个重要的机制,它在生命过程中具有举足轻重的作用。最近研究表
明,负自反馈不仅加快了基因通路 (genecircuit)的响应时间,而且能
减小各个细胞内蛋白质水平的差异,而正自反馈则与之相反,它减慢了
基因通路的响应时间,增加了各个细胞之间的差异。进一步,基于单个
调控关系的种类 (激活和抑制两种),前馈回路可以划分为一致的
(coherent)和不一致的 (incoherent)两类。其中,一致的前馈回路可
以看作是转录网络中的一个信号敏感延迟元件,而表中第一种不一致前
馈回路则能产生一个脉冲信号并且加速系统的响应。在不同生物体的基
因调控网络中,各种控制回路出现的频率不同,以体现系统的特异性并
保证相应功能的实现。
113 总体属性
通过分析网络中节点的拓扑属性,发现实际网络中存在一些普适的
规律。按照网络的结构特点,可以分为三种常见的网络类型(图 1-5)。
第一种是随机网络,其连通度分布符合泊松分布,在大尺度情况下近似
服从正态分布。第二种是无尺度网络,其连通度分布符合幂率分布,平
均聚类系数近似为常数。第三种是层次网络,其连通度分布符合幂率分
布,平均聚类系数与连通度的倒数成正比。研究发现,大部分的生物网
络都属于无尺度网络,并具有小世界属性、高聚集性和鲁棒性。
1131 生物网络的高聚集性
聚集系数的值是网络潜在模块化的标志。模块是指协同运作以实现
相对独立功能的一组生理上或功能上相联系的结点。在实际生物系统
中,可以普遍地观察到模块的存在。网络中的每一个模块都能被约化为
一系列的三角形,这些三角形的密度可以由聚集系数 C的值来体现,而
所有结点的平均聚集系数则表征了相互作用的结点聚集成结点群 (模
块)的整体趋势。至今研究所涉及的细胞网络,包括蛋白质相互作用网
· 01·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
说明:图 (a-2)和 (a-3)是图 (a-1)的连接度和聚类系数分布曲线,
其他两列图同。
图 1-5 三种常见网络结构比较
络、蛋白域网络、代谢网络等,都有着很高的平均聚集系数,表明高聚
集性是生物网络的一个本质特性。高聚集性反映了细胞网络的高度模块
化,而细胞功能可能就是以一种高度模块化的方式来实现的。
· 11·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
1132 无尺度性质
如果网络中节点的连接度分布具有幂指数性质,那么该网络是无尺
度网络。许多现实中的网络结构,如因特网、人类社会和人体细胞代谢
网络等,都属于无尺度网络,或者有无尺度的特性。表 1-2给出了一
些无尺度网络的例子。
表 1-2 无尺度网络举例
网络 节点 连接
电影演员网络 演员 出演同一部电影
万维网 网页 超链接
因特网 路由器 物理连接
蛋白质相互作用网络 蛋白质 蛋白质之间的相互作用关系
金融网络 金融机构 借贷关系
美国飞机航班网络 机场 飞机航线
在拓扑属性上,大部分生物网络,包括蛋白质相互作用、信号转导
网络、基因调控网络等都具有无尺度性质,即蛋白质的连接度 P(k)服
从幂律分布,P(k)∝kγ
。这里 γ是连接度指数,γ的值越小,中心节点
在网络中的地位越重要。图 1-6给出了酵母蛋白质相互作用网络图,
它具有无尺度属性。对于生物学网络,一般 2<γ<3。在无尺度网络
中,少数节点连接度非常高,可以同很多节点发生相互作用;而大部分
节点具有较低的连接度,只能同少数节点发生相互作用。相对随机网
络,无尺度网络能够在外界刺激下保持网络整体结构的稳定性。
· 21·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
说明:(a)蛋白相互作用网络图中最大的类,包含全部蛋白的近 78%。(b)
相互作用网络中蛋白的连接度分布 P(k),发现其满足幂律分布。(c)考察不同
连接度对应蛋白质的重要性,横轴为连接度为 k的蛋白质数目,纵轴为它们是必
要蛋白 (具有致死性)的比例,统计分析表明蛋白质的连接度和致死性之间具
有正相关,皮尔森线性相关系数 r=075。
图 1-6 酵母中的蛋白质相互作用网络
· 31·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
1133 小世界属性
现实生活中大量存在陌生人由彼此共同认识的人而连结的小世界现
象。如果将这种现象抽象表示为网络,那么在这种网络图中大部分节点
不与彼此邻接,但从任一节点出发经少数几步就可到达目标节点。这样
的网络称为小世界网络。网络中节点之间的平均最短路径长度定义为网
络直径,用于衡量网络中节点的内部连通能力。网络的平均最短路径越
短,表明网络内部连通能力越强。很多网络具有小世界属性,如互联
网、演员关系网、电路网络等;并且很多复杂网络被证明具有较低的网
络直径,比如著名的人际关系网络直径为 6,即世界上的任何两个人,
平均只需通过 6个人就可以认识对方。
研究发现,大部分的生物学网络具有小世界的特征,而且其网络直
径较小。蛋白质相互作用网络的直径保守在 4和 5之间。例如,《自然》
杂志报道的人蛋白网络直径为 49, 《细胞》杂志报道的人蛋白网络直
径为 48。相比大的网络直径,小的直径被认为可以增强机体对外界和
内部扰动的反应效率,对机体的生存具有积极意义。
1134 网络无尺度与小世界属性的起源与进化
从前面介绍可知,蛋白质相互作用网络拥有无尺度分布和小世界性
质。前者是指网络中连接度为 k的节点出现的概率 P (k)满足幂律分
布。而当网络具有较短的平均最短路径长度和较高的平均聚集系数时,
此网络就满足小世界性质。生物网络不同于随机网络的无尺度分布、小
世界性质和模块化结构等是如何起源和进化的?这些特性的存在是生物
体长期进化过程中自然选择的结果,还是存在着某些内在约束机制使其
不可避免?为了回答这些问题,研究人员做出了很多努力。
有研究人员发现,无尺度网络结构对网络中随机节点的去除表现出
很好的鲁棒性 (robustness),但不能抵抗中心节点的去除,而较快的扰
动传播速度和较小的反应时间与小世界性质有关,这些在功能上存在一
定优势的特性可能是在自然选择的作用下产生的。目前,人们已经提出
了一些理论模拟的方法,通过建立一定规则的网络生长模型获得与真实
网络具有相似拓扑特性的网络,用于推断蛋白质网络的进化过程。学者
· 41·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
们先后提出了多个无尺度和小世界网络的进化模型,其中最有代表性的
是优先连接模型和复制 -分歧模型。
(1)优先连接模型
1999年,Barabasi和 Albert等提出了优先连接模型 (preferential
attachmentmodel),这是用于解释网络结构形成问题的最早且最简单的
模型。在该模型的网络生长过程中,新添加的节点与现存节点的连接度
成比例地连接到网络中的现存节点上。进行仿真实验,发现利用此模型
产生的网络具有无尺度性质。在酵母蛋白质相互作用数据集中,研究人
员对模型进行了测试。结果发现,蛋白质年龄与连接度之间存在强烈而
显著的关系,即蛋白质起源越早,其连接度越高。这些研究支持了网络
生长过程中优先连接机制的存在。
(2)复制 -分歧模型
2002年,研究人员提出了蛋白质相互作用网络的复制 -分歧模型
(duplicationdivergencemodel)。在该模型中,网络中的蛋白质被随机选
择并复制,且伴随着该蛋白质参与的所有相互作用。然后,基因突变导
致副本和原蛋白逐渐发生分歧,表现为它们参与的相互作用发生改变。
复制 -分歧模型可以理解为发生于基因组上的变化在网络拓扑结构变化
上的体现。在选择适当参数的情况下,由复制 -分歧模型进化来的网络
满足无尺度和小世界特性。同样,以酵母中蛋白质相互作用网络为模板
进行的测试支持了该模型的有效性。而且,当模型参数选择合理时,利
用复制 -分歧模型进化得到的网络除了满足无尺度性质外,还具有真实
网络的紧密度分布和介数分布等,而利用优先连接模型则无法获得。
虽然优先连接模型提出得最早,并且得到了部分文献的支持,但是
从近年来发表的文献看,该模型并非当今学术界认可的主流。其中一个
重要原因是,这种连接过程并不能与真正的生物学过程对应起来。而复
制 -分歧模型越来越受到认可,它可能揭示了真实的蛋白质相互作用网
络进化所遵循的规则。已经有研究证明,在酵母中至少有 40%的蛋白
质相互作用来源于复制事件。
· 51·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
1135 生物学系统的鲁棒性
细胞生活在复杂多变的内外环境中,某些基因可能出现突变或缺
失,各种营养物质及温度、pH值变化,细胞内部 mRNA和蛋白质合成
也存在着随机涨落。这就要求细胞在这些环境下,重要的生物学状态和
基本的生物学过程保持稳定。鲁棒性是生物系统的一个独特属性,对于
理解复杂疾病原理及其治疗设计极为重要。在控制论中,鲁棒性是指系
统在内外干扰下保持自身功能的能力,它使得系统能够用不可靠的元件
在不可预知的环境中稳健地运作。
生物网络用于保持其系统稳定性的方式主要有:
(1)生物通路和生物分子的冗余性。生物系统中可以经多条途径
来实现某一生物功能,当其中一条途径发生问题时,可以由其他冗余的
途径来实现功能,称为通路冗余。对于重要的生物学过程,网络结构中
通常会出现相近功能的备份节点。例如,酵母细胞周期中的 Clb5和
Clb6蛋白,它们的基因具有同源性,497%相同的可确定残基和类似的
功能。
(2)网络中的反馈机制。多数的生物系统是通过正、负反馈两种
机制联合作用实现系统的功能和维持系统的鲁棒性,负反馈在对抗干扰
并保持鲁棒性中发挥了重要作用,而正反馈通过增强刺激强度使系统鲁
棒性增强。例如,大肠杆菌中的化学趋向性网络就是通过负反馈来实现
鲁棒性的。
(3)功能模块化。生物网络中执行某一生物功能的子网络相对独
立,模块内部联系密切,模块之间相互作用较少。这样可以避免局部失
效可能导致的系统整体崩溃。
(4)结构稳定。生物网络所具有的无尺度分布、小世界性质和层
次模块化结构等,使得网络对参数变化、噪声和微小突变不敏感,增强
了系统对于环境改变的鲁棒性。
尽管如此,鲁棒性也是双刃剑,鲁棒性能够增强系统对于常见干扰
的适应性,但对于新的未知干扰,系统却极端脆弱。在鲁棒性与脆弱
性、性能与资源需求之间,存在折中。比如,细菌趋化性中,负反馈能
够提高细菌跟随化学梯度的能力,使其对外界化学浓度的改变具有鲁棒
· 61·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
性,但是如果没有负反馈,细菌会游动得更快,鲁棒性的代价是游动速
度的降低。
很多复杂疾病都可以从鲁棒性伴随脆弱性的角度来理解。比如正常
生命系统对能量供应相对不足、接近饥饿的状态具有鲁棒性,但异常的
过度营养而低能量需求的生活方式则可能使系统失去鲁棒性,导致糖尿
病的发生。此外,生物体正常的鲁棒性也可能会被疾病利用,从而使机
体自身调节和药物治疗失去效果。如抗药性是由 MDR1和其他基因的正
向调节产生的,这些基因的产物将有毒化学物质排出细胞,在正常情况
下保护生物体的安全,但是在癌症中被肿瘤用于保护恶性细胞,使其具
有抵抗药物的能力。又如艾滋病中,HIV侵染 CD4-阳性 T细胞,当细
胞启动抗毒响应时则被大量复制。HIV充分利用了 T细胞的鲁棒免疫响
应机制。对于这些疾病的治疗,也应该从鲁棒性的角度来设计,即寻找
伴随这些鲁棒性的弱点,重新建立对鲁棒性的控制。
12 单个节点的动态属性分析
在生物网络中,用于描述单个蛋白质拓扑属性的常用指标有连接
度、聚集系数、最短路径长度和介度,它们可以衡量网络中节点的重要
性、模块性、连通性和承载流量等。但这些指标主要针对静态网络进行
设计,很难刻画出网络中节点的动态特性。
为了更好地理解蛋白质相互作用网络和蛋白质复合物的动态组织规
律,人们在相互作用网络的范围内对重要蛋白质的瞬态行为开展了研究
工作。这些研究将蛋白质的基因表达谱与网络拓扑属性将结合,揭示了
一些有趣的发现。其中最重要的研究是 Han等发现中心蛋白可以划分成
聚会蛋白 (partyhub)和约会蛋白 (datehub)两类[4]
。这两类蛋白在
转录表达模式上有显著的差异,在不同条件下,聚会蛋白与其相互作用
蛋白的转录共表达系数更高,而约会蛋白与其相互作用蛋白的共表达系
数则相对较低。提示聚会蛋白能够同时与多个蛋白质发生相互作用,而
约会蛋白则在不同的地点和时间与不同的蛋白质发生相互作用。进一步
分析表明,聚会型中心蛋白处于功能模块的中心,而约会型中心蛋白处
· 71·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
于功能模块之间,充当模块连接者的角色。尽管这些发现受到了 Batada
等的质疑[5-6]
,但这种划分方法在总体上已被学术界所认可[7-11]
,并
且开拓了将蛋白质网络属性与基因表达谱结合研究的道路。
在 Han等工作的基础上,很多研究人员对网络中单个节点的动态属
性进行了深入的分析。在酵母蛋白质相互作用网络中,Yu等研究了中
心蛋白的拓扑属性,发现约会型中心蛋白表现出较高的介度和内部模块
性,而聚会型中心蛋白则表现出较高的聚集系数和模块间连接性[8]
。类
似于聚会蛋白和约会蛋白的划分方法,Taylor等提出将中心蛋白分为模
块内中心蛋白和模块间中心蛋白[9]
。这些研究可以认为是 Han等研究
工作的进一步验证和延伸。还有一些研究人员对中心蛋白作了进一步细
分。例如,Komurov等考察了酵母中各基因在 272个实验条件下的表达
情况,计算了基因的表达变化方差 (ExpressionVariance,EV)[10]
。EV
越接近于0,说明该基因的动态性越弱;而 EV越接近于1,说明该基因
的动态性越强。在由 2315个基因组成的 5456对相互作用的网络中,比
较了各蛋白质与其邻居节点的 EV值,发现相互作用的蛋白质之间 EV
值具有很高的相关性,说明能够发生相互作用的蛋白质具有类似的动态
特性。进一步,Komurov等将中心蛋白分为三类,提出了 “family”型
中心蛋白,此类蛋白与其邻居节点协同表达组成静态模块,而 “party”
型中心蛋白则与其邻居节点组成动态模块,静态模块和动态模块各自对
应了特定的功能。最近,Patil等结合相互作用蛋白质的基因共表达系数
和共表达稳定性,对分子网络的中心蛋白进行了重新分类[11]
。共表达
稳定性能够度量一对蛋白质在本质上是共表达的程度。根据这两个指
标,Patil等发现了两类中心蛋白:第一类中心蛋白与其邻居节点间共表
达系数和共表达稳定性都较高,往往位于模块之间;第二类中心蛋白与
其邻居节点间的共表达系数较低但稳定性较高,往往处于模块内部。第
二类蛋白类似于约会型中心蛋白,多参与瞬时相互作用。
作为动态分子网络研究的初步尝试,这些研究工作以中心蛋白作为
突破口,结合基因表达等动态信息将动态节点与静态节点进行区分,有
助于了解蛋白质的功能和分子网络的组织结构。尽管这些研究工作仅对
单个节点的动态属性进行分析,提出的节点动态性划分方法也多种多
样,但是作为网络中起重要作用的中心蛋白,这些具有不同动态特性的
· 81·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
蛋白质从时间和空间等不同角度影响着整个生命体的活动,反映了分子
网络动态性的特点。受这些研究工作的启发,人们开始将大规模分子网
络与动态的表达数据相结合,提取网络中动态性较强的部分并对其属性
进行分析。
13 条件特异子网的构建与分析
静态分子网络提供了对于细胞内系统行为的定性描述,而分子表达
数据可以提供分子在不同条件/时间/样本状态下的定量信息,因此,将
这两种数据源结合起来可用于阐释细胞内系统的动态组织形式。其基本
思路是以静态的相互作用网络为骨架,结合动态的分子表达数据发现在
不同条件下具有明显改变的那部分特异子网,从而研究系统的动态响应
情况。按照实验条件的不同,条件特异的子网可分为时间特异 (如进化
上保守的模块)、空间特异 (如依赖于亚细胞定位的蛋白质复合物、组
织特异表达的基因)和研究内容相关 (如疾病的生物标志物集合)几
个大的类别。下面对这几类条件特异子网的构建与分析方法进行介绍。
131 动态蛋白质复合物的发现
将蛋白质相互作用网络划分为网络模块,对于从网络角度理解细胞
分子机制和结构组成具有重要意义。目前,人们已经提出了多种用于发
现蛋白质复合物和功能模块划分的方法,如 G-N[12]
、MCODE[13]
、
RNSC[14]
、 LCMA[15]
、 DPClus[16]
、 APcluster[17]
、 MoNet[18]
、 IPCA[19]
、
COACH[20]
和 SPICi[21]
等。但传统的划分方法将蛋白质相互作用网络作
为一个静态图,忽略了网络中的动态信息。实际上,大部分的蛋白质复
合物是动态单元。一些亚基在特定的时间和亚细胞器中组装成复合物,
当发挥完特定的功能,该复合物就随之解体。由于现有的高通量相互作
用数据集中缺乏复合物的瞬态信息,因此很难通过计算方法研究和预测
该复合物的动态行为。例如,部分蛋白质在某一时刻参与组成了复合物
A,下一时刻又参与组成了复合物 B,现有的基于蛋白质相互作用网络
· 91·
第 1章 生物网络的信息学分析方法
国防科技大学出版社版权所有
未经许可禁止转载
的复合物检测技术无法区分这两个复合物,只能将它们融合成一个大的
复合物 AB。这严重影响了蛋白质复合物预测的精度,也妨碍了人们对
细胞组织结构的正确理解[22]
。
随着蛋白质相互作用和转录组数据的累积,整合基因表达谱和蛋白
质相互作用网络为动态的蛋白质复合物发现提供了新的途径[23-30]
。
Jansen等首先将蛋白质相互作用与 mRNA表达水平相结合,计算复合物
的表达活性水平[23]
。Tornow等利用超图方法评估了各基因的表达相关
性,构建了共表达基因网络用于发现功能模块[24]
。Hegde等结合功能
连接网络和基因表达数据,分析了生物系统的动态结构[25]
。Luo等通过
整合转录调控数据、基因表达数据和蛋白质相互作用网络,在系统生物
学水平上对特定类型的蛋白质复合物进行了研究[26]
。最近,Li等提出
了一种名为 TSNPCD的算法,通过聚类算法从时间序列子网中识别蛋
白质复合物[29]
。他们将这种方法与已有的蛋白质复合物发现方法进行
比较,发现相比基于静态相互作用网络的方法,将基因表达数据与蛋白
质相互作用数据相结合的方法能够更加有效地发现蛋白质复合物,复合
物内部的各蛋白质在功能上更加接近。2013年,Wang等根据表达曲线
的特征计算基因的动态阈值,研究细胞循环中多种蛋白质的动态,并分
别基于静态网络和动态网络寻找蛋白质复合物[30]
。他们的研究结果证
明,在敏感度、特异性和准确率上,基于动态网络的方法都要优于基于
静态网络的方法。此外,他们发现在细胞循环过程中,仅有 23%~45%
的蛋白质在同一个时间点处于激活状态,说明了蛋白质复合物具有高度
的动态表达性。这些预测方法为动态复合物发现提供了重要的手段,在
总体性能上优于基于静态网络的方法,将它们与实验方法相结合有助于
更加准确地发现动态复合物,有望成为动态复合物识别的主流方法。
132 组织特异子网的构建与分析
静态的蛋白质相互作用网络描述了在蛋白质之间可能发生的物理联
系,然而在特定的细胞或组织中,仅有一部分蛋白质被表达。理论上,
只有两个基因在一个细胞或组织中同时表达,在某些条件下它们的产物
才有可能发生相互作用。根据基因在各组织中的表达情况,可以定义组
· 02·
大规模生物网络构建与分析
国防科技大学出版社版权所有
未经许可禁止转载
试读结束,如需购买本书
请扫下方二维码
京东旗舰店 当当旗舰店