广西师范大学学报(自然科学版)2022年第2期

发布时间:2022-10-16 | 杂志分类:其他
免费制作
更多内容

广西师范大学学报(自然科学版)2022年第2期

http:∥xuebao.gxnu.edu.cnRobotX challenge[J]. IEEE Journal of Oceanic Engineering, 2019, 44(2): 343-351. DOI: 10.1109 / JOE.2018.2868488.[5] 谢德胜, 徐友春, 王任栋, 等. 基于三维激光雷达的无人车障碍物检测与跟踪[J]. 汽车工程, 2018, 40(8): 952-959.DOI: 10.19562 / j.chinasae.qcgc.2018.08.013.[6] 薛培林, 吴愿, 殷国栋, 等. 基于信息融合的城市自主车辆实时目标识别[ J]. 机械工程学报, 2020, 56(12): 165-173. DOI: 10.3901 / JME.2020.12.165.[7] 郑少武, 李巍华, 胡坚耀. 基于激光点云与图像信息融合的交通环境车辆检测[ J]. 仪器仪表学报, 2019, 40(12):143-151. DOI: 10.19650 / j.cnki.cjsi.J1905607.[8] WANG G J, WU J, XU T... [收起]
[展开]
广西师范大学学报(自然科学版)2022年第2期
粉丝: {{bookData.followerCount}}
文本内容
第51页

http:∥xuebao.gxnu.edu.cn

RobotX challenge[J]. IEEE Journal of Oceanic Engineering, 2019, 44(2): 343-351. DOI: 10.1109 / JOE.2018.2868488.

[5] 谢德胜, 徐友春, 王任栋, 等. 基于三维激光雷达的无人车障碍物检测与跟踪[J]. 汽车工程, 2018, 40(8): 952-959.

DOI: 10.19562 / j.chinasae.qcgc.2018.08.013.

[6] 薛培林, 吴愿, 殷国栋, 等. 基于信息融合的城市自主车辆实时目标识别[ J]. 机械工程学报, 2020, 56(12): 165-

173. DOI: 10.3901 / JME.2020.12.165.

[7] 郑少武, 李巍华, 胡坚耀. 基于激光点云与图像信息融合的交通环境车辆检测[ J]. 仪器仪表学报, 2019, 40(12):

143-151. DOI: 10.19650 / j.cnki.cjsi.J1905607.

[8] WANG G J, WU J, XU T, et al. 3D vehicle detection with RSU LiDAR for autonomous mine[ J]. IEEE Transactions on

Vehicular Technology, 2021, 70(1): 344-355. DOI: 10.1109 / TVT.2020.3048985.

[9] DAI D Y, WANG J K, CHEN Z H, et al. Image guidance based 3D vehicle detection in traffic scene[J]. Neurocomputing,

2021, 428: 1-11. DOI: 10.1016 / j.neucom.2020.11.060.

[10] 陈龙, 司译文, 田滨, 等. 基于 3D LiDAR 的矿山无人驾驶车行驶边界检测[J]. 煤炭学报, 2020, 45(6): 2140-2146.

DOI: 10.13225 / j.cnki.jccs.zn 20.0093.

[11] CHOE J S, JOO K D, IMTIAZ T, et al. Volumetric propagation network: stereo-LiDAR fusion for long-range depth

estimation[J]. IEEE Robotics and Automation Letters, 2021, 6(3): 4672-4679. DOI: 10.1109 / LRA.2021.3068712.

[12] 张灿龙, 李燕茹, 李志欣, 等. 基于核相关滤波与特征融合的分块跟踪算法[ J]. 广西师范大学学报(自然科学版),

2020, 38(5): 12-23. DOI: 10.16088 / j.issn.1001-6600.2020.05.002.

[13] NIE J, YAN J, YIN H L, et al. A multimodality fusion deep neural network and safety test strategy for intelligent vehicles

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6(2): 310-322. DOI: 10.1109 / TIV.2020.3027319.

[14] ZHANG X Y, LI Z W, GAO X. Channel attention in LiDAR-camera fusion for lane line segmentation [ J]. Pattern

Recognition, 2021, 118: 108020. DOI: 10.1016 / J.PATCOG.2021.108020.

[15] 王肖, 李克强, 王建强, 等. 基于三维激光雷达的智能车辆目标参数辨识[ J]. 汽车工程, 2016, 38(9): 1146-1152.

DOI: 10.19562 / j.chinasae.qcgc.2016.09.017.

[16] 李明磊, 王力, 宗文鹏, 等. 采用八叉树体素生长的点云平面提取[J]. 光学精密工程, 2018, 26(1): 172-183. DOI:

10.3788 / OPE.20182601.0172.

[17] 吴毅华, 梁华为, 王智灵, 等. 基于激光雷达回波信号的自适应阈值车道线检测[ J]. 机器人, 2015, 37(4): 451-

458. DOI: 10.13973 / j.cnki.robot.2015.0451.

[18] 陈紫强, 张雅琼.一种基于 YOLOv4 的改进 DeepSort 目标跟踪算法[J]. 桂林电子科技大学学报, 2021, 41(2): 140-

145. DOI: 10.16725 / j.cnki.cn45-1351 / tn.2021.02.009.

[19] 丁萌, 姜欣言. 先进驾驶辅助系统中基于单目视觉的场景深度估计方法[ J]. 光学学报, 2020, 40(17): 1715001.

DOI: 10.3788 / AOS202040.1715001.

[20] 彭博, 蔡晓禹, 唐聚, 等. 基于形态检测与深度学习的高空视频车辆识别[J]. 交通运输系统工程与信息, 2019, 19

(6): 45-51. DOI: 10.16097 / j.cnki.1009-6744.2019.06.008.

[21] 程海博, 熊显名. 基于 GIoU 的 YOLOv3 车辆识别方法[ J]. 桂林电子科技大学学报, 2020, 40(5): 429-433. DOI:

10.16725 / j.cnki.cn45-1351 / tn.2020.05.010.

[22] ZHAO X M, SUN P P, XU Z G, et al. Fusion of 3D LIDAR and camera data for object detection in autonomous vehicle

applications[J]. IEEE Sensors Journal, 2020, 20(9): 4901-4913. DOI: 10.1109 / JSEN.2020.2966034.

[23] ZHE T, HUANG L Q, WU Q, et al. Inter-vehicle distance estimation method based on monocular vision using 3D detection

[J]. IEEE Transactions on Vehicular Technology, 2020, 69(5): 4907-4919. DOI: 10.1109 / TVT.2020.2977623.

[24] POURMOHAMAD T, LEE H K H. The statistical filter approach to constrained optimization[ J]. Technometrics, 2020, 62

(3): 303-312. DOI: 10.1080 / 00401706.2019.1638304.

[25] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥ 2016 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2016: 770-778. DOI: 10.

1109 / CVPR.2016.90.

47

第52页

广西师范大学学报(自然科学版),2022,40(2)

[26] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥ 2017 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 936-944. DOI: 10.

1109 / CVPR.2017.106.

[27] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics

Research, 2013, 32(11): 1231-1237. DOI: 10.1177 / 0278364913491297.

Vehicle Detection for Autonomous Vehicle System Based on

Multi-modal Feature Fusion

XUE Qiwei

1,2

, WU Xiru

1,2∗

(1. School of Electronic Engineering and Automation, Guilin University of Electronic Technology,

Guilin Guangxi 541004, China; 2. Guangxi Key Laboratory for Nonlinear Circuit and Optical Communication

(Guangxi Normal University), Guilin Guangxi 541004, China)

Abstract: Aiming at the low accuracy of vehicle detection in unmanned system environment perception, a threedimensional vehicle detection algorithm based on multi-modal feature fusion is proposed. Through the joint

calibration of millimeter wave radar and camera, the coordinate relationship between the two sensors is matched

and the sampling error is reduced. Statistical filtering is used to eliminate the redundant points of millimeter wave

radar data and reduce the interference of outliers. The multi-modal feature fusion module is constructed, and the

point cloud and image information are fused by pixel average. Adding the feature pyramid to extract the fused

high-level feature information to improve the detection accuracy in complex road scenes, a feature fusion region

recommendation structure is established, and the region recommendation is generated according to the advanced

feature information. After removing the redundant detection frame, the vehicle detection results are output

through the vertex matching of the detection frame. The experimental results on KITTI data set show that the

proposed method can realize vehicle detection quickly and accurately. The average detection time is 0.14 s and

the average detection accuracy is 84.71%. The algorithm has important theoretical and practical value, and can

provide a powerful means for vehicle detection in unmanned system.

Keywords: millimeter wave radar; environment perception; multi-modal feature fusion; vehicle detection;

autonomous vehicle system

(责任编辑 黄 勇)

48

第53页

第 40 卷 第 2 期

2022 年 3 月

广西师范大学学报(自然科学版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI:10.16088 / j.issn.1001-6600.2021081303 http: xuebao.gxnu.edu.cn

张文龙, 南新元. 基于改进 YOLOv5 的道路车辆跟踪算法[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 49-57. ZHANG W L, NAN

X Y. Road vehicle tracking algorithm based on improved YOLOv5[ J]. Journal of Guangxi Normal University (Natural Science Edition), 2022, 40

(2): 49-57.

基于改进 YOLOv5 的道路车辆跟踪算法

张文龙, 南新元∗

(新疆大学 电气工程学院, 新疆 乌鲁木齐 830047)

摘 要: 针对现有多目标跟踪算法参数量和计算量大, 难以满足移动设备实时性要求的问题, 本文通过改进 JDE 跟踪算

法, 提出了一种道路车辆多目标跟踪算法。 首先, 设计关联融合网络来解决 JDE 算法中多任务学习存在的竞争问题, 提

高算法的跟踪精度, 减少身份切换次数; 其次, 使用改进的 EfficientNetv2 重新构建 YOLOv5 的特征提取网络, 降低模型

复杂度, 提高模型实时检测速度; 最后, 使用改进的 YOLOv5 检测算法与 JDE 跟踪算法结合, 实现道路车辆多目标跟

踪。 实验结果表明, 提出的方法相比原 JDE 跟踪算法, MOTA 提高 0.3 个百分点、 跟踪速度提高约 43.2%, 可以满足实

际自动驾驶场景中对车辆跟踪的速度要求。

关键词: 车辆跟踪; EfficientNet; 通道注意力; 关联融合网络; YOLOv5

中图分类号: TP391.41 文献标志码: A 文章编号: 1001-6600(2022)02-0049-09

道路场景中最重要的组成部分是汽车,随着自动驾驶汽车出现,道路场景下汽车跟踪技术的研究日益

重要,作为自动驾驶技术环境感知的一个重要组成部分,其对多目标跟踪算法的准确度和实时性要求

较高。

目前,多目标跟踪算法主要分为传统方法和基于深度学习方法。 传统方法主要有光流法[1]

、核相关

滤波[2-4]等,其跟踪速度快,但缺乏对尺度变化目标的处理,导致跟踪效果不佳。 基于深度学习的跟踪算

法在行人重识别(ReID) 技术[5-6] 推动下获得了前所未有的发展,实现了速度与精度的双重提升。 基于

ReID 的目标跟踪算法主要分为 2 类:one-shot 和 two-stage,这 2 类模型都是基于检测的跟踪( tracking-bydetection)方法。 其中,two-stage 算法将跟踪流程分为检测和匹配 2 个独立的过程,使用 2 个不同的网络分

别提取特征,虽然这样可以提高算法准确度,但是使用 2 个网络模型计算成本过高,不适合自动驾驶这种

实时性要求较高的场景。 典型的 two-stage 算法有 DeepSORT

[7]

、HOGM

[8]等。 随着多目标跟踪算法发展,

为解决 two-stage 算法速度过慢问题,one-shot 算法被提出,这类算法通过将 ReID 嵌入到检测器中,将 2 个

独立的任务作为一个多任务学习模型,通过共享权值,同时输出目标检测框和 ReID 表观特征,达到近似

实时的速度。 如 Wang 等[9]提出 JDE(joint detection and embedding)算法,通过使用 YOLOv3

[10] 作为检测

器,将 ReID 嵌入到检测器中,共同学习特征表示,获得了速度与精度的双重提升;Zhang 等[11] 通过分析

JDE 的不足,提出了 FairMOT 算法,使用 DLA(deep layer aggregation)

[12]模型和 anchor-free 算法[13]

,提高了

算法的准确度;晏康等[14]通过组合空间和通道注意力,一定程度上改善了 JDE 跟踪算法的性能;薛俊韬

等[15]利用 MobileNet

[16]替换 YOLOv3 检测器的骨干特征提取网络,显著提高了跟踪算法的实时性,但减少

了跟踪算法的跟踪精度;马永杰等[17]通过在 YOLOv3 算法上增加一个检测头,并与 DeepSORT 算法结合,

提高了算法对汽车的检测精度。

虽然这些文献对轻量级网络进行了初步研究,但在非常有限的计算预算中追求最好的精度-速度折中

仍然是视觉领域的难点。 本文的目的是把这个权衡作为一个整体,考虑精度和实时性,通过将改进的

收稿日期: 2021-08-13 修回日期: 2021-09-29

基金项目: 新疆维吾尔自治区自然科学基金(2019D01C079)

通信作者: 南新元(1969—), 男, 新疆乌鲁木齐人, 新疆大学教授。 E-mail: 2373132779@qq.com

第54页

广西师范大学学报(自然科学版),2022,40(2)

YOLOv5 检测算法与 JDE 跟踪算法结合,同时设计关联融合网络来缓解 JDE 算法多任务学习中不同任务

之间的竞争问题,提出一种有效的道路车辆多目标跟踪算法,该算法能有效减少模型复杂度,提高 JDE 算

法实时跟踪速度,且不降低算法跟踪性能。

1 相关工作

1.1 注意力机制

注意力机制在计算机视觉领域取得了巨大成功,它仅包含少量参数,可以带给模型性能提升,通过关

注感兴趣信息,对提取特征进行过滤,提高特征重要性。 注意力机制主要分为通道注意力机制、空间注意

力机制和混合注意力机制。 通道注意力机制通过按通道对特征图进行提取,使用提取到的权值来表示特

征重要性。 SENet

[18]网络通过使用全局平均池化获得每个特征通道上的平均值,然后使用 2 个全连接层

学习非线性特征,最后将获得的权重与原输入特征加权。 ECANet

[19] 使用一维卷积学习通道之间的交互

信息,避免特征完全独立,从而学习更有效的特征表示。 FCANet

[20] 从频域的角度思考通道注意力,获得

了较好的效果。 混合注意力机制结合空间注意力和通道注意力同时提取目标的空间信息和通道信息。 如

Woo 等[21]将空间注意力与通道注意力串联,提出了 CBAM 注意力机制,在多个计算机视觉任务中获得了

优秀的性能。

1.2 JDE 模型

JDE 算法通过扩展 YOLOv3 网络,将 ReID 和检测器集成到一个网络模型中,共享低级特征,能有效避

免重复计算,JDE 基本结构如图 1 所示。

Predict1

Predict2

Predict3

Crossentropy loss

Smooth-L1

loss

Triplet loss 1/8 downsample

1/16 downsample

1/32 downsample

图 1 JDE 结构

Fig. 1 Structure of JDE

从图 1 中可以看出,JDE 采用特征金字塔网络(feature pyramid networks, FPN)

[22] 结构提取多个不同

尺度的特征图进行预测,从而提高了目标检测中尺度变化目标的检测能力。 输入的视频帧首先通过主干

网络向前传递,获得 3 个不同尺度的特征图,即分别具有 1 / 32、1 / 16 和 1 / 8 下采样率的特征图。 接着,将

下采样率为 1 / 32 的特征图进行上采样,并通过跳过连接与下采样率为 1 / 16 的特征图进行融合,下采样率

为 1 / 8 的特征图同理。 然后,在这 3 个不同尺度的融合特征图上添加 YOLO 检测头,每个 YOLO 检测头由

几个卷积层堆叠组成,并输出一个大小为 H×W×(6A+D)的预测特征图,式中:A 表示 anchor 的数量;D 是

ReID 中 embedding 的维数;H 表示特征图的高;W 表示特征图的宽。 最后,将得到的特征图用于后续的卡

尔曼滤波和匈牙利算法进行轨迹匹配。

2 基于 YOLOv5 的多目标跟踪算法

2.1 改进的 YOLOv5 检测网络

与 YOLOv3 检测算法相比,YOLOv5 作为最新的一阶段目标检测算法,获得了速度与精度的双重提

升。 但对于资源较少的设备,YOLOv5 模型仍然较大,不适合部署到资源较少的设备上。 模型参数量计算

如式(1),

50

第55页

http:∥xuebao.gxnu.edu.cn

J = d×Cin

×k×k×Cout。 (1)

式中:Cin 、Cout分别表示输入、输出通道数;k 表示卷积核大小;d 表示卷积模块的数量。 从式(1)中可以看

出,当模型的输入和输出通道由 C 变为 nC 时,模型参数量将扩大 n

2 倍;当卷积核大小由 k 变为 nk 时,同

理,模型参数量也将扩大 n

2 倍;若将模型的深度由 d 变为 nd 时,参数量将扩大 n 倍。

YOLOv5 特征提取网络通道数 C 被设置较大,通过式(1)可知,其模型复杂度过高。 为了减少模型复

杂度,提高模型的实时检测速度,使算法更适合自动驾驶任务,本文采用 EfficientNetV2

[23]替换 YOLOv5 的

特征提取网络。 EfficientNetV2 通过缩减通道宽度 C,扩增深度 d,实现了模型复杂度和准确度的折中。

EfficientNetV2 主干网络由 Fused-MBConv 和 MBConv 模型结构组成,其结构如图 2 所示。

Conv1×1 Depthwis

e3×3 SE Conv1×1

H,W,C H,W,4C H,W,C

Conv3×3 SE Conv1×1

H,W,C H,W,4C H,W,C

(a) MBConv

(b) Fused-MBConv

图 2 MBConv、Fused-MBConv 结构

Fig. 2 Structure of MBConv and Fused-MBConv

MBConv 核心模块采用深度可分离卷积[16]

,相比传统卷积,它具有更少的参数量,深度可分离卷积与

传统卷积参数量下降比为

r =

Cin

×k×k+Cin

×Cout

Cin

×Cout

×k×k

=

1

Cout

+

1

k

2

。 (2)

EfficientNetV2 使用 SENet 提高模型准确率,SENet 通过全局平均池化提取特征图的全局信息,利用得

到的 1×1×C 矩阵来表示特征,但仍然存在不足。 从频域的角度分析,全局平均池化提取特征将会造成信

息丢失,通过二维离散余弦变换(2D-DCT)分析,2D-DCT 变换可以描述为

f

2d

h,w

= ∑

H-1

h = 0∑

W-1

w = 0

x

2d

i,j

cos

πh

H

(i + 0.5) ( ) cos

πw

W

(j + 0.5) ( ) 。 (3)

式中: f

2d表示 2D-DCT 频谱;x

2d表示输入特征。 2D-DCT 逆变换可以被描述为

x

2d

i,j

= ∑

H-1

h = 0∑

W-1

w = 0

f

2d

h,w

cos

πh

H

(i + 0.5) ( ) cos

πw

W

(j + 0.5) ( ) 。 (4)

令式(3)中 h 和 w 为 0,式(3)变为

f

2d

0,0

= ∑

H-1

h = 0∑

W-1

w = 0

x

2d

i,j

= gap(x

2d

)HW, (5)

式中 gap 表示全局平均池化。 从式(5)可以看出,全局平均池化只是 2D-DCT 的特殊形式,与低频分量成

比例关系。 因此 EfficientNetV2 中 SENet 使用全局平均池化会造成信息丢失,且 SENet 中通过使用 2 个全

连接层对通道进行挤压和扩张,获取更多非线性变换,但 2 个全连接层的使用会带来较多参数量。 为了进

一步提高模型实时检测速度,降低模型复杂度,本文受 FCANet 启发,结合 DCT 与 ECANet 提出 D-ECA 通

道注意力,替换 EfficientNetV2 中的 SENet,提出的注意力模块如图 3 所示。

将输入特征按通道分为 N 组,每组通道数 C / N,利用式(3) 计算每组离散余弦变换权值,如式(6)

所示。

F

i = D

u,v

(X

i

) = ∑

H-1

h = 0 ∑

W-1

w = 0

X

i

:,h,w

cos

πh

H

(u + 0.5) ( ) cos

πw

W

(v + 0.5) ( ) , (6)

式中 D(X)表示 2D-DCT 变换。 由式(3)、(5)可知,相比使用全局平均池化,DCT 能够获取更多的频率信

51

第56页

广西师范大学学报(自然科学版),2022,40(2)

息。 然后使用核大小为 k 的一维卷积学习相邻通道之间的信息,为了避免通过交叉验证手动调整 k,设计

了一种自适应确定 k 的方法,核大小 k 自适应描述如式(7)所示。

k =φ(C)=

log2C

a

+

b

a odd

, (7)

式中: | t |

odd表示最近的奇数 t;a 和 b 设置为 2 和 1,并在本文所有实验中保持一致。 最后使用 Sigmoid 激

活函数输出注意力权值,与输入特征加权融合。

1

2

N

...

3

DCT

DCT

DCT

Input DCT Output

H

W

C C

H

W

C

H

W

FN

...

...

F2

F1

1×1×C

Conv1D Sigmoid

图 3 通道注意力

Fig. 3 Channel attention

2.2 关联融合网络

相比传统的多目标跟踪算法,JDE 虽然获得了精度与速度的双重提升,但通常低于两阶段跟踪算法。

文献[11]指出,诸如 JDE 这种单阶段多目标跟踪算法,由于多任务学习中不同任务之间的竞争,使学习到

的 ReID 特征不是最优的,这将导致大量的 ID 切换。 为了解决这个问题,参考 DANet

[24] 和 PADNet

[25]

,通

过设计关联融合网络( associative fusion network, AFN)来提高 JDE 跟踪算法中检测器与 ReID 的协作学

习,提出的关联融合网络如图 4 所示。

F

T

G1

G2

M1

M3

M2

H1

H2

Freid

Fdet

permute

view

view

view

view

Y1

Y2

图 4 AFN 结构

Fig. 4 Structure of AFN

图 4 中 F∈R

C×H×W 表示来自检测头的输出,首先使用一个自适应平均池化层获取特征信息 T∈

R

C×H′×W′

,然后使用 2 个卷积核大小为 3 的卷积层分别学习 ReID 的嵌入信息 G1 和用于检测的特征信息

G2 ,然后将输出的 2 个用于不同任务的特征信息通过 view 操作变换为尺寸 H∈R

C×P

,其中 P =H′×W′,然后

对 H1 和 H2 分别使用 Softmax 激活函数学习 2 个任务的自关联矩阵 M1 和 M2 ,其计算公式如式(8)。

mi

=

exp(hi)

P

j = 1

exp(hj)

, (8)

式中:hi 表示矩阵 H 中的第 i 个元素;mi 表示自关联矩阵 M 中的第 i 个元素。 同样,将 H1 和 H2 特征进

行融合,然后使用 Softmax 激活函数以学习不同任务之间的共性。 将 Softmax 的输出通过 permute 操作变

换为尺寸 R

P×C

,将自关联矩阵与互关联矩阵执行矩阵乘法,输出关联融合特征 Y∈R

C×C

,然后将原输入特

52

第57页

http:∥xuebao.gxnu.edu.cn

征 F 重新排列为 R

C× N 尺寸,其中 N=H×W。 最后将重新排列后的输入特征与学习到的融合特征执行矩阵

乘法重新构造特征图,以增强每个任务的特征表达能力。 通过残差连接,将输入特征 F 与融合特征融合,

以防止信息丢失。

2.3 多目标跟踪模型总体结构

本文提出改进 YOLOv5 的多目标跟踪模型总体结构如图 5 所示。 从图 5 中可以看出,由于模型需要 5

次下采样,输入图片尺度需要为 32 的整数倍,为了适应视频数据集的尺寸,本文输入图片分辨率设置为

1 280×384。 通过主干特征提取网络,输入的视频帧向前传递,获得 5 个不同尺度的特征图,本文提取160×

48、80×24、40×12 等 3 个尺度的特征图,然后使用路径融合网络(path aggregation network, PAN)

[26]完成多

尺度融合,提取更加丰富的特征,加强对小尺度目标的检测和跟踪能力。 然后在每个 PAN 层的输出路径

上接入 AFN 模块,促使模型学习与任务相关的特征,提高检测和 ReID 这 2 个任务的协作学习能力,缓解

由于 2 个任务之间竞争导致的性能退化。 接着将提取到的表观特征和检测框,利用卡尔曼滤波和匈牙利

算法完成关联和匹配。 具体地说,oi 为用表观特征表示的一个轨迹,mi

= (x,y,r,h,x′,y′,r′,h′) 表示目标

运动状态,这里:x、y 表示边界框的中心;r 表示宽高比;h 表示边界框的高;x′、y′、r′、h′表示沿各自方向的

速度。 对于第一帧,首先通过第一帧的检测结果初始化为新的轨迹。 对于后续视频帧,计算所有卡尔曼滤

波观测值和轨迹池的成对运动关联矩阵 Am 和外观关联矩阵 Ao。 余弦相似度计算外观关联矩阵,马氏距

离计算运动关联矩阵,然后利用匈牙利算法求解线性分配问题,其损失函数为

L =αAo

+(1-α)Am 。 (9)

最后利用卡尔曼滤波算法更新所有匹配轨迹的运动状态,计算如式(10)所示。

384

1 280

1×DBS

3×FMB

Conv

5×FMB

Conv

5×FMB

Conv

7×MB

Conv

14×MB

Conv

18×MB

Conv

5×MB

Conv

1×SPP 1×DBS

Concat

3×CSP

1×DBS

Concat

3

640 ×192 ×24

320 ×96×48

80×24×160

40×12×304

40×12×512

160 ×48×80

80×24×512

40×12×512

DBS  Conv BN SiLU

CSP  DBS

(1,C/2)

DBS

(1,C/2)

DBS

(3,C/2)

Conv

(1,C/2)

Conv

(1,C/2)

Concat BN LeakyR

eLU

DBS

(1,C)

3×CSP 1×DBS

1×DBS

Concat

640 ×192 ×24

80×24×176

40×12×1 024

40×12×512

80×24×256

160 ×48×256

80×24×256

80×24×512

40×12×1 024

1×AFN

Concat 3×CSP 1×AFN

3×CSP 1×AFN

Predict 1

Predict 2

Predict 3

Upsample

Upsample

Cross-entropy loss

Smooth-L1 loss

Triplet loss

图 5 本文跟踪算法总体结构

Fig. 5 Overall structure of the tracking algorithm in this article

53

第58页

广西师范大学学报(自然科学版),2022,40(2)

o

t

i

=λo

t-1

i

+(1-λ)fi

t

, (10)

式中: fi

t 表示当前匹配观察值的 embedding;λ = 0.9 表示一个动量因子。 如果连续 2 帧内有未匹配到的检

测结果,则将这个检测结果初始化为新的轨迹。 如果某条轨迹连续 30 帧内没有被分配新的目标,则删除

这个轨迹。

3 实验结果与分析

3.1 实验参数设置

本文实验平台为 Intel i7-6700HQ、16 GiB 内存、NVIDIA GTX1060 6 GiB 的 PC;软件环境为 Windows10

操作系统、CUDA11.1、PyTorch1.8 深度学习框架。 在多目标跟踪任务中,以 MOT Challenge 评估标准来对

多目标跟踪算法进行评估,其中主要选择多目标跟踪准确度(MOTP)、多目标跟踪精度(MOTA)、目标 ID

切换次数(IDSW)、跟踪轨迹被准确跟踪 80%以上的目标个数(MT)、跟踪轨迹被准确跟踪 20%以下的目

标个数(ML),每秒处理图片的数量(FPS)。 相应的计算公式如下:

PMOTA

= 1 -

∑t

St

+ Et

+ It

∑t

Tt

, (11)

PMOTP

=

Bt,j

∑t

Nt

。 (12)

式中:Tt 表示第 t 帧真实边界框的数量;Et 表示第 t 帧误检样本的数量;St 表示第 t 帧漏检样本的数量;It

表示第 t 帧目标身份切换次数;Nt 表示第 t 帧目标成功匹配的数量;Bt,j表示第 j 个检测结果与真实边界框

的重叠率。

3.2 跟踪算法实验对比

本文选取 KITTI-tracking 基准数据集,数据集中视频以 10 frame / s 速度拍摄,并包含较大的帧间运动,

是当前最全面的自动驾驶数据集,其主要包括城市、乡村和十字路口等交通场景。 本文选取数据集中的

Car、Van 和 Truck 3 个类别,然后将这 3 个类别都划分为 Car 类。 为了增加数据多样性,减少模型过拟合,

提高汽车跟踪算法的准确率,本文采用实时数据扩充处理数据样本,例如水平翻转、颜色空间变换、Mosaic

数据增强等。 本文训练参数设置为:embedding 维度为 512;batch size 为 4;最大迭代次数为 50;优化策略

采用 SGD 函数;动量因子 0.95;初始学习率为 0.005,学习率在第 30 代和 40 代分别下降 10 倍;权重衰减设

置为 0.000 5。 本文在 JDE 算法的基础上添加和修改各个模块的消融实验,如表 1 所示。

表 1 消融实验

Tab. 1 Ablation experiment

AFN YOLOv5 EfficientNetV2 D-ECA MOTA↑/ % MOTP↑/ % MT↑/ % ML↓/ % IDWS↓ FPS↑

71.86 80.33 62.87 8.37 343 7.57

√ 72.01 81.63 63.35 6.81 209 6.56

√ √ 73.08 83.70 64.40 6.28 166 6.98

√ √ √ 71.13 81.34 60.21 6.81 224 10.65

√ √ √ √ 72.16 81.28 64.92 7.85 216 10.84

注:“↑”表示数值越大效果越好;“↓”表示数值越小效果越好。

从表 1 中可以看出,在原 JDE 算法上添加 AFN 模块后,MOTA、MOTP 都有一定的提升,并且显著减少

了 IDWS。 使用 YOLOv5 替换 YOLOv3 后,跟踪算法的整体性能均得到了有效提升,表明检测器对跟踪算

法的整体性能有很大影响。 当再次使用 EfficientNetV2 替换 YOLOv5 的特征提取网络,由于特征提取能力

54

第59页

http:∥xuebao.gxnu.edu.cn

不足,导致跟踪算法的整体性能下降,但算法的 FPS 提高约 52.6%,在此基础上引入 D-ECA 注意力模块,

使 MOTA 提高 1.03 个百分点,且一定程度上减少 IDWS。 最终本文算法相比原 JDE 算法 FPS 提高约

43.2%,MOTA 提高 0.3 个百分点,IDWS 减少 37%,能有效取得精度与速度折中,具有一定的实际意义。 表

2 展示了本文算法与其他主流算法的性能对比,从表 2 中可以看出,本文算法大部分评价指标均优于对比

算法,具有一定竞争力。

表 2 不同方法对比

Tab. 2 Comparison of different methods

算法 MOTA↑/ % MOTP↑/ % MT↑/ % ML↓/ % IDWS↓

SORT 53.15 77.75 26.15 29.39 370

DeepSORT 67.42 85.25 46.15 13.85 453

Point3DT 67.56 76.83 60.46 12.77 294

本文算法 72.16 81.28 64.92 7.85 216

注:“↑”表示数值越大效果越好;“↓”表示数值越小效果越好。

选取 KITTI 基准数据集中视频序列对本文算法跟踪结果可视化。 图 6(a)为视频序列 0010 可视化结

果,这段视频道路交通情况较为复杂,ID 为 155 的车辆需要左转,ID 为 124、125 的车辆遮挡较为严重,且

多条轨迹相交。 可以看出 ID 为 135 的车辆在第 31 帧期间被遮挡后,在第 35 帧被重新检测到,且 ID 没有

发生变化,其他车辆跟踪效果良好均没有发生 ID 切换。 图 6(b)为视频序列 0000 的可视化结果,从中可

以看出,本文算法对拥挤的停车环境仍然有很好的跟踪效果。

图 6 本文算法跟踪结果

Fig. 6 Tracking results of the algorithm in this paper

4 结语

本文通过改进 JDE 跟踪算法,提出了一个有效的车辆跟踪算法。 首先在 JDE 算法的基础上添加 AFN

模块,减少身份切换次数,其次使用 EfficientNetV2 替换 YOLOv5 的特征提取网络,提高模型的实时检测速

度,同时减少模型复杂度,使跟踪算法更适合自动驾驶任务,同时为了解决 EfficientNetV2 特征提取能力不

足的问题,通过引入 D-ECA 模块,提高模型对车辆的检测和跟踪能力。 实验结果表明,本文算法有效地对

55

第60页

广西师范大学学报(自然科学版),2022,40(2)

JDE 网络进行了压缩,提高了算法实时跟踪速度和检测能力。 但本文算法对严重遮挡和密集车辆的跟踪

效果仍然有待提高。 未来工作将研究在保证不降低实时性的情况下,提高对密集目标和遮挡目标的跟踪

能力。

参 考 文 献

[1] 张可, 杨灿坤, 周春平, 等. 无人机视频图像运动目标检测算法综述[J]. 液晶与显示, 2019, 34(1): 98-109. DOI:

10.3788 / YJYXS20193401.0098.

[2] 张灿龙, 苏建才, 李志欣, 等. 基于 AdaBoost 置信图的红外与可见光目标跟踪[ J]. 广西师范大学学报(自然科学

版), 2018, 36(4): 42-50. DOI: 10.16088 / j.issn.1001-6600.2018.04.006.

[3] 张灿龙, 李燕茹, 李志欣, 等. 基于核相关滤波与特征融合的分块跟踪算法[J]. 广西师范大学学报(自然科学版),

2020, 38(5): 12-23. DOI: 10.16088 / j.issn.1001-6600.2020.05.002.

[4] 黄一凡, 杨建业, 戚国庆. 基于二自由度转台的双目视觉跟踪技术研究[ J]. 电子设计工程, 2018, 26(14): 181-

185. DOI: 10.14022 / j.cnki.dzsjgc.2018.14.039.

[5] 冯霞, 杜佳浩, 段仪浓, 等. 基于深度学习的行人重识别研究综述[ J]. 计算机应用研究, 2020, 37( 11): 3220-

3226, 3240. DOI: 10.19734 / j.issn.1001-3695.2019.09.0514.

[6] 尹梓睿, 张索非, 张磊, 等. 适于行人重识别的二分支 EfficientNet 网络设计[ J]. 信号处理, 2020, 36(9): 1481-

1488. DOI: 10.16798 / j.issn.1003-0530.2020.09.013.

[7] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]∥ 2017 IEEE

International Conference on Image Processing ( ICIP). Piscataway, NJ: IEEE Press, 2017: 3645-3649. DOI: 10.1109 /

ICIP.2017.8296962.

[8] ZHOU Z W, XING J L, ZHANG M D, et al. Online multi-target tracking with tensor-based high-order graph matching

[C]∥ 2018 24th International Conference on Pattern Recognition ( ICPR). Piscataway, NJ: IEEE Press, 2018: 1809-

1814. DOI: 10.1109 / ICPR.2018.8545450.

[9] WANG Z D, ZHENG L, LIU Y X, et al. Towards real-time multi-object tracking[EB/ OL]. (2020-07-14)[2021-08-13].

https:∥arxiv.org / abs/ 1909.12605.

[10] REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/ OL]. (2018-04-08)[2021-08-13]. https:∥arxiv.

org / abs/ 1804.02767v1.

[11] ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple

object tracking[J]. International Journal of Computer Vision, 2021, 129( 11): 3069-3087. DOI: 10.1007 / s11263-021-

01513-4.

[12] YU F, WANG D Q, SHELHAMER E, et al. Deep layer aggregation [ C]∥ 2018 IEEE/ CVF Conference on Computer

Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 2403-2412. DOI: 10. 1109 / CVPR.

2018.00255.

[13] ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[EB/ OL]. (2019-04-25) [2021-08-13]. https:∥arxiv.

org / abs/ 1904.07850.

[14] 晏康, 曾凤彩, 何宁, 等. 引入注意力机制的 JDE 多目标跟踪方法[J/ OL]. 计算机工程与应用, 2021[2021-08-13].

http:∥kns.cnki.net / kcms/ detail / 11.2127.TP.20210524.0920.004.html. DOI: 10.3778 / j.issn.1002-8331.2104-0049.

[15] 薛俊韬, 马若寒, 胡超芳. 基于 MobileNet 的多目标跟踪深度学习算法[ J]. 控制与决策, 2021, 36(8): 1991-1996.

DOI: 10.13195 / j.kzyjc.2019.1424.

[16] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]∥ 2018 IEEE/

CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 4510-

4520. DOI: 10.1109 / CVPR.2018.00474.

[17] 马永杰, 马芸婷, 程时升, 等. 基于改进 YOLO v3 模型与 Deep-SORT 算法的道路车辆检测方法[ J]. 交通运输工程

学报, 2021, 21(2): 222-231. DOI: 10.19818 / j.cnki.1671-1637.2021.02.019.

[18] HU J, SHEN L, AIBANIE S, et al. Squeeze-and-excitation networks [ J]. IEEE Transactions on Pattern Analysis and

Machine Intelligence, 2020, 42(8): 2011-2023. DOI: 10.1109 / TPAMI.2019.2913372.

56

第61页

http:∥xuebao.gxnu.edu.cn

[19] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]∥

2020 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer

Society, 2020: 11531-11539. DOI: 10.1109 / CVPR42600.2020.01155.

[20] QIN Z Q, ZHANG P Y, WU F, et al. FCANet: frequency channel attention networks[EB/ OL]. (2021-07-23)[2021-08-

13]. https:∥arxiv.org / abs/ 2012.11879.

[21] WOO S H, PARK J C, LEE J Y, et al. CBAM: convolutional block attention module[C]∥ Computer Vision-ECCV 2018:

LNCS volume 11211. Cham: Springer Nature Switzerland AG, 2018: 3-19. DOI: 10.1007 / 978-3-030-01234-2_1.

[22] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥ 2017 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 936-944. DOI: 10.

1109 / CVPR.2017.106.

[23] TAN M X, LE Q V. EfficientNetV2: smaller models and faster training[EB/ OL]. (2021-06-23) [2021-08-13]. https:∥

arxiv.org / abs/ 2104.00298.

[24] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation [ C]∥ 2019 IEEE/ CVF Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2019: 3141-3149. DOI:

10.1109 / CVPR.2019.00326.

[25] XU D, OUYANG W L, WANG X G, et al. PAD-Net: multi-tasks guided prediction-and-distillation network for

simultaneous depth estimation and scene parsing [ C]∥ 2018 IEEE/ CVF Conference on Computer Vision and Pattern

Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 675-684. DOI: 10.1109 / CVPR.2018.00077.

[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥ 2018 IEEE/ CVF Conference on

Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 8759-8768. DOI: 10.1109 /

CVPR.2018.00913.

Road Vehicle Tracking Algorithm Based on Improved YOLOv5

ZHANG Wenlong, NAN Xinyuan

(School of Electrical Engineering, Xinjiang University, Urumchi Xinjiang 830047, China)

Abstract:To solve the problem that it’s difficult for the large amount of network parameters and calculations for

existing multi-object tracking algorithm to meet the real-time requirements of mobile devices, a road vehicle

multi-object tracking algorithm is proposed by improving the JDE tracking algorithm. Firstly, in order to improve

the tracking accuracy of the algorithm and reduce the number of ID switching, the association fusion network is

used to solve the competition problem of multi-task learning in the JDE algorithm. Secondly, in order to reduce

the complexity of the model and improve the real-time detection speed of the model, the improved EfficientNetV2

is used to rebuild the feature extraction network in YOLOv5. Finally, the improved YOLOv5 detection algorithm

is combined with the JDE tracking algorithm to achieve multi-object tracking of road vehicles. The experimental

results show that compared with the original JDE tracking algorithm, the proposed method improves MOTA by 0.3

percentage point and tracking speed by about 43.2%. It can meet the speed requirements for vehicle tracking in

actual autonomous driving scenarios.

Keywords: vehicle tracking; EfficientNet; channel attention; associative fusion network; YOLOv5

(责任编辑 黄 勇)

57

第62页

第 40 卷 第 2 期

2022 年 3 月

广西师范大学学报(自然科学版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021061505 http: xuebao.gxnu.edu.cn

刘振宇, 宋树祥, 岑明灿, 等. 低功耗高精度 Sigma-Delta 调制器的建模与设计[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 58-

70. LIU Z Y, SONG S X, CEN M C, et al. Modeling and design of low power and high precision sigma-delta modulator[ J]. Journal of Guangxi

Normal University (Natural Science Edition), 2022, 40(2): 58-70.

低功耗高精度 Sigma-Delta 调制器的建模与设计

刘振宇, 宋树祥∗

, 岑明灿, 蒋品群, 蔡超波

(广西师范大学 电子工程学院, 广西 桂林 541004)

摘 要: 为提升 Sigma-Delta 调制器精度的同时降低其功耗, 本文设计一款改进型二阶单环 CIFF 结构 Sigma-Delta 调制

器, 通过采用运放共享技术降低由噪声整形滤波器个数引入的额外功耗; 提出浮动系数迭代思想应用于调制器在

MATLAB 下的建模, 最终确定满足精度需求的各项参数具体值, 通过引入非理想因素对所得参数仿真验证满足最低性能

指标后进行晶体管级电路设计。 该调制器信号带宽为 8 kHz, 采样频率为 4 MHz。 电路设计使用 UMC 0.11 μm CMOS 工

艺, 核心电路版图尺寸为 226.8 μm×187.44 μm, 后端仿真结果表明, 当电源电压为 1.2 V 时, 调制器总功耗为 290 μW。

在-40~ 125 ℃ , 各工艺角的有效位数(ENOB) 大于等于 15 bits。

关键词: Sigma-Delta 调制器; 浮动系数; MATLAB 建模; 低功耗; 高精度; 语音芯片

中图分类号: TN761 文献标志码: A 文章编号: 1001-6600(2022)02-0058-13

随着便携式可穿戴设备的飞速发展,高分辨率和低功耗语音芯片的需求持续增长,而 Sigma-Delta 调

制器作为语音芯片主要部件,其设计的好坏直接决定了芯片的成败,因此设计一款高精度低功耗的调制器

成为一项具有挑战性的任务。 Sigma-Delta 调制器主要分为 CT ( continuous-time) Sigma-Delta 和 DT

(discrete-time)Sigma-Delta 两类,由于环路滤波器结构上的差异,尽管 CT 调制器在带宽上表现优于 DT 调

制器,但前者在实际电路中会引入非理想因素,在相同非理想因素的作用下 DT 调制器表现明显优于 CT

调制器[1-2]

由于 8 kHz 带宽就能满足语音芯片 Sigma-Delta 调制器的应用需求,不需要 1 MHz 以上级别的大带

宽,因此选用 DT 调制器更为合适。 2011 年 Bonizzoni 等[3]提出一种采用 2 个运算放大器设计三阶调制器

的思想,但因其采用了 5 位量化技术,故会引入非线性,使调制器最终分辨率只有 10 bits。 2016 年 Kwon

等[4]利用单环结构半延时积分技术实现了 0.4 mW 功耗下分辨率达 13 bits 的调制器,但是该技术对噪声

整形滤波器性能要求苛刻不易于实现。 2019 年周志兴等[5]设计的调制器分辨率虽然达到了 16 bits,但由

于采用了传统的电路架构,其功耗高达 4 mW。 Sung 等[6-7]于 2017 年实现了带宽可调的调制器,由于其采

用了多位量化引入了非线性因素,造成该调制器分辨率仅有 10 bits;2020 年该团队采用四阶噪声整形 2-2

级联结构设计了一款分辨率达 16 bits 的调制器,但级联结构增加了电路的复杂度,使其功耗高达 7.8 mW。

2020 年 Li 等[8]利用多位量化 flash ADC 技术和 MASH 架构设计了 17.9 bits 高分辨率的调制器,但由于引

入了额外的 ADC 电路以及 MASH 架构,使得该调制器功耗高达 68 mW。

针对上述问题,本文首先对传统架构的单环级联分布式前馈型调制器( cascade-of-integrators feed

forward,CIFF)存在的不足进行分析,在第 1 章讲述系统级电路设计加入浮动系数迭代思想提升精度,第

2.1节讲述晶体管级电路设计应用运放共享技术降低功耗。 本文设计的调制器应用第 1 章提出的思想与

第 2.1 节应用的技术相结合实现了预定的设计指标,以此满足语音芯片对低功耗、高精度 Sigma-Delta 调制

收稿日期: 2021-06-15 修回日期: 2021-07-02

基金项目: 国家自然科学基金(62061005); 广西研究生教育创新计划项目(YCSW2021070); 广西高校中青年教师科

研基础能力提升项目(2020KY02028)

通信作者: 宋树祥(1970—), 男, 湖南衡阳人, 广西师范大学教授, 博导。 E-mail: songshuxiang@mailbox.gxnu.edu.cn

第63页

http:∥xuebao.gxnu.edu.cn

器的需求。

1 Sigma-Delta 调制器的系统级设计

调制器的有效位数大于或者等于 16 bits 可称为高分辨率,而 Sigma-Delta 调制器的高分辨率是依赖其

过采样和噪声整形技术共同作用产生的效果。 本文设计的 Sigma-Delta 调制器应用于语音芯片,分辨率需

要达到 16 bits,工作带宽 8 kHz,采样频率 4 MHz,过采样率 256。 下面将围绕上述指标对调制器各部分的

设计进行分析。

调制器分辨率主要由调制器的量化器位数(B)、过采样率(OOSR )、噪声整形滤波器阶数(N)共同决

定。 信号量化噪声比(SSQNR)是衡量 Sigma-Delta 调制器分辨率的重要指标,其可以表示为[9]

SSQNR≈(6.02B+1.76)+10log(OOSR)+N×20log

OOSR

π

( ) 。 (1)

由式(1)可知,通过提高量化器位数、过采样率、噪声整形滤波器阶数可使调制器实现较高的分辨率,

但提高量化器位数会引入电路非线性问题,采用 1 bit 量化则可以避免出现此问题;过采样率越大,相应噪

声整形滤波器需要的带宽就会越高,从而造成功耗增加,不符合设计低功耗调制器的理念;而增加滤波器

的阶数会使得电路更加复杂、芯片面积占用过大,对器件的匹配性难度增加。 基于上述因素,结合本文涉

及调制器的应用场景折衷考虑,决定采用 2 阶 1 bit 单环 CIFF 型结构,过采样率 OOSR取值 256。

根据应用最广泛的 Lee 判据(Lee criterion)可知,一个量化位数为 1 bit 的 Sigma-Delta 调制器其经验

稳定条件是噪声传递函数满足 max | NTF( e

jw

) | <1.5

[10]

。 因此在 MATLAB 建立 Sigma-Delta 调制器模型,

如图 1 所示,其参数变量 H 设置小于 1.5。

DAC

b1 b2 b3

c2 a2

a1

c1

g1

u n

y n

v n

x1 n

x2 n

z z

    

图 1 MATLAB 2 阶 CIFF SDM Simulink 理论模型

Fig. 1 Theoretical model of MATLAB second-order CIFF SDM Simulink

根据图 1 可得式(2) ~ (5)。 变量 u 代表输入信号 x(n),变量 v 代表输出信号 v(n);变量 x1 代表图 1

中第 1 个积分器的输出 x1(n),变量 x2 代表图 1 中第 2 个积分器的输出 x2(n);y(n)为第 3 个积分器与各

求和支路运算后的结果;变量 a1 、a2 为反馈系数;变量 b1 、b2 和 b3 为输入前馈系数;c1 、c2 为积分增益系数;

g1 为反馈系数;H 为噪声传输函数设定的参数变量。

x1

= (b1 u-c1

v-g1

x2 )H, (2)

x2

= (c2

x1

+b2 u)H, (3)

y = b3 u+a2

x2

+a1

x1 , (4)

v = y+e。 (5)

Sigma-Delta 调制器的信号传输函数 SSTF和噪声传递函数 NNTF由式(2) ~ (5)联立可得:

S

CCIFF

STFk = 1(z) =

(b3

c2 g1

+ a2

b1

c2

- a1

b2 g1 )H +

i∑= 1,2

ai

bi

+

b3

H

(a2

c1

c2

+ c2 g1 )H + a1

c1

+

1

H

, (6)

59

第64页

广西师范大学学报(自然科学版),2022,40(2)

N

CCIFF

NTFk = 1(z)=

c2 g1H+

1

H

(a2

c1

c2

+a2 g1 )H+a1

c1

+

1

H

。 (7)

将 H=

1

z-1

代入式(7)得进一步简化后的信号传输函数

S

CCIFF

STFk = 1(z)=

(z-1)

2+c2 g1

(z-1)

2+a1

c1(z-1)+(a2

c1

c2

+c2 g1 )

。 (8)

由式(1)至式(8)可得到本文调制器的各项系数,如表 1 所示。

表 1 Sigma-Delta 调制器的系数理论值

Tab. 1 Theoretical and optimal values of sigma delta modulator coefficients

系数 理论值 最优值

a1 3.5 3.8

a2 3.95 4

b1 0.353 0.3

b2 0 0

b3 1 0.8

c1 0.353 0.4

c2 0.338 0.3

g1 0.02 0.02

极点位置由反馈系数 a 调整,使带外增益满足 Lee 判据[2]

,提髙系统稳定性。 由式(6)至式(8)可知

输入前馈系数 b 对系统稳定性和基带内噪声性能不会产生影响,仅对信号传输函数 S

CCIFF

STFk = 1( z)造成影响,

其设置保证了基带内信号具有较好的平坦度与合理的增益范围。 积分增益系数 c 使噪声整形滤波器的输

出电平处于合理范围,保证系统的稳定性。 反馈系数 g 用于调整零点位置,本设计中将其设置为0.02,从

而优化基带内噪声。 零点的取值为 z。

传统的调制器建模方法通常通过传递函数求解出系数,如表 1 所示,再运用于 MATLAB 的 Simulink

模型中进行仿真验证。 在开关电容电路中,由于电容值无法完全匹配,所以支路系数的取值无法完全和理

论值相同。 因此在实际情况中,电路的各项系数都会有一个抖动,要求设计出系统能够满足性能指标要求

的最大抖动系数,即抖动门限抖动的大小取决于电路设计的精度。 因此直接采用表 1 的系数理论值并不

能使调制器的性能发挥到最佳。

为解决上述问题,本文将浮动系数迭代思想应用于传递函数中计算各个系数值。 当各个模块子电路

的匹配精度达到 10%才能保证整个调制器相对稳定的精度[11-14]

,因此本文提出的浮动系数迭代的浮动值

定为各个系数的±10%。 系统及设计中应用提出的浮动系数迭代思想运算的流程如图 2 所示。

利用上述思想将式(6) ~ (8)的参数分别设置±10%的波动后,利用 MATLAB 的 Simulink 模型(如图 3

所示)进行迭代仿真,绘制出各个参数对整个调制器系统 SNR 的影响曲线,并根据曲线确定每个参数的最

优值。 以表 1 的系数 a1 理论值为例,利用迭代算法得到的浮动取值与 SNR 关系的曲线如图 4 所示。 图 4

中,红色和蓝色的点分别代表 a1 取相应点对应横坐标数值时得到的最终输出 SNR 和 DR,拟选取的数值

点左右两侧数值点对应纵坐标值不能有太大的波动,否则将影响系统的问题定性。 实竖线穿过的点代表

a1 最终取值。

60

第65页

http:∥xuebao.gxnu.edu.cn

)2

2K

242F+/

E#

K



10%U

图 2 应用提出的浮动系数迭代思想运算的流程

Fig. 2 Applying the proposed floating coefficient iteration idea to test the flow chart

c1

b1

kT/C

OpNoise

a1

y1 y2

a2 c2

b2

b3

g1

z

z





z

z

kT/C

J

ADC

DAC

ADC-DAC

ADC-DAC

PSD

yout

IDEAL

Integrator(with delay)

图 3 2 阶 CIFF Sigma-Delta 调制器 MATLAB SIMULINK 模型

Fig. 3 MATLAB second-order CIFF SDM SIMULINK model

图 4 以 a1 为例使用迭代算法得到的参数最优值

Fig. 4 Taking a1

as an example, the optimal value of the parameter was obtained by using the iterative algorithm

图 5(a)为表 1 系数理论值的输出频谱,图 5( b)为表 1 系数最优值的输出频谱。 从图 5 中可以清晰

看到,最优值得到的 SNR 明显优于理论值得到的 SNR,有效位数 ENOB 也比未进行系数迭代的高0.27 bit。

61

第66页

广西师范大学学报(自然科学版),2022,40(2)

图 5 不同系数的仿真结果

Fig. 5 Simulation results of different coefficients

由文献[15]知,第一级采样电容可以通过式(9)确定,

SSNR

=

V

2

P

/ 2

8KT / CS1

×OOSR。 (9)

根据预定指标有效位数 EENOB

= 16 bits,SSNR≈10

10

,OOSR

= 256,VP

= 1 V,由式(9)得 CS1

= 1.6 pF。

2 Sigma-Delta 调制器晶体管级电路的实现

本文提出的基于浮动系数迭代思想的运放共享改进型低功耗高精度 CIFF Sigma-Delta 调制器如图 6

所示,该调制器包括由积分器构成的噪声整形滤波器、比较器、加法器和时钟产生电路。 由于 Sigma-Delta

调制器的分辨率主要受第一级噪声整形滤波器的影响[16]

,且本文采用的滤波器阶数为 2 阶,为达到低功

耗条件下不降低精度,对如图 7 所示 2 阶传统结构的运放进行改进,将传统 2 阶结构的 2 个运放合并为一

个运放,通过两相不交叠时钟控制其工作过程,可以消除第二级噪声整形滤波器引入的功耗[17-18]

2.1 运放共享技术的分析与实现

由于图 7 中传统架构结构上下对称,故本文此处仅对 Sigma-Delta 调制器上半部分进行工作状态分

析,如图 8 所示。 图 8(a)为调制器电路进行采样操作,图 8(b)为调制器电路进行积分操作。

在图 8 中,粗线代表调制器该支路目前正在进行信号传输,VCM为电路的共模电压,用箭头指明相应状

态下的信号传输方向。 φ1 相位,如图 8(a)所示,第一级采样电容 Cs1和第二级采样电容 Cs2分别同时对输

入信号 Vi1和第一级积分器 X1 上一时刻输出的积分结果进行采样。 φ2 相位,如图 8(b)所示,积分器 X1、

X2 进行积分操作,积累在采样电容 Cs1 、Cs2上的电荷分别通过积分器 X1、X2 转移到积分电容 Cf1 、Cf2中。

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM

VCM VCM

VCM

VREFN

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S1

S1

S1

S1

S1

S1

S1 S1

S1

S1

S1

S1

Vi+

Vi

Cs1

Cs1 Cs2

Ca1

Ca2

Ca2

Ca1

Cb

Cs2

Cf1

C2

Cf 2

Cf1

f N P f

VREFN VREFP

Cb

OP-AMP Share

Vout

X 1 X 2

图 6 改进型低功耗高精度 CIFF Sigma-Delta 调制器原理

Fig. 6 Schematic diagram of improved CIFF sigma-delta modulator with low-power consumption and high-precision

62

第67页

http:∥xuebao.gxnu.edu.cn

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM

VCM VCM

VCM

VREFN

S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S1

S1

X 1 X 2 S1

S1

S1

S1

S1 S1

S1

S1

S1

S1

Vi+

Vi

Cs1

Cs1 Cs2

Ca1

Ca2

Ca2

Ca1

Cb

Cs2

Cf1

Cf 2

Cf1

f N P f

VREFN VREFP

Cb

Vout

C2

图 7 传统 2 阶 CIFF Sigma-Delta 调制器结构原理

Fig. 7 Schematic diagram of traditional 2

rd CIFF sigma-delta modulator

图 8 的工作方式在每一个相位积分器只进行一个操作,但是却要引入 2 个积分器带来的功耗。 为了

解决该问题,本文提出 2 阶调制器只使用一个积分器,通过合理调整开关的顺序,做到积分器在同一个相

位既能采样又可积分,具体电路原理如图 9 所示。 分析图 9 结构时可以分为内环和外环 2 个部分:内环部

分由开关 S2 、开关 S1 和采样电容 Cs1 、积分电容 Cf1构成。 从输入信号 Vi1的输入开始,经开关 S2 、采样电容

Cs1完成图 8(a)传统结构中输入信号 Vi1到采样电容 Cs1的采样过程;通过开关 S1 、内环的积分电容 Cf1和积

分器 X,完成图 8(b)传统结构中第一级积分器的积分功能。 外环由开关 S2 、开关 S1 和采样电容 Cs2 、积分

电容 Cf2构成。 从图 9 中的积分器 X 输出 Vop1out开始,经开关 S1 、采样电容 Cs2完成图 8(a)传统结构中第一

级积分器输出到采样电容 Cs2的采样过程;通过开关 S2 、外环的积分电容 Cf2和积分器 X,完成图 8(b)传统

结构中第二级积分器的积分功能。

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM VCM VCM

VREFN

S2

S2 S2

S2

S2 S2

S2

S2

S1

S1

S1

S1

S1

S1 S1 Vi1 Cs1 Cs2

Ca1

Ca2

C Cf 2 f1

Cb

Vout

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM VCM VCM

VREFN

S2

S2 S2

S2

S2 S2

S2

S2

S1

S1

S1

S1

S1

S1 S1 Vi1

Cs1 Cs2

Ca1

Ca2

C Cf 2 f1

Cb

Vout

(a)F

(b)/

X 1 X 2

X 1 X 2

图 8 传统的单环 2 阶 Sigma-Delta 调制器工作状态

Fig. 8 Operating state diagram of a traditional single-ring second-order sigma-delta modulator

63

第68页

广西师范大学学报(自然科学版),2022,40(2)

传统的单环 2 阶 Sigma-Delta 调制器的第一级和第二级噪声整形滤波器由不完全相同的积分器构成,

往往第一级增益要求较高,第二级可以有所降低;而本文改进的单环 2 阶调制器将第一级高增益的噪声整

形滤波器也应用在第二级,这反而可以提高调制器的精度。 虽然改进的单环 2 阶调制器比传统的单环 2

阶调制器减少了一个噪声整形滤波器的使用,降低了功耗的同时也提升了精度,但是在图 9 可以看出,在

内环和外环却比传统 2 阶调制器增加了 2 组开关,开关的增加势必会引入非线性因素。 通过文献[19]所

述改进型调制器结构增加的开关引入的噪声仅仅比传统结构调制器高出 8%,在上文所述 10%浮动范围

内,相比于传统调制器结构,改进型调制器结构提升了精度和降低了功耗,且引入噪声范围在预设范围内,

因此本文提出的基于浮动系数迭代思想的运放共享改进型低功耗高精度 CIFF Sigma-Delta 调制器是有实

际意义的。

OP

P f f N

VREFP

VCM

VCM

VCM

VCM VCM

VCM

VCM

VCM

VCM

VCM

VCM

VCM

VCM VCM

Vop1out

Vop2out

Vop1out

Vop2out

VCM

VCM VCM

VREFN

VREFP VREFN

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S2

S2

S1

S1

S1 S1

S1

S1

S1

S1

S1

S1

S1

S1

S1

S1 S1

S1 S1

S1

S1

S1

S1 S1

S1

S1

Vi+

Vi Cs1

Cs2

Ca1

Cs1

Cs2 Cf 2

Cf 1

Ca1

Ca2

Ca2

Cb

Cf1

Cf 2

Vout

P f f N

Cb

图 9 基于浮动系数迭代思想的运放共享改进型低功耗高精度 CIFF Sigma-Delta 调制器原理

Fig. 9 Schematic diagram of an improved low-power and high-precision CIFF sigma-delta

modulator for op-amp sharing based on floating coefficient iteration idea

2.2 噪声整形滤波器设计

本文设计的 Sigma-Delta 调制器采用如图 10 所示的单级运放,并结合如图 11 所示增益提高,辅助运

放(Gain Boost)构成噪声整形滤波器。 未加入增益提高(Gain Boost)结构时,图 10 运放的直流增益为

Av

= gm12 {[(gm18

+gmb18 )ro18(ro12‖ro20‖ro22 )] | | [(gm16

+gmb16 )ro16

ro14 ]}。 (10)

单级选取折叠式共源共栅结构。 当 PMOS 管和 NMOS 管

W

L

相等时,前者产生的

1

f

噪声较后者低,故使

用 PMOS 差分对作为运放输入级[19-20]

。 图 10 增益提高型折叠式共源共栅运算放大器中的辅助运放利用

了对运放单位增益带宽(GBW)没有影响的伪差分等效模型接法。 但是此接法会使得运放的主极点减小

64

第69页

http:∥xuebao.gxnu.edu.cn

Vout+

Vout

Vb2

Vf b

Vb1 M10

M13 M14

M11 M12 M17

M15

M19 M20

M21 M22

M23

M16

M18

VVDD

VGND

Vin

Vin

Gain Boost

Gain Boost

图 10 运算放大器主电路

Fig. 10 Main circuit of operational amplifier

为非伪差分接法时的

1

Again

,设 Again为增益自举辅助

运放的增益,加上该辅助运放后,图 10 运放的直流

增益为

Avtot

= AvAgain 。 (11)

但实际上,主运放和辅助运放对单位增益带宽

(GBW)的选取也有一定要求,若辅助运放的单位

增益带宽 ( GBW) 小于主运放的单位增益带 宽

(GBW),则会在主运放的频率特性中引入一个零

极点对, 从而对整个运放的建立特性产生较大

影响[21-22]

调制器应用于语音领域,设计需要留有一定的

裕量, 因此设计单位增益带宽(GBW)为 15 MHz,

SR 为 20 V/ μs, 相 位 裕 度 接 近 90°, 增 益 为

110 dB。

为稳定运算放大器输出的共模电压,基于电荷

分配原理设计了如图 12 所示的共模反馈电路,其

中电容 CMi(i = 1,2,3,4)的大小需满足 CMl

=CM2 ,CM3

=CM4 。 时钟 Ck1 、Ck2 的控制开关 S1 、S2 。 S1 断开 S2 闭合时

电容 CMl、CM2存储的电压值为 VCMO

-Vb5 ;S1 闭合 S2 断开时将 CMl、CM2存储的电荷分配给电容 CM3和 CM4 ,

使得

VO+ +VO- -2Vfb≈2(VCMO

-Vb5 )。 (12)

如果 Vb5与 Vfb所需要的理想电压非常接近,那么就可以保证 VO+ +VO-≈2VCMO,从而达到稳定运放共模

输出的目的。 该共模反馈电路接在运放的输出端,电容 CMl

+CM3和 CM2

+CM4在 S1 闭合的时,可以看作运放

输出端负载,等效于增大了运放负载电容,因此 CMl ~ CM4的取值不宜过大。 为了满足共模电压建立时间、

精度,电容的选取一般遵循 CMl

= 4CM3的原则。

Vout+

Vout

Vb3

Vb4

Vb5

Vb1

Vb2

M1 M5 M6

M8

M10

M7

M2 M3

M9

M4 M11 M12

VVDD

VGND

Vin

Vin

C1 C2

图 11 辅助运放电路

Fig. 11 Auxiliary Operational Amplifier

Vout+

Vout

Vf b Vb5

S2

S2

S2

S1

S1

S1

VCMO

VCMO

CM2

CM3

CM4

CM1

图 12 共模反馈电路

Fig. 12 CMFB circuit

2.3 锁存比较器电路设计

Sigma-Delta 调制器拥有的噪声整形技术会对比较器的 offset 进行处理[23]

,因此对比较器的要求并不

高,本文采用的比较器及其锁存单元如图 13、14 所示。 通过时钟控制比较器工作在 2 个相位,PM4、PM5、

65

第70页

广西师范大学学报(自然科学版),2022,40(2)

NM0、NM1 构成 2 个正反馈电路,VP1B

= 0 时,比较器复位,把比较器输出节点和内部节点拉到 VVDD,SB 和

RB 被拉到 VVDD,VP1B

= VVDD时,比较器工作在放大区,原理同放大器 PM2 / PM0 / PM1 / PM3 是复位管。

PM2 PM0 PM4 PM5

NM1 NM0

NM2

NM4

NM3

PM1

SB

RB

PM3

VVDD

VGND

VP1B VP1B VP1B VP1B

Vin Vin

VP1B

图 13 动态锁存比较器

Fig. 13 Dynamic latch comparator

PCKB

PCK

NCK

NCKB

SB

RB

SDM_OUT

P2D

图 14 动态锁存比较器逻辑单元

Fig. 14 Dynamic latch comparator logic unit

3 Sigma-Delta 调制器的版图与后仿结果

本文设计的 Sigma-Delta 调制器采用 UMC 0.11 μm CMOS 工艺,调制器版图如图 15 所示,其尺寸为

226.8 μm×187.44 μm。

将 350 mV @ 1.7 kHz 的输入信号输入到图 6 本文设计的基于浮动系数迭代思想的运放共享改进型

低功耗高精度 CIFF Sigma-Delta 调制器,将其输出的 1 bit 码流导入到 MATLAB 中进行信噪比分析,输出

频谱如图 16 所示,后仿真测试结果表明:在信号带宽为 8 kHz、采样频率为 4 MHz、供电电压为 1.2 V 时,该

调制器输出的峰值信噪比为 98 dB,有效位数(ENOB)为 16.1 bits。 基于浮动系数迭代思想对调制器的系

数筛选更加精确,更真实地将实际电路中存在的匹配和非线性因素反映到系数的选取上,为提升调制器精

度提供了一个重要的思想指引。 语音信号频率为 300~3 400 Hz,因此本文设计的调制器满足语音芯片的

66

第71页

http:∥xuebao.gxnu.edu.cn

应用需求。 由于本文设计的调制器采用运放共享技术降低由噪声整形滤波器个数引入的额外功耗,因此

调制器总功耗为 290 μW。

图 15 本文设计的 Sigma-Delta 调制器版图

Fig. 15 Sigma-Delta modulator layout designed in this paper

图 16 本文设计的 Sigma-Delta 调制器输出频谱 (FFT of 2

13

points)

Fig. 16 Output spectrum of sigma-delta modulator designed in this paper (FFT of 2

13

points)

本文设计的基于浮动系数迭代思想的运放共享改进型低功耗高精度 CIFF Sigma-Delta 调制器,在各

工艺角下,后仿真得到的有效位数(ENOB)如表 2 所示。 在版图设计时充分考虑了器件匹配,做好了对各

个子电路模块隔离,因此版图仿真结果表明:在-40 ~ 125 ℃ 测试环境下,调制器的有效位数(ENOB)随着

温度的降低有所提升,但在较高温度下略有下降。 总体而言,该调制器有效位数(ENOB)受温度影响较

小,具有实际应用意义,在各工艺角和各温度下的有效位数(ENOB)大于等于 15 bits,满足调制器预定精

度要求。

FoM 是衡量调制器性能的主要指标,根据品质因数 figure-of-merit(FoM)来标准化能量消耗百分比的

位(EENOB ),式(13)为能量消耗计算公式,式中 NFoM代表品质因数(FoM),PPOWER和 BBW分别是调制器的总

功耗和输入信号带宽。 式(14)中 EENOB为有效位数。

67

第72页

广西师范大学学报(自然科学版),2022,40(2)

表 2 不同工艺角下调制器的有效位数

Tab. 2 Effective bits of modulator at different process angles

Tr

/ ℃ t

tt

/ bits f

ff

/ bits sss

/ bits

-40 16.3 15.9 15.8

27 16.1 15.7 15.6

85 15.9 15.2 15.1

125 15.4 15.0 15.0

NFoM

=

PPOWER

2

EENOB ×2×BBW

ηpj

ηconversion

-l ( step ) , (13)

EENOB

=

SSNR

-1.76

6.02

。 (14)

表 3 为近年国内外设计的 Sigma-Delta 调制器各项参数对比情况,从表中可以看出,本文设计的

Sigma-Delta 调制器可以实现低功耗高精度的 AD 转换。

表 3 调制器性能对比

Tab. 3 Comparison of modulator performance

性能参数 本文 文献[24](2014) 文献[7](2017) 文献[5](2019) 文献[6](2020)

工艺/ μm 0.11 — 0.18 0.35 0.18

电源电压/ V 1.2 5 1.8 2.5 1.8

过采样率(OSR) 256 256 256 256 256

带宽/ kHz 8 0.3 20 12 20

有效位数/ bits 16.1 15.0 13.8 16.5 14.18

功耗/ mW 0.29 4.67 18.82 4 18.9

品质因数

ηpj

ηconversion

-l ( step ) 0.27 237.5 357.6 2.5 24.5

芯片面积/ mm

2

0.043 0.13 0.3 0.14 0.13

注:“—”表示该参考文献未列出此项数据。

4 结语

本文设计了一种应用于语音领域基于浮动系数迭代思想的运放共享改进型低功耗高精度 CIFF

Sigma-Delta 调制器,通过运放共享技术降低了传统 2 阶调制器结构中 2 个噪声整形滤波器引入的功耗,并

将浮动系数迭代思想应用于系统及设计获取系数,使得调制器的精度提升了 0.27 bit。 在 UMC 0.11 μm

CMOS 工艺下完成了整个调制器原理图和版图的设计,后仿真的结果表明:该调制器在输入信号带宽为 8

kHz、过采样率为 256 时,输出的有效分辨率达到 16 bits,满足预定设计指标要求。

参 考 文 献

[1] 王盟皓, 侯训平, 陆铁军. 基于 Matlab 的宽带连续时间 Sigma-Delta 调制器设计[ J]. 微电子学与计算机, 2020, 37

(6): 70-74. DOI: 10.19304 / j.cnki.issn1000-7180.2020.06.014.

68

第73页

http:∥xuebao.gxnu.edu.cn

[2] 王福强. 连续时间带通 Sigma-Delta 调制器的设计方法及实现技术研究[D]. 沈阳: 沈阳工业大学, 2020. DOI: 10.

27322 / d.cnki.gsgyu.2020.000623.

[3] BONIZZONI E, PEREZ A P, MALOBERTI F, et al. Two op-amps third-order sigma-delta modulator with 61-dB SNDR, 6-

MHz bandwidth and 6-mW power consumption[J]. Analog Integrated Circuits and Signal Processing, 2011, 66(3): 381-

388. DOI: 10.1007 / s10470-010-9538-9.

[4] KWON C K, KIM H, PARK J, et al. A 0. 4-mW, 4. 7-ps resolution single-loop ΔΣ TDC using a half-delay time integrator

[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2016, 24( 3): 1184-1188. DOI: 10. 1109 /

TVLSI. 2015. 2438851.

[5] 周志兴, 来强涛, 姜宇, 等.一种应用于角度传感器的 Sigma Delta ADC 设计[J]. 微电子学与计算机, 2019, 36(8):

25-29. DOI: 10.19304 / j.cnki.issn1000-7180.2019.08.006.

[6] SUNG G M, LEE C T, XIAO X, et al. 4

th

-order switched-current multistage-noise-shaping delta-sigma modulator with a

simplified digital noise-cancellation circuit[J]. IEEE Access, 2020, 8: 168589-168600. DOI: 10. 1109 / ACCESS.

2020.3023416.

[7] SUNG G M, GUNNAM L C, LIN W S, et al. A third-order multibit switched-current delta-sigma modulator with switchedcapacitor flash ADC and IDWA[ J]. IEICE Transactions on Electronics, 2017, E100. C( 8): 684-693. DOI: 10.1587 /

transele.E100.C.684.

[8] LI D, QIAN X J, LI R Z, et al. High resolution ADC for ultrasound color doppler imaging based on MASH sigma-delta

modulator[ J ]. IEEE Transactions on Biomedical Engineering, 2020, 67 ( 5 ): 1438-1449. DOI: 10. 1109 / TBME.

2019.2938275.

[9] SCHREIER R, PAVAN S, TEMES G C. Understanding delta-sigma data converters [M]. 2nd ed. New York: IEEE, 2017.

DOI: 10.1002 / 9781119258308.

[10] CHAO K C H, NADEEM S, LEE W L, et al. A higher order topology for interpolative modulators for oversampling A/ D

converters[J]. IEEE Transactions on Circuits and Systems, 1990, 37(3): 309-318. DOI: 10.1109 / 31.52724.

[11] SAFI-HARB M, ROBERTS G W. Low power delta-sigma modulator for ADSL applications in a low-voltage CMOS

technology[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2005, 52(10): 2075-2089. DOI: 10.1109 /

TCSI.2005.852925.

[12] 王彬, 何光旭, 肖姿逸, 等.一种高精度单环高阶 Σ-Δ 调制器[ J]. 微电子学, 2017, 47( 5): 644-647. DOI: 10.

13911 / j.cnki.1004-3365.2017.05.012.

[13] 李俊宏. 基于动态误差消除技术的 Sigma-Delta 调制器的研究与设计[D]. 成都: 西南交通大学, 2019. DOI: 10.

27414 / d.cnki.gxnju.2019.000724.

[14] 胡云. 用于医疗电子的 24 位 Sigma-delta 调制器的研究与设计[D]. 西安: 西安电子科技大学, 2020. DOI: 10.

27389 / d.cnki.gxadu.2020.003237.

[15] NDJOUNTCHE T. Delta-sigma data converters[M]. Boca Raton: CRC Press, 2011. DOI: 10.1201 / b10943-12.

[16] SCHREIER R, SILVA J, STEENSGAARD J, et al. Design-oriented estimation of thermal noise in switched-capacitor

circuits[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2005, 52(11): 2358-2368. DOI: 10.1109 /

TCSI.2005.853909.

[17] LEE I, KIM B, LEE B G. A low-power incremental delta-sigma ADC for CMOS image sensors[J]. IEEE Transactions on

Circuits and Systems II: Express Briefs, 2016, 63(4): 371-375. DOI: 10.1109 / TCSII.2015.2503706.

[18] FREITAS L M C, MORGADO-DIAS F. Reference power supply connection scheme for low-power CMOS image sensors

based on incremental sigma-delta converters[J]. Electronics, 2021, 10(3): 299. DOI: 10.3390 / electronics10030299.

[19] 谭晓强. 低功耗分时复用 Delta-Sigma 调制器[D]. 长沙: 国防科学技术大学, 2010.

[20] BANU M, KHOURY J M, TSIVIDIS Y. Fully differential operational amplifiers with accurate output balancing[ J]. IEEE

Journal of Solid-State Circuits, 1988, 23(6): 1410-1414. DOI: 10.1109 / 4.90039.

[21] BULT K, GEELEN G J G M. A fast-settling CMOS op amp for SC circuits with 90-dB DC gain[J]. IEEE Journal of SolidState Circuits, 1990, 25(6): 1379-1384. DOI: 10.1109 / 4.62165.

[22] 周述, 蒋品群, 宋树祥. 2.8~ 8.5 GHz 全集成高增益低功耗超宽带低噪声放大器设计[J]. 广西师范大学学报(自然

科学版), 2017, 35(2): 9-16. DOI: 10.16088 / j.issn.1001-6600.2017.02.002.

[23 ] PATHAN A, MEMON T D. Sigma-delta modulation based single-bit adaptive DSP algorithms for efficient mobile

69

第74页

广西师范大学学报(自然科学版),2022,40(2)

communication[ J]. Circuits, Systems, and Signal Processing, 2021, 40 ( 4): 1788-1801. DOI: 10. 1007 / s00034-020-

01553-0.

[24] 袁云, 李福杰, 赵野, 等.一种可集成于电池组检测芯片的 Sigma-Delta A/ D 转换器[J]. 微电子学与计算机, 2014,

31(11): 143-147. DOI: 10.19304 / j.cnki.issn1000-7180.2014.11.031.

Modeling and Design of Low Power and High Precision Sigma-Delta Modulator

LIU Zhenyu, SONG Shuxiang

, CEN Mingcan, JIANG Pinqun, CAI Chaobo

(College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China)

Abstract: In order to improve the accuracy of the Sigma-Delta modulator and reduce its power consumption, an

improved second-order single-loop CIFF Sigma-Delta modulator is designed. The additional power consumption

caused by the number of noise shaping filters is reduced by using op-amp sharing technology. The idea of floating

coefficient iteration is applied to the modeling of the modulator in MATLAB, and the specific values of various

parameters that meet the precision requirements are finally determined. Through the introduction of non-ideal

factors, the obtained parameters are simulated and verified to meet the minimum performance index, and then

the transistor level circuit is designed. The modulator has a signal bandwidth of 8 kHz and a sampling frequency

of 4 MHz. The circuit design uses UMC 0.11 μm CMOS process, and the core circuit layout size is 226.8 μm×

187.44 μm. The post-simulation results show that when the power supply voltage is 1. 2 V, the total power

consumption of the modulator is 290 μW. At -40-125 ℃ , and the effective bits of each process Angle is more

than 15 bits.

Keywords: sigma-delta modulator; floating coefficient; matlab modeling; low power consumption; highprecision; voice chip

(责任编辑 苏凯敏)

70

第75页

第 40 卷 第 2 期

2022 年 3 月

广西师范大学学报(自然科学版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021060803 http: xuebao.gxnu.edu.cn

龚闯, 刘志强, 陆叶, 等. 基于动量因子 DD-LMS 算法在高速相干接收机中的应用[J]. 广西师范大学学报(自然科学版), 2022, 40(2):

71-80. GONG C, LIU Z Q, LU Y, et al. Application of momentum factor DD-LMS algorithm in high speed coherent receiver[J]. Journal of Guangxi

Normal University (Natural Science Edition), 2022, 40(2): 71-80.

基于动量因子 DD-LMS 算法在高速

相干接收机中的应用

龚 闯1

, 刘志强1,2

, 陆 叶1

, 周 鹏1

, 武康康1

, 李传起1,3∗

(1. 广西师范大学 电子工程学院, 广西 桂林 541004; 2. 中国电子科技集团公司 第三十四研究所, 广西 桂林 541004;

3. 南宁师范大学 物理与电子学院, 广西 南宁 530001)

摘 要: 光纤中的色散是引起传输信号码间串扰( ISI)的直接原因, 传统的用于均衡 ISI 的自适应盲均衡算法收敛速度

慢、 误差大, 不适用于高速相干接收机。 为解决该问题, 本文引入动量因子, 改进基于判决引导的最小均方(DD-LMS)

算法用于优化光纤信道色散影响, 理论推导并论证动量因子对盲均衡算法的收敛性能及误差函数的影响, 同时探究不同

函数的动量因子对算法的优化性能。 本文在 OptiSystem 光仿真软件上搭建单载波传输速率 224 Gib / s 相干光传输系统。

结果表明, 相较于传统时域均衡器(TDE), 在其后端添加此自适应滤波器, 系统平均误码率能下降约 2.5 dB。 在光信噪

比为 15 dB、 传输距离为 500~ 1 000 km 的情况下, 色散补偿模块误码率能稳定在 10

-2左右, 在色散信道中具有较强鲁

棒性。

关键词: 相干光接收机; 色散补偿; 盲均衡; DD-LMS 算法; 动量因子

中图分类号: TN929.1 文献标志码: A 文章编号: 1001-6600(2022)02-0071-10

在单模光纤中,基模的群速度与频率相关,脉冲不同的频谱分量以略微不同的群速度传输,导致光脉

冲在传输过程中展宽从而引起码间串扰(intersymbol interference,ISI),影响信号的传输距离和传输质量。

实际光通信系统中,受外界因素影响,色散信道模型并不是恒定的,一般会在接收机数字信号处理

(digital signal processing, DSP)模块中加入采用自适应的思想设计的均衡滤波器用于估计变化参数。 重

叠-保留法采用光纤色散理想期望传输函数[1] 对色度色散(chromatic dispersion,CD)进行补偿,将信号分

块,变换到频域上,截断分块后的两端部分序列,对残余色散进行补偿,计算复杂度大,同时无法完全消除

其他因素对信号的扰动。 恒模算法(constant modulus algorithm,CMA)及其改进类算法在信道变化剧烈时,

稳态误差较大,收敛速度较慢,一般迭代次数需大于 8 000 次[2-6]

,难以满足实际传输系统的需求。 基于机

器学习的色散补偿模块,利用神经网络[7-9]

、支持向量机[10-13]

(support vector machine,SVM)等技术训练相

应的映射网络,在一定程度上能估计出信道模型,但训练计算量大、系统延时高,一般需对数据样本遍历

150 000 次左右,无法适应高速光系统。

本文构建基于动量因子的判决引导的最小均方(momentum decision-directed least means-square,MDDLMS)算法,从理论上论证了动量因子对此算法收敛性的影响,推导了动量因子与迭代步长之间的关系。

结果表明,在基于 OptiSystem 的 56 Gbaud 双偏振非归零正交相移键控( non return zero-quadrature phase

shift keying,NRZ-QPSK)相干光传输系统中,相比于其他盲均衡算法,MDD-LMS 收敛速度明显加快;在面

对色散常数变化时,此算法具有良好的均衡性能。

收稿日期: 2021-06-08 修回日期: 2021-07-10

基金项目: 广西科技计划项目重点研发计划课题(桂 AB17292082)

通信作者: 李传起(1964—), 男, 安徽六安人, 南宁师范大学教授, 博士。 E-mail: lcq@mailbox.gxnu.edu.cn

第76页

广西师范大学学报(自然科学版),2022,40(2)

1 算法结构

在采用 QPSK 调制格式的光纤传输系统中,通过相干接收机前端完成光电转换、模数转换、正交归一

化、时钟恢复等步骤后,在用于补偿光纤线性损伤的接收机中进行数字信号处理(流程如图 1 所示)。

L7

= 7= 7E



,

K ?-

7

=

7E

=

7E

=

7

=

D\"

M

,



D\"

M

,



?-?-

A4@

X-X

Y-X

X-Y

Y-Y

Ix

Iy

Qy

Qx

j

j

图 1 数字相干光接收机中 DSP 流程

Fig. 1 DSP flow chart in digital coherent optical receiver

在数字相干光接收机中,CD 对光纤通信系统的影响被建模[12]为

H(ω,z)= exp[-jK(ωT)

2

], (1)

K =

2

z

4πcT

2

。 (2)

式(1)和式(2)中:ω 为等效基带信号的角频率,T 为信号采样周期,D 为光纤色度色散常数, 为传输波

长,z 为传输距离,c 为光速。

1.1 时域色散补偿均衡器

高速光通信系统一般采用有限长单位冲激响应(finite impulse response,FIR)的滤波器结构进行补偿。

补偿可在频域或时域进行。 将式(1)进行傅里叶反变换,可得时域均衡器(time domain equalizer,TDE)的

冲激响应为

hCD

=

ic

DLλ

2

exp -i

πc

DLλ

2

t

2

( ) 。 (3)

考虑到对信号的采样频率需满足奈奎斯特抽样定理,可得 FIR 滤波器抽头系数为

ak

=

i

4πK

exp -i

n

2

4K

( ) ,-

N

2

≤n≤

N

2

, (4)

N= 2[2πK]+1。

式(4)中

N

2

为不大于 N/ 2 的最大正整数。 根据式(2)和式(4)可以计算时域均衡器的抽头权重,在光纤

长度为 100 km、色散常数 D= 16 ps/ (nm·km

-1

)、抽样频率为 4 per/ symbol 的情况下,截取 TDE 中间部分

抽头权重,如图 2 所示。

对于色散常数恒定光纤模型,时域色散均衡器的抽头权重模值恒定,其实部和虚部呈周期性变化。 实

际应用中,FIR 滤波器由于截断效应,导致经过 TDE 后的信号中依然会存在一定值的残余色散,一般通过

后续自适应均衡算法去除。

1.2 MDD-LMS 算法理论与实现

DSP 处理模块中的均衡算法通过对接收信号 x(n)抽样后的数据点进行“迫零”处理,从而消除 ISI 影

72

第77页

http:∥xuebao.gxnu.edu.cn

图 2 TDE 抽头权值

Fig. 2 TDE tap weights

响,下面推导其原理。

设发射信号 s(n),经过长度为 L 的离散信道传输后的接收信号可表示为

u(n) = ∑

L

l = 0

hl

s(n - l) + v(n)。 (5)

式中:hl 为 FIR 离散信道单位冲激响应;v( n)为加性高斯白噪声( additive white gaussian noise,AWGN)。

考虑到抽头数为 2M+1 的均衡滤波器单位冲激响应为

w(n) = ∑

M

k = -M

w

k

δ(n - k)。 (6)

考虑到通过均衡器后接收信号s(n)

^为

s(n)

^

= ∑

M

k = -M

w

k u(n - k)。 (7)

将式(5) 代入式(7) 得

s(n)

^

= ∑

M

k = -M ∑

L

i = 0

w

k hi

s(n - k - i) + ∑

M

k = -M

w

k

v(n - k)。 (8)

经过变量代换 l = k + i,得

s(n)

^

= f(0)s(n) + ∑

M+L

l = -M,l≠0

s(n - l)f(l) + ∑

M

k = -M

w

k

v(n - k)。 (9)

式中 f(n)为 h(n)与 w(n)线性卷积和;式中第一项与发射信号成比例,第二项为码间串扰值,第三项为噪

声影响。 为消除 ISI, f(n)应满足

f(n)=

1, n = 0,

0, n≠0。 { (10)

基于静态色散补偿的 MDD-LMS 算法流程如图 3 所示。

利用信道盲均衡原理,构建代价函数

J(n)= E{ g[s(n)

^

]-s(n)

^ 2

}。 (11)

式中:s(n)

^为横向 FIR 滤波器输出; g ( ·) 为一种无记忆非线性运算,在判决引导算法中, g ( n) =

dec[s(n)

^

]。 在调制格式为 QPSK 的信号中,g(n)= sgn[ s(n)

^

],添加动量因子的判决引导最小均方算法

73

第78页

广西师范大学学报(自然科学版),2022,40(2)

E

x(n)

P+ 

v(n)

TDE

LMS0\"

FIR$\"

w(n) 3E



u(n) L3@

e(n)

d(n)

s(n)

s(n)

g(n)=sgn[s(n)]

@

^



图 3 MDD-LMS 算法原理

Fig. 3 Schematic diagram of MDD-LMS algorithm

(MDD-LMS)代价函数为

JM(n)= J[w(n)]+αJ[w(n-1)]。 (12)

式(12)可化为

JM(n)= e(n)

2+α [w(n)-w(n-1)] 。 (13)

根据经典维纳滤波器理论,可求得横向滤波器迭代公式为

w(n+1)= w(n)-

μ

2

{ J[w(n)]+α J[w(n-1)]}, (14)

w(n+1)= w(n)+μu(n)e

(n)+α[w(n)-w(n-1)]。 (15)

式(15)中 e(n)= sgn[s(n)

^

]-w

H

^

(n)u(n)。 MDD-LMS 算法引入动量项 α[w(n)-w(n-1)],使得每次迭代

过程中利用已迭代完成的抽头权重,在没有增加算法计算量的基础上,能够有效提升盲均衡算法的收敛

能力。

考虑到 MDD-LMS 算法性能以及动量因子 α 的选取,设 ξwi

=w(n+1)-w(n),式(15)可表示为ξwi

(n)=

μe(n)u(n)+αξwi

(n-1),设 γ(n)= e(n)u(n),可得

ξ wi

(n) = μγ(n) + α

n

ξ wi

(0) + μ ∑

n-1

j

α

j

γ(n - j)。 (16)

式中引入 α 的幂次累加项,MDD-LMS 算法初期收敛速度加快,追踪能力加强;迭代近稳态时,动量的引入

可以帮助稳定误差曲线。 由于存在非线性项,前向累加误差难免会对收敛稳态值产生一定波动。

本文在 MATLAB 中搭建 224 Gbps NRZ-QPSK 光纤传输信道,设置色散常数为 16 ps/ (nm·km

-1

),传

输距离为 100 km,在 OSNR 为 10 dB 的情况下,比较传统定步长 DD-LMS 算法与 MDD-LMS 算法的误差曲

线,如图 4 和图 5 所示。

图 4 MDD-LMS 误差曲线

Fig. 4 MDD-LMS error curves

图 5 DD-LMS 误差曲线

Fig. 5 DD-LMS error curves

74

第79页

http:∥xuebao.gxnu.edu.cn

可以看出,MDD-LMS 算法收敛性优于 DD-LMS 算法,然而稳态误差稍大一些。 综合来说,引入动量项

的 DD-LMS 算法性能优于传统的 DD-LMS 算法。

增加动量项后,当 n→∞ 时,设理想抽头权重为 w0 ,定义权向量误差为

ε(n)= wi(n)-w0 。 (17)

由 MDD-LMS 算法迭代公式

E{ε(n + 1)} = E{ε(n)} + μE{∑

n-1

j

α

j

γ wi(n - j)} + E{α

n

ε wi(0)}。 (18)

考虑到高次动量项对收敛性能影响不大,保留一次动量项后可得

E{ε(n+1)} =E{ε(n)}-(μ+α)RE{ε(n)}。 (19)

即 E{ε(n+1)} = [I-(μ+α)R]E{ε(n)},其中 I 为单位矩阵,R 为输入向量 u(n)的自相关矩阵。 可得步

长 μ 和 α 的关系为

0<μ<

1+α

λmax

。 (20)

式中 λmax为 R 的最大特征值。

考虑到动量因子 α 决定 MDD-LMS 算法收敛速度和稳态误差,迭代初期收敛速度是首要因素,待算法

趋近稳定后,使用动量因子帮助稳定误差。 因此不同类型的动量因子对算法的优化性能不尽相同,本文探

究指数动量因子( exponential momentum factor)、线性动量因子( line momentum factor)、乘幂动量因子

(power momentum factor)和有理函数动量因子( rational momentum factor)对 DD-LMS 算法收敛性的提升。

不同类型的动量因子模型如图 6 所示。

图 6 不同函数模型的动量因子

Fig. 6 Momentum factors of different functional models

本文通过中心抽头的收敛性,比较了 MDD-LMS 算法、传统 DD-LMS 算法以及变步长 DD-LMS 算法

(variable step-decision-directed least mean-square,VS-DD-LMS)。 设置横向滤波器抽头数为 13,迭代步长 μ

为 0.000 1,α 区间为[2×10

-7

,2×10

-5

],仿真结果如图 7 所示。 由图 7 可以看出,指数因子 MDD-LMS 算法

迭代次数在 4 000 左右即可达到稳态,而其他类型动量因子的 DD-LMS 需迭代近 30 000 次才趋近收敛。

引入动量项对盲均衡算法收敛性的改善显而易见。 在高速光接收机中,盲均衡算法需在迭代前期快速收

敛,动量项的引入提升了盲均衡算法的追踪能力,动量因子 α 取值越大,收敛速度和追踪性能提升越大,

但这种优化并非没有代价,算法趋近稳态后,系统中会引入一定量的残余误差,此时可以通过迭代步长 μ

和动量加权因子 α 来改善稳态性能,因此盲均衡算法迭代初期采用较大的 α 用于提升算法跟踪速度;待

系统达到稳态后,通过动量因子 α 的衰减来控制稳态误差。 由图 5 和图 6 可得,对比不同类型的动量因

75

第80页

广西师范大学学报(自然科学版),2022,40(2)

子,无论是在收敛速度还是在稳态误差控制方面,指数动量因子衰减模型相较于其他类型动量因子模型更

加契合盲均衡算法。

图 7 动量因子对自适应均衡器中心抽头收敛性影响

Fig. 7 Influence of momentum factor on center tap convergence of adaptive equalizer

2 实验结果

2.1 误码率分析

本文数字相干光接收机采用单载波 224 Gib / s 的传输方案。 仿真实验基于 Matlab 和 OptiSystem 光学

仿真软件,考虑到实际相干光系统,采用标准单模光纤( single mode fiber, SMF),使其工作波长位于

1 550 nm处,SMF 中一般色度色散常数为 16 ps/ (nm·km

-1

),考虑到传输距离增大时,二阶色散对传输信

号影响加剧,设置二阶色散常数为 0.075 ps/ (nm

2·km

-1

)。 由光纤 Kerr 效应引起的非线性损伤[14-18]

,在

传输光功率较小时忽略不计,其他仿真参数如表 1 所示。

表 1 相干传输系统仿真参数

Tab. 1 Simulation parameters of coherent transmission system

参数 值

载波波长/ nm 1 550

波特率/ Gbaud 56

调制格式 QPSK

传输码型 NRZ

采样率/ (per·symbol

-1

) 4

传输损耗/ (dB·km

-1

) 0.22

有效截面积/ ᆜm

2

80

一阶色散/ (ps·nm

-1·km

-1

) 16

二阶色散/ (ps·km·nm

-2

) 0.075

非线性折射率/ (m

2·W

-1

) 2.6×10

-20

信号功率/ dBm 0

噪声类型 AWGN

76

第81页

http:∥xuebao.gxnu.edu.cn

在未添加前向纠错码[19-22]

( forward error correction,FEC) 的情况下,设置光纤长度为 500 km,MDDLMS 算法迭代步长为 0.000 1,动量因子为指数模型,忽略偏振模色散(polarization mode dispersion,PMD)

的影响,测试所得光信噪比与误码率如图 8 所示。

图 8 光信噪比与 BER 的关系

Fig. 8 Relation diagram of OSNR ratio and BER

图 8 分别对比了时域色散补偿 FIR 滤波器性能和添加 DD-LMS 或 MDD-LMS 自适应滤波器后色散均

衡器的性能,同时对比参考了背靠背(back-to-back,BTB)情况下系统的误码率。 可以看出,在低 OSNR 情

况下,各类算法差距不大,而 TDE 模块由于其本身 FIR 滤波器特性限制,无法完全均衡静态色散影响,在

OSNR 为 10 dB 之后性能逐渐下降,20 dB 情况下误码率达到 4.57×10

-3

。 在 TDE 后端增加 MDD-LMS 算法

模块后,随着 OSNR 增大,系统的误码率下降较为明显,在 20 dB 时,BER 降低到 3.707×10

-5

,相比传统

TDE 模块,系统误码率下降了约 2 dB。 结果证明添加 MDD-LMS 算法后的均衡方案对光纤信道中的静态

色散损伤具有较好的补偿作用。 图 8 同时对比了 DD-LMS 算法和 MDD-LMS 算法的 BER 性能。 由于本身

的盲均衡特性,MDD-LMS 的 BER 浮动在-0.354 8 dB左右,与 DD-LMS 算法类似,2 种算法的 BER 曲线图

存在一定的波动,但总体差异不大。 从实际工程角度而言,指数因子 MDD-LMS 算法由于在收敛速度和追

踪性能上的优势,更适用于实际高速光传输系统。

图 9 光信噪比为 15 dB 情况下光纤长度与误码率的关系

Fig. 9 Relation diagram of fiber length and bit error rate at optical signal-to-noise ratio of 15 dB

77

第82页

广西师范大学学报(自然科学版),2022,40(2)

考虑到单模光纤中色散参数 D 与光纤长度有关,本文同时测试了传输距离对 MDD-LMS 算法的影响,

结果如图 9 所示。 图 9 对比了在光信噪比为 15 dB 的情况下,添加 MDD-LMS 算法模块对 TDE 的影响。

TDE 模块随着传输距离逐渐增大,误码率有一定的上升趋势。 而 MDD-LMS 由于其本身具有较强的抗干

扰能力,总体误码率处在一定范围之内,在色散信道中具有较好的鲁棒性。 在传输距离为 1 000 km 时,其

误码率可达到 10

-2

2.2 计算复杂度比较

本文从各类算法的均衡过程来分析 TDE、DD-LMS、MDD-LMS 算法实现的计算复杂度,设输入信号长

度为 M,自适应横向滤波器长度为 L,分析结果如表 2 所示。

表 2 各类均衡算法计算复杂度

Tab. 2 Computational complexity of various equalization algorithms

算法 计算量

TDE M 次卷积运算

ML 次乘法,M(L-1)次加法计算横向滤波器输出

DD-LMS

M 次加法运算计算误差函数

ML 次乘法运算,M(L-1)次加法更新均衡器抽头权重

M 次卷积计算自适应横向均衡器输出

ML 次乘法,M(L-1)次加法计算横向滤波器输出

M 次加法运算计算误差函数

MDD-LMS ML 次乘法,ML 次减法计算动量项

ML 次乘法运算,M(L-1)次加法更新均衡器抽头权重

M 次卷积计算自适应横向均衡器输出

本文所搭建的单载波 56 Gbaud PM-QPSK 系统中,在传输距离为 1 000 km 的情况下,由式(4)计算出

TDE 所需抽头数为 N= 1 683 个,其均衡静态色散所需计算量为 N 与信号长度 M 的卷积运算。 后续添加

的 DD-LMS 算法所设置的抽头数为 L = 13,根据经典盲均衡算法迭代过程,单次迭代所需计算量仅为 2L 次

乘法运算和 2L-1 次加法运算。 MDD-LMS 算法引入动量因子后在原有 DD-LMS 算法的基础上仅增加了

2L 次加法运算和 L 次乘法运算,增加后的计算总量约为 TDE 的 1.5%。 在几乎没有提升接收机计算复杂

度的条件下,MDD-LMS 算法有效地抑制了残余色散的影响,证明本算法在实际系统中的可行性。

3 结语

本文采用动量因子改进了盲信号处理理论中的判决引导算法,通过仿真实现了 MDD-LMS 算法模块

在单载波传输速率为 224 Gib / s 的高速光接收机色度色散补偿中的应用。 指数因子 MDD-LMS 算法与传

统 DD-LMS 算法在色散均衡方面性能相近,能有效地降低光纤中色度色散的影响;但指数因子 MDD-LMS

算法的收敛速度仅约为 DD-LMS 算法的 1 / 10,其跟踪能力方面远优于 VS-DD-LMS 和其他类型 MDD-LMS

算法,更适合高速光接收机。 由于实际光纤通信系统信道的复杂度和当前电子器件工作频率限制,后续改

进算法还需针对系统的稳定性加以研究。

78

第83页

http:∥xuebao.gxnu.edu.cn

参 考 文 献

[1] KUDO R, KOBAYASHI T, ISHIHARA K, et al. Coherent optical single carrier transmission using overlap frequency

domain equalization for long-haul optical systems[J]. Journal of Lightwave Technology, 2009, 27(16): 3721-3728. DOI:

10.1109 / JLT.2009.2024091.

[2] 阮秀凯, 蒋啸, 李昌.一种适用于高阶 QAM 系统 Bussgang 类盲均衡新方法[ J]. 电子与信息学报, 2012, 34(8):

2018-2022.

[3] 钟昆, 杨怀栋. 超高速 PM-QPSK 相干光通信系统恒模算法解调性能分析[J]. 光通信技术, 2019, 43(4): 1-7.

[4] 吴晓杰. 高阶 QAM 信号解调并行均衡低复杂度算法研究与实现[D]. 成都: 电子科技大学, 2020.

[5] DONG Y, WANG L Q, ZHANG Z G, et al. Parallel and pipelined CMA for high-speed and real-time optical coherent

receivers[C]∥ 2019 18th International Conference on Optical Communications and Networks ( ICOCN). Piscataway, NJ:

IEEE, 2019. DOI: 10.1109 / ICOCN.2019.8934049.

[6] KAMRAN R, THAKER N B, ANGHAN M, et al. Demonstration of a polarization diversity based SH-QPSK system with

CMA-DFE equalizer[C]∥ 2017 26th Wireless and Optical Communication Conference (WOCC). Piscataway, NJ: IEEE,

2017. DOI: 10.1109 / WOCC.2017.7928980.

[7] 张天骐, 范聪聪, 葛宛营, 等. 基于 ICA 和特征提取的 MIMO 信号调制识别算法[ J]. 电子与信息学报, 2020, 42

(9): 2208-2215.

[8] KYONO T, OTSUKA Y, FUKUMOTO Y, et al. Computational-complexity comparison of artificial neural network and

Volterra series transfer function for optical nonlinearity compensation with time-and frequency-domain dispersion equalization

[C]∥ 2018 European Conference on Optical Communication (ECOC). Piscataway, NJ: IEEE, 2018. DOI: 10. 1109 /

ECOC.2018.8535153.

[9] RANZINI S M, ROS F D, ZIBAR D. Joint low-complexity opto-electronic chromatic dispersion compensation for short-reach

transmission[ C]∥ 2019 IEEE Photonics Conference ( IPC). Piscataway, NJ: IEEE, 2019. DOI: 10. 1109 / IPCon.

2019.8908278.

[10] 李晓记, 杜卫海, 李燕龙, 等. 基于 SVM 的水下 LED 可见光通信信号检测方法[J]. 光通信技术, 2021, 45(5): 50-

54. DOI: 10.13921 / j.cnki.issn1002-5561.2021.05.011.

[11] 迟楠, 牛文清, 贾俊连, 等. 基于抗非线性 SVM 的几何整形可见光通信系统[ J]. 应用科学学报, 2020, 38(4):

647-658.

[12] CHEN G Y, SUN L, XU K, et al. Machine learning of SVM classification utilizing complete binary tree structure for PAM4/ 8 optical interconnection[C]∥ 2017 IEEE Optical Interconnects Conference (OI). Piscataway, NJ: IEEE, 2017: 47-

48, DOI: 10.1109 / OIC.2017.7965524.

[13] 吴曦. 基于深度学习的可见光通信系统中信道估计与信道非线性研究[D]. 北京: 北京邮电大学, 2020. DOI: 10.

26969 / d.cnki.gbydu.2020.002724.

[14] SAVORY S J. Digital filters for coherent optical receivers[ J]. Optics Express, 2008, 16 (2): 804-817. DOI: 10.1364 /

OE.16.000804.

[15] KHAFAJI M, GUSTAT H, ELLINGER F, et al. General time-domain represention of chromatic dispersion in single-mode

fibers[J]. IEEE Photonics Technology Letters, 2010, 22(5): 314-316. DOI: 10.1109 / LPT.2009.2038355.

[16] ZHOU Z, TANG Z X. Quantitatively predicting third harmonic generation for Gaussian pulses propagating in Kerr nonlinear

media[C]∥ 2017 4th International Conference on Information Science and Control Engineering (ICISCE). Piscataway, NJ:

IEEE, 2017: 1608-1611. DOI: 10.1109 / ICISCE.2017.335.

[17] 王瑜浩. 少模光纤传输系统的非线性补偿与再生技术研究[D]. 成都: 电子科技大学, 2020. DOI: 10.27005 / d.cnki.

gdzku.2020.002137.

[18] XU J, ZHENG Y, SUN X H. Analysis for transmission performance of ultra-long haul optical fiber link considering quintic

79

第84页

广西师范大学学报(自然科学版),2022,40(2)

nonlinear effect[C]∥ 2017 16th International Conference on Optical Communications and Networks (ICOCN). Piscataway,

NJ: IEEE, 2017. DOI: 10.1109 / ICOCN.2017.8121484.

[19] 梅艳, 张跃进, 展爱云. 基于 FEC 的 LDPC 编码在远距离光通信系统中的研究[J]. 光通信技术, 2012, 36(8): 32-

34. DOI: 10.13921 / j.cnki.issn1002-5561.2012.08.011.

[20] 叶文伟. 光通信系统中一种新颖 FEC 码的仿真分析[ J]. 半导体光电, 2012, 33(4): 561-565. DOI: 10.16818 / j.

issn1001-5868.2012.04.027.

[21] 覃江毅. 前向纠错编码类型盲识别关键技术研究[D]. 长沙: 国防科技大学, 2018. DOI: 10.27052 / d. cnki. gzjgu.

2018.000026.

[22] LIGA G, CHEN B, VAN DER HEIDE S, et al. 30% reach increase via low-complexity hybrid HD/ SD FEC and improved

4D modulation[J]. IEEE Photonics Technology Letters, 2020, 32(13): 827-830. DOI: 10.1109 / LPT.2020.2995636.

Application of Momentum Factor DD-LMS Algorithm in High Speed

Coherent Receiver

GONG Chuang

1

, LIU Zhiqiang

1,2

, LU Ye

1

, ZHOU Peng

1

, WU Kangkang

1

, LI Chuanqi

1,3∗

(1. College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China;

2. The No.34 Research Institute of CETC, Guilin Guangxi 541004, China;

3. College of Physics and Electronic, Nanning Normal University, Nanning Guangxi 530001, China)

Abstract: The chromatic dispersion in the optical fiber is the direct cause of the inter-symbol interference (ISI)

of the transmission signal, and the signal degradation is particularly serious when the transmission environment

fluctuates. Traditional adaptive blind equalization algorithms have slow convergence speed and large errors, which

are not suitable for high-speed coherent receivers. In order to solve this problem, the momentum factor is

introduced to improve the decision-directed least means square (DD-LMS) algorithm to optimize the effect of

fiber channel dispersion. Theoretically, the momentum factor is derived and demonstrated on the convergence

performance and error function of the blind equalization algorithm. At the same time, the momentum factor of

different functions is explored on the optimization performance of the algorithm.A coherent optical transmission

system with a single carrier transmission rate of 224 Gib / s is built on the OptiSystem optical simulation software.

The results show that, compared with the traditional time domain equalizer (TDE ), adding this adaptive filter at

the back end of the system can reduce the average bit error rate of the system by about 2.5 dB. When the optical

signal-to-noise ratio is 15 dB and the transmission distance is 500-1 000 km, the error rate of the dispersion

compensation module can be stabilized at about 10

-2

, and it has strong robustness in the dispersion channel.

Keywords: coherent optical receiver; dispersion compensation; blind equalization; DD-LMS algorithm;

momentum factor

(责任编辑 苏凯敏)

80

第85页

第 40 卷 第 2 期

2022 年 3 月

广西师范大学学报(自然科学版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2020121505 http: xuebao.gxnu.edu.cn

马铖旭, 曾上游, 赵俊博, 等. 基于卷积神经网络的逆光图像增强研究[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 81-90. MA C

X, ZENG S Y, ZHAO J B, et al. Research on backlight image enhancement based on convolutional neural network [J]. Journal of Guangxi Normal

University (Natural Science Edition), 2022, 40(2): 81-90.

基于卷积神经网络的逆光图像增强研究

马铖旭, 曾上游∗

, 赵俊博, 陈红阳

(广西师范大学 电子工程学院, 广西 桂林 541004)

摘 要: 现有的大部分算法只能针对特定照度的逆光图像有出色的增强效果, 不能高效率地解决各类照度的逆光图像。

因此, 本文提出一种基于卷积神经网络的图像增强算法, 并构建一种集分解、 恢复、 调节为一体的新型网络架构。 利用

Retinex 理论设计一个分解网络, 将逆光图像与其对应的高光图像都分解为反射图和光照图。 采用高光图反射分量作为去

噪参考, 修复暗光缺陷, 并添加颜色饱和度模块, 最大程度地保留图像恢复过程中的颜色等细节。 逆光图像的光照图可

依据用户喜好自适应调节亮度, 设置增强比率(目标光源与图像光源间的比值)作为调节指标, 将逆光图像增强至高光图

像时, 增强比率要大于 1。 在多个公开数据集(LOL、 DICM、 NPE)上验证, 研究表明本文方法可有效增强逆光图像亮度,

改善图像质量, 保证图像细节不丢失, 避免颜色失真。 在不同照度的逆光图像上均有较好的效果, 主观和客观评价指标

上的结果优于对比算法, 对智慧城市的安防以及人工智能的发展有应用价值。

关键词: 逆光图像增强; 卷积神经网络; Retinex; 色彩饱和度; 人工智能

中图分类号: TP391.41; TP183 文献标志码: A 文章编号: 1001-6600(2022)02-0081-10

图像增强在艺术片的拍摄、监控系统、卫星图像处理、医学等领域应用极为广泛。 逆光图像一般指在

极低照度、低照度、微暗照度等各类照度下产生的低亮度、低对比度的图像。 在极低照度下产生的图像基

本全是暗色区域,目前有许多针对该类逆光图像增强的算法,但是常常因为严重的噪声和图像失真隐藏在

图像暗部而导致增强出来的图像细节严重丢失。 除了要满足视觉需求还要保证最大程度地恢复图像原有

的细节,甚至在颜色饱和度、去噪等方面设置要求,这样的图像增强任务给人类带来很大挑战与强大的算

法硬核。 目前,国内外对于逆光图像增强技术逐步验证:将传统的图像增强算法思想与现今研究热点的卷

积神经网络相结合,能在逆光图像增强领域达到质的飞跃。

传统的图像增强算法 Retinex

[1]不同于直方图均衡化[2-3]

,Retinex 专注于局部增强,这在一定程度上

解决了全局增强算法对图像局部区域亮度增强不足的问题,可以在动态范围压缩、边缘增强和颜色恒常 3

个方面达到平衡,因此能对不同类型的图像进行自适应增强。 而直方图均衡化利用灰度的统计特征,将原

图像的灰度分布从较为集中的区间映射到整个灰度区域均匀分布,从而达到图像增强的效果[4-5]

,往往容

易导致图像非逆光区域过度增强而出现颜色、细节丢失。 多尺度 Retinex

[6]算法在增强过程中可以保持图

像的本质特征,但受限于产生最终结果的方式, 增强出来的图像会在某些区域过度增强,会出现图像纹理

不清晰、高频区域突出不明显等情况,基于 Retinex 理论改进的逆光图像增强算法[7-11] 应运而生。 文献

[12]基于 Retinex 理论,只估计光照分量,这样做可以缩小解空间和减少计算量。 但正因其依赖于光照分

量,对极低照度图像增强会因光照照度不够导致增强结果过暗,对于低照度图像的亮度过大的背景区域又

会出现过度增强的现象。

近年来,学者们陆续提出了许多基于卷积神经网络的方法。 文献[13]提出了一个全局照明感知和细

节保持网络(GLADNet),通过将输入的低光照图像与估计出的光照图连接后输入到三层网络里重建,但

该方法在低照度图像增强中容易出现颜色和背景等失真问题。 文献[14]提出 Retinex-Net 网络,作者受到

收稿日期: 2020-12-15 修回日期: 2021-02-08

基金项目: 国家自然科学基金(61976063)

通信作者: 曾上游(1974—), 男, 湖南双峰人, 广西师范大学教授, 博士。 E-mail: zsy@mailbox.gxnu.edu.cn

第86页

广西师范大学学报(自然科学版),2022,40(2)

传统 Retinex 算法的启发,将图像先分解成光照分量和反射分量,而后对得到的光照图进行增强处理,最后

将增强后的光照图与分解出来的反射图进行相乘操作得到增强图像, 从该方法可以看出图像分解在某种

意义上是可以达到增强图像亮度的效果,但在去噪方面有待提升。 文献[15]的 KinD 是目前低照度图像

增强领域先进的算法之一,在去噪和图像增强方面相比较 Retinex-Net 有了质的飞跃,但增强后的图像会

出现颜色饱和度不足等情况,并且其仅在极低照度图像上处理完美,对于低照度逆光图像的增强还有提升

空间。

因此,为保证增强后的图像质量(包括在图像颜色饱和度、去噪等细节)的同时旨在扩大适用范围,本

文设计一种基于卷积神经网络的逆光图像增强算法,并结合传统的 Retinex 思想,构建一种集分解、恢复、

调节的新型网络架构( a new network architecture which integrates decomposition, recovery and adjustment

inspired by Retinex), 简称 RDRAnet。

1 RDRAnet 总体设计

RDRAnet 分为图像分解、反射率恢复及光照调节 3 部分。 Retinex 的基本思想是从原始图像中去除或

者降低光照图带来的影响,尽可能保留物体本质的反射属性。 受 Retinex 理论启发,本文将图像中反映物

体本身特性的那一部分分解出来,称之为反射图,并对反射图进行去噪、增强、纹理颜色保持等操作,对分

解出的光照部分进行自适应调节,将分解出来的图像称之为光照图,最终将操作所得的光照图和反射图相

乘得到增强图像。 本文恢复网络中,考虑到逆光图像的反射图存在退化效应且分布复杂,所以使用处于良

好光照下的反射图作为参考,这需要依赖于光照分布。 引入光照分量,与图像的反射分量连接后一起输入

到恢复网络中。 在恢复网络中结合 U-Net

[16]思想并引入深度可分离卷积代替部分传统卷积来实现图像增

强,与此同时加入颜色饱和度模块,使得图像增强过程中尽可能保留图像原有的色彩饱和度。 在调节网络

中,通过多次卷积运算提取图像特征,并将增强比率作为特征图与低光光照图合并后作为调节网络的输

入,从而实现能够连续调节光照强度的机制。 RDRAnet 总体设计框架如图 1 所示。

图 1 RDRAnet 总体设计框架

Fig. 1 Overall design block diagram of RDRAnet

82

第87页

http:∥xuebao.gxnu.edu.cn

2 本文算法

2.1 图像分解

Retinex 理论的基本假设是人眼观察到的图像 S(x,y)由入射光 L(x,y)与反射图像 R(x,y)决定,数学

表达式为

S(x,y)= L(x,y)R(x,y)。 (1)

式中:L(x,y)指物体表面入射光,直接决定了图像中像素所处的动态范围;R(x,y)由物体表面的反射性质

所决定,能直接反映图像的内在属性,且不易受到入射光的影响。 受 Retinex 理论的启发,本文将逆光图像

分解为反射图和光照图。

由图 1 可知,分解网络将逆光图像与其相对应的高光图像作为输入。 具体的分解网络细节如图 2

所示。

图 2 分解网络细节

Fig. 2 Detail of decomposition net

采用典型的 5 层 U-Net, 紧跟一个 1×1 卷积从特征空间投影出反射分量,最后使用 Sigmoid 函数将反

射率约束在[0,1]范围内得到逆光图像与高光图像的反射图。 而光照图由 2 个以 ReLU 作为激活函数的

3×3 卷积和一个 3×3 卷积连接到反射率分支的特征映射上,紧跟一个 1×1 卷积,便于信息融合,最后使用

Sigmoid 函数将光照分量约束在[0,1]范围内。

将原始空间解耦成 2 个类似的子空间,可以更好地正则化。 实验数据集中包含逆光图像及其对应的

高光图像。 每次都获取成对的逆光/ 高光图像,并在逆光图像和高光图像的指导下学习逆光图像及其对应

的高光图像分解。 因为物体反射率是固有属性,不因光照变化而变化,所以假设图像无退化,对于某个场

景获得的反射率应该相同。 光照有很多不确定因素,但结构简单且相互一致。 为了更好地估计反射率和

光照,本文为分解网络设置了 2 个约束条件:1)逆光图像与高光图像共享反射率。 2)光照映射平滑且相

互一致。 将以上 2 个约束条件作为损失函数嵌入到网络中,采用数据驱动[14]方式提取各种照明图像之间

的反射率。

图像分解部分的损失函数 L 由重建损失 Lrec、不变反射率损失 Lr、平滑度损失 Ls 和相互一致性损失

Lm 共 4 部分构成,其表达式为

L = Lrec

+λrLr

+λsLs

+λm Lm 。 (2)

式中 λr、λs、λm 分别为不变反射率损失、平滑度损失、相互一致性损失的系数。 为了保证分解网络的正确

性,理论上分解出来的反射图和光照图相乘后得到的图像要与原输入的图像相近。 用 Rlow 、Ilow表示经过分

解网络得到的逆光图对应的反射分量和光照分量,Rhigh 、Ihigh表示经过分解网络得到的高光图对应的反射

分量和光照分量,Slow 、Shigh分别表示输入的逆光图像和高光图像。 基于 Rlow与 Rhigh都能使用相对应的照明

83

第88页

广西师范大学学报(自然科学版),2022,40(2)

图重构图像的假设,重建损失Lrec数学表达式为

Lrec

=‖Shigh

-Rhigh

Ihigh‖1

+‖Slow

-Rlow

Ilow‖1 。 (3)

使用不变反射率损失 Lr 来保证反射率尽可能一致,其数学表达式为

Lr

=‖Rlow

-Rhigh‖1 。 (4)

通常情况下,在输入图像强边缘区光照会发生较大变化,而在弱边缘区,光照分布应平滑。 本文的平

滑度损失 Ls 数学表达式为

Ls

=

Ilow

max( | Slow

| ,c) 1

+

Ihigh

max( | Shigh

| ,c) 1

。 (5)

式中 是一阶导数算子,分为水平和垂直方向;c 是一个特别小的常数,本文设置 c 为 0.01。 相互一致性损

失 Lm

[15]数学表达式为

Lm

= ( | Ilow

| + | Ihigh

| )exp[-10( | Ilow

| + | Ihigh

| )]。 (6)

2.2 图像恢复

图像恢复包括图像去模糊[17]

、图像超分辨率重建[18]

、图像去噪[19] 等。 对于逆光图像,其噪声分布往

往是不均匀的,噪声大多分布在逆光区域,采用高光图反射分量作为去噪参考,使用 U-Net 网络对图像进

行增强,修复暗光缺陷。 深度可分离网络可以在既定感受野的情况下有限提高网络深度进而提高非线性,

使用深度可分离卷积代替 U-Net 中部分传统卷积层来提取特征,可使得计算成本显著降低的同时不降低

算法性能,还能实现效率提升。

退化在反射上的分布相对复杂且强烈依赖于照明分布,本文将光照分量与退化的反射分量连接后一

起输入到恢复网络中。 使用 3×3 卷积层从图像中提取特征,并使用 ReLU 作为激活函数,最大池化层的卷

积核大小均为 2×2。 恢复网络沿用 U-Net 思想,网络前半部分对图像进行特征提取,后半部分进行上采样

操作,将特征在通道维度上拼接在一起,有利于形成更深层次的特征。 上采样进行 4 次,将深层与浅层的

特征图进行结合,最后得到的恢复图像既具有丰富的全局信息,又不丢失局部细节,并且图像边缘等信息

更加精细。 深度可分离卷积由一个深度卷积和一个逐点 1×1 卷积结合,深度卷积用来降低空间维度,1×1

卷积可以很好地扩展深度。 具体的恢复网络细节如图 3 所示。

图 3 恢复网络细节

Fig. 3 Detail of restoration net

图 3 中用不同颜色的箭头代表卷积、池化、上采样等操作,用不同颜色的片状框代表经过相应卷积等

操作所得到的对应特征图。

逆光图像的反射图有相对多的降质成分,本文恢复网络将高光图分解出来的反射图作为去噪标签,图

像恢复部分损失函数 Lre由 4 部分组成,如式(7)所示,

Lre

= L2

+Lssim

+Lgrad

+λrgb Lrgb 。 (7)

Lssim是一种结构相似性损失函数,考虑了亮度、对比度和结构指标,更有助于接近人类视觉感知,通常

情况下会比 L1 、L2 损失函数产生的结果更具有细节,不会使得图像过于平滑。 本文将通过恢复网络输出

的反射图用 Rout来表示。 Lssim 、L2 、Lgrad的表达式为:

Lssim

= SSIM(Rout,Rhigh ), (8)

L2

=‖Rout

-Rhigh‖2

2 , (9)

84

第89页

http:∥xuebao.gxnu.edu.cn

Lgrad

=‖ Rout

- Rhigh‖2

2 。 (10)

将原始图像从 RGB 颜色空间变换到 HSI 颜色空间, 然后构建网络模型去增强亮度分量,最后从 HSI

颜色空间变换到 RGB 颜色空间得到增强图像[20] 的做法可以在一定程度上避免图像颜色失真,但其过程

繁琐,本文在损失函数设计部分设计一个颜色饱和度损失函数 Lrgb专门针对图像在恢复过程中易出现颜

色黯淡与图像失真的问题。 颜色饱和度不仅在视觉上扮演很重要的角色,在实际应用中也相当重要,以监

控设备为例:若要对监控系统中逆光图像进行恢复增强,由于增强过度导致颜色出现伪影失真等,会导致

判断出现偏差。 Lrgb的数学表达式为

Lrgb

=‖R

max

out

-R

max

high‖2

2

+‖R

min

out

-R

min

high‖2

2

+‖

R

max

out

-R

min

out

R

max

out

+c

-

R

max

high

-R

min

high

R

max

high

+c

‖2

2 。 (11)

式中 c = 0.1。

2.3 图像调节

对分解网络得到的逆光图像的光照图进行调节,并且将增强比率(目标光源与图像光源间的比值)一

起作为图像调节网络的输入[15]

。 将增强比率记作 α,其数学表达式为

α= Lt

/ Ls。 (12)

增强比率可根据用户需要弹性设定,这也是本文算法适用性广的优势之一。 当逆光图像(图像光源)

调节成高光图像(目标光源),增强比率大于 1,曝光图像(图像光源)调节成高光图像(目标光源),增强比

率小于等于 1,本文实验将其设置为 2。 α 的设计使得调节网络可以自适应将一种光照条件转换成另一种

光照条件,这样设计的好处是使得最终通过调节网络输出的光照分量不至于过亮或过暗,可以最大限度避

免图像失真。 调节网络部分通过多次重复使用 3×3 大小的卷积核进行卷积操作来加深网络的同时减少

参数数量,扩大感受野,通过叠加层将 ReLU 激活函数夹在卷积层之间,进一步提升网络表现力。 通过加

深层,可以分层次传递信息,能够高效地学习更高效的模式。 最后一层卷积层使用 1×1 卷积核,便于图像

特征图之间的信息融合。 具体的调节网络细节如图 4 所示。

图 4 调节网络细节

Fig. 4 Detail of adjustment net

调节部分的损失函数 Ladj的数学表达式为

Ladj

= L2

+L 。 (13)

调整网络输出的光照分量记作 Iout, L2 和 L 具体表达式为:

L2

=‖Iout

-Ihigh‖2

2 , (14)

L =‖| Iout

| - | Ihigh

|‖2

2 。 (15)

3 实验分析

3.1 数据集

LOL

[14]数据集包含 500 张低照度图像及 500 张与其一一对应的高光图像。 LOL 数据集是第一个包含

从真实场景中获取的用于低照度图像增强的图像对数据集[14]

,该数据集从各种各样的场景中捕捉图像,

例如:建筑物、校园、俱乐部、街道等,图像分辨率为 600 × 400,且其中大部分图像为极低照度图像。

85

第90页

广西师范大学学报(自然科学版),2022,40(2)

DICM

[21]数据集与 NPE

[22]数据集中大多数图像属于低照度图像或微暗照度图像,且这 2 个数据集中的图

像均没有相对应的高光图像作为参考。 本文算法在 LOL 数据集上训练,为了验证本文算法的普适性,在

LOL (极低照度)、DICM、NPE(低照度或微暗照度)这些不同照度的数据集中选取图像进行测试实验。 数

据集示例如图 5 所示。

图 5 LOL、DICM、NPE 数据集示例

Fig. 5 Demonstrations of LOL,DICM,NPE datasets

3.2 实验平台及参数设置

整个网络在 NVIDIA Geforce GTX1070 GPU 和 AMD Ryzen R9 3900X 12-Core Processor 3.8 GHz CPU

上,搭载 64 GiB 内存,使用 Tensorflow 框架进行训练。 训练阶段,在 LOL 数据集数据集上选取 485 对图像

作训练,15 对图像作为测试。 在分解网络中,批处理大小为 10,图像块大小设置为 48×48,迭代 2 000 次,

损失函数系数 λr

= 0.01, λs

= 0.15, λm

= 0.2。 在恢复网络中,批处理大小设置为 4,图像块大小设置为 384×

384,迭代 1 000 次,颜色饱和度损失函数系数 λrgb

= 3.3。 在调节网络中,批处理大小设置为 10,图像块大

小设置为 48×48,迭代 2 000 次。

3.3 主观对比

为了评估本文算法的性能,将本文算法与 LIME

[12]

、GLAD

[13]

、Retinex-Net

[14]

、KinD

[15]

4 种算法在视觉

上进行主观对比。 出于本文算法在不同照度逆光图像上的效果考虑,在以下不同照度数据集中选取大量

图像进行测试,包括 LOL 数据集、DICM 数据集、NPE 数据集。 部分效果如图 6~8 所示。

图 6(a)是 LOL 数据集中的一张极低照度图像。 增强效果看, LIME 在亮度上有欠缺,GLAD、RetinexNet 噪声过大。 图中橘色看台区域,KinD 在颜色饱和度上范围为 47% ~ 72%,RDRAnet 在色彩饱和度上范

围为 50% ~76%,数据集中高光原图的色彩饱和度范围为 60% ~ 81%,依据色彩饱和度越高色彩越鲜艳原

则,本文 RDRAnet 处理的橘色看台颜色更接近于高光图像。 在图像左上角座椅上,RDRAnet 细节也更突

出。 图 7(a)是 NPE 数据集上的一张低照度图。 从天空纹理与颜色分析,根据逆光图像增强原则:图像逆

光区域亮度增强的同时,非逆光区域的亮度、细节、颜色要与输入图像的非逆光区域保持一致。 从对比效

果图上可以看出,LIME 与 RDRAnet 在天空纹理和颜色上最接近输入原图,LIME 在天空的色彩饱和度范

围为 28% ~59%,RDRAnet 在天空色彩饱和度上范围为 50% ~76%,色彩饱和度数据显示 RDRAnet 在色彩

饱和度上优于 LIME。 其他对比方法增强出来的天空颜色受亮度的影响泛白、泛紫,出现明显失真。 而在

地面纹理方面,RDRAnet 较为清晰,LIME 略微欠缺。

86

第91页

http:∥xuebao.gxnu.edu.cn

图 6 与先进方法在视觉上的对比一

Fig. 6 First visual comparison with advanced methods

图 7 与先进方法在视觉上的对比二

Fig. 7 Second visual comparison with advanced methods

图 8 ( a) 是 DICM 数据集上的一张微暗照度图像。 其中 LIME-DETAIL、 KinD-DETAIL、 RDRAnetDETAIL 分别对应于其方法所得到的增强效果图的细节图。 GLAD 在逆光区域增强亮度不够,而在非逆光

区域的亮度又过大导致天空失真。 Retinex-Net 色彩饱和度范围在 21% ~ 89%,在颜色处理方面是所有方

法中最优的,但衡量增强效果的还有噪声、纹理细节清晰度等指标,Retinex-Net 在噪声处理上有很大的提

升空间。 从图中建筑物的柱子以及屋檐上的绿色花纹角度分析,RDRAnet 的色彩饱和度范围在 16% ~

57%,KinD 范围在 5% ~26%,无论从色彩饱和度数据上还是视觉对比(通过放大细节图可观察),RDRAnet

在保证增强后的图像不出现背景等失真的前提下,色彩饱和度也是较好的。

图 6~8 分别来自 3 个不同的数据集,从主观对比的效果图可以看出,LIME 算法在极低照度图像上,

对于遮挡部分亮度增强效果不好。 GLAD 算法整体亮度提高的同时会降低颜色饱和度以及在纹理等细节

会丢失。 Retinex-Net 算法对于颜色的保留效果相当出色,但不能很好地解决噪声问题。 KinD 算法是在极

低照度图像增强领域较先进的算法,但是其在图像色彩饱和度等细节方面还有提升空间。 而本文方法在

反射图上进行去噪、深度可分离卷积代替 U-Net 中部分传统卷积等操作,可以最大程度地保留物体本身属

性在图像增强过程中不丢失且保证去噪效果好。 光照图的自适应调节可弹性选择亮度,避免图像亮度过

暗或过亮导致的图像失真问题。 实验表明,本文方法在极低照度、低照度、微暗照度的逆光图像上均表现

出色,并且在颜色饱和度上与较先进的方法对比有很大的提升,这离不开颜色饱和度损失函数的设计。

87

第92页

广西师范大学学报(自然科学版),2022,40(2)

图 8 与先进方法在视觉上的对比三

Fig. 8 Third visual comparison with advanced methods

3.4 客观对比

主观上的评价不够充分,并且可能会因为设备显示器差异、用户本身喜好等产生偏颇。 为了进一步验

证本文算法的可行性,使用结构相似度指数( SSIM

[23]

)、峰值信噪比(PSNR

[24]

)、非参考图像质量评价方

法(NIQE

[25]

)对图像质量进行评估。 由于 SSIM 和 PSNR 2 种评估方法适用于成对图像数据集,所以在

LOL 数据集上选取 15 张图像进行测试,为了保证对比的公正性,排除测试图像中 SSIM、PSNR 极高或极低

的情况, SSIM、PSNR 的测试值均取 15 张测试图像的平均值。 用 SSIM、PSNR 对 LOL 数据集进行定量比

较的结果见表 1。 考虑到 DICM 和 NPE 数据集上的图像均是无参照,本文分别在 LOL、DICM 和 NPE 3 个

数据集中选取部分图像进行 NIQE 评估,其结果如表 2 所示。

表 1 用 SSIM、PSNR 对 LOL 数据集进行定量比较

Tab. 1 Quantitative comparison on LOL dataset in terms of SSIM, PSNR

Metrics LIME

[12] GLAD

[13] Retinex-Net

[14] KinD

[15] RDRAnet

SSIM 0.687 0.734 0.539 0.877 0.882

PSNR 14.912 21.059 18.062 21.282 22.262

表 2 用 NIQE 对 LOL、DICM、NPE 数据集进行定量比较

Tab. 2 Quantitative comparison on LOL, DICM, NPE datasets in terms of NIQE

算法

NIQE

LOL-dataset DICM-dataset NPE-dataset

LIME

[12]

7.515 3.520 3.336

GLAD

[13]

6.475 3.331 3.431

Retinex-Net

[14]

8.879 4.645 3.857

KinD

[15]

5.354 3.941 3.761

RDRAnet 4.938 3.196 3.197

88

第93页

http:∥xuebao.gxnu.edu.cn

SSIM 与 PSNR 的值越高代表增强的图像越接近于真实的高光图像, 相反地,NIQE 值越低则图像质量

越好。 由表 1 和表 2 可以看出,本文方法 RDRAnet 在极低照度图像、低照度图像、微暗照度图像上,增强

效果均强于其余算法。 从主观视觉以及客观定量比较可以看出,本文算法具有可行性、普适性。

4 结语

本文将传统的 Retinex 思想与卷积神经网络相结合,将逆光图像分解成光照图和反射图。 在反射图上

进行去噪操作,光照图上自适应调节亮度。 反射图上进行增强操作,可以最大程度地保留图像的颜色等细

节,使得逆光图像不会因为亮度过大而出现颜色失真、纹理丢失、锐化等现象,或因为亮度过暗而出现增强

亮度不够的现象。 光照图上的自适应亮度调整可以依据用户喜好,特定场景需要而自行设定其增强比率,

更注重用户感受,符合人工智能所遵循的理念。 视觉效果和客观数据均显示本文算法在不同照度的逆光

图像上增强效果强,细节纹理有很大的提升,颜色更接近于事物本真。 可见本文基于卷积神经网络的逆光

图像增强算法适用范围广泛,增强性能优异,在人工智能领域有较好的应用潜力。 对于图像细节纹理的处

理,未来工作考虑加入注意力机制以及更深层次的卷积神经网络进一步提取图像特征。 此外,还打算轻量

化该方法或增加时序处理,以便本文方法能用于视频后期处理。

参 考 文 献

[1] RAHMAN Z U, JOBSON D J, WOODELL G A, et al. Retinex processing for automatic image enhancement[J]. Journal of

Electronic Imaging, 2004, 13(1): 100-110. DOI: 10.1117 / 1.1636183.

[2] TSAI C M, YEH Z M. Contrast enhancement by automatic and parameter-free piecewise linear transformation for color

images[J]. IEEE Transactions on Consumer Electronics, 2008, 54(2): 213-219. DOI: 10.1109 / TCE.2008.4560077.

[3] 庞小龙, 贺志华, 王玄, 等. 基于直方图均衡算法的低照度巡检图像增强方法[J]. 设备管理与维修, 2020(18): 76-

77. DOI: 10.16621 / j.cnki.issn1001-0599.2020.09D.43.

[4] 郭倩, 朱振峰, 常冬霞, 等. 融合全局与局部区域亮度的逆光图像增强算法[J]. 信号处理, 2018, 34(2): 140-147.

DOI: 10.16798 / j.issn.1003-0530.2018.02.003.

[5] 玛利亚木古丽·麦麦提, 吐尔洪江·陈布都克力木, 阿卜杜如苏力·奥斯曼, 等. 结合小波变换和同态滤波的医学

图像增强算法[J]. 电子设计工程, 2020, 28(24): 1-5. DOI: 10.14022 / j.issn1674-6236.2020.24.001.

[6] JOBSON D J, RAHMAN Z, WOODELL G A. A multiscale retinex for bridging the gap between color images and the human

observation of scenes[J]. IEEE Transactions on Image Processing, 1997, 6(7): 965-976. DOI: 10.1109 / 83.597272.

[7] 张红颖, 赵晋东. HSV 空间的 RetinexNet 低照度图像增强算法[J]. 激光与光电子学进展, 2020, 57(20): 294-301.

[8] 刘佳敏, 何宁, 尹晓杰. 基于 Retinex-UNet 算法的低照度图像增强[J]. 计算机工程与应用, 2020, 56(22): 211-216.

[9] 杨微, 姚冰莹, 朱晓凤. 基于 Retinex 理论的低照度图像增强技术研究[J]. 现代计算机, 2020(29): 48-54.

[10] 闫保中, 韩旭东, 何伟. 基于 Retinex 理论改进的低照度图像增强算法[J]. 应用科技, 2020, 47(5): 74-78.

[11] 韩梦妍, 李良荣, 蒋凯. 基于光照图估计的 Retinex 低照度图像增强算法研究[ J]. 计算机工程, 2021, 47( 10):

201-206.

[12] GUO X J, LI Y, LING H B. LIME: Low-light image enhancement via illumination map estimation[J]. IEEE Transactions

on Image Processing, 2017, 26(2): 982-993. DOI: 10.1109 / TIP.2016.2639450.

[13] WANG W J, WEI C, YANG W H, et al. GLADNet: Low-light enhancement network with global awareness[C]∥ 2018

13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). Piscataway, NJ: IEEE, 2018:

751-755. DOI: 10.1109 / FG.2018.00118.

[14] WEI C, WANG W J, YANG W H, et al. Deep retinex decomposition for low-light enhancement[EB/ OL]. (2018-08-14)

[2021-02-08]. https:∥arxiv.org / pdf / 1808.04560.pdf.

[15] ZHANG Y H, ZHANG J W, GUO X J. Kindling the darkness: A practical low-light image enhancer[C]∥ Proceedings of

the 27th ACM International Conference on Multimedia. New York, NY: Association for Computing Machinery, 2019: 1632-

1640. DOI: 10.1145 / 3343031.3350926.

89

第94页

广西师范大学学报(自然科学版),2022,40(2)

[16] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation [ C]∥

Medical Image Computing and Computer-Assisted Intervention -MICCAI 2015. Berlin: Springer, 2015: 234-241. DOI: 10.

1007 / 978-3-319-24574-4_28.

[17] 梁晓萍, 罗晓曙. 基于遗传自适应的维纳滤波图像去模糊算法[ J]. 广西师范大学学报(自然科学版), 2017, 35

(4): 17-23. DOI: 10.16088 / j.issn.1001-6600.2017.04.003.

[18] 薛洋, 曾庆科, 夏海英, 等. 基于卷积神经网络超分辨率重建的遥感图像融合[ J]. 广西师范大学学报(自然科学

版), 2018, 36(2): 33-41. DOI: 10.16088 / j.issn.1001-6600.2018.02.005.

[19] 孙妤喆, 卢磊, 罗晓曙, 等. 结合非局部均值滤波的双边滤波图像去噪方法[J]. 广西师范大学学报(自然科学版),

2017, 35(2): 32-38. DOI: 10.16088 / j.issn.1001-6600.2017.02.005.

[20] 吴若有, 王德兴, 袁红春. 基于注意力机制和卷积神经网络的低照度图像增强[J]. 激光与光电子学进展, 2020, 57

(20): 214-221.

[21] LEE C, LEE C, KIM C S. Contrast enhancement based on layered difference representation [ C]∥ 2012 19th IEEE

International Conference on Image Processing. Piscataway, NJ: IEEE, 2012: 965-968. DOI: 10.1109 / ICIP.2012.6467022.

[22] WANG S H, ZHENG J, HU H M, et al. Naturalness preserved enhancement algorithm for non-uniform illumination images

[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3538-3548. DOI: 10.1109 / TIP.2013.2261309.

[23] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[ J].

IEEE Transactions on Image Processing, 2004, 13 (4): 600-612. DOI: 10.1109 / TIP.2003.819861.

[24] YAO S S, LIN W S, ONG E P, et al. Contrast signal-to-noise ratio for image quality assessment[C]∥ IEEE International

Conference on Image Processing 2005. Piscataway, NJ: IEEE, 2005. DOI: 10.1109 / ICIP.2005.1529771.

[25] MITTAL A, SOUNDARARAJAN R, BOVIK A C. Making a “ completely blind” image quality analyzer[ J]. IEEE Signal

Processing Letters, 2013, 20(3): 209-212. DOI: 10.1109 / LSP.2012.2227726.

Research on Backlight Image Enhancement Based on

Convolutional Neural Network

MA Chengxu, ZENG Shangyou

, ZHAO Junbo, CHEN Hongyang

(College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China)

Abstract: Most of the existing algorithms can only enhance the backlight images with specific illumination, but

cannot solve the backlight images with various illuminations efficiently. Therefore, an image enhancement

algorithm based on convolutional neural network is proposed in this paper, and a new network architecture that

integrates decomposition, recovery and adjustment is built at the same time. Using Retinex theory, a

decomposition network is designed to decompose the backlight image and its corresponding highlight image into

reflectance map and illumination map. The reflectance component of highlight image is used as the denoising

reference to repair the dark light defect, and the color saturation module is added to retain the color and other

details in the image restoration process. The brightness of the backlight images can be adjusted adaptively

according to the user’ s preference. The enhancement ratio ( the ratio between the target light source and the

image light source) is set as the adjustment index. When the backlight images are enhanced to the high-light

images, the enhancement ratio should be greater than 1. Validated on multiple public datasets ( LOL, DICM,

NPE), the research shows that this method can effectively enhance the brightness of backlight images, improve

image quality, ensure that image details are not lost, and avoid color distortion. It has good effects on backlight

images with different illuminations, and the results of subjective and objective evaluation indicators are better

than the existing algorithms, which has application value for the development of smart city security and artificial

intelligence.

Keywords: backlight image enhancement; convolutional neural network; Retinex; color saturation; artificial

intelligence

(责任编辑 苏凯敏)

90

第95页

第 40 卷 第 2 期

2022 年 3 月

广西师范大学学报(自然科学版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021072301 http: xuebao.gxnu.edu.cn

谭凯, 李永杰, 潘海明, 等. 基于多信息集成的药物靶标预测方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 91-102. TAN

K, LI Y J, PAN H M, et al. Study on multi-information integration for drug target prediction[ J]. Journal of Guangxi Normal University (Natural

Science Edition), 2022, 40(2): 91-102.

基于多信息集成的药物靶标预测方法研究

谭 凯1

, 李永杰1

, 潘海明1

, 黄可馨2

, 邱 杰3

, 陈庆锋1∗

(1. 广西大学 计算机与电子信息学院, 广西 南宁 530004; 2. 广西医科大学, 广西 南宁 530021;

3. 玉林师范学院 计算机科学与工程学院, 广西 玉林 537000)

摘 要: 准确的药物-靶标相互作用预测在药物发现和重新定位中有重要作用。 传统的方法要么费时(基于模拟的方法),

要么严重依赖领域专业知识(基于相似性和基于特征的方法), 而且现有的使用单一数据信息或稀疏数据的计算方法普遍

准确性不高。 尽管多个异构网络整合已被广泛用于预测药物靶标, 但如何尽可能多的保留网络结构信息仍然是一个巨大

的挑战。 本文提出一种新颖的框架 NGDTI, 不仅从网络中提取相关的生物学特性和关联信息, 而且保留重要的网络拓扑

信息。 其利用图神经网络更新提取的特征信息, 所发现的药物和靶标的拓扑特征使药物-靶标相互作用预测更加准确。

与最新的基准方法相比, 本文模型的 AUPR 值提高了 0.01。 实验结果表明, NGDTI 在药物开发和重新定位方面有良好的

应用前景。

关键词: 药物-靶标预测; 网络嵌入; 网络集成; 矩阵分解; 图神经网络

中图分类号: TP183; R918 文献标志码: A 文章编号: 1001-6600(2022)02-0091-12

通过计算方法识别药物-靶标相互作用(drug-target interaction,DTI)可缩小用于后续生物实验的候选

药物的巨大搜索空间,从而显著降低开发新药的成本和时间。 药物-靶标相互作用的计算预测已成为药理

学发展的重要组成部分,其可以发现和解释当前的药物作用机理及潜在的未知靶标活性[1-3]

。 尽管传统

的生物学实验可以有效地检测药物与靶标之间的相互作用,但需要消耗大量时间和成本[4-5]

,因此越来越

多的计算方法被用来预测药物-靶标关系。 随着各种药物、靶标和相互作用数据的增长[6]

,计算方法不仅

可以为预测可能的药物靶标相互作用提供一种经济有效的替代方法,而且可以确保进一步实验的可靠性。

当前的药物筛选辅助方法主要有基于分子对接[7]

、配体相似性[8] 和机器学习的方法[9]

。 基于分子对

接的方法需要已知靶蛋白的 3D 结构,因为这种结构很少且通常不泛用,故该方法受限于已知蛋白配体的

复杂结构。 基于配体相似性的方法利用已知配体相互作用的知识进行预测,但是当目标只有少量配体时,

可能会导致较差的预测结果。 基于机器学习的方法是目前最流行且最有效的预测方法,这类方法可以充

分探究药物的相关特征以及药物与靶标之间的潜在相关性。 近年来,研究人员提出了多种预测潜在 DTI

的计算方法,大致可分为核方法、矩阵分解和多源信息集成等。

Yamanishi 等[10]最先提出基于化学和基因组信息的二分局部模型(BLM),使用核函数回归方法来预

测药物靶标。 之后,为了克服二分局部模型对计算能力高要求的局限性,Bleakley 等[11]开发了二部图局部

模型,这种模型在训练过程中使用局部训练而不是全局训练。 Mei 等[12] 进一步改进了该模型,在预测过

程中通过邻居交互来考虑新的候选药物。 此外还有一些其他的基于核的方法,如 van Laarhoven 等[13]基于

药物-靶标网络邻接矩阵的拓扑信息,使用内核正则化最小二乘(KRLS)算法来预测 DTI。 这种方法通过

拓扑信息来定义一个高斯交互式核,这种核函数在实验中能取得好的预测效果。 内核正则化最小二乘

(KRLS)算法也被 Pahikkala 等[14] 使用在基于 2D 复合相似度和目标物的史密斯-沃特曼相似度的药物表

征中。 这些基于内核的方法仅使用简单的线性组合技术,依赖几个单独的内核来形成最终的内核矩阵,若

收稿日期: 2021-07-23 修回日期: 2021-10-09

基金项目: 国家自然科学基金(61963004); 广西自然科学基金重点项目(2017GXNSFDA198033)

通信作者: 陈庆锋(1972—), 男, 广西鹿寨人, 广西大学教授, 博士。 E-mail: qingfeng@gxu.edu.cn

第96页

广西师范大学学报(自然科学版),2022,40(2)

内核之间的线性不明显时,这种简单的线性设置可能不合适。 因此,Hao 等[15] 使用非线性扩散技术,根据

扩散核和用于药物靶标预测的 KRLS 来组合不同的核。 现有结果表明,扩散核模型的性能优于线性组合

核模型[16]

除基于核的方法外,矩阵分解也被用于预测药物靶标。 Liu 等[17]提出一种新颖的药物-靶标相互作用

预测算法,即邻域正则化逻辑矩阵分解(NRLMF)。 这种方法使用药物特异性和靶标特异性潜伏向量来表

示药物和靶标的特性,通过逻辑矩阵分解对药物-靶标相互作用进行模拟。 Gönen 等[18]提出的双核贝叶斯

矩阵分解(KBMF2K)也是一种典型的基于矩阵分解的方法,该方法通过使用相似性并估计子空间中的相

互作用网络,将药物化合物和目标蛋白投射到统一的联合贝叶斯公式的子空间中。 Zheng 等[19] 在此基础

上建立了相似度共矩阵分解(MSCMF)模型,对多个数据源的药物靶标相似度矩阵进行加权和平均,然后

将药物和靶标投影到低维特征空间,这个空间与药物和靶标的加权相似度矩阵是一致的。 Hao 等[20] 建立

了双向网络集成逻辑矩阵分解(DNILMF)算法来预测 DTI,通过构建核矩阵,该方法将药物概况核矩阵与

药物结构核矩阵进行扩散,并将靶标概况核矩阵与靶标序列核矩阵进行扩散,以基于相邻区域对药物目标

进行预测。

根据药物靶标数据(例如药物和靶标的化学结构、蛋白质序列信息等)的特征,药物-靶标关系还可以

通过其他生物系统中的各种功能表征来预测,例如药物-疾病关联和药物-副作用关联表征。 许多现有方

法集成了来自异构数据源的各种信息,以进一步提高药物靶标预测的准确性。 例如:Mizutani 等[21]结合药

物的副作用和蛋白质功能来预测药物-靶标相互作用;Luo 等[22]使用无监督方法从异质网络数据中自动学

习药物和靶标的低维特征表示,然后基于这些特征表示应用归纳矩阵补全[23] 来预测新的药物-靶标。 此

外,深度学习对复杂数据的表示能力越来越强[24-29]

,一些基于深度学习的方法已经被用来预测药物-靶标

相互作用[30]

。 Wan 等[31]通过组合来自多个异构网络的数据构建了一个大型异构网络,使用邻域聚合技

术[32]来学习整个网络的结构,并重构所有关系矩阵的拓扑表示来预测药物-靶标关系。 随着图神经网络

的快速发展,使用图卷积技术处理大规模图数据的网络预测任务的性能已得到显著提高[33]

。 近些年,图

卷积神经网络也被用于药物靶标预测领域[34]

。 现有整合多源数据的方法在整合多网络特征的过程中只

使用简单的特征串联,这种方式无法对多数据源的网络数据进行综合分析,所以还需要使用额外的特征模

块来生成用作下一步应用的特征表示。

随着深度学习在复杂数据表示中的发展[35]

,研究者们提出了一些基于深度自编码器的方法来预测药

物-靶标相互作用。 例如:Sun 等[36]提出一种基于自动编码器的特征选择方法(AEFS)来预测药物-靶标相

互作用。 为了保持药物化学性质和功能之间的一致性,AEFS 方法使用多层编码器将原始药物特征投影

到嵌入(蛋白质)空间,并通过解码器进一步投影到标签(疾病) 空间。 同时,在药物靶标预测过程中,

AEFS 方法通过引入药物的临床信息来提高预测效果。 此外,在基于异构网络的药物-靶标相互作用预测

中,深度自编码也被用于异构网络的节点特征表示学习中。 Xuan 等[37] 提出一种药物-靶标相互作用预测

方法 DTIP,使用全连接自编码器的学习框架来学习异构网络中节点的低维特征表示,并应用多层 CNN 整

合相邻拓扑结构的相似性和特征属性来获得预测结果。 Gao 等[38] 提出一个端到端的深度学习框架,该框

架通过 LSTM 递归神经网络学习氨基酸序列组成的蛋白质表征,并使用图卷积来获得药物分子结构表示。

这个框架使用注意力权重将原子聚合为分子表示(药物),将氨基酸聚合为蛋白质(靶标)表示,最后,将基

于注意力的表示输入到分类器中进行预测。 越来越多的研究表明,深度学习可有效应用于药物靶标预测

中的表示学习和分类。

本文提出 NGDTI 模型来预测药物-靶标关系,该模型可以整合来自异类数据源的各种信息(例如:药

物、疾病、蛋白质和副作用),从异类网络中提取药物和靶标的结构信息,并将药物和靶标的特征信息简化

为低维特征表示。 由于大规模生物数据的不完整性和噪声,NGDTI 模型使用基于频谱图的图卷积神经网

络(graph convolutional network,GCN)对这些低维特征表示进行平滑和降噪处理。 在已有的标准数据集上

测试 NGDTI 的预测效果,与其他最新的基准方法相比,NGDTI 具有显著的性能改进。 此外,本文也对模型

参数的影响进行实验,与现有方法相比,AUPR 值提升了 0.01,且 NGDTI 能很好地整合多数据源信息用于

药物靶标预测。

92

第97页

http:∥xuebao.gxnu.edu.cn

1 模型设计

大规模基因组、化学和药理学数据的出现为药物发现和重新定位提供了新的机会。 基于网络集成的

药物靶标预测方法就是通过联合利用不同的网络视图互补来进行预测任务。 近年来,产生了多种基于多

个网络的异构信息集成方法,这些方法大致分为以下 2 类:1)聚集多个网络以建立一个大型集成网络来

提取信息进行预测;2)从每个网络中提取特征信息,然后将其融合以进行相似性或相关性预测。 第一种

方法在构建大型集成网络时,很难考虑不同网络之间的差异,如果集成网络的数量太大,随着网络复杂性

的增加,在这样的网络上进行计算将变得非常困难。 所以,从每个网络中提取信息并进行融合是多网络集

成的主要方法。 该过程从每个网络中提取药物或蛋白质信息,然后进行特征融合和降维,最后根据提取的

特征信息进行相关预测或药物重新定位预测。 单个网络上的信息提取是网络融合的重要步骤,网络特征

提取的简单方法包括矩阵分解和带重启的随机游走(RWR)方法。 矩阵分解通常将输入的矩阵分解为 2

个特征向量,并使向量重构的损失最小化。 但是,此策略可能会导致大量信息丢失,并且无法捕获相关网

络的全局特征。

图 1 为本文 NGDTI 模型的完整流程。 NGDTI 首先通过在每个输入网络上执行 RWR 来计算每个节点

的扩散状态,并通过扩散状态的有效矩阵分解 clusDCA 方法获得每种药物和蛋白质的低维向量表示。 通

过此过程,可以捕获每种药物或蛋白质的全局拓扑信息。 NGDTI 的重点是对药物和靶标特征的更新,这

一步用图卷积编码来更新药物和蛋白质的特征(详细介绍见 1.3 节)。 在最后一步中,模型重建药物靶标

矩阵以预测未知的药物-靶标相互作用。 本文将在下面详细描述该模型。

8',44

;+B,44

;+B4'

8'4'

× ×

8''-K -K ;+B'-K

'

VGAE

8',-K

;+B,-K

M\"8'L,*

8'L-K

RWR+clusDCA

RWR+clusDCA

图 1 NGDTI 模型的流程

Fig. 1 Flowchart of NGDTI model

对于多数据源产生的同质相互作用网络(例如,药物-药物相互作用网络),NGDTI 直接在每个网络上

运行 RWR 算法以计算每种药物或靶标的扩散状态。 对于其他异质网络(如药物副作用、药物-疾病和蛋

白质-疾病关联网络),需要基于杰卡尔德(Jaccard)相似系数构造相应的相似网络,然后在这些相似网络

上执行 RWR 算法。 以药物-疾病为例,给定 2 个节点 i 和 j,将它们在异构网络中的相似性定义为

Sim(i,j)=

S

ET

i ∩S

ET

j

S

ET

i ∪S

ET

j

。 (1)

式中 S

ET

i 表示药物 i 的一组副作用。 之后,为了得到药物和蛋白质的网络结构信息,需要使用重启随机游

走来获取每个节点的扩散状态。

93

第98页

广西师范大学学报(自然科学版),2022,40(2)

1.1 获取节点扩散状态

重启的随机游走(RWR)是一种网络扩散算法,已广泛用于分析复杂的生物网络数据。 该方法在每次

迭代中,都会在初始节点处引入预定义的重新启动概率,可以充分利用潜在节点之间的直接或间接关系,

同时考虑网络内的本地和全局拓扑连接模式。 给定邻接矩阵 A,可以定义另一个矩阵 B 来表示从节点 i

到节点 j 的转移概率,转移概率定义为

Bi,j

=

Ai,j

j′

Ai,j′

。 (2)

接下来,令 s

t

i 为 n 维分布向量,其每个元素为在随机游走过程中经过 t 迭代后,从节点 i 访问其他节

点的概率。 同样,RWR 中的节点 i 可定义为

s

t+1

i

= (1-p)s

t

iB+pei, (3)

式中 ei 表示 n 维标准基向量,p 表示预定义的重启概率。 局部和全局拓扑信息在扩散过程中的相对影响

可以通过调整 p 值来控制。 通常,更大的 p 值意味着更多地关注局部结构。 通过迭代执行上述过程,可以

获得节点的扩散状态 si,这些扩散状态的节点表示捕获了网络节点的高阶邻近度。 如果 2 个节点的扩散

状态相似,则往往意味着它们相对于网络中其他节点具有相似的结构特征,因此可能共享相似的功能[39]

1.2 ClusDCA 获取药物和蛋白质的低维向量表示

由于多个网络的集成,直接利用高维度的扩散状态作为拓扑特征通常会增加模型的复杂度,而原始的

扩散状态是稀疏的且高维度的,不能很好地用于之后的预测。 为了解决这些问题,本文使用扩散成分分析

的新变体(clusDCA)

[22]来减少特征空间的维数并从扩散状态捕获重要的拓扑特征信息。 这种方法改进

了原有方法中的扩散成分分析方法,使用了一种基于矩阵分解的方法来分解扩散状态。 具体来说,将在节

点 i 的扩散状态下分配给节点 j 的概率建模为

log

^sij

= x

T

i wj

- log∑

j′

exp(w

T

i

xj′), (4)

式中∀i,xi,wi∈R

d 且 d≪n。 这里将 wi 作为上下文特征,将 xi 作为节点 i 的节点特征,它们都描述了网络

的拓扑属性。 式(4)第一项是低维近似,第二项是归一化因子。 通过去除第二项,本文放宽了 ^si 中的项总

和为 1 的约束。 则 ^si 可以简化为

log

^sij

= x

T

i wj。 (5)

ClusDCA 没有使用最小化原始扩散状态和近似扩散状态之间的相对熵,而是使用平方误差之和作为

目标函数,

minC(s,

^s) = ∑

n

i = 1∑

n

j = 1

(x

T

i wj

- log

^sij)

2

, (6)

可以通过奇异值分解(SVD)来优化这个目标函数。 为避免取零的对数,实际将在 sij中添加一个小的正常

1

n

,对数扩散状态矩阵 L 可以计算为

L = ln(S+Q)-lnQ。 (7)

式中:Q∈R

n×n

,对∀i,j,有 Qij

=

1

n

;S∈R

n×n是多个节点扩散状态 s1 ,…,sn 的串联。 根据 SVD,此过程将 L

分解成 3 个矩阵,

L =UΣV

T

。 (8)

要获得 d 维的低维向量 wj 和 xi,只需选择 Ud 、Vd 中的第一个 d 奇异向量和 Σd 中的第一个 d 奇异值。

令 X= {x1, x2 ,…,xn }表示一个矩阵,其中每一行代表网络中每个节点的对应低维特征向量表示,则

X=UdΣ

1

2

d 。 (9)

为集成异构网络数据,需将上述单个网络的 DCA 扩展为多网络情况。 更具体地说,让 L = {L

1

,…,

L

K

}表示通过 K 个网络扩散状态集合 S = {S

1

,…,S

K

}得到的对数扩散状态矩阵集。 然后,优化目标函数

94

第99页

http:∥xuebao.gxnu.edu.cn

minC(S,S^ ) = ∑

n

i = 1∑

n

j = 1 ∑

K

r = 1

(x

T

i w

r

j

- log

^s

r

ij)

2

。 (10)

式中 w

r

i 表示网络 r 中每个节点 i 分配的网络特定特征,节点的特征表示 xi 在所有 K 个网络中是共享的。

上述目标函数也可以通过 SVD 进行优化。 通过优化就可以得到药物或蛋白质的低维向量{xi}。

1.3 图卷积自编码器更新节点特征

尽管经过上述过程已经获得药物靶点的低维向量表示,但是存在嘈杂和不确定的多数据源生物学信

息,节点特征需要进一步平滑和降噪。 本文核心是通过可变分图自编码器(variational graph auto-encoders,

VGAE)

[40]

,根据蛋白质和药物相似性网络结构和节点特征生成潜在表示,VGAE 的结构如图 2 所示。

VGAE 由编码器和解码器 2 部分组成,通过同时训练编码器和解码器来学习每个药物和蛋白质的可解释

性嵌入。 例如,将药物特征 Xdrug和药物相似性邻接矩阵输入到自编码器中,通过训练之后的编码器可以得

到药物潜在表示 Z。

X

A

GCN

Encoder

Z ˆ Decoder A

VGAE

σ(Z×Z )

T

图 2 变分图自编码器(VGAE)的结构

Fig. 2 Structure of variational graph autoencoder (VGAE)

假设药物或蛋白质的综合特征为 X,网络编码器是一个图卷积网络(GCN)编码器,它主要是通过药物

或蛋白质相似性网络的邻接矩阵 A 将原始特征 X 映射到潜在空间 Z。 这个过程是一个概率建模的过程,

需要学习一个概率模型 q。 这里的编码器使用 GCN 来建模概率函数:

[μ;logσ] =GCN(X,A;ω), (10)

q(Z |X,A)= N(Z;μ,σ

2

I)。 (11)

式中:q(·)是根据网络信息 A 和节点属性 X 将蛋白质或药物编码为潜在变量 Z 的函数;ω 为 GCN 的参

数;I 为单位矩阵;μ 和 σ 分别是潜在变量 Z 对应的高斯分布的均值和方差,并利用 GCN 网络直接从数据

中估计。 那么 Z 可以从 q(Z |X,A)中采样得到,根据重新参数化的技巧,zi 通过式(12)获得。

zi

= μ+σ?εi, (12)

式中:?表示逐元素相乘的乘法;εi 属于正态分布的元素。 通过上述编码器可以得到包含节点属性和结

构信息的蛋白质和药物的节点潜在嵌入。 在这里解码器是一个简单的内积解码器,目的是利用学习到的

潜在嵌入 zi 来重构邻接矩阵 A:

p(A | Z) = ∏

N

i = 1 ∏

N

j = 1

p(Aij

| zi,zj), (13)

p(Aij

= 1 |zi,zj)= σ(z

T

i

zj)。 (14)

式中 σ(·)是一个逻辑计算函数。 本文使用等式(14)右侧所示的 zi 和 zj 的逻辑函数转换后的内积,作为

这两种蛋白质发生相互作用的概率。 如图 2 所示,解码器的输出 A^ 是邻接矩阵 A 的近似值,本文对模型

进行了优化,使它们尽可能接近。

和变分自编码器的一样,该模型的损失函数是带正则项的重构误差,

L =Eq(Z| X,A) [log p(A| Z)]-KL[q(Z |X,A)‖p(Z)], (15)

95

第100页

广西师范大学学报(自然科学版),2022,40(2)

式中 KL[q(·)‖p(·)]是 q(·)和 p(·)之间的 KL 散度。 式(15)中的第一项是为了最小化邻接矩阵

A 的重构误差,第二项是为了最小化 q(Z |X,A)和 p(Z)之间的差别。 这个损失函数用来衡量重构网络邻

接矩阵的准确性和潜在嵌入与 p(Z)的近似性。 如 VGAE 中所假设的 p(Z) ~ N(0,1),表示潜在嵌入服从

正态分布。 使用随机梯度下降对 VGAE 进行训练,以更新编码器的参数来优化损失函数。 最后,在自编

码器训练拟合后,可以通过编码器得到蛋白质或药物的潜在表示

H=Z =GCN(X,A)。 (16)

1.4 重构药物靶标矩阵

在获得更新的药物特征 Hdrug和靶标特征 Htarget之后,还需要重建药物靶标矩阵以进行预测。 给定 n 个

药物节点和 m 个蛋白质节点,重构的药物靶点矩阵可以表示为

WDTI_reconstruct

=HdrugFrG

T

r H

T

target。 (17)

式中 Fr∈R

d×n

,Gr∈R

d×n是特定的映射矩阵,r 表示药物-蛋白质相互作用。

式(17)表示,在分别进行 Fr、Gr 的边特定映射之后,2 个映射向量的内积应尽可能重构原始边权重。

因此,给定边权重 W,重构的预测损失定义为

min L = (W - WDTI_reconstruct)

2 = ∑

n

i ∑

n

j

(wij

- hiFriG

T

rjx

T

j )。 (18)

公式中的所有数学运算都是可微的或亚可微的,因此可以端对端进行梯度下降训练,最大程度地优化最终

目标函数。

1.5 算法流程

算法 1 NGDTI 模型算法。

输入:药物相关和靶标相关的相似网络邻接矩阵 Ai,已知药物靶标数据;

输出:重构的药物靶标矩阵 WDTI_reconstruct;

1)在每个相似性网络上运行带有重启的随机游走(RWR),获取每个网络的扩散状态 si;

2)将药物和靶标的扩散状态集合 S 作为输入,使用扩散成分分析( clusDCA)降低特征空间的维数并

从扩散状态中捕获重要的拓扑特征 X;

3)训练图卷积自编码器,然后根据公式(16)使用基于频谱图的卷积神经网络更新药物和靶标的特

征,生成药物更新特征 Hdrug和靶标的更新特征 Htarget;

4)在获得更新的特征 Hdrug和 Htarget之后,根据公式(17)、(18)训练并重构药物靶标矩阵 WDTI_reconstruct。

2 实验

本章通过实验来分析和验证 NGDTI 模型的有效性,模型用 python 语言实现。 实验平台:1)软件环境

为 PyCharm 和 Anaconda;2)硬件环境为包含 5 台曙光服务器的云计算平台,Intel 8837 8 核 CPU,1 TiB 内

存,本地 GTX1060(6 GiB) GPU。

2.1 数据集

在整个训练过程中,使用 Luo 等[22]进行研究的数据集。 该数据集包括 4 种类型的节点、8 种类型的关

联网络和 2 种相似性网络。 该数据集中的药物节点从 DrugBank 数据库(版本 3.0)

[41]中提取得到,蛋白质

节点从 HPRD 数据库(版本 9)

[42]获取。 疾病节点来自基因组学数据库[43]

,副作用节点来自 SIDER 数据

库(版本 2)

[44]

。 另外,孤立的节点被排除在外,即网络中的节点至少有一个邻居。 数据集中有 8 种关联

网络,主要来源如下:

① 药物-蛋白质相互作用和药物-药物相互作用网络(相互作用源自 Drugbank 版本 3.0);

② 蛋白质-蛋白质相互作用网络(相互作用源自 HPRD 数据库);

③ 药物-疾病关联和蛋白质-疾病关联网络(相互作用源自基因组学数据库);

④ 药物副作用关联网络(相互作用源自 SIDER 数据库版本 2);

⑤ 药物相似性网络(药物相似性网络是根据药物的化学结构构建的,其中 2 个药物之间的相似性分

96

百万用户使用云展网进行电子书本制作,只要您有文档,即可一键上传,自动生成链接和二维码(独立电子书),支持分享到微信和网站!
收藏
转发
下载
免费制作
其他案例
更多案例
免费制作
x
{{item.desc}}
下载
{{item.title}}
{{toast}}