现代企业的报警治理
张敏1,庞彦斌2,赵国玺3(1&2.兰州石化自动化研究院;3.鹰图软件技术(青岛)有限公司)
摘 要:中国石油石化工程建设已经进入数字化交付应用阶段。海克斯康数字智能系列软件产品已经成为中石油、中石化等国内主要石油化工企业首选的数字化交付平台。石油化工设计院通过海克斯康软件产品二次开发、与专业软件公司合作开发接口,发掘数据、模型、文档三要素的数字化产业价值,提高智能化工厂建设效益。本文介绍了国内石油化工设计院Intergraph Smart 3D接口的应用情况,展望今后石油化工工厂数字化交付中结合新技术,提升数字化及智能化水平的前景。
关键词:数字化交付;石油化工工程;接口二次开发工厂操作员在保持安全、可持续盈利的生产中发挥着关键作用。近四十年来,工控系统部署到了所有生产企业,并帮助企业在产品质量和生产效率方面得到很大提高。同时,工控系统的应用也让操作员的责任范围扩大到3-4倍,但报警系统的设计却未得到过应有的重视。大量的报警任意配置,设计不当的报警系统和过高的报警率使操作人员不堪重负,并且阻碍了操作员的有效反应和应对异常情况的能力。因此,报警治理已经成为生产企业无法回避的重要工作。
一、报警系统的国际标准与指南
随着ASM(异常情况管理)联盟在1994年的成立,工业行业开始认真解决报警问题,而与报警系统相关的生产事故频发,促使与报警系统相关的国际标准和报警管理指南及其一些重要的报警管理工具的发布。通过这些标准和指导帮助用户解决报警问题、保证生产安全:
1. 1 9 9 9 年由A S M 参与编写E E M U A (E n g i n e e r i n gEquipment and Materials User Association) PublicationNo. 191,2007年修订。本指南对报警系统的设计、维护和持续改进提供了明确的指导,目前已经过试验和测试。本指南的目的是协助工业报警系统的设计、开发、采购、操作、维护和管理。
2. 2005年4月11到13日,ASM在CCPS第20次年会上发布:Achieving Effective Alarm System Performance: Results ofASM Consortium Benchmarking against the EEMUA Guidefor Alarm Systems;ASM完成了一系列的研究,根据EEMUA指南评估北美地区ASM成员设施中警报系统的性能。
① 评估成员是否达到了EEMUA关于报警系统性能的建议② 将性能与环境指标联系起来,如工厂复杂性、警报合理化程度、工厂操作的性质等
3. 2006年,PAS出版关于报警的工具书《The AlarmManagement Handbook》,对报警管理产生巨大影响,是报警管理领域影响最大的专著。
① 阐述了对国际标准与指南的理解(EEMUA 191、ASM、IEC61508/IEC61511等)
② 结合国际标准与指南,根据报警管理项目的经验,与用户实际情况相结合,开发了报警规范与报警KPI评价体系
③ 给出如何避免报警设计错误指导④ 提出报警管理七步实施法则,并被ISA推荐为最佳实践⑤ 对不同类型的报警的展示、处理等给出了详尽的指导和具体解决办法等
4. 2007年,ISA与PAS共同出版《Alarm Management:Seven Effective Methods for Optimum Performance》,该书主要内容来自于PAS出版的《The Alarm ManagementHandbook》,把PAS提出的报警管理项目实施七步法推荐为最佳实践。
5. ANSI-ISA-18.2-2009 Management of Alarm Systems forthe Process Industries,从2003年开始进行报警管理标准制定,历经7年时间完成。ISA18.2明确了对报警的定义:报警是一种声音和/或可视方式,向操作员指示设备故障、工艺偏差或需要响应的异常情况。ISA18.2涵盖了整个报警系统全生命周期的10个阶段,如下图:

ISA-18.2是一项重要的标准,毫无疑问,它将极大地提高制程工业的安全性。它验证并体现了行业专家和领先的制造公司多年来倡导的实践:
① ISA-18.2的基本目的是提高生产安全性② 失效的报警系统经常被记录为导致重大工艺事故的因素;ISA-18.2所解决的报警系统问题已广为人知
③ ISA-18.2不包含已被证明的具体方法或详细实践的例子④ 该标准侧重于有效的警报管理的工作流程要求(“必须”)和建议(“应当”)
⑤ ISA-18.2与通常的ISA标准有很大的不同,它不是指定某种硬件如何与其他硬件通信或控制组件的详细设计,它是关于人们的工作流程
⑥ 报警管理实际上是关于工作流程的,不合格的报警系统不会自己产生
⑦ ISA-18.2是根据严格的ANSI方法,基于开放、利益均衡、应循程序和共识开发的一致标准
\circled{8} ISA-18.2适用于石油、石化、炼油、发电、管道、矿业与冶金、制药和其他类似的采用现代DCS系统报警功能的行业6. EPRI(Electric Power Research Institute)与PAS共同撰写电力行业报警标准与规范。
7. 2010年12月,API(American Petroleum Institute)发布了《Recommended Practice RP1167: Pipeline AlarmManagement》(简称API-1167)。管道报警管理标准要求管道运营商采取措施解决报警相关问题,本文件审视了PHMSA法规和API-1167的范围、法规影响和其它细节。API-1167是在ISA-18.2之后18个月发布的,与ISA-18.2非常类似且不相互矛盾。
8. 2 0 1 0 年,PA S 出版《T h e A l a r m M a n a g e m e n tHandbook》第二版。
9. 2014年,IEC62682标准发布,它详细说明了基于可编程电子控制器和基于计算机的人机界面(HMI)技术的报警系统的全生命周期管理的一般原则和程序。IEC62682采用ISA-18.2文件并对其进行了修改,IEC62682与ISA-18.2的主要区别在于表述的不同。
10. ISA的标准是五年一周期进行审查,ISA-18.2发布于2009年,2014年开始进行审查,2015年修订完成。在修订时ISA18.2吸取了IEC62682的内容,但同时也保存了其中不同的部分,总体来说没有太多实质上的大改变。
11. 行业标准与规范,2021年中石油发布报警系统的应用规范,国家标准制定也在进行中。
上述这些标准与指南,对报警进行了严格定义,对报警系统的应用、评价给出了详细的指导,理解上述报警管理指南、报警国际标准和报警项目最佳实践,才能找到彻底解决报警问题的真正办法。
二、报警管理的误区和价值
在ASM成立之前,报警管理的改进在很大程度上被企业认为是风险缓解项目,而且投资回报无法确定。因为从直观上看,报警管理项目是用“避免的事故”和“避免的事故的严重程度”来衡量其价值的,而现实的种种原因造成“避免的没有发生的事故”有时候是难以确切定义和得到共识的。因此很难证明报警管理项目从“没有发生的事故”中省下了多少钱或避免了多少损失!就像SIS系统一样,如果生产从来没有触发安全联锁,SIS也无法提供价值证明。
上世纪90年代,一家大型炼油厂实施的一个全面的现场报警管理改进项目提高了可靠性,并因此从该项目中获得了超过1亿美元的收益。此后,报警管理成为一个广泛的、行业关注的热门话题,越来越多的公司认识到其价值并开始改进计划。
企业的报警系统被分为五个等级,每达到一个等级,都需要相应的技术手段:
报警系统等级 | 等级特征描述 | 配套技术手段 |
过载型(1级) | 持续的高报警率,在生产异常时性能迅速恶化。正常情况下,报警 系统也很难使用 ·操作员对报警系统的信心低,重要报警长时间被忽略或难以识别 ·很多报警设计的没有意义或价值很小 | ·没有采用过有效技术手段 ·报警设计等问题没有研究和解决 ·或只作简单的报警统计、查询 |
被动型(2级) | 与过载型报警相比有些改善,在大部分时间里,报警系统对操作员 来说仍然是无用的干扰。报警优先顺序是不可靠的 ·报警系统对生产被动/故障能提供一些早期预警 ·有些报警的设计没有意义或用处很小;报警抑制仍然不可控 | 通过报警设计分析,解决了一些设计上的错误 ·通过简单报警、事件分析等手段识别无效报警、消 减无效报警 |
稳定型(3级) | 与被动型报警相比,在平均报警率和峰值报警率方面都有改进。在 正常运行中功能良好,但在异常工况期间用处不大 ·警报系统在正常运行期间是可靠的,但在异常工况期间基本无效 ·操作人员对报警优先级的适当性有信心,并根据优先级能一致快|·通过建立在线变更审核,避免无序修改 速地做出反应 | ·通过报警归档与合理化解析,对每个报警进行检查 ·所有报警设计错误得到纠正 |
稳健型(4级) | 在可预见的工厂运行情况下报警可控的 ·报警系统在所有工况下都是可靠的,包括异常工况 ·操作人员对报警系统有高度的信心,并能及时理解和响应所有的「·报警搁置等技术,边界管理 报警 | ·动态报警技术,报警配置自适应 |
预测型(5级) | 报警系统始终是稳定的,并在正确的时间向操作员提供正确的信「·除了上述4个级别的技术手段之外 息,以避免异常工况或将任何异常工况带来的影响降低到最小 | ·重要报警的提前预告能力等 |
三、解决报警问题
如何提高报警管理水平,改进自己的报警系统,已经不需要再从零开始摸索,ISA推荐的报警管理项目的七步法,可以帮助企业全方位解决报警问题。
1. 开发企业的报警规范
报警规范是针对报警的定义、设计、实施和修正的一套综合性指导方针,规范明确“如何正确执行与设定报警”,从而为报警必要性选择、报警优先级设置、报警组态、报警响应、报警处理方法、系统监控以及许多其它与报警相关的主题提供了一个最理想的规则。它是企业实施报警管理的行动纲领和必须服从的原则,是避免盲目进行报警管理项目的保证。
报警规范对报警设计、报警的实施条件、方法、步骤和每一步的实施效果都进行规范,对与报警相关的所有因素进行评估,保障报警设计的正确性。
2. 建立报警系统的KPI评价体系
KPI用于长期监控报警系统关键指标,以寻找趋势并跟踪警报系统的改进。KPI提供了定义、衡量、记录和报告影响业务的关键性能指标的能力,KPI数值结果是通过自动运行预定的计算得到,这些计算基于预定义的公式和相应的条件。
ISA18.2/IEC62682、EEMUA191等国际标准和指南都做出了指导,但标准KPI只是对合格报警系统的最低要求,未必全部满足用户的所有需求,需要额外定义特殊的KPI来满足企业的特殊需求。比如常见的复合KPI——操作员负荷指数,对操作员的工作负荷与人员安排的合理性进行评估。
3. 通过报警和事件的大数据分析,消除无效报警
报警规范和报警KPI体系创建之后,即可开始通过专业工具对报警进行分析,快速识别错误和无效报警,快速消除。
3.1 报警设计分析
对于新建工厂,在生产投用之前可以通过上述分析,迅速发现报警设计错误或不合理的地方。在投产之前进行处理,这样将大大降低投产的风险和难度。对于在役的生产企业,报警设计分析可以帮助用户快速、从根本上解决无效报警的产生问题。
习惯性错误设计非常普遍,而报警设计分析是从根本上解决报警问题的主要手段。
3.2 所产生的报警与事件的特征分析
即可通过对报警与事件的大数据分析帮助用户:
• 识别无效报警、并消除无效报警 识别无效报警首先就需要对无效报警进行有效的归类,找清 楚无效报警的特征,如:
① 反复报警,这是数量比较多的无效报警的一类,即一分钟出现3次或以上的报警
② 重复报警,即多个报警表达的是同一个东西,一个报警在多处重复
③ 跨班报警,即报警发生后,在一个班次没有响应处理,而继续出现在下一个班次
④ 僵尸报警,报警在分析观察预设的时间内没有任何变化或干预,跨班报警随时间延长会成为僵尸报警
⑤ 报警泛滥/报警潮,报警泛滥期间容易产生恶性事故,造成报警泛滥的原因主要还是无效报警引起的
⑥ 瞬闪报警,快速出现,又快速消失的报警,在DCS报警界面上只是瞬时出现,很难捕捉
⑦ 骚扰式报警,如一些诊断式永不停歇的报警等\circled{8} Top 10报警,Top 10分析找出最频繁的报警位号和产生的报警数量与报警细节,Top 10报警大多也是无效报警过多的情况
• 对操作员的报警处理行为进行分析① 报警确认时间,报警发生后,操作员需要多长时间去完成报警确认
② 报警参数变更分析,分析为什么出现这些报警修改,什么时间进行了修改
③ 哪些报警在何时被屏蔽等
如下图,报警、事件和操作参数可以进行一体化监视与分析,识别生产事故/波动与操作员操作之间的关联,避免以后同类事故发生。

4. 报警合理化分析,固化专家知识,建立报警专家知识库
报警的归档与合理化解析是根据前面的报警规范进行具体执行的,可能许多现有报警需要彻底返工——审查每项报警的组态和用途。
通过这种方法设计的“合理化”报警系统,才有可能接近报警管理的理想状态。
① 对于全新系统(即新建未投产),报警的归档与合理化解析的作用是确定适当的报警组态方法
② 对于在役系统(已经投产),报警的归档与合理化解析的功能包括对系统上组态的每个报警点以及可能组态报警的其它点进行彻底检查

通过报警合理化解析工作,建立起属于企业专有的报警专家知识库,为操作员提供报警处理的在线帮助,帮助任何一个操作员有机会成为报警问题处理专家。报警专家知识库的建立,将大幅提升操作员的生产异常处理效率和成功率,同时降低操作员的劳动负荷。
报警专家知识库还将被用于动态报警的管理、报警潮的抑制、报警变更的在线审计和强制复位以及变更管理等技术。
5. 对实施报警变更管理,避免人工失误造成风险
报警变更管理是报警系统维护的重要工作,报警系统一经改进,即有必要确保配置不会随着时间的推移而发生变更,除非这种变更得到了特别授权。未得到授权的任何变更都不能被接受,变更审核、强制变更复位是解决非法变更的技术保障。
如图所示,正常情况下,报警专家知识库里面的报警信息与DCS系统中的应该是完全一致的。一旦有人没有经过审批非法对报警专家知识库内的报警进行修改,或是对DCS系统中的报警进行修改,报警管理系统自动审核、自动对报警专家库和DCS系统报警信息对比,可以很快发现问题,生成例外报告,通知相应的预设工作人员进行处理,避免人为错误(有意还是无意)带来的风险。

另外,对设置了阈值的报警,报警的变更是不允许超过阈值的,否则将构成很大的潜在风险。为了解决这个问题,系统自动对这类修改进行复位,以避免生产风险。
6. 通过动态报警解决非正常工况下报警问题
生产装置永远是动态的,它在不同的时间和条件下有不同的运行状态,而每个运行状态对报警的要求可能是不一样的。然而,控制系统中的报警设置本质上是为了支持单一的工作状态即稳态生产状态而设计的,这就导致在非正常工况下很多报警变得毫无用处,带来很大的潜在风险。
为了解决上述问题,报警系统在特定的定义和控制条件下能够进行相应的设置更改,以有效支持每个工作状态,且具备如下三个功能:
① 重要报警的预警:对特别重要的报警,在其发生之前的一个时间点或满足某个条件的情况下,提前对该报警进行预告,让用户提前做出响应
② 报警的搁置:即对某些报警进行暂时的抑制,记录报警抑制的原因、控制报警抑制的允许时间或条件,并对所有抑制的警报提供完整的报告和跟踪
③ 基于状态的报警设置改变:即将报警系统调整到匹配设备当前的运行状态,正确识别设备的当前运行状态,然后自动对当前状态下的报警进行相应的正确配置
④ 对报警潮的抑制
7. 报警管理系统的控制和维护
一旦报警管理系统部署完毕交付用户,报警管理系统会与DCS系统同步运行:
① 按要求实时进行报警与事件的自动数据采集② 按要求对报警与事件进行自动分析,自动生成报表,自动通知工作人员
③ 按要求自动进行报警变更的审核,自动进行错误变更的复位动作
④ 发现变更问题自动生成例外报告,标识错误生产过程和传感器会随着时间的推移而发生变化,报警行为自然也会随之发生改变。当下正常工作的报警可能会在未来变成虚假报警或发生故障。因此,报警管理的工作不是一蹴而就的,需要有一套成熟的系统帮助用户进行持续的报警改善。
四、结束语
自上世纪90年代后期开始,行业领袖企业在报警管理上投入了大量金钱和努力,来减少操作员的工作负荷,提高生产安全和生产效益。几个特大事故与报警系统的深入关联,兼之EEMUA191报警管理指南的发布,和2009年ISA-18.2报警标准的发布,再到2014年IEC62682标准的发布,以及一些著名企业在报警管理项目上的丰厚回报,报警管理项目几乎成为与DCS系统一样的企业标准配置。
报警管理的独特之处在于,它在很大程度上是一个人为因素的任务。流程企业在生产运行时需要依赖操作员做出重要决策,而有效的报警管理有助于支持正确的决策过程。因此警报管理一直被视为流程行业中的最佳实践。
另外,随着国内企业对报警管理的价值和效果认识越来越深入,报警管理会成为国内企业安全隐患治理的重要内容,国内生产企业对报警治理会增加更多的投入和资源,报警管理将不会是可有可无的东西。而报警系统的行业标准正在快速完善,相信关于报警系统的国家标准将会在短期内发布。
参考资料:
《Alarm Systems,A Guide to Design, Management andProcurement》,PUBLICATION No 191,第三版.
《Alarm Management Handbook》,2005年出版、2010年再办,作者:Bill Hollifield.
ANSI/ISA–18.2–2009 Management of Alarm Systems forthe Process Industries,Approved 23 June 2009.
EEMUA’s Publication 191: Alarm Systems: A Guide toDesign, Management, and Procurement.