期刊论文 移动通信智慧运维平台的设计与实现
《信息通信技术》是中国联合网络通信集团有限公司主管、主办的国内外公开发行的中英文科技期刊(CN11-5650/TN,ISSN1674-1285),2007年12月正式创刊。本刊旨在反映国内外信息通信技术最新研究成果,提供信息通信技术交流平台,推广先进信息通信业务和应用,为我国建设信息社会和创新型国家服务。
【作者姓名】 何璐璐1 杜智超1 嵇 聪1 章 勇1 刘 璐2
【作者单位】 1 中国移动通信集团云南有限公司 2 中国移动通信集团设计院有限公司重庆分公司
摘 要: 网络智能化转型对支撑网络强国战略、凝聚产业共识、服务公司业务发展等具有重要战略意义。其中网络智能化分级又是网络实现智能化的重要评估环节,其主要为引导产业向着长期目标分阶段演进,又能为产业提供客观的、可观测、可量化、可实施的评估依据。文章主要是基于自智分级策略在无线网络维护域中实现智慧维护平台的设计及实现,针对传统无线网络运维模式,从故障发生到处理闭环均是被动解决模式,巡检、告警分析、故障处理等运维过程中的价值数据未被充分关联挖掘等问题进行分析解决,并通过大数据+AI支撑手段优化整体维护工作模式,提前发现/预警和解决网络故障点,最大限度发挥预先解决故障的能力,实现主动维护,在提升网络质量、最终提升用户感知等方面提供参考借鉴。
关键词: 自智网络;分级策略;智慧维护
引言
在运营商传统网络运维中,因智慧维护演进路线及自智分级评估不明确,较难对无线网络运维域中各项核心能力、子场景进行有效评价,导致出现实际工作目标不清晰、资源投放精准性不高等问题,严重影响网络运维的效率和成本。针对现有维护域的工作模式,在TMForum自动驾驶网络分级框架的指导原则下,依据集团自智能力分级细则,并结合省内智慧网络运维管理的实际需求出发,亟需构建智慧维护平台,由被动处理问题改为积极预防问题,从而提高整体资源的利用率和维护效率,实现2025年L4的整体智能水平。
1 自智网络架构设计理念
1.1 自智网络框架
TM Forum自动驾驶网络旨在面向消费者和垂直行业客户提供全自动、零等待、零接触、零故障的创新网络服务与ICT业务,打造自服务、自修复、自优化的通信网络,为通信网络运维数智化转型明晰了目标架构和实现路径[1]。自智网络目标框架如图1所示。
图1 自智网络目标框架
1.2 自智网络分级评估思路
结合自动化基础理论和通信网络特征,完成分级方法标准制定,基本形成产业共识,并在网络运维层面,已进一步细化形成相对完善的分级评估体系,开展规模评估验证,如图2所示。分级评估体系的制定过程包括以下四个方面:1)流程抽象:基于自动化/智能化基础理论,抽象出网络管控通用工作流程;2)确定原则:以“系统”替代“人工”完成工作流程的自主程度作为智能化水平评判基本原则;3)制定方法:根据各流程的需求优先级和产业成熟度,制定其在分级方法中的演进顺序、代际特征;4)评估量化:对单点应用/任务流程分别评估确定级别,对评估范围整体进行综合量化统计。
图2 自智网络分级方法和代际特征
其中图2中自智网络等级L0-L5具体内容如下。
L0:全流程人工完成。
L1:辅助人工,在执行和感知环节实现线上采集(记录),提高工作效率。
L2:自主执行,依赖人工预定义的固化规则辅助感知和分析过程。
L3:自主感知,根据人工配置/编排的规则(规则解耦),辅助分析/决策。
L4:自主分析/决策,根据用户意图需求自动生成规则/策略(规则注智)。
L5:全流程智能化,具备完全意图管理能力,实现自动演进。
以某省为例,2021年底省内运维域中共涉及6个自智网络核心能力,共有42个子场景,其中绝大部分处于L2水平,即基于固定规则的辅助分析阶段,整体评级约为2.2,如图3所示,与L3(网络自主感知)近期目标及L4(网络自主分析/决策)中远期目标仍有较大差距,亟需通过建设智慧维护平台满足目前集团现有自智网络维护域演进需求,以及契合省内实际生产维护“降本增效”的发展需要。
图3 自智网络能力评估结果
2 智慧维护平台技术架构设计
为实现提升智慧维护网络的自智水平目标,通过智慧维护平台的设计与实现,在故障识别、隐患识别、定界定位、处理方案关联、故障处理、指令巡检等六大核心能力方面进行重点研究。智慧维护平台技术架构主要包括原始数据采集、数据ETL(Extract-Transform-Load)、数据存储和后台业务处理、业务处理控制、业务展现层5个部分,如图4所示。
图4 端到端运维软件架构
其中原始数据可通过北向平台、EOMS工单系统、代维资产管理系统、动环检测系统及外部相关API接口数据(地理天气数据信息)进行采集。按照通用数据ETL处理方式,将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端,从数据源抽取出所需的数据,经过数据清洗,最终依据预先定义好的数据仓库模型,将数据加载到数据仓库并存储至Hadoop集群中,通过AI平台算法及功能(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自动编码器、循环神经网络等[2-3])结合专家知识库进行智能任务调度及后台业务处理。业务处理控制主要细化各模块功能,通过相关业务逻辑中间件实现模块功能。业务展现层基于前端公共模块相关技术对站点画像、区域画像、隐患管理、地理化分析等进行界面化呈现。
3 智慧维护平台功能架构设计
3.1 网络运营中心NOC
智慧维护平台功能架构主要由两大部分组成:网络运营中心NOC(Network Operation Center)和现场外线,如图5所示。
图5 智慧维护平台功能架构
NOC是实现远程实时监控服务运营和检测设备状况的网络化中心,主要涉及运维设计、运维监控、故障分析、诊断测试等几大功能模块,可结合运营商EOMS(Electric Operation Maintenance System)电子运维系统进行任务工单派发,将NOC嵌入现有运维流程可提高相关技术、流程、组织及管理效率,进而提升网络与服务的稳定性与可预见性。其中运维监控、故障分析、诊断测试等模块主要提升维护域中故障识别、隐患识别、定界定位、处理方案关联等自智网络核心能力。
现场外线主要是承载、处理、闭环EMOS电子运维系统所派发任务工单,包括现场维护人员的任务调度、资源调度及部分指令巡检无法解决的,需要最终现场进行排障巡检。
3.1.1 运维设计功能
运维设计功能主要包括两部分功能设计:运维规则设计与AI辅助规则设计,主要应对自智网络L3评级标准要求,即将经验规则从系统中解耦,系统支持图形化界面自主配置故障识别特征和识别模板,系统基于规则自动关联跨域故障、隐患,识别网络故障事件或隐患事件,并按照解耦的规则自动定界定位故障原因,生成结构化处理方案,当规则需要调整时,只需二次配置。
其中运维规则设计主要来源于运营商长期积累的相关运维经验,制定分析规则、诊断规则、派发规则、调度规则、激活规则等,将上述规则应用于可视化设计分析中,为自动化运维提供快速设计能力[4]。
AI辅助规则设计则是由传统技术专家进行专业设计转变为通过AI技术辅助进行根因规则设计。将相关网元类型、告警类型、告警信息、告警码、位置信息等作为输入项,通过神经网络相关算法最终输出AI辅助规则[5-6]。
3.1.2 运维监控功能
通过对数据源、数据表等分析进行场景监控设计,可视化呈现多系统、多界面的监控。场景运维监控可对网络全景监控,也可选择性针对主题监控,定制适合实际需求的个性化监控功能。将之前被动运维、基本无故障预测转变为隐患故障可预测及规避。
3.1.3 故障分析功能
通过部署RCA(Root Cause Analysis)根因分析规则挖掘工具,根据算法学习出固有规律,形成规则放入RCA中进行告警根因查看和告警抑制压减。再结合性能指标、参数配置、相关变更情况、问题日志等进行多源关联分析,从而对故障进一步确认,提高故障分析的准确性及效率性。
3.1.4 诊断测试功能
诊断测试功能主要包含人工诊断指令及自动诊断脚本两部分。
首先通过人工诊断指令下发至网元管理系统(Element Management System,EMS),再由EMS反馈诊断结果至人工诊断指令部分;自动诊断脚本可批量生成指令,再由EMS反馈上报相关诊断报告,将诊断结果或诊断报告中异常问题自动创建维护工单并指派现场处理,交由现场工单管理,进行后续流程处理。
3.1.5 工单派发功能
工单关联R CA的关联规则,进行根故障派单、子故障合并派单,综合考虑网络拓扑、运维经验等信息,例如同一基站下所有小区退服,则合并为一个业务工单,从源头减少派单量,提高故障解决效率,如图6所示。
图6 工单派发功能
T1为告警消除最大量时间点,T2为关联指派时间点,T3为告警派发最长时限,通过分析历史告警,给出最佳关联时间点阈值,减少消除告警的无效派单量,通过关联减少派单总量,提升运维效率,通过动态设置派单时间阈值,追加合并派单,减少无效派单、重复派单。
3.2 现场外线配合
3.2.1 故障单处理
集中故障告警平台针对告警监控进行结果输出,在创建TT(Trouble Ticket)工单之前,需要等待一定告警清除时间,避免相关工单追回。当系统收到TT的告警清除消息后,可以自动关闭TT单和相对应的WO(Work Order)单,如图7所示。
图7 故障单处理
通过运维经验和对历史工单进行机器学习、挖掘工单相关性规则,启动策略归并重复工单,去除无效工单。
3.2.2 任务及资源调度
对于外部系统派发的TT单,在某些应用场景下,不需要相关分析处理,可以直接派发至外场工程师处进行解决。对于这种应用场景,系统提供TT单自动受理并派发子单的功能。当系统接收到TT单时,自动以系统超级用户来受理TT单,然后进行处理,在处理该步骤时可自动选择生成WO单,并生成子单。智能调度主要是将任务通过AI调度引擎进行工单计划制订、位置及路线规划、员工能力及工具需求分析,把任务与资源相结合达到最佳匹配效果。通过人员调度、资源调度、路径规划等可实现工单“零”时间指派、合理安排人员工作任务量,提升派单准确率、提升平均工单响应时长及资源使用效率。
3.2.3 自动巡检管理
自动巡检管理主要涉及巡检配置管理、巡检规则管理、巡检任务列表、指令适配/执行及自动输出巡检报告功能,如图8、图9所示。
图8 自动巡检管理
图9 自动巡检流程
巡检配置管理包括基础数据配置管理、设备网元配置管理、任务/方案管理及门限/通知管理。
巡检规则管理的功能是制定相关巡检规则(专业网信息、作业计划等)以及配置解析规则。
巡检任务列表可对巡检计划定义接口、巡检定时任务,以及查看巡检任务列表。
指令适配及执行由自动巡检功能发现维护类问题,通过模板初始化规则及指令创建规则生成巡检测试工单,再与指令模板进行匹配映射创建巡检任务,指令执行后将指令结果反馈闭环输出巡检报告。
系统可将相关维护要求结合站点资产信息进行综合呈现;历史数据包含告警次数、故障处理次数、站点话务量、数据量等信息;地理位置、区域、地形特征(高山、平原、河岸、洼地等)、耐候性;气象机构输出的相关天气数据,共同制定动态巡检计划,聚焦故障高发站点,主动预防历史故障重发,减少维护资源的浪费。
3.2.4 隐患管理
隐患管理主要针对异常项目生成智能巡检告警,自动完成对告警信息的分析,自动生成维护作业计划告警工单,维护人员根据隐患工单来处理隐患问题[7]。
在巡检设备上(铁塔、基站等),放置NFC(Near Field Communication)标签,通过近距离无线通讯技术,巡检人员按照路线的设置,依次到每个地点进行巡检并自动显示巡检内容。
4 基于智慧维护平台的应用
4.1 站点画像
4.1.1 站点健康度评估
基于站点设备种类、性能情况,结合站点环境、停电情况、备电时长、站点历史故障等信息建立站点健康度评估指标体系,并设定告警阈值自动触发维护工单有效预警,降低站点告警故障。
4.1.2 区域可视化
采用多种代维指标和站点客观运行指标,可以实现区域综合可视化,以区域为对象,提供整体指标统计分析,主要提升运维质量监控能力。
4.1.3 站点维护成本分析
通过对历史故障维护数据包括维护人员、车辆、油机、故障发生频率等信息提供站点维护成本数据,为过程成本量化、站点维护预算及后续投标成本核算提供数据支撑。
4.1.4 制定站点维护计划
基于站点重要级别、历史故障信息、天气状况等制定维护计划,对维护备件提供预测管理并减少站点故障率,降低单站维护成本。
4.2 运维效率分析
4.2.1 GIS资产全景图
以维护网格为基础单元,对资源信息(人员、车辆、站点、油机)进行实时位置展示,工单关联、轨迹回放,实时了解资源状况,方便调度管理。
4.2.2 板卡板件全量监控
通过对现网板卡板件的入网时长、现网设备的返修总数/比例统计,按省市县的地理维度、厂家维度、板卡板件的类型维度进行全量监控,对存在硬件隐患、频繁老化返修等问题设备构建“机历卡”“病例库”,监控中心可全面掌握板卡板件的资源使用及健康度情况。
4.2.3 人员效率指标分析
对人员工单效率指标进行统计分析,包括上站任务详细信息及工作时长信息,对车辆效率指标分析,包括上站里程、规划里程分析,发现人员运维效率短板进行改进,提升效率,如表1所示。
表1 效率指标总体统计数据
5 结束语
智慧维护平台在提升自智网络水平评级方面,由L2.2提升至L3.0,有效提高了维护域内各项工作的管理能力,以及主动预防性运维及快速应急处理能力。随着实际应用的进一步深入,将继续完善智慧维护系统的技术架构演进,并将核心能力应用深度嵌入问题识别、问题分析、问题处理、问题质检等实际生产环节,达到助力网络运营降本增效的目的。
参考文献
[1] 中国移动通信集团.自动驾驶网络白皮书:面向流程定义场景化分级标准分布迭代提升网络运维自智水平[R].2021
[2] 林尧瑞,马少平.人工智能导论[M].北京:清华大学出版社,2001
[3] 王万良.人工智能及其应用[M].北京:高等教育出版社,2005
[4] 王西点,王磊,龙泉,等.人工智能及其在网络优化运维中的应用[J].电信工程技术与标准化,2018,31(7):81-86
[5] 杜永生.智能运维,基于自学习的自动化运维[J].信息通信技术,2018,12(1):8-13
[6] 刘凤岐.人工智能[M].北京:机械工业出版社,2011
[7] 王新东,王一大,庞国际,等.智能运维(AIOps)在中国联通分布式架构下的研究与应用[J].电信工程技术与标准化,2021,34(1):48-54
【作者简介】
何璐璐:工程师,主要从事无线网络设备运行维护、优化及无线维护自智能力提升优化工作。
杜智超:主要从事无线网元维护、负荷分析、故障管理工作。
嵇 聪:工程师,主要从事无线网设备容灾、高铁BSC维护及隐患管理工作。
章 勇:主要从事无线设备故障分析处理及工程建设验收测试工作。
刘 璐:高级工程师,高级咨询设计师,主要从事无线网络智能优化业务及相关咨询设计工作。
编辑:王丹瑛
校审:王钐杉
数字政府和智慧城市集成运维模式成效几何?
2016年发布的《国家信息化发展战略纲要》和《“十三五”国家信息化规划》均提出要建设“新型智慧城市”。同年,国家发展改革委、中央网信办牵头,会同国家标准委、教育部等23个相关部门成立了新型智慧城市建设部际协调工作组,并组织开展“新型智慧城市评价工作”,标志着智慧城市建设进入了新的发展阶段。
智慧城市项目没有统一技术标准,具有属地化、定制化特点,业务系统也十分庞杂,涉及的厂家和产品种类较多。智慧城市项目的运维与其他领域产品线的运维相比,难度较大,不仅运维技术要求较高,还需面对协同效率低、故障定位难、问题响应慢等问题。
笔者近些年参与了一些典型智慧城市项目的维护工作,针对这类项目的常见问题,总结了一套行之有效的集成运维模式。集成运维模式为用户和厂商提供统一运维界面,明确责任分工,建设专业运维管理平台,从业务全局的角度统筹管理智慧城市项目的运维工作。将业务运行可视化、问题处理流程化,使得问题处理和需求响应在所有项目参与方中实现高效运转,解决智慧城市项目运维工作中普遍存在的散、难、慢等问题。
数字政府和智慧城市运维充满机遇
智慧城市运维市场空间较大
伴随着数字中国的建设发展,我国在智慧城市、数字政府领域的投资规模也不断扩大。2012年我国智慧城市市场规模仅0.65万亿元,至2021年提升至21.08万亿元,2012—2021年期间年均复合增长率为47.2%。据前瞻预测,至2025年智慧城市市场规模将超过30万亿元。“有建必有维”,海量智慧城市建设带来了巨大的运维需求。信息化项目每年的运维费用大约占建设费用的15%,预计到2025年数字政府和智慧城市运维的市场规模将超过4.5万亿元,市场发展空间巨大。
各级政府积极营造运维产业良好生态
我国各级政府及行业组织引导颁布了多项关于支持和鼓励运维行业规范发展的相关政策。
2022年国务院印发的《“十四五”国家应急体系规划》指出,建设新一代智能运维体系和具备纵深防御能力的信息网络安全体系。
2022年中国银行保险监督管理委员会发布的《关于银行业保险业数字化转型的指导意见》指出,建立对信息科技资源全方位覆盖的统一监控平台。提高运维侧研发能力,积极运用大数据加强态势感知、故障预警和故障自愈,不断提高运维智能化水平。
在地方政府层面,早在2021年,《河北省建设全国产业转型升级试验区“十四五”规划》就指出,提升运维服务水平,建设智能化建筑设施系统,搭建信息化运维管理平台,发展智慧感知、物业通信、运维互联等智慧运维产业。
2022年印发的《湖北省应急体系“十四五”规划》指出,建立全面立体的安全防护体系和科学智能的运维管理体系,实现多层次、多维度的安全防控,保障全省应急管理网络和信息系统安全、稳定、高效、可靠运行。
数字政府和智慧城市运维复杂度升级
在数字政府和智慧城市领域,运维工作的复杂度主要体现在3个方面。一是技术栈多、网络复杂、运维层级深、安全要求高;二是厂商众多,难以统筹和协同,运维数据之间易形成“壁垒”;三是由于问题定界、定位困难,各方易相互推诿,导致问题无法快速解决。综合来看,其特点可总结为“难”“散”“慢”。
第一个特点是“难”
智慧城市和数字政府系统从基础设施层到平台层再到应用层,每一层的产品和组件众多,架构复杂,技术栈多种多样。此外,网络环境也较复杂,系统多是跨云部署,业务运维层级深入,数据和网络安全要求高。
深圳市智慧城市建设总体架构如图1所示,不仅包括基础设施层、平台层、应用层、网络和信息安全保障体系、政策及标准规范体系、统一运维及统一运营体系等模块,还有各个模块所包含的系统、组件、设施以及应用等。
图1 深圳市智慧城市建设总体架构
第二个特点是“散”
传统的IT运维多由系统建设方提供,运维数据分散在各个厂家,形成“数据烟囱”,多厂家各自分散运维,缺少统筹指挥。当系统发生故障后,问题定界与定位缺少全局视野及高效协同,各相关运维单位容易互相推脱责任,致使问题不能及时处理,系统故障的影响被放大。
图2为某市数字政府运维现状的调研情况分析,其中的数字为样本数量。从结果来看,各市直单位和各区县已建系统数量繁多,且运维方“碎片化”现象严重,其中包括管理部门自运维、上级管理部门运维、承建方或第三方运维,甚至有些系统无运维单位,缺少统一的运维管理体系。此种情况存在较大的运维风险,不利于业务的健康稳定发展。
图2 某市数字政府运维现状调研结果
第三个特点是“慢”
客观上的“难”,以及传统分散运维方式带来的“散”,导致运维效率低,故障恢复慢。具体来看,问题排查需要从数据源头开始查找,问题定界慢;问题定位的手段参差不齐,问题数据不能及时发现,问题定位慢;多厂家协同机制不完善,没有考核约束,问题处理慢。
数字政府和智慧城市运维模式亟需变革
“烟囱式”运维已无法满足当前需求
现有的“烟囱式”运维模式在集约化经营和数字化转型的背景下,显现出越来越多的弊端,不能适应数字政府和智慧城市建设发展的要求。
以下两个数字政府领域的案例可以充分体现运维现状。
2022年1月,某市“一码通”系统崩溃,故障时间长达数个小时。时值疫情期间,“一码通”是市民出行、核酸检测最重要的凭证,该系统注册用户超千万,此次崩溃造成大量市民出行与核酸检测受阻,该市大数据局局长被免职。
2022年9月,某市核酸检测系统出现故障,卡顿严重。时值全面核酸检测时期,大量市民因系统故障无法做核酸,在大雨中排队数个小时,多家媒体报道该新闻。在故障发生后,系统各相关厂家互相推诿,迟迟无法及时协同处理问题。
从以上案例可以看出,数字政府和智慧城市领域的系统由于用户量大,又多与民生相关,一旦发生故障,很容易引发较大的社会影响,因此系统的稳定运行至关重要。
集成运维模式有望解决当前痛点
针对当前智慧城市的运维需求,本文提出了新型的集成运维模式,并在一些大型项目中落地验证,取得了良好效果。
在集成运维模式下,用户依靠专业的运维团队和工具,可以从业务维护工作中解脱出来。由此可见,集成运维可以更好地为业务发展提供支持,解决运维“难”的问题。
集成运维模式可以整合现有运维资源,有效组织起现有的零散运维单位,实现运维数据与告警统一管理、故障处理统筹推进,从而解决“散”的问题。
集成运维模式需要打造专业的智能化运维管理平台,对业务系统资源统一纳管,实现业务系统性能端到端的管理,从真实用户视角对业务系统的应用情况与用户体验进行监控,主动发现问题,定位应用系统的错误及异常,助力问题定位更加高效,从而解决“慢”的问题。
智慧城市项目在集成运维模式管理下,用户可以更专注于业务服务体验,不再对运维问题做人力投入。项目建设厂商可以节省大量运维投入,减少定界不清的责任推诿,同时获得产品及服务的优化建议,使得用户和项目建设厂商实现共赢。
集成运维模式的方案设计
集成运维模式体系设计
集成运维体系框架设计参考国际最佳实践ITIL、国际标准IS020000、ITSS等先进理念,以及行业先进经验与理论指导,将其与智慧城市运维实际需求结合,优化运维服务管理流程、制度等,形成结构化、体系化的流程、制度,并构建持续改进的机制,促进运维服务管理体系不断优化完善。
集成运维模式定义
集成运维模式是多方协同参与的一种新型运维模式,由用户、集成运维方、项目建设厂商等共同组建集成运维团队,基于专业的运维团队、智能化运维管理工具、标准的服务目录、规范的业务流程及管理制度,由集成运维方统一调度运维人员、运维工具和运维资源,建立面向用户的统一入口。运维团队集中管理项目资源及系统权限,处理用户反馈的问题,明确厂商问题处理边界,打破厂商间的责任壁垒,增强问题处理的全局性、协同性,实现复杂业务场景下的低风险、低成本、高效率和精细化运维,为智慧城市项目提供“管家式运维服务”。集成运维模式如图3所示。
图3 集成运维模式示意
集成运维模式要素
1.运维团队
集成运维团队面向用户与项目建设厂商,作为项目运维中间桥梁,制定运维管理规范,向上对用户汇报运维工作开展情况,承接用户反馈的运维需求及问题,向下管理各集成厂商运维工作,考核各厂商的运维服务水平、产品稳定性等指标,督促厂商整改问题项及修复安全漏洞,通过持续协同作业保障项目系统运行稳定性不断提升。
集成运维团队统一管控项目资源,通过安全管理平台审计运维操作,并结合服务流程管控日常运维工作。各厂家提供少量研发人员,其职责是关注系统稳定性,解决日常告警故障,解决系统运行bug,提供系统变更升级方案。
2.制度规范
运维制度规范编制从智慧城市项目运维需求出发,保障常态化运维制度的落实并开展制度执行情况检查。
运维制度覆盖需求管理、事件管理、应急处理、安全管理、质量管理等常用运维场景,对运维人员具备行为约束和指导作用。
图4 集成运维模式制度规范示意
3.流程规范
在流程规范方面,需梳理并制定统一的、可执行的、符合ITIL标准的服务流程,统一运维服务台,明确问题分工,闭环管控问题解决过程。
建立健全工单管理系统以及常用运维场景的审批流程和内容流程,快速实现灵活多变的流程配置,通过线上填报和审批完成无纸化办公,满足电脑端和手机端协同办公需要,实现运维工作全流程管控和SLA考核落地。
4.运维技术
在制度和流程具备的前提下,引入自动化运维、大屏显示、业务链监控、根因分析、故障预测等先进运维技术,满足智慧城市复杂业务场景的运维需求。提升监控覆盖和可视化水平,可辅助运维团队更好地掌握业务运行情况,提升应急场景下的运维决策能力;提升自动化运维水平,可解放人力,降低人为操作风险。
5.运维平台
运维管理平台可以实现从基础设施到业务的多层级、“穿透式”运维,统一对外提供业务资源监控、告警处理、日志管理、自动化运维、流程管理、跨网管理等服务能力。同时具备数据、流程、操作等运维标准,打通运维壁垒,实现多单位协同运维,提供集约化、主动式和高质效的“管家式运维服务”。
集成运维模式效果评估
集成运维模式旨在通过集中管控,明确各方在项目中的分工,实现运维工作高效协同,降低沟通成本,减少推诿扯皮;通过运营化管理、可视化业务运行状态、以及流程化运维服务,实现运维服务标准化和精准考核;通过智能运维工具,提升工作效率,降低人力成本,大幅减轻智慧城市复杂业务场景的运维压力。集成运维模式效果评估可参照的5个关键指标如表1所示。
表1 集成运维模式效果评估可参照的5个关键指标
集成运维模式行业实践及效益分析
集成运维模式行业实践
我国西北某省致力于建设中西部领先、全国一流的服务型数字政府。随着数字政府建设的不断深入,IT系统愈发庞大复杂。目前已建400多套业务系统、4000多节点资源,共涉及3个云平台、6个网络区。
中国移动承接该省智慧城市项目后期运维服务,初步引入集成运维模式。由省政府、中国移动、相关运维单位共同成立了集成运维中心,中国移动牵头编制数字政府运维管理制度,设计数字政府运维服务管理流程,建设一体化运维管理平台,搭建数字政府运维服务质量保证体系。实现了省、地市范围内所有业务系统、主机、数据库、中间件等业务资源的统一纳管和监控,并以集成运维角色管理项目参与方的日常运维工作。
引入集成运维模式近一年后,集成运维中心累计受理4.4万余次运维热线咨询、近万人次直接或转派运维需求,系统平均故障修复时间从当初的60分钟缩短至现在的29分钟。期间组织完成春节、国庆、重大会议等14次重保支撑工作,支撑该省高考、地市中考查分保障工作,高效完成240余万人次查分保障工作,完成省政府210场次会议保障、132场次演示支撑,成为数字政府复杂业务场景下集成运维模式探索落地的标杆。
集成运维模式效益分析
1.降低运维服务风险
运维的基本目的是保障业务系统的平稳与安全运行,核心办法是减少、避免运维过程中潜在的人员、管理、技术等各类风险。集成运维模式通过制定规范的流程制度,提供更标准化、更稳定、更可靠的运维服务,降低业务中断序号指标指标解释1运维成熟度运维服务标准达到ITSS二级及以上2运维服务响应时间故障出现后1分钟内告警通知到位,10分钟内人员联动响应3问题定界率99%以上的故障能定界清楚,无推诿情况发生4平均故障修复时间(MTTR)业务故障平均修复时间在30分钟以内5系统运行稳定性系统年平均稳定运行时间在99.9%以上表1集成运维模式效果评估可参照的5个关键指标风险。依托运维管理平台,工作人员能够及时发现系统风险,在问题发生之前将其解决。
2.优化运维服务成本
运维投入是持续性的,用户、项目建设厂商每年都要投入大量的人力、物力和时间以确保业务系统的稳定运行。而不可预测的支出往往导致服务成本频繁增加,同时也意味着难以持续控制并降低服务成本。集成运维模式通过建设专业运维团队、集中管控业务资源、量化服务成本,释放项目建设厂商的运维压力、提高协同处理问题的效率、达到优化成本的效果。
3.强化运维服务效能
运维的基础目标是稳定,高层次目标是效能提升。集成运维模式实施标准化的运维服务,经运维服务后评估、资源使用后评估、产品质量后评估等,能更合理地分配和使用IT资源,让用户所采购的IT资源能够得到最充分、合理的使用。该模式凭借专业的运维团队、规范的运维流程以及统一的运维平台工具,可以实现运维效能的全面提升。
4.提升运维服务质量,助力精细化运营
通过量化和监控,运维服务方可以更好地提升服务质量,从而有助于提升用户满意度。凭借深厚的运维经验、专业的运维工具和先进的运维理念,集成运维团队可实现资产、资源、人员、作业等的精细化运营管理,辅助决策层制定长期发展战略,全面助力用户业务发展。
*本文刊载于《通信世界》
总第925期 2023年8月10日 第15期
原文标题:《数字政府和智慧城市集成运维模式研究与实践》
END作者: 中国移动雄安产业研究院 刘伟 李晓龙 黄静 刘卫亮
责编/版式:盖贝贝
审核:舒文琼
监制:刘启诚
相关问答
通信网络 维护培训方案?为提高通信网络维护人员的技能和知识水平,培训方案应包括网络基础知识、故障诊断与解决、设备维护与更新等内容。通过理论教学和实际操作相结合的方式,培训人...
供电局 通信运维 是干嘛的?回答如下:供电局通信运维是指负责供电局通信设备的运维工作,包括维护、巡检、故障排除、设备升级等。其主要职责包括:1.保障供电局通信系统的稳定运行,确保...
智慧 云控为什么没有近程 通信 ?智慧云控没有近程通信的原因主要是出于安全和隐私考虑。近程通信需要设备之间建立直接的连接,这增加了安全漏洞的风险,可能被黑客攻击或恶意利用。为了保护用...
通信 工程师和 运维 工程师..._ 通信 工程师_帮考网通信工程师和运维工程师都是IT领域的职业,但是他们的职责和工作内容略有不同。通信工程师主要负责设计、部署和维护通信网络,包括电话、数据、视频...
海康互联 运维 服务是什么意思?海康互联运维服务是指海康威视公司提供的一种维护和管理网络设备和系统的服务。海康威视是一家全球领先的安防产品和解决方案提供商,其产品包括视频监控设备、...
网络 维护是干什么的?网络维护是确保网络传输的正常;掌握公司或者网/光纤网络布线机柜布局,设备的配置及配置参数变更情况,备份各个设备的配置文件,负责网络布线配线架的管理,确...
通信与 信息系统研究生就业前景如何?就业前景不错。1.到移动、电信、邮电部门工作,从事设备维修、管理工作2.在大中型国有或民营电子设备公司从事通讯或自动设备的制造设计工作3.在大型文化事...
移动 通信 网,无线 网络 及优化两个职位有什么区别?都是做什么的?岗位描述:工作职责:1.负责无线网络的运行维护工作(含基站、室内覆盖系统)以及代维管理工作。2.负责无限网络的质量控制。3.负责无线网络的投诉处理。4...
通信 线路设备维护是干什么?通讯设备维护人员的职责就是对所管辖的设备或杆线进行维护处理,确保通信畅通!通信线路杆线和通信机房设备,是通信运营商的二大块:1、通信线路包括:按维护分为...
计算机 网络通信 系统是什么系统?计算机网络通信系统是数据通信系统,数据通信系统,指的是通过数据电路将分布在远地的数据终端设备与计算机系统连接起来,实现数据传输、交换、存储和处理的系统...