播出系统运行维护工作面面谈

2014-08-27 08:15:23

近几年,随着IT 技术的不断发展和业务革新的需要,播出系统内网络化、集成化、文件化的程度越来越高,IT 设备的大量采用,对播出系统维护 技术人员的知识深度及广度要求也随之提高,已经远远超出传统的音视频技术的范围,我们也深深的感受到,仅仅做到技术上的持续学习和进步,并不 足以保障系统运维的长治久安,同时还要通过建立有效的系统运维工作机制来未雨绸缪,才能真正为播出系统在新技术构架下的安全稳定运行保驾护航。

正奇公司作为业内知名的无忧播出系统集成商,多年来一直投身于IT 前沿技术和广电播出系统的融合与建设工作,参与和见证了十多年来IT 新技 术在广电系统的持续发展和壮大,同时也打造和历练出一支专业的产品研发及技术服务队伍,通过建立严格的产品开发及技术服务质量管控体系,为用 户提供优质的产品和完善的技术支持及售后服务保障。作为公司服务部的一员,笔者有幸参与了国内某大型电视台播出系统的现场运维工作,在这个过 程中,以公司服务质量管控体系要求为指导思想,并结合用户系统的具体特点,经过和用户的充分沟通与磨合,逐步形成了一套行之有效的播出系统运 维制度和流程,并在实际工作中不断地检验和完善。在此与大家分享我们的想法和实践,希望得到同行的进一步指导和建议。

运维体系建设

为用户服务、为用户负责的思想为原则

这是我们认为做好运维工作,真正发挥运维工作重要作用的指导原则,只有在思想上真正重视,才有可能在行动上得到贯彻。所有相应的制度、流 程以及工作,包括人员考核均紧紧围绕这个原则来展开。

完善的运维服务制度、流程为基础

为确保运维服务正常、有序、高效、协调地进行,需要根据服务内容和要求制定一系列管理制度,覆盖播出系统的各项运维对象,主要包括网络设 备的管理、服务器的日常管理,软件运行管理以及应急处理等方面。

先进、成熟的运维服务管理平台为手段

通过运维服务管理平台与客户保持高效沟通,想客户之所想,急客户之所急,帮客户之所需。运维服务管理平台包括实施运行维护和技术服务的各 种手段和工具,提供远程管

理技术支持、电话支持业务、上门技术服务以及现场保驾护航运维等。通过标准化的流程管理,实现对播出系统运维事件的全面采集、及时处理与 合理分析,并最终转化为运维经验的总结和积累。这其中主要包括现场运维和技术专家远程支持两大部分

现场运维管理:包括日常核心服务器、存储、网络检查维护,对播出系统设备进行巡检;软件使用中的答疑,针对各频道、中心、栏目组及系统使 用人员反馈的疑问或问题予以解答和解决。

技术专家远程支持:当遇到现场运维人员无法解决的个别问题时、台内重大项目设计及项目变更时、紧急突发事件时,技术专家予以远程技术支持, 必要时技术专家到现场支持。

高素质的运维服务队伍为保障

运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维 工作。

运维工作要得以持续稳定的发展,首先保证运维人员的稳定性,特别是新员工入职、离职过渡问题。制定规范的入职、离职管理制度,新员工可通 过学习规范的运维文档,及时了解工作流程。同时,定期组织员工进行相关技能培训,包括设备的操作、服务环境和服务规范等,进一步提升专业技术 水平,提高个人的运维能力,使运维团队始终保持高素质的服务水平。

其次,为保证运维人员的工作积极性,每周一次例会,每人以周报的形式汇报一周的工作。在此过程中,大家互相学习,不断进步。同时,对运维 人员工作表现进行考核,评选出当月的优秀员工,加以表扬,树立典范,在团队中形成“比学帮超”的工作氛围,激发员工的工作热情,以保证工作的 积极性。

工作结构和运维方式

传统的播出维护工作,多数是在故障发生后再进行解决,对用户而言,一般的系统故障可以通过电话服务和上门现场服务解决。在遇到复杂播出故 障时需要上门服务,但响应时间长,服务人员很难及时、有效地排查故障原因,处理难度大,只能对系统进行亡羊补牢式的维护。我们应该在工作结构 和运维方式上解决这个问题,从被动地等待出现问题,转化为提前发现隐患并及时解决或准备应急方案。

为确保播出系统的正常运行,建立矩阵式的运维团队管理体系,由公司技术部门对运维团队提供技术的指导建议和培训,由服务管理部门对运维团 队的组织结构、人员职责进行规划和考核,不同用户的运维团队根据用户需求配备相应的运维负责人和运维工程师。

在运维日常工作上,由运维负责人负责运维团队的日常管理工作、播出系统内各设备的检查工作,对系统故障等问题进行总结并形成经验文档。在 运维管理工作上,及时与用户进行沟通。运维工程师负责系统内设备的日常巡检工作,每日按照设备检查单填写服务器、交换机、数据库等关键设备信 息状态。对系统异常情况进行记录和检查,对故障进行维护,对用户提出疑问或问题给予及时地反馈与解答。

工作细化

为了真正实现准确的一致性比对报警,我们采用了许多专利技术,对主备两路视音频信号进行采样并逐帧对比

在完成运行体系建设和工作结构建立后,下一步重要内容就是进行具体的工作细化,这需要紧密结合用户系统特点,充分和用户进行沟通,听取用 户的建议和要求。主要原则是重视现场巡检,进一步强化安全意识,防患于未然,在事故未发生或未造成重大影响前解决问题,保障播出系统安全。主 要工作内容有:

1. 日常巡检

主要包含对机房环境系统、电力系统、网络系统、二级存储系统、视频服务器、工作站等设备的维护和保养,保障机房设备运行稳定,降低故障率。 对播出系统在硬件设备故障未造成事故前,第一时间进行维护,快速解决系统故障。

2. 事故处理

系统故障处理完成后,填写事故情况报告单,包含事故现象、事故原因分析、事故处理解决方法以及事故预防措施等,避免、预防同类问题的再次 发生。

3. 设备更换

更换故障设备需登记新、旧设备序列号,并记录旧设备故障原因、更换时间等信息,归档整理,方便日后查询。

4. 运维例会

加强团队沟通,经验交流,每周对日常运维中出现的问题进行总结、学习并形成文档。

5. 应急演练

制定各设备相应的应急预案,模拟发生故障后导致系统出现故障的应急操作,并在合适的条件下进行实际演练。

6. 防病毒

对进入播出系统的文件,必须使用专用U 盘、移动硬盘,登记使用人姓名,并在杀毒工作站上分别使用不同厂家的杀毒软件进行多次查杀,确认安 全后进行密封方可进入播出系统内使用。

7. 除尘、防静电

根据具体情况设定合理的除尘周期,对机房及设备进行除尘。在清理前应当先穿好防静电服,佩戴除静电手环等设备。

8. 停机检修

停机检修是对整个播出系统内所有设备进行检修,检修范围广、难度大,应制定详尽的检修流程,主要包括:系统检修流程、应用软件部署及软件 备份情况;系统重要设备的开关机步骤;系统内以往的风险点进行规避及预测;对参与检修的人员进行详细的工作分工;系统恢复后的测试方法;准备 易损坏的备品备件并准备好更换工具。

9. 提升能力

定期对运维人员进行专项培训,学习相关网络及软硬件知识。可以请厂商工程师进行技术培训,如软件故障排除、日志搜集、日志分析、交换机、 视频服务器、视音频周边设备应用等,以提高专业技能;网络方面应熟悉工程图纸,了解播出系统拓扑结构、网络结构以及交换机配置情况。

10. 运维文档

在日常对播出系统中关键设备进行维护检查外,还应建立完善的文档归类,制订合理规范的运维文档(表1) 。

结语

浙江广播电视集团

以上从简单的几个方面介绍了对播出系统进行运行维护的指导思想和方法,从实际出发进行科学化、规范化、流程化的管理,在实践中经受了检验。 欢迎各位同行和我们继续交流,帮助我们进一步提高,更好地为用户提供高品质的服务!。

  • 北京正奇联讯科技有限公司   © 2022 www.zqvideo.com 版权所有  京公网安备11010802014739号   ICP证:京ICP备14009498号-1
  • 地址:北京市海淀区西四环北路131号院1号楼3层336号    电话:010-62986676