IT自动化运维体系浅谈
随着IT运维体系的持续发展,IT自动化运维已经成为IT运维体系中重要的组成部分,并且随着信息化的发展会扮演越来越重要的角色。面复杂的业务和多样化的用户需求,IT架构体系需要越来越合理的模式来保障IT服务能便捷、安全、稳定地持续保障,这种模式中的保障因素之一就是IT运维自动化。
一、关于IT自动化运维
英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出的摩尔定律,其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。
换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度。
从初期的几台服务器发展到庞大的数据中心,从初期的个位数运维人员到两位数甚至三位数运维人员,单靠堆人头已经无法满足在技术、业务、管理等方面的要求。需求决定供给,标准化、自动化、架构优化等提升IT运维效率的场景实现变得越来越迫切起来。
我们来谈一谈自动化。
自动化作为运维体系的重要属性之一并不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现效率与服务最优化,同时保障收益最大化。自动化对IT运维影响之深远,不仅仅是人与运维之间的关系,业已发展到了面向客户服务驱动IT运维决策的层面,包括但不限于IT运维团队的组成及IT运维体系的架构。
因此,IT运维自动化目的就是实现IT运维的质量,可以说自动化一定是IT运维最高层面的重要属性之一。
二、当前的困境
目前许多企业的IT运维已经实现从人工运维到程序运维,不过通过笔者工作中同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化运维”状态,与其说“半自动化运维”不如说“被动运维”。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。
这些被动、孤立、半自动式的IT运维模式经常让IT部门疲于应对,影响稳定服务的同时也凭空增加了工作量。
三个方面影响最甚:
1> 运维效率低下
IT运维过程中,只有当故障已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维效率难以提高,更有甚者还会导致业务部门对IT运维的服务满意度不高(基础部门还是要靠业务部门恰饭的)。
另外根据笔者和客户打交道的过程中发现绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,被动“救火”的状态常常还会引发一系列恶性连锁反应。
2> 缺乏高效IT运维机制
其实也不能怪很多IT运维人员疲于应对日常简单重复的问题,目前许多企业在IT运维管理过程中缺少自动化的运维机制,既没有明确的角色定义也没有明确的责任划分(通俗的说就是螺丝钉的定位都没有)。
故障出现后很难快速、准确地找到问题原因,无法及时地找到相应的人员进行修复和处理(这么说不严谨,客户通常能够及时的找到我们),或者是在问题找到后自身缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录(这些都让我们做了)。
3> 缺乏高效IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因这样或者那样的故障而导致业务的中断,严重影响企业的正常运转。
出现这些问题很大一部分原因是IT部门缺乏事件监控预警和诊断工具等IT运维技术工具,工欲善其事必先利其器,在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
三、迫在眉睫自动化体系建设
尽管IT运维管理的思想和技术都在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取应用层面、中间件层面、数据库层面及网络和服务器层面的告警信息,但从众多警告信息中很难一眼定位问题的根源所在。另外许多企业的绝大多数工作都是手工操作的。我还遇到过一些客户连数据库备份都是手工做的,当设备数量有所增加时其工作量之大可想而知。
而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此实现运维管理工作的自动化提升运维效率已迫在眉睫。
现在技术迭代的速度很快,IT运维工作的复杂度和难度也大大增加,但靠几个“技术大咖”来包打天下的模式已经行不通了。
IT运维需要专业化、标准化和流程化的手段来实现运维工作的自动化管理。
通过自动化监控系统及时发现故障隐患,主动的告诉运维需要关注的资源,包括但不限于CPU、IO吞吐量、磁盘使用率等,以达到防患于未然。24小时全天候自动检测与及时预警功能能够大大降低IT运维人员的工作负担。而且通过自动化预警和诊断能最大限度地减少生产故障,提高服务质量。
运维什么最总要?稳定!稳定!还是稳定!!!
因此将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。IT运维流程自动化能够提高流程的可控性、透明度和安全性,自动化可以使运维人员能够一目了然的看到整个流程的各个节点运转情况,潜移默化地提升业务保障能力。
四、具体内容
IT运维自动化是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为半自动化甚至全自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。
IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。
自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如性能预警、备份等),提高IT运维效率。同时还要求能够故障预警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
五、工具
结合笔者的工作经历,对于IT运维来说一般有两类自动化工具:
一是IT运维监控和诊断优化工具;
二是运维流程自动化工具。
1> 监控自动化:
对重要的IT服务主动式监控,如应用、中间件、数据库、网路及服务器等;IT服务配置参数一旦发生触发预警数值,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护。并且定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
2> 流程自动化
流程自动化工作平台主要帮助IT运维人员完成日常的重复性工作(如环境搭建、数据迁移、备份等),确保变更安全,提高运维效率。
六、自动化运维体系搭建
1> 建立自动化运维管理平台
第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现运维操作规范化和对IT资源进行实时管理化(包括服务器、数据库、中间件、存储备份、网络、安全业务应用和客户端等)。通过自动监控管理平台实现问题综合处理和集中管理。
2> 建立故障事件自动触发流程
纳管所有IT服务设备,在遇到问题时系统要做到自动报警,同时搭建问题相关知识库,IT运维人员参考问题相关知识库解决问题,以提高IT运维响应问题的效率。
3> 建立规范的事件跟踪流程
同时建立故障和事件处理跟踪流程,记录故障及其处理情况,以建立运维知识数据库,定期回顾复盘从发现问题的线索和根源。根据笔者的经历,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。
4> 设立IT运维优先原则
优先处理原则是指定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对IT服务有什么影响。普通告警常规处理,特别告警优先级次序处理。
啰啰嗦嗦这么多都是些理论,万事开头难,难于上青天(皮一下很开心)。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
雄关漫道真如铁,而今迈步从头越!
聚焦技术与人文,分享干货,共同成长
更多内容请关注“数据与人”
学习