爱吱声

标题: 标签在运维管理中的应用（4） [打印本页]

作者: 就爱抬杠 时间: 2012-7-1 11:36
标题: 标签在运维管理中的应用（4）
在ITIL V3中，对事故流程和问题流程进行了重新的定义。

传统的事故管理流程在ITIL V3被分为事件管理、事故管理和请求实现三个流程。简单的说，事件指的是所有可察觉和可识别的，对IT服务或IT基础设施造成影响的现象；事故则指已经或者有可能对IT服务（这里不包括IT基础设施）造成影响的事件；请求实现则是指预先定义好的一些低风险或无风险事件，例如经常发生的低风险变更，服务咨询等等。

为什么要这么区分？因为新的事故管理流程更强调事故处理的本质特征，也就是“快速恢复”。“快速恢复”可能意味着要投入更高的关注，更多的资源，甚至掩盖问题产生的原因。如果事件不足以对服务产生影响或者威胁，哪怕对IT基础设施造成了影响，也不应当纳入事故管理流程。

问题管理流程仍然保持原有的含义，着眼于追究问题产生的原因和本质。因此，问题流程的一个重要来源就是事故管理流程。

在前面的讨论中，为了简单起见，我们没有区分事件和事故的区别。事实上，当然只有“事故”才值得或者说才能从业务视图的角度，根据对业务的影响来定级。当然理论上来讲用对“服务”的影响更好，但这个需要IT和业务部门充分沟通后才能实现。但在前面的讨论中，也有一些地方确实指的是“事件”。

在新的ITIL V3中，对服务持续改进流程进行了定义，其中提出了服务改进的七步法流程：

确定哪些需要衡量
明确哪些可以衡量
搜集数据
处理数据
分析数据
展示信息并使用信息
采取合适的措施

在我看来，这简直就是对实现标签管理的精准描述。首先确定需要定义哪些标签；然后明确哪些标签是实际可行的，能为运维人员理解、接受和使用；对嵌入标签的事件流程进行搜集、处理和分析，由于有了标签，这一切都变得相当容易；展示结果，采取措施。

如果我们把实现标签管理本身也作为一项服务，标签的增加、减少乃至重新定义也都可以通过这个流程来实现。

或许还会有人提出疑问，一般的公司中IT事故对业务的影响并没有明示，大家也没有概念，IT自行计算是否有必要，数据是否应当公开，会不会给IT带来不好的影响？

传说中鸵鸟会把头埋到沙子里，以躲避即将到来的危险，其实鸵鸟从来没这么做过，这么干的人倒是不少。在业务部门对IT的问题还没有忍无可忍的时候，主动把问题提出来，双方就可以逐步协商服务水平协议的细节。在前期这些肯定仅仅是参考，没人会真正拿出来说事，在合适的过渡期后，再进行有约束力的考核。

由于“IT黑洞”的存在，业务部门对IT一直心存不满，做出成绩的业务部门在总结成绩时也只会说领导有方，将士用命，IT只不过是那个“其它”而已。同样是这些人，在真的碰到IT导致的问题时，攻击IT却会不遗余力，在出现其它原因导致的问题时，第一个念头也是把责任推到IT身上。不是他们人品有问题，只不过是因为这样很方便罢了。

只要业务和IT还没有拟定有约束力的，双方公认的服务水平协议，业务和IT之间的关系在很大程度上就是双方部门领导之间关系的体现。干IT的不仅要把工作做好，更要把“客户关系“维护好，这无异于对IT作为技术部门的一种讽刺，IT最终经常被外行领导内行也就不是偶然的了。

今天IT敢于说出自己的”秘密“，承担应担的责任（其实真的应担吗？存在的就是合理的，因此在没有其他理由的情况下，现状也就是合理的），不指望业务部门拉你一把；明天业务部门就不能肆意地攻击你，随便把脏水往你身上泼，这个道理很难理解吗？

作者: sky100 时间: 2012-7-9 01:47
好帖。
不过很多it部门也是得过且过，不真发生事故了，是不会有主观能动性去考虑服务水平协议的。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)