优维CMDB数据运营:为企业IT资源数据注入生命力!

EASYOPS_youwei · · 2442 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

 

 

 

3月份,我们邀请了运维界的网红——老王为大家讲述了「新一代CMDB落地的困境与出路」,启发了业界对新一代CMDB的思索与探讨。

于是我们不禁想问,当我们知晓了CMDB建设的技术方法论后,在实际落地建设的过程中,应该如何去推动并持续的开展数据运营?从企业的角度,又应该如何去修炼数据驱动业务的高质量CMDB呢?

众所周知,在落地过程中,即使有了理论的支撑,也会面临各式各样的困难。

所以,优维科技在漫长的服务客户的过程中,听过,也看过,也解决过大量的数据问题,这就是我们决心在今年上半年策划这场以CMDB为主题的公开课的出发点之一。因为我们的一线团队所经历的项目案例,就是当今IT运维团队面临的主流顽疾。我们也看到了很多组织在面对CMDB数据运营场景中的诸多困惑和尴尬的处境。

因此,优维特别策划了CMDB数据运营精准化专场公开课,专门针对这些实际的疑难杂症,从落地实践的角度探索CMDB数据运营的破局之道。

2023年4月20 日谷雨时节,迎来了“CMDB数据运营精准化公开课”的第二场,本期主讲嘉宾邀请了优维科技CMDB数据运营团队负责人-游李做客直播间,为大家带来了《CMDB数据运营为企业IT资源数据注入生命力》的主题分享,深刻讲述了CMDB数据运营的实践经验与方法论。

下面,就跟着鹿小U一起来回顾本期直播课的主要内容吧!

直播回顾

一.数据运营的挑战

众所周知,在实际运维过程中,不同角色会存在很多的疑虑,如下图:

 

诸如上述种种问题,相信在大家的工作中,一定会遇到过类似的,那如何能够让CMDB的数据更加可信、更可用,用的更好呢?

 

面对挑战,又如何破局呢?

  • 向下,一定要找到上述种种问题的一些根因。
  • 向上,去挖掘更大的数据价值。

二.什么是数据运营?

 

数据运营其实是基于数据分析,数据是底座,要结合用户的需求去打造匹配用户的一套运营方案。因为每个用户的组织、流程是不一样的,因此一定要深入到客户现场,结合用户实际需求去打造一套属于用户自身、贴合用户的一套运营方案,从而为企业实现数字化建设策略打下坚实的基础。

其次,通过提升CMDB数据质量等方法论,确保CMDB成为整个数据底座,不断去挖掘和建设场景,最大化的发挥数据价值。

数据运营,是数字化转型的抓手,也可以驱动业务价值,并且在运营的过程中,能够不断的促进流程的改进,最终让数据更可用、更可靠、更可依,达到降本增效数字化建设的目标。

三.数据运维方法论

通过多年的研究与实践,优维已构建出一套完善的CMDB数据运营的方法论,简单概括就是“1塔4层7要素”。

 

从上图金字塔,可以明显的看到:

  • 第一层是运维数据底座,具备数据纳管、数据质量保障、数据消费的能力,这是能稳定支持我们向上构建场景或要素的一个能力底座。
  • 第二层包含三个要素,定标准、立规范、建流程。
  • 第三层是在第一、二层的基础上,持续不断的去改进及闭环管理。
  • 第四层只有在整套闭环的管理体系下,才能取驱动业务的价值。

下面逐一介绍优维构建CMDB数据运营方法论中的“7个要素”。

》》数据底座的支撑

 

从上图可看出,优维EasyCMDB已具备了数据的采集能力,以及与统一监控、ITSM、自动化以及其他系统进行对接的能力。

》》定标准

众所周知,数据是有一定的标准的。如何评判数据的标准,它是有一套完整的机制和定义的。

 

数据质量评价体系:

  • 有效性:数据的值、格式和展示形式符合数据订阅和 业务定义的要求。比如服务器的Region必须 是Region基础数据中定义的允许值。
  • 准确性:是用于分析和识别哪些是不准确的或⽆效 的数据,不可靠的数据可能会导致严重的问题, 会影响到决策;准确是一切管理工作的基础。
  • 一致性:遵循统一的数据标准记录和传递数据 和信息,主要体现在数据记录是否规 范,数据是否符合逻辑。例如:数据编码不一致、命名及含义 不一致、生命周期不一致。数据不一 致会导致数据内容冲突的问题。
  • 完整性:数据质量问题中最基础和常⻅的一类问题;数据在创建、传递过程中⽆缺失和遗漏,包 括模型设计不完整(唯一性约束不完整;数 据条目不完整(数据记录丢失等);数据属性不完整(数据属性空值等)。不完整的数据参考价值就会大大降低。
  • 及时性:及时记录和传递相关数据,满足业务对信息 获取的时间要求。数据交互要及时,展现要 及时,数据交互时间过长可能导致数据失去 业务价值。
  • 唯一性:同一数据只能有唯一的标识符。用于识别和度 量重复数据、冗余数据。重复数据是导致业务 ⽆法协同、流程⽆法追溯重要因素,也是最基 本和常⻅的数据问题。

》》立规范

 

说到规范,比如说肯定会制定配置数据的质量规范。那配置数据的质量规范体系下,肯定会有对不同的角色的职责,以及比较核心的,比如说统一对齐的完整的术语,以及纳管的规以及相应的管理要求、消费规范等等。

值得一提的是,在整个配置管理的角色体系下,每一个团队或者每类角色,它都有自己的规范要求,它需要承载哪些职责或者说它的权利以及义务等等。比如:

  • 运营团队,它就需要去建设场景,需要进行数据价值规范的评估与落地,以及保障整个产品运营的能力。
  • 配置管理owner,每一类的配置项一定是有owner,它要负责辅助或者说协助提出它的的专业意见,比如模型怎么去定义CI项的一些属性,或者质量规范应该如何去定义,需要owner角色提出一个专业的专家意见。
  • 配置数据用户,负责进行需求提出。用户在需求提出的过程中,要去澄清这个需求是有什么样的场景要去消费数据,为什么要建立这样的一个场景以及它的价值,包括在后续的使用过程中,对平台、对数据都有什么样的问题,需要和运营团队进行反馈,有责任和义务保障用户的消费稳定。
  • 开发团队,在建设一定的场景过程中,开发团队是能够保障产品顺利建设,并且保障平台的健康运转。

以上,就是对不同角色的定义以及他的能力和职责。

》》建流程

 

从上图,可以直观看出优维CMDB的应用资源和基础资源是如何去构建的。

比如说在需求评审环节,在架构管理那里会去创建一个系统/子系统。创建之后,会将这个数据同步给CMDB,再由后续的修成去驱动它的状态的变迁。

那这个系统/子系统在CMBD之后,可以经过架构评审、研发不断的去由状态、由流程去驱动配置项的状态的变迁,由未上限变成上限,再由上限变到运行中,以及它最终可能会有一个下限的过程,这一切一定是有流程去驱动它的状态变迁的。

同样的,当我们在需求评审的过程中,当需求评审结束了就可以去申请资源了。那申请资源的时候,可以把应用资源和基础资源勾连起来。所以说,在优维CMDB整套生命周期体系下,一定是由流程来驱动状态的变迁,并且把整个资产的状态建立关联关系的动作,一定是由生命周期去看齐的。

》》闭环管理+持续改进

 

说到闭环管理,有几个方面需要注意:

一是分析与设计阶段,需要对静态数据进行分析,比如说关键字段的完成性分析与定义,以及模型的设计。其次是对数据动态采集,这个数据的完整性,它有一些什么样的特征,它要如何去定义这个数据,什么样是具备完整性和不完整性的,一定要有它的度量方法和定义。再者接口如何去纳管数据,这个数据是由什么样的渠道或者数据流转的一套机制来获取的道路,都要通过数据分析能力去建设。

去设定整个数据方案,以及在分析和设计这个板块里面去把数据质量评价体系这套内容给建设起来。等数据纳管起来之后,同步要保障数据质量,落地数据质量评价体系,并且持续的可量化,以及可持续优化的整套驱动力,来不断保障数据质量。

那在数据使用过程中,或者在平台建设的过程中,会遇到各种问题,这就需要一套运营反馈机制,来保障消费方子使用过程中,对整个平台的信任度,以及给到用户一些反馈,包括一些问题的解答以及问题的解决。

最终,还要对整套机制进行一个回顾跟复盘,通过这个套闭环管理加持续改进的思维模式,来不断的驱动数据运营。

》》驱动业务价值

 

在前面六大要素的保障下,才能不断地去驱动业务价值。业务价值是由场景去不断构建的。我们的数据运营可以促进整个场景的建设,比如说我们建立的一些告警的场景、资源管理的场景、以及云上的场景等等,都是气门驱动业务价值的体现与手段。

介绍完上述7大要素,相信很多人会有疑问,到底要怎么去做CMDB的数据运营。下面将按照7大要素的路径给大家分享一个案例,“如何提升运维负责人的可用性”。

四.案例-提升运维负责人的可用性

》》第一步,运维负责人的数据从哪来?

 

数据底座的这个数据要从哪里来,这是我们首先要去进行分析的。

比如以OS为例,在资产申请的时候,必须要运维负责人用流程去驱动。或者在云管平台在划分资产、分配资产的时候,一定要有管理属性,也就是说会给这个资产按照一定规范定一个运维负责人的角色,涉及到一整套变更流程。

所以说数据底座的数据从资源申请流程、数据owner、变更流程进行分析获得。

 

可用性是由完整性、有效性、准确性组成的。

》》什么是完整性?

如何知道整个数据它是完整的?首先对数据要进行分析,比如我们把存量数据梳理之后,属性是否有约束?比如字符串长度是否有约束,如果是超长溢出了这个数据,是否需要被纳管,都是数据分析阶段要去解答的。我们要去把整个数据分析之后,要落地它不规范的一个评价标准,以及如何去定义数据的规范性。

其次,一定要明确owner。这个模型它的owner是谁?是由什么样的团队,什么样的组织,还是由某一个人来承担这个角色。那这个角色它要承担的职能,也就是我们上面提到的模型owner。

再就是对数据质量是要有保障来源的,包括owner的配置数据,它的这个模型设计,包括它在提出模型设计的一些专业的意见,都是owner在整个的配置管理里面去敲定的,并逐步去推进这个事项。再然后就是数据更新机制,是通过什么样的流程,通过什么样的数据流转机制同步到CMDB,我们要在这个过程中进行详细的分析。

 

》》数据质量保障

数据既然已经接入了,我们就要把这个数据质量评价体系落地,通过质量评价体系不断的去更新整个机制,再通过建立负责人生命周期的流程,我们可量化和可持续化。

通过落地这套机制之后,可以看到系统里面到底有多少数据,它是不是完整的,它的完整性又是一个什么样的比例,这是可量化的手段。

接下来,就是怎么样在运营中去反馈,在落地中不断的去推进这些,解决这些事情。我们一定是有数据问题,从我们一线运营团队导入到数据运营团队,并且跟踪解决。或者是说我们在用户消费的过程中,他可能遇到的不一定都是数据问题,有可能会有一些流程的问题,我们都要一一的去解决并且推进。

按照上面这中思路去解决之后,最终还会有一个落地的方案去验证到底这个问题是否得到解决。也就是说,我们看我们的数据完整性的这个指标是不是有提升,那这些数据是不是逐渐有减少,这些非常可观跟可量化的这么一个数据,一定是能够看得到的,也是可以去量化它的这个指标的。

最终我们对整个的事件进行复盘,那我们在后续的过程中会不会有类似的问题发现,如何去杜绝掉,我们在完整性方面遇到这些问题,如何能保障我们的数据,比如说在流程建立的时候为什么会有空格,需要寻找问题出现的根因,并解决掉,这才是保障数据完整性的一个手段。

》》什么是有效性?

 

有效性,我们定义说这个数据一定是可以被业务参照的。

比如说这个数据是由某个员工编码和姓名去组成的,如果说是反过来的,那就会认为它在系统里面就是一个无效的数据。那是否有误,比如说可能只有一个编码,没有姓名等等,或者是说这个员工是否是在岗的,这都是有效性的评价标准。

第二部分就是明确我们的owner的一个机制,包括数据给予什么样的流程同步到CMDB,包括人员变更是有什么样的浏览机制,去确保我们的数据是有效的。

》》什么是准确性?

 

一定是说它被消费了并且是认可的,并且是正确的,这样的话才认为它是一个准确的。就如上面说到的完整性和有效性都是符合标准的。

那什么条件不满足准确性?可以用过消费场景,去验证数据是否准确。比如监控场景,

比如大家常见的IP告警,我们去找这个负责人的时候,这个操作员的反馈是说,这个负责人他不是你们配置项上的这一位,那我们就要根据这个问题去进行溯源,这个数据是从哪里产生的,它是由什么样流程同步过来的,为什么找到负责人的时候,他是不负责这个业务的呢?这里一定是我们的流程对整个事件的变更没有去覆盖到,或者有一些流程没有去覆盖到,这是平台数据准确性的一个手段。

》》可用性6大要素

 

通过上图6大要素去不断推演,在提升运维负责人的可用性时,它有收获哪些业务价值。

  1. 首先,运维负责人有效性的提升,它是有一个可量化的指标。从早期的30%到最后落地之后不断的推演,现在持续稳定在95%以上。
  2. 大家可能有疑惑,这个可用性是怎么去计算的?上面其实已经讲了,可用性是根据完整性、准确性跟有效性去计算的,分别再乘了它的一个权重,就可以得到可用性的一个可量化的指标。
  3. 建设了人员离岗交接/转岗资产交接流程、监控告警接入路程、驱动运维工作流程的规范性。
  4. 负责人数据完整性和准确性的提升,大大提升了操作员处理故障的效率和故障。
  5. 数据真正被消费才是评价数据可用性的有效手段。
  6. 通过消费场景反哺数据质量提升。

五.案例-IT资源生命周期管理

》》背景

 

在当前大量企业IT信息化飞速建设及信息化转型背景下,资源是支撑企业平稳运行的基石。 资源管理是指一系列系统的、协调的活动和方法,相关组织通过这些活动能够优化管理及资产,并且实现资产全生命周期内绩效、风险和成本综合最优,以便最终实现组织降成本、增效率、促业务的数字化转型战略目标。

》》现状及痛点

 

  • 数据信息:数据量级大、数据源分散、数据质量差
  • 标准规范:数据标签不统一,管理模式不同步、汇总标准不一致
  • 流程治理:流程覆盖率低、管理流程繁杂、运维事件记录
  • 治理手段:线下台账模式、依赖人力监控、维护成本激增

基于以上四大问题点,要建设IT资源的生命周期的管理模式,根据优维CMDB搭建的7个要素来推演一下资源是怎么样,从而做好生命周期的管理。

 

首先看一下IT资源它的来源,第一种是通过自动发现获取;第二种方式是数据owner,通过API/Kafka的形式来推送给CMDB;第三种方式是通过流程来驱动IT资源的变更。

 

第二步就是定标准。

我们要达到建设资源的生命周期管理,资源与资源之间关联关系怎么构建,然后它每一个资产与资产之间它的状态是怎么样变更能够支撑我们这个消费的。

我们要把整个数据的标准,包括我们的每一个资源里面像我们第一个案例一样,它的完整性怎么样去定义,它的这个准确性、有效性等等怎么去定义。确定好这些即可确定标准。

 

第三步是立规范。

在资源的生命周期管理里面的每一个角色,开始也提到我们每个角色它的归属,或者是它的一个工作职责说明,一定是要在我们的规范里面去落地的。

 

比如说CMDB数据运营专家,他要对整个的流程进行一个调研,包括如何去设计模型,如何去设计数据评价的质量标准,以及它的数据对接方案。

有比如数据分析师,他要去辅助数据运营专家去进行这个数据分析。包括配置数据如何的获取,以及我们存量等等,增量数据的这个接口如何去设计,这是我们这个数据分析师的一个职能。包括项目经理是如何去推进整个事项跟踪的等等不同角色在整个数据运营过程中承担了什么样的支撑。

平台的数据是怎么流转的?肯定要清晰地去澄清出来数据是怎么流转的,与CMDB之间的这个交互方案需要怎么去设计,双方一定是要在整个的协同的前提下才能保障我们的数据正常的流转。这是在立规范阶段,对每一个角色它的能力的定义。

 

第四步是建流程。

我们在整个的生命周期下,通过立项流程去驱动我们的立项通过之后,可以进行这个系统注册,以及后面的一些应用的注册。那采购流程可以去驱动我们后续的这个资产的一些入库等等。所以说我们的整套IT资源的生命周期,核心一定是由流程去驱动状态变迁,并且在这个变迁的过程中将应用和这个基础资源的关联关系进行勾连。

 

第五、六步是闭环管理和持续改进。

在整个IT资源的生命周期建设过程中,一定要保持数据的闭环管理。

  1. 分析与设计:需求收集→业务调研→流程梳理→方案设计→数据质量评价体系方案。
  2. 方案落地:迭代规划与迭代研发,以及数据质量保障。
  3. 运营反馈:数据运营反馈机制,数据问题从一线运营人员导入运营团队并跟进解决;用户消费反馈机制用户消费反馈问题从一线运营人员导入运营团队并跟进解决。
  4. 持续改进:方案落地验证,数据问题是否解决或改善;回顾与复盘,确定是否需要优化方案。

 

第七步是业务价值。

那最终落地的业务价值,一定是由场景来驱动的。

在IT资源生命周期建设了之后,他有哪些场景,第一个容量盘点的场景:

  1. 机房管理员通过机房容量盘点,可以更加直观的了解机房,机架,U位以及设备的现状信息。
  2. 提供设备安装指导以及方案建设依据,减轻当前机房资源管理的工作压力。

 

再看一下应用部署架构的场景,以一个应用为例,这个应用是在哪些集群下,可以清晰的通过一个钻大屏的形式能够去把我们的应用和我们的这个资源去进行关联关系构建,并且通过可视化的效果展示出来。

 

第三个IT资源统计的场景,有多少中间件,多少数据库,多少主机,当前的使用率是一个什么样的情况,包括我们最近的一个资产变化,以及需要以任何的一种形式,能够去以什么样的视角去看到整个的资源情况。

回顾一下第二个案例,IT资源生命周期管理怎么样,通过我们的这个配置数据,以及我们的数据运营,形成了流程服务的目录,不断的去驱动了业务价值,是第二个案例核心的能力点。

六.数据运营收益

 

整个数据运营的收益,首先是确定了整个配置数据的核心定位,它是CMDB的运维底座。第二就是数据质量可以通可度量的方式去评价,让数据质量看得见。第三就是消费能力,通过构建很多业务价值场景,实现消费能力的可度量。第四就是数据价值不断的可以去拓展。

优维EasyCMDB+数据运营可以持续赋能助力企业数字化转型,这是优维数据运营的核心收益。

 

整体数据运营机制,是需要一套非常完整的方式去进行落地,我们如何提供给到客户这些服务呢。

我们肯定有数据建设,包括我们的业务梳理,通过需求梳理跟调研与整理这种方式,把我们的分享以及问题梳理出来并且去解决掉。再用场景去体现我们的这个数据价值。比如说我们输出的有数据的质量,规范的业务方案,实际文档,以及我们可持续跟踪的这么一套能力,来保障我们整个数据运营来驱动业务的能力,到最终的落地交付。所以说我们是完整的一套数据运营体系的机制

 

CMDB的建设不是一蹴而就的,它是持续的不断的去对齐,不断要去丰富我们的场景,丰富我们的能力,以及不断的提升我们整个稳定性、健康度、以及我们数据的这个价值的这么一个核心的目标来达成的。

以上就是本期直播课的所有分享,游李老师主要针对企业如何利用数据运营去运维组织,从而解决CMDB配置数据可用性的问题进行了深入的一个探讨,也从多个层面去解析了,应该以怎样的手段,把数据融合到企业生产经营活动中去发去发挥价值,也告诉我们应该如何去推动并持续开展数据运营。重点提到促进消费场景的实施与落地是运维工作效率和运维工作精细化的重要提升手段。

七.Q&A

Q1:CMDB运营过程中常见的挑战有哪些?应该怎么应对呢?

游李:我们在运营过程中肯定会遇到一些数据质量的挑战,比如说我们的数据怎么样去评价它好不好用,可不可用,有没有套一完整的机制能够去衡量。根据数据的6大特性,把数据质量评价体系去落地。那落地之后,我们对于数据来说,我们就一套完整的数据评价指标,在持续改进和闭环管理的思维下,能够不断的去驱动数据质量的保障。

Q2:什么情况要专人来运营,没有专人来做的话,如何将CMDB运营做得更好?

游李:数据运营团队的核心能力价值点,是一定要有一个核心人员的角色,才能去不断的驱动CMDB数据的建设。我们知道,CMDB的建设建设是需要长期的,不断去持续的进行投入的,企业才能够去不断的从我们的数据的这个可能性方面,能够去提供数据运营的落地的价值。我们说专业的人做专业的事情,那我们一定要说有专业的人,能够去给到客户去赋能,那我们共同去构建IT数据的鲜活生命力,通过这种合作的方式,能够去帮助客户去落地解决到一些他所遇到的问题。

Q3:如何评价CMDB数据质量的高低,可以用什么标准衡量?

游李:上面提到我们的数据质量是由6大特性进行构建,那我们在构建的过程中,我们怎么样去衡量它的准确完整,唯一有效,肯定是由一个一个指标来衡量的。

那我们回顾一下刚刚讲的这个具体的一个评价标准,比如完整性怎么样去评价它,我们首先要对整个的这个数据进行一个静态的分析,假如你的这个数据它不完整,比如条目不完整、属性不完整,它都算是在完整性的这个范围下,还有我们根据这个数据的一个梳理,把这个数据质量的评价体系给它构建出来,再去衡量它的完整性,它这个不能为空的条数是多少,然后它的这个其他的一些特性的这个数量是多少,然后得到一个可视化的数据来衡量整个数据的完整性。它是一个什么样的标准,这一定是一个非常客观的评价值。那有效性也是一样,我们如何去衡量它的这个数据是不是有效的,我们得有机制去落地,首先如何去定义这个有效,一定是由业务价值来驱动,或者是业务来认可他的这个有效,他是由什么样的这个分母来构成的,他最终可以得到一个可视化的有效性的评价指标。


有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

2442 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传