自从DevOps兴起以来,行内一直不乏各种Ops术语,目前运维已经进入技术的深水区,业界普遍认为AIOps是运维的未来,那么必然趋势的AIOps到底是何方神圣呢优维UKnow专栏一文全知道 !
1AIOps的概念
AIOps(Artificial Intelligence for IT Operations),智能化运维,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步升级自动化运维。
智能化运维是在自动化运维的基础上,具备基于人工智能和深度学习的算法,实现规则自动生成,自适应调整已有规则。
智能化运维也是自动化运维的下一发展阶段,理想状态是把运维工作分成三个部分:监控、管理、故障定位。
只有当工程(自动化、标准化)的水平达到一定高度后,才有望向智能化方向发展。
AIOps能帮助人甚至代替人进行更有效、更快速的决策,提升业务系统的SLA,优化用户的体验,减小故障处理的时间,带来很大价值,并最终实现真正意义上的无人值守运维。
2AIOps的基础
① 日志标准化:日志包含所约定的内容、格式,能标识自己的业务线、服务层级等。
② 全链路追踪:TraceID或RequestID能从发起方透传到后端,标识唯一请求。
③ SLA规范化:采用统一SLA约定,比如都用“响应时间”来约定性能指标、都用“慢速比”来衡量系统健康度。
3AIOps的能力
① 整理数据:提供独立、开放的历史 / 实时数据采集、算法分析平台。② 提供告警消噪:包括告警抑制、告警收敛,消除误报或冗余事件。③ 跨系统追踪:提供关联性,有效进行故障根因分析。④ 检测指标异常:设定动态基线捕获超出静态阈值的异常,覆盖单 / 多指标。⑤ 预测未来:根据机器学习结果进行事件预测,防止潜在故障。⑥ 持续集成:直接或通过集成启动解决问题的动作。
4AIOps的应用场景
① 发现问题:基于历史数据或进行样本标记的KPI异常检测,能第一时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。
② 根因分析:基于机器学习模型的故障树与知识图谱挖掘,多指标检测,精准定位故障发生的根源及其原因。③ 预测未来:基于机器学习模型的指标预测,运用多种回归和统计方法,实现对不同级别粒度的业务数据的预测。④ IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用,比如营收预测、舆情分析、趋势预测等场景。
5AIOps的落地前提条件① 基础设施平台:从自动化能力、数据一体化能力进行起步建设,而不是一开始就建设一套对运维人员而言简单易用的模型设计框架。
② 算法:运维通用算法很多,可以采用跟学术界、社区、其他有实际落地经验的算法提供方进行合作,引入算法后不断调试优化才能有一个更准确的百分比;企业也可以自建算法人才,综合考虑性价比。
③ 人员组织:关注跨技术领域的综合性运维人才,这类人才更懂运维场景、需要解决的问题点。
6AIOps的未来发展趋势
① 落地多样化:除了互联网公司以外,很多传统企业、政府单位、事业机关也都在尝试AIOps落地。
② 产业生态化:各个行业都在试图尝试落地AIOps,越来越多的学术机构也开始从事AIOps原理研究,“产、学、研、用”各方积极推进,形成一个健康生态系统,提供给AIOps方向一个很好的基础。
③ 数据多样化:数据中心的系统架构庞大复杂,必须采集、治理、融合多种运维数据源,为AIOps的众多场景服务。
④ 场景多样化:大场景众多,具体又可分为多种类型的事件分析,用户也会逐渐自发与生态系统中的伙伴共同找到越发多样化的AIOps场景。
⑤ 场景精细化:异常检测包含单指标、多指标、多维度、日志等,需要针对精细化的具体场景进行算法适配。
⑥ 算法服务化:为了避免场景多样化和精细化导致的落地工作量增加,必须把各类场景用到的AIOps算法的共性部分抽象提炼出来作为公用模块,为多个场景服务,提升效率,优化整体服务。⑦ 技术平台化:打穿多个场景、数据源、算法,不管具体某个运维场景有什么特点,都可以通过整体平台来自由组合和编排,高效落地运维场景,避免传统方法的重复低效落地。⑧ 新算法落地加速化:有技术支撑的平台后,只需通过编排,把该新算法及其所需数据、已有工程串联在一起,就能实现快速落地。⑨ 成熟度评估标准化:标准化需求逐渐产生,银保监会、证监会、人行、工信部等权威机关也都表示支持。
AIOps ➡ 运维未来的答案运维出现障碍自动修复解决问题无需人工干预把握好趋势才能分得时代红利智能化运维乃是运维发展必然那么如何才能脱颖而出那就是专业的技术支持选择优维 先见未来成为行业翘楚仅需一步以企业所处转型阶段为出发点制定符合自身需求的解决方案高效能低成本突围困局抢先诺曼底登陆
有疑问加站长微信联系(非本文作者)