干货分享 | B站SLO由失败转成功,B站SRE做对了什么?

EASYOPS_youwei · · 1569 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

 

 

最近几年,Google SRE在国内非常流行。

Google SRE方法论中提出了SLO是SRE实践的核心,SLO为服务可靠性设定了一个目标级别,它是量化线上质量的关键因素,它是用来回答一个服务到底“什么时候叫做挂了”的根本依据,也是可量化可统计的依据所在。

在大多数IT和运营部门中,可观测性是一个不断发展的技术领域。为了更好地发布稳定的软件系统,企业需要持续了解性能、正常运行时间和可用性等指标。因此,工程师正在全面增加对SLO的使用,用SLO来衡量系统的质量。一项研究发现,82%的企业正在增加对SLO的使用

中国年轻世代高度聚集的文化社区和视频网站平台,B站也引入了SLO,并将SLO用作一个稳定性保障手段,帮服务观测线上隐患,保障服务在线上环境的可用率。

本期「UGeek大咖说-大厂可观测」邀请到B站在线SRE负责人武安闯做客直播间,为大家带来《以SLO为核心的可用性观测与质量运营》的分享,将以SRE中的SLO工程为核心,探讨如何抽丝剥茧度量服务的可用性?如何开展报警治理?如何第一时间发现线上问题?

直播预约

 

嘉宾介绍

 

武安闯

-哔哩哔哩 / 基础架构部 / 在线SRE负责人-

  • 先后负责中间件运维、在线业务保障和SRE稳定性工程
  • 从0到1带领运维到SRE转型,建设B站稳定性体系
  • 主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项
  • 当前专注SRE稳定性体系规划建设和落地实践

直播主题

《以SLO为核心的可用性观测与质量运营》⤵

微服务系统中采集和配置了丰富的指标、报警,海量的观测指标和报警又让大家无法及时发现线上问题。如何抽丝剥茧度量服务的可用性,如何开展报警治理,如何第一时间发现线上问题,本次分享将以SRE中的SLO工程为核心来探讨一下服务的可用性观测、报警治理与质量运营。

直播时间

2022年11月24日20:00-21:00

直播亮点

分享Google SRE中最核心的SLO工程方法论和落地实践!

观众收益

  1. 了解可用性指标的观测对象、观测方案和落地实践
  2. 了解Google SRE中最核心的SLO工程方法论及SLO实施经验
  3. 了解如何从SLO出发来做报警治理与质量运营

有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1569 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传