SRE-描述文档 – Intotw的博客

SRE-描述文档

intotw

|

2023-11-06 22:42

|

技术

|

768

534 字

|

3 分钟

本文最后更新于 714 天前，如有失效请评论区留言。

SRE是什么

SRE（Site Reliability Engineering）即网站可靠性工程，以软件工程的方法论重新定义研发运维，驱动并赋能业务演进。

SRE的职责

SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情，根据《Site Reliability Engineering 》一书提及的内容，笔者做简单汇总，SRE的工作主要包括但不限于如下：

基础设施容量规划
生产系统的监控
生产系统的负载均衡
发布与变更工程管理
on-call（轮值）与 Firefighting（紧急故障救火）
与业务团队协作，共同完成疑难问题的处理

要做哪些事情

基础组件能力提升
性能优化
数据库稳定性治理
监控预警治理
故障诊断与恢复
变更流程规范
on-call轮值
稳定性日报

这些事情怎么做

### 基础组件能力提升

AHAS能力接入
整体上云

性能优化

数据库慢sql优化
慢接口优化
rediskey优化

### 数据库稳定性治理

主从库读写分离

### 监控预警治理

arms监控
error日志监控
云中间件监控
监控配置

### 故障诊断与恢复

全链路日志串联
rds的sql分析
Prometheus监控指标
redis缓存分析
故障复盘

### 变更流程规范

线上变更钉钉群通知
dms多级审批
变更评审以及发布评审

### on-call轮值

高峰期项目稳定性全天9:00-21:00点轮班
SRE小组全天8:00-20:00轮班

稳定性日报

高峰期稳定性日报

异常怎么处理

拉通相关人员，及时同步信息
确认故障范围，减小故障规模
编写故障手册，规范处理步骤
参照异常处理手册

版权声明：除特殊说明，博客文章均为intotw原创，依据CC BY-SA 4.0许可证进行授权，转载请附上出处链接及本声明。

SRE

暂无评论

发送评论编辑评论

Markdown

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!