SRE
oneforall配置环境,报错cannot import name 'sre_parse' from 're' 解决方法
高版本python中re模块没有了sre_parse模块, 可以修改python中的exrex.py 代码,直接导入sre_parse模块 ......
SRE站点可靠性工程
什么是站点可靠性工程? 站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法。组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠。SRE 特别提高了可扩展软件系统的可靠性,因为使用软件管理大型系统比手动管理数百台计算机更具可持续性 ......
像Google SRE一样OnCall【转载】
在 Google SRE 的著作《Google运维解密》[1](原作名:Site Reliability Engineering: How Google Runs Production Systems)中,Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 ......
SRE Google运维解密 28-34章
第四部分 管理 第二十八章 迅速培养SRE加入on-call 如何给新手带上喷气背包,同时保证老手的速度不受影响? 成功的 SRE 团队离不开信任一一为了维持全球化服务的正常运转,我们必须信任 on-call团队了解系统如何运行,可以诊断系统的异常情况,善于利用资源和寻求帮助,以及可以在压力下保持镇 ......
SRE Google运维解密 10-27章
第三部分 具体实践 应急事件处理 一旦SRE发现了系统中存在的问题,要如何解决呢?正确的解决方案不一定是当初把问题一次性修复好,而可以靠降低系统准确度、关闭一些不重要的功能,或者将用户流量导向其他没有问题的任务实例等手段暂时缓解问题。解决方案的细节肯定是和每个服务和团队相关的。但是如何有效地应对紧急 ......
SRE Google运维解密 4-9章
第四章 服务质量目标 如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠低运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。 服务质量指标(SLI) 服务质量目标(SLO) ......
SRE Google运维解密 第三章
第二部分 指导思想 本部分将描述 SRE 日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。 第三章 拥抱风险 管理风险 在构建系统的过程中,可靠性的进一步提升成本并不是线性增加的。高昂的成本主要存在于以下两个维度: 冗余物理服务器 / 计算资源的成本 机会成本(如何理解 ......
SRE Google运维解密 第二章
第二章 Google生产环境:SRE视角 Google 数据中心与其他传统数据中心和小型服务器集群相比非常不同。这些差异有好处也有坏处,本章将详细讨论 Google 数据中心建设中遇到的机遇与挑战。 硬件 数据中心(供电系统,制冷系统,网络系统,计算机硬件) 约10台物理服务器组成一个机柜(rack ......
SRE Google运维解密 第一章
译者序 SRE 是一群天生的怀疑论者,我们怀疑一切宣传起来 "高大上" 的技术,以及任何 "神奇" 的产品一一我们只想看具体的设计架构、实现细节,以及真实的监控图表。SRE 在保障系统可靠性方面并没有什么万能药,有的只是这种极强的务实态度 (pragmatic)。 这种务实的态度决定了 SRE 会认 ......
SRE方法论之监控设计
监控的4个黄金指标 《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation。 延迟:服务处理某个请求所需要的时间。在微服务中通常提倡快速失败,服务不要憋着,这些延迟请求要尽快反馈给开发人员分 ......
SRE-描述文档
SRE是什么 SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。 SRE的职责 SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一 ......
SRE服务端预案,应急处理手册
服务端应急处理流程 问题升级流程 问题升级步骤 SRE人员-各端组长-业务线负责人 现有降级手段 App业务入口降级 降级范围以及作用域 使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口 使用场景 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常 ......
SRE-基于阿里云的告警体系建设
基于数据源来做分类 sls日志告警 配置以及查看方式 sls日志左侧点击铃铛进入告警中心配置 告警规则触发就是sls日志的查询语句,配置的规则时间内,查询语句查询的数量达到配置值,就会触发告警 现状 5XX告警 应用error日志告警 云产品监控告警 配置以及查看方式 阿里云直接搜索云监控 左边云产 ......
「译文」Google SRE 二十年的经验教训
👉️URL: https://sre.google/resources/practices-and-processes/twenty-years-of-sre-lessons-learned/ ✍️Authors: Adrienne Walcer, Kavita Guliani, Mikel Wa ......
SRE-第一周
基础部分作业: 1. 一个完整计算系统的简要介绍。2. 学会进制的转换,并简单举例完成转换。3. 制作一个教程,说明vmware软件如何下载安装。4. 说明GPL和MIT开源协议的区别。5. 制作2个安装教程,安装rocky 8.5, ubuntu 22.04,并结合xshell说明如何通过虚拟IP ......
SRE方法论之减少琐事
我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。 ## 一、什么是琐事 琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。 ......
SRE方法论之服务质量目标
为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不 ......
SRE 的工作介绍
哈喽大家好,我是咸鱼 今天看到了一篇很不错的文章,作者是一名 SRE 工程师,在 Shopee 工作,base 新加坡 分享出来给大家看看 作者:卡瓦邦噶 原文链接:https://www.kawabangga.com/posts/4481 **原文如下:** 有很多人问过我想了解一下 SRE 这个 ......
SRE传道,如何解决系统报错:nf_conntrack: table full, dropping packets
在 CentOS 下,默认的连接跟踪表大小是 65536,可以通过下面的命令查看: cat /proc/sys/net/netfilter/nf_conntrack_max 如果流量比较小,这个值是没问题的,但如果流量巨大,这个值可能就有点太小了。 解决方法 ......
SRE笔试题-某金融机构
## 题目 1. 给定一个路径/var/store,在这个路径下创建一个本地git仓库sre-test,作为提交点 2. 下载sre-test仓库到本地,创建两个分支master和test 3. master先提交一次,test提交3次 4. 最后,得到所有四次提交的记录。 ## 做法 1. 跳到/ ......
SRE心里话:要求100%服务可用性就是老板的无知
不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出 ......
SRE Google 运维解密读书笔记一:SRE 方法论概述
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论 ......
马哥教育74期Linux云计算SRE-第05周作业
##1. 总结openssh服务安全加固 服务器端:sshd 服务器端的配置文件:/etc/ssh/sshd_config 服务器端的配置文件帮助:man 5 sshd_config 1、更改ssh默认端口 在/etc/ssh/sshd_config文件中查找下面这样的行: Port 22 将默认2 ......
DevOps、SRE、平台工程的区别
DevOps、SRE和平台工程的概念在不同时期出现,并由不同的个人和组织开发。 DevOps作为一个概念是由Patrick Debois和Andrew Shafer在2009年的敏捷会议上提出的。他们试图通过促进协作文化和在整个软件开发生命周期中共享责任来弥合软件开发和操作之间的差距。 SRE,即站 ......
体系|大型互联网系统全生命周期的运维管理——你真的了解SRE?
关于SRE和运维体系的文章很多,但大多数学院风浓厚,本文试着从一个出身运维一线SRE管理者的角度进行总结阐述,给你一份可实操接地气的运维体系,所有感悟来自小米和新浪的多年运维实战,希望对你有所启发。 在面向大型、复杂互联网系统的治理时,尤其离不开SRE,当体量上来后,系统的用户量、模块、调用链、指标 ......
小米AIoT SRE龚同学入职阅博笔记——SRE入门
为了让团队同学对SRE有个统一的认识,有一些共同的套路和章法,尽量避免在工作中产生价值观和工作思路的矛盾,我一般会让新入职的同学读一下《入职必读》的几篇博客,1是提前对我们有个了解,2是告诉他们我们这的SRE要做什么和怎么做,3是便于入职后快速融入工作、团队,减少矛盾提高协作效率,最近来了一位实习生 ......
SRE从CMDB到SMDB的自动化探索演进——面向服务的运维
SRE和系统运维的最大区别,我认为SRE得在系统运维的基础上研究业务,研究系统架构、产品架构,SRE面向的是用户稳定性。 大型互联网系统,模块多、依赖关系和运行环境复杂,如果不了解系统架构,在出现问题时基本就是抓瞎的,不知道服务的功能,不知道到故障后对用户的影响,不知道出了问题后查哪些指标,不知道服 ......
心法|SRE如何制定科学有用的流程制度
科学的制定流程制度是非常重要的,好的流程制度能提高生产效率、降低出错,但流程制度用不好是要阻碍创新的,甚至引起工程师的反感和抵触。 比如为了减少工程师出错,把工作的每个角落铺满精细的流程制度规范,每个制度事无巨细的几千上万字,无异于对工程师缚手缚脚,大家也背不过来,唯一的用途就是犯了错误追责任:看, ......