File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change @@ -17,7 +17,7 @@ icon: material/home
1717
1818- 能够相对熟练地使用 C 和 Python 语言编写自己所需的程序。
1919- 了解 Linux 101 的内容,并且有能力完成其中的练习。
20- - 有能力配置可用的 Debian 系统环境(实机 /虚拟机/容器等)。
20+ - 有能力配置可用的 Debian 系统环境(物理机 /虚拟机/容器等)。
2121- 能够正确使用 Google 等搜索方式,并相对熟练地阅读英文资料。
2222
2323除此之外,部分章节可能依赖于其他计算机科学的知识,例如数据库、计算机网络等。如果对前置要求不熟悉,建议先学习相关的知识。作为参考,[ cs-self-learning] ( https://csdiy.wiki/ ) 提供了不错的自学教程目录。
Original file line number Diff line number Diff line change 4040
4141 不少时候,SLA 这个词会被误用来描述某个服务的「可用性」,这通常是不正确的(除非你与服务提供商签订了正式协议)。特别是对公益性质的网络服务而言,因为这类服务无法承担违约赔偿责任,因此只能够尽力而为保障可用性,而不能使用 SLA 这种有合同约束效力的词汇。
4242
43- 更好的说法是「某个服务的可用性(uptime 或 availability)在某年达到 / 预期能达到 99.9%」。
43+ 更好的说法是「某个服务的可用性(uptime 或 availability)在某年达到了 / 预期能达到 99.9%」。
4444
4545那么如何定义「可用」呢?这就与 SLI(Service Level Indicator)有关了。SLI 是用来衡量服务情况的具体值,例如,HTTP 的响应时间就是一种典型的 SLI。
4646
@@ -75,18 +75,18 @@ DevOps
7575
7676USENIX 的 [ System Administrators' Code of Ethics] ( https://www.usenix.org/system-administrators-code-ethics ) (系统管理员伦理守则)对这些必要的原则有着更深入的描述。
7777
78- 此外,在维护的过程中,出现问题是不可避免的。但是在出现问题之后,应当** 避免责备某个具体的人** 。正如绝大部分的飞机事故都是各个方面的问题共同导致,几乎不会出现某一个人需要承担全部责任的结果一样,一个合格的系统管理员,需要能够系统地分析故障原因(这也被称为 Post-Mortem,即「事后分析」),并且针对分析得到的问题,或编写工具,或改进流程,这样才能够有效地防止同样的问题再次发生。
78+ 此外,在维护的过程中,出现问题是不可避免的。但是在出现问题之后,应当** 避免责备某个具体的人** 。正如绝大部分的飞机事故都是各个方面的问题共同导致,几乎不会出现某一个人需要承担全部责任的结果一样,一个合格的系统管理员,需要能够系统地分析故障原因(这也被称为 Post-Mortem,即「事故复盘」或「 事后分析」),并且针对分析得到的问题,或编写工具,或改进流程,这样才能够有效地防止同样的问题再次发生。
7979
80- !!! note "Post-Mortem "
80+ !!! note "事故复盘 "
8181
82- 一份简单的 Post-Mortem 包括以下内容 :
82+ 一份简单的事故复盘包括以下内容 :
8383
8484 - 事件描述与发展时间线:在什么时候发生了什么?影响到了谁?导致了什么结果?当时是怎么处理的?
8585 - 原因分析:发生对应问题有什么技术上与非技术上的原因?
8686 - 改进措施:具体如何改进防止问题再次发生?改进步骤每一步的负责人是谁?改进的时间表是什么?
8787 - 总结:有哪些地方做得好(正面经验)?有哪些地方做得不足(教训)?
8888
89- !!! example "著名事故的 Post-Mortem "
89+ !!! example "著名事故的复盘 "
9090
9191 - [GitLab 数据库删除事故(2017)](https://about.gitlab.com/blog/gitlab-dot-com-database-incident/)
9292 - [GitHub 服务降级事故(2018)](https://github.blog/news-insights/company-news/oct21-post-incident-analysis/)
@@ -99,6 +99,6 @@ USENIX 的 [System Administrators' Code of Ethics](https://www.usenix.org/system
9999
100100 尝试回答以下问题:
101101
102- 0. 该事件的 Post-Mortem 大概会是什么样子 ?
102+ 0. 该事件的事故复盘大概会是什么样子 ?
103103 1. 如果你是 A,你会如何处理这件事情?如何确保类似的事情不会再次发生?
104104 2. 如果你是 B,从这件事情上你得到了哪些教训?
You can’t perform that action at this time.
0 commit comments