Google工程团队带头人李聪:运维理念与实践 架构&设计

来源:互联网 / 作者:SKY / 2017-06-19 19:12 / 点击:
2016年4月14-15日,由51CTO传媒主办的WOT2016互联网运维与开拓者大会在北京珠三角JW万豪旅馆召开。本文是来自Google工程团队带头人李聪老师给各人带来的是主题为

2016年4月14-15日,由51CTO传媒主办的WOT2016互联网运维与开拓者大会在北京珠三角JW万豪旅馆召开。承袭专注技能、处事技能 职员的理念,自2012年以来,WOT品牌大会已经乐成举行了八届,蕴蓄了大量的技能专家资源,得到了宽大IT从颐魅者和技能喜爱者的同等承认,成为了业界重要 的技能分享交换平台以及人脉拓展平台。

本次集会会议分为11个技能主题,别离是:数据库技能与应用,大数据与运维,云计较与运维,运维安详,移动运维,容器系统构建与实践,运维自动化,行业运维、监控与机能优化、高可用架构和漫衍式存储技能。51CTO作为本次大会的主办方,将以快速报道、现场专访与后期视频等情势展示这场盛宴。

下面是来自Google工程团队带头人李聪老师给各人带来的是主题为《运维理念与实践》的出色演讲。

Google工程团队带头人李聪:运维理念与实践

李聪,Google从业七年多,教育开拓和维护过多个项目,包罗前端、后端、线下功课等。

【以下为现场演讲实录】

各人好,我叫李聪。我自我先容一下,我事变或许七八年了,首要以开拓为主。运维也做过一些,跟最前面的几位不是出格像,可是我本日给各人带来的内容,各人会发明为什么我做以开拓为主的,也可以给各人带来一些分享?等一下给各人先容。

我的内容跟前面有些纷歧样,这内里根基上不必要各人费钱,以是随便的听下去。我带来的主题就是运维的理念与实践,首要是较量得当于内部行使。只有一个方针,就是99.9999%。我信托在座大部门都是运维方面的专家,对这个较量认识了,我们在做处事的不变性的时辰,最首要谈处事级别协议叫SLA。假如说最重要的一个互联网指标,就是它的可用性有几多,我们把它划为6个级别,第一个级别最低是1个9,它的意思观念化可处事时刻是在90%以上,不行处事时刻是在10%以下,假如嗣魅这个处事能到达1个9以上,它就意味着说你宕机时刻保持在36.5天以下,这是很差的处事了,不外究竟证明,纵然到本日照旧有。好比说有一些买火车票的网站,页面一样平常都用不了,我认为也许到不了一个9。

每增进一个9,就相等于它的可用性,宕机时刻缩到上一级的10%。一样平常较量重要一点的处事都要到4个9、5个9、6个9,对付重要的处事,我们都是要到6个9的指标,年宕机时刻在31.5秒以下。在线时刻较量轻易领略,用户可以正常行使的时刻,宕机时刻也许就较量伟大一点,并不是说用户发个哀求,发明处事端有错误了,这才叫宕机,这不必然的。好比说我要去打开我的一个Email,自己是几秒钟工作,假如搞到10分钟,这样就可以把它裁定为宕机了。

我此刻给各人回首一下汗青,我们的方针很简朴,就是要到达6个9。我们是怎么实现的?假如运维不能让我从头来一次,我应该怎么做?我就要回首一下汗青。起首看一下我们软件成长起来是在80年月的时辰,谁人时辰,我们开拓流程都照旧用瀑布模子,从需求、说明到计划,到开拓测试,最后到宣布这样一个进程,较量老的一种开拓流程了。这内里有一个较量明明的处所,在开拓流程内里,前面计一律直到测试完成,在宣布之前都是在一个集体,可能说一个公司内完成的,可是当到宣布的时辰,照旧通过好比说光盘这种情势来宣布给客户,这种客户包罗客户公司,乃至说小我私人之类的,在这种环境下,产物的开拓整个流程到后头的运营是完全分隔的,整个开拓测试计划的进程,在软件开拓公司,运营运维就是在客户公司部门,这两个是完全摆脱的。在80年月早期,还没有裂痕这样的一种说法。举个例子,早年有顾主向软件开拓公司反应说他们的产物有题目,功效反过来被软件开拓公司给告了,说他们这是离间,告他们离间罪,在本日看来,这是一件很好笑的工作。宣布周期一样平常少则几个月,多则一两年,乃至三年,当时辰没有出格剧烈的竞争。在谁人年月做的开拓是一件很爽的工作,本日的开拓者不行以想象当时辰有多爽。

谁人时辰软件大部门是在2个9以下,一样平常都是到达1个9。这内里有一个例子Windows,90年月的时辰,Web软件开始呈现了,Web软件呈现,开拓流程依然没有很大的变革,照旧以瀑布开拓的流程为主的,可是由于它是一个Web软件,开拓与运维不是完全摆脱的。我原来说是在统一个公司内部的,我做软件开拓,我做维护给客户来行使,当时辰呈现了许多软件。在软件开拓公司,一样平常呈现了Ops这样一个组来提供这样一个支持,不外这个时辰,他如故是两个独立的小集体在公司内部,这时辰宣布周期加速了,一样平常可以几个月宣布一次,到一年的样子。纵然到这个时辰,做软件开拓照旧一件较量惬意的工作,由于许多的事变压力,许多的运营的压力都是在运维,开拓者相对来嗣魅照旧较量轻松。在这个时辰,许多处事是可以到达2个9的样子。

纵然到这个时辰,我不知道各人有没有印象,假如说你在办公室内里用一台Windows电脑,有其它一小我私人走进来开了一下灯,可能关了一下灯,你这个呆板也许就宕掉了。到了00年月的时辰,软件行业产生了雷霆万钧的变革,包罗从90年月后期赏识器的竞争,非处事的节点越发不变。就像路由器越发不变,假如说处事出了题目,在这之前,每每各人也许会搜查一下收集有没有毗连,到这个时辰,各人好比说上不了网,他也许会到其它一个社群网站看一下这个处事到底有没有题目。

宣布越发重要。由于竞争过于剧烈,导致了全部的软件公司压力都很是大,他们就要不断的去宣布,出产一些新的产物来吸引用户,让用户满足度更强。同时靠得住性也增进了,后头我会表明一下为什么。到00年月的时辰,竞争加剧了,产物宣布周期变短,产物宣布压力变大,这个时辰开拓与运维的抵牾也凸显。你不断宣布新的产物,每每就导致了这个产物不不变性增进,这必定不是运营商但愿的样子,它但愿这个产物越发不变,开拓者但愿宣布宣布、再宣布,我要一向宣布下去,运营商就但愿一向不变下去,以是嗣魅这两个脚色之间是一种搏斗的场景。这时辰就呈现DevOps这样一个观念,DevOps是一种观念、理论与本领,来促进开拓与运营之间更好的相助。

鱼与熊掌是不是可以兼得?我们怎么样去做?我们看一下怎么做的。

起首有人说堆人可以做到,我只要有钱,招更多的工程师,招更多的包罗开拓运营的工程师,这是绝对不行能的。假如你靠堆人,最多也就做到3个9到4个9,根基上就不大也许了。成套技能也是不行能的,无论这个公司技能有多强,都不行能到达6个9的级别,5个9都很难。这时辰就呈现了这两个团队之间的抵牾,运营就说想尽各类百般的步伐来拖慢宣布的速率,开拓者就想尽各类步伐来加速宣布速率。好比说运营的人说我下个月要休假,这个月就开始不要宣布了,你就等一等好欠好,假如你要宣布的时辰,我要增进你检察的流程和检察的深度,可是其它一方面开拓者就会想各类步伐,好比说我这个只是波及到5%的用户没有相关的,可能我只改一个UI,做一个很小的窜改,两边就扯皮起来。我们怎么样彻底的办理这种题目?我们引入了一个观念叫做SRE,这样一个脚色,跟传统的运维,乃至说本日许多公司运维的观念完全纷歧样。SRE的事变要来担保产物不变性,这个并不完满是他的责任。他跟开拓者有一个配合方针,开拓者也要有责任担保产物不变性。

怎么做到?或许从四个方面做到,我敢说是缺一不行,只要有一个环节出了题目,都不行能做到。

阅读延展

1
3