`
javatar
  • 浏览: 1677674 次
  • 性别: Icon_minigender_1
  • 来自: 杭州699号
社区版块
存档分类
最新评论

服务治理过程演进

阅读更多
转于自己在公司的Blog:
http://pt.alibaba-inc.com/wp/experience_1402/service-governance-process.html



在大规模服务化之前,应用可能只是通过RMI或Hessian等工具,简单的暴露和引用远程服务,通过配置服务的URL地址进行调用,通过F5等硬件进行负载均衡。

(1) 当服务越来越多时,服务URL配置管理变得非常困难,F5硬件负载均衡器的单点压力也越来越大。

此时需要一个服务注册中心,动态的注册和发现服务,使服务的位置透明。

并通过在消费方获取服务提供方地址列表,实现软负载均衡和Failover,降低对F5硬件负载均衡器的依赖,也能减少部分成本。

(2) 当进一步发展,服务间依赖关系变得错踪复杂,甚至分不清哪个应用要在哪个应用之前启动,架构师都不能完整的描述应用的架构关系。

这时,需要自动画出应用间的依赖关系图,以帮助架构师理清理关系。

(3) 接着,服务的调用量越来越大,服务的容量问题就暴露出来,这个服务需要多少机器支撑?什么时候该加机器?

为了解决这些问题,第一步,要将服务现在每天的调用量,响应时间,都统计出来,作为容量规划的参考指标。

其次,要可以动态调整权重,在线上,将某台机器的权重一直加大,并在加大的过程中记录响应时间的变化,直到响应时间到达阀值,记录此时的访问量,再以此访问量乘以机器数反推总容量。

(4) 规模继续扩大,应用之间不再是扁平的对应关系,开始分层,比如核心数据层,业务集成层等,就算没有出现循环依赖,也不允许从低层向高层依赖,以免后续被逼循环依赖。

这时,需要在注册中心定义架构体系,列明有哪些层的定义,每个服务暴露或引用时,都必须声明自己应用属于哪一层,这样注册中心能更快的发现架构的腐化现象。

(5) 服务多了,沟通成本也开始上升,调某个服务失败该找谁?服务的参数都有什么约定?

这时就需要登记每个服务都是谁负责的,并建立一个服务的文档库,方便检索。

(6) 慢慢一些敏感数据也都服务化了,安全问题开始变得重要,谁能调该服务?如何授权?

这样的服务可能需要一个密码,访问时需带着此密码,但如果用密码,要改密码时,就会很不方便,所有的消费方都要改,所以动态生成令牌(Token)可能会更好,提供方将令牌告之注册中心,由注册中心决定是否告之消费方,这样就能在注册中心页面上做复杂的授权模型。

(7) 就算是不敏感的服务,也不是能任意调用,比如某服务突然多了一个消费者,这个消费者的请求量直接把服务给拖跨了,其它消费者跟着一起故障。

首先服务提供方需要流控,当流程超标时,能拒绝部分请求,进行自我保护。

其次,消费者上线前和提供者约定《服务质量等级协定(SLA)》,SLA包括消费者承诺每天调用量,请求数据量,提供方承诺响应时间,出错率等,将SLA记录在监控中心,定时与监控数据对比,超标则报警。

(8) 虽然有SLA约定,如果不能控制,就只是君子协定,如何确保服务质量?

比如:一个应用很重要,一个不那么重要,它们调用同一个服务,这个服务就应该向重要应用倾斜,而不是一视同仁,当支撑不住时,应限制不重要应用的访问,保障重要应用的可用,如何做到这一点呢。这时,就需要服务路由,控制不同应用访问不同机器,比如:
应用分离:
consumer.application = foo => provider.host = 1,2,3
consumer.application != foo => provider.host = 5,6
读写分离:
method.name = find*,get* => provider.host = 1,2,3
method.name != find*,get* => provider.host = 5,6

(9) 服务上线后,需要验证服务是否可用,但因防火墙的限制,线下是不能访问线上服务的,不得不先写好一个测试Main,然后放到线上去执行,非常麻烦,并且容易忘记验证。

所以线上需要有一个自动运行的验证程序,用户只需在界面上填上要验证的服务方法,以及参数值和期望的返回值,当有一个服务提供者上线时,将自动运行该用例,并将运行结果发邮件通知负责人。

(10) 服务应用和Web应用是有区别的,它是一个后台Daemon程序,不需要Tomcat之类的Web容器。但因公司之前以Web应用为主,规范都是按Web应用的,所以不得不把服务跑在一个根本用不上的Web容器里,而搭一个这样的Web工程也非常费事。

所以需要实现一个非Web的容器,只需简单的Main加载Spring配置即可,并提供Maven模板工程,只需mvn dubbo:generate 即可创建一个五脏俱全的服务应用。

(11) 开发服务的人越来越多,更注重开发效率,IDE的集成支持必不可少。

通过插件,可以在Eclipse中直接运行服务,提供方可以直接填入测试数据测试服务,消费方可以直接Mock服务不依赖提供方开发。

(12) 因为暴露服务很简单,服务的上线越来越随意,有时候负责服务化的架构师都不知道有人上线了某个服务,使得线上服务鱼龙混杂,甚至出现重复的服务,而服务下线比上线还困难。

需要一个新服务上线审批流程,必须经过服务化的架构师审批过了,才可以上线。

而服务下线时,应先标识为过时,然后通知调用方尽快修改调用,直到没有人调此服务,才能下线。

(13) 因服务接口设计的经验一直在慢慢的积累过程中,很多接口并不能一促而蹴,在修改的过程中,如何保证兼容性,怎么判断是否兼容?另外,更深层次的,业务行为兼容吗?

可以根据使用的协议类型,分析接口及领域模型的变更是否兼容,比如:对比加减字段,方法签名等。

而业务上,可能需要基于自动回归测试用例,形成Technology Compatibility Kit (TCK),确保兼容升级。

(14) 随着服务的不停升级,总有些意想不到的事发生,比如cache写错了导致内存溢出,故障不可避免,每次核心服务一挂,影响一大片,人心慌慌,如何控制故障的影响面?服务是否可以功能降级?或者资源劣化?

应用间声明依赖强度,哪些功能强依赖,哪些弱依赖,然后基于依赖强度,计算出影响面,并定期测试复查,加强关键路径上的服务的优化和容错,清理不该在关键路径上的服务。

提供容错Mock数据,Mock数据也应可以在注册中心在运行时动态下发,当某服务不可用时,用Mock数据代替,可以减少故障的发生,比如某验权服务,当验权服务全部挂掉后,直接返回false表示没有权限,并打印Error日志报警。

另外,前端的页面也应采用Portal进行降级,当该Portal获取不到数据时,直接隐藏,或替换为其它模块展示,并提供功能开关,可人工干预是否展示,或限制多少流量可以展示。

(15) 当已有很多小服务,可能就需要组合多个小服务的大服务,为此,不得不增加一个中间层,暴露一个新服务,里面分别调其它小服务,这样的新服务业务逻辑少,却带来很多开发工作量。

此时,需要一个服务编排引擎,内置简单的流程引擎,只需用XML或DSL声明如何聚合服务,注册中心可以直接下发给消费者执行聚合逻辑,或者部署通用的编排服务器,所有请求有编排服务器转发。

(16) 并不是所有服务的访问量都大,很多的服务都只有一丁点访问量,却需要部署两台提供服务的机器,进行HA互备,如何减少浪费的机器。

此时可能需要让服务容器支持在一台机器上部署多个应用,可以用多JVM隔离,也可以用ClassLoader隔离。

(17) 多个应用如果不是一个团队开发的,部署在一台机器上,很有可以误操作,停掉了别人的服务。

所以需要实现自动部署,所有的部署都无需人工干扰,最好是一键式部署。

(18) 机器总是的闲时和忙时,或者冗余机器防灾,如何提高机器的利用率?

即然已经可以自动部署了,那根据监控数据,就可以实现资源调度,根据应用的压力情况,自动添加机器并部署。

如果你的应用是国际化的,有中文站,美国站之类,因为时差,美国站的机器晚上闲的时候,可能正是中文站的白天忙时,可以通过资源调度,分时段自动调配和部署双方应用。

按关键词归纳为:

1. 服务注册与发现

2. 软负载均衡与容错

3. 服务监控与统计

4. 服务容量评估

5. 服务上线审批

6. 服务下线通知

7. 服务负责人

8. 服务文档

9. 服务路由

10. 服务编排

11. 服务黑白名单

12. 服务权限控制

13. 服务依赖关系

14. 服务分层架构

15. 服务调用链跟踪

16. 故障传导分析

17. 服务降级

18. 服务等级协定

19. 服务自动测试

20. 服务伪装容错

21. 服务兼容性检测

22. 服务使用情况报告

23. 服务权重动态调整

24. 服务负载均衡调整

25. 服务映射

26. 服务模板工程

27. 服务开发IDE

28. 服务健康检测

29. 服务容器

30. 服务自动部署

31. 服务资源调度
  • 大小: 51.7 KB
分享到:
评论
9 楼 wst0350 2016-06-28  
还有更多的资料吗
8 楼 timberwolfes 2015-09-11  
"在大规模服务化之前,应用可能只是通过RMI或Hessian等工具,简单的暴露和引用远程服务,通过配置服务的URL地址进行调用,通过F5等硬件进行负载均衡。"——Alipay HSF 痛点,已经痛很久了!
7 楼 helei050 2014-12-15  
请问飞哥,现在有什么好的服务治理框架吗?
6 楼 helei050 2014-12-15  
膜拜
5 楼 bin_1715575332 2014-01-09  
这个写得很好,但是还是不能太理解,可能还没到自己设计的时候,呵呵。
4 楼 shenzhanwei 2012-11-12  
3 楼 jiuyuehe 2012-03-28  
真棒,棒子哥你好
2 楼 dearhwj 2012-02-11  
总结的很不错。
1 楼 xiaoyu 2012-01-14  

相关推荐

    【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip

    快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅...

    数据分析平台演进及数据分析方法应用(蚂蚁金服).pdf

    ⑤ 数据治理:数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。 3、数据引擎 ① 任务执行与调度引擎:我们在做ETL的时候大多数都是这种任务执行与调度; ② 数据科学引擎:数据科学引擎主要是做分析,...

    java微服务技术分享

    架构演进 中台建设 服务治理 数据治理 研发效能 组织升级 阐述产品技术的升级改造过程及组织升级过程,

    民国濉河流域省际水事纠纷及其解决机制——以苏皖两省疏浚龙岱湖(河)、奎河纠纷为中心

    双方致力于通过构建区域行政协调机制来化解矛盾,并呈现出从“两省会勘——十县联席会议——导淮委员会主导的三方会勘——行政督察专员会商”的制度演进过程。洪灾风险转移诱发的利益失衡与制衡是制度演进的内驱力,水...

    ArchSummit北京 2019年全球架构师峰会PPT合集(76份).zip

    ArchSummit北京 2019年全球架构师峰会PPT合集...命名服务的演进与业务赋能 量子计算及其潜在应用 跨数据中心高可用架构应用与实践 客服场景下智能化实践 精益数据创新工作坊 金融前端智能测试服务平台落地实践 等等文档

    携程技术2020.pdf

    2020年跌宕起伏,突如其来的疫情对旅游行业造成了前所未有的冲击,也让更多人进一步感受到技术...深入服务治理,深入容器技术、容器编排和服务网格,框架和运维部门合力致力于打造统一弹性调度体系,持续提升资源效率,

    DDD领域模型设计数据中台落地——苏宁供应链域数据中台构建实践

    没有豪横的数据规划治理和服务,有的只是我们从供应链域一个业务场景的切入,迈出落实“数据中台”概念的一小步。古人有云“积土成山,风雨兴焉,积水成渊,蛟龙兴焉”,我们相信从小的业务场景的积累和沉淀,不断...

    人工智能基础层定义.pdf

    数据基础服务与治理平台 模块则实现AI应用所需的数据资源生产与治理,提供AI基础数据服务及面向AI的数据治理平台。AI基础层企业通过提供AI 算力、开发工具或数据资源助力人工智能应用在各行业领域、各应用场景落地,...

    Jupiter微服务框架-其他

    Jupiter是一个面向服务治理的Golang微服务框架,以开发效率和治理效率为核心目标,从统一开发规范、完善监控埋点...4、演进式架构:保证服务在自建机房、容器云、网格化等基础架构变更和基础设施变更过程中的平滑迁移。

    Jupiter微服务框架 v0.2.9

    Jupiter是一个面向服务治理的Golang微服务框架,以开发效率和治理效率为核心目标,从统一开发规范、...4、演进式架构:保证服务在自建机房、容器云、网格化等基础架构变更和基础设施变更过程中的平滑迁移。Jupiter截图

    超大型电商系统架构解密

    过介绍1号店的系统演进过程,向您逐步揭开超大型电商系统架构的秘密,带您领略诸多独家干货:服务共享和治理、Hedwig异步消息中间件、电商敏...

    论文研究-基于复杂网络的路网交通拥堵评估仿真模型.pdf

    为了能够深入分析路网交通拥堵动态演进过程,为交通拥堵治理提供决策分析工具,提出了一个基于复杂网络的路网拥堵评估仿真模型。通过将路段阻抗概念引入复杂网络理论,实现了路网拓扑模型和流量模型的结合;此外,还...

    notary-governance

    增加了机制和操作层的规范,治理和演进。 有关根密钥持有者,可用操作,角色和职责的信息。 有关如何成为公证人的信息,选择规则,推荐准则,有效的公证人。 有关如何提出争议以及解决争议的步骤的信息。 如果您...

    Dubbo详细介绍与安装使用过程

    随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进。单一应用架构当网站流量很小时,只需一个应用,将...

    数据与隐私保护风险管理.pdf

    当今风险挑战 技术和业务观点的差异 差异带来的问题 ...将风险带入业务 数据风险管理战略 深入实施最佳实践 广泛连接企业风险 基于数据生命周期的风险管理 ...掌控风险治理过程 IT/数据/隐私风险管理演进

    华为HCIP-Cloud Service Architect LVC公开课培训视频教程【共31集】.rar

    1.2.1 应用架构设计的演进之路 1.3.1 云架构设计原则 1.4.1 综合案例讲解 2.1.1 公有云及PaaS市场 2.2.1 PaaS、GPaaS 2.3.1.传统IT云化场景,方案1.2 2.4.1 应用SaaS化场景,方案5.6 2.5.1 轻资产创新场景,...

    淮河干流正阳关至吴家渡段水动力数学模型及应用 (2013年)

    验证计算结果表明,模型计算精度较高,可为正阳关至吴家渡段河道综合治理和行洪区优化调度等研究提供计算平台。 利用该模型分析了荆山湖行洪区在2007年洪水过程中的运用效果,计算结果表明,荆山湖行洪区运用可以降低田...

    基于复杂网络的路网交通拥堵评估仿真模型 (2014年)

    为了能够深入分析路网交通拥堵动态演进过程,为交通拥堵治理提供决策分析工具,提出了一个基于复杂网络的路网拥堵评估仿真模型。通过将路段阻抗概念引入复杂网络理论,实现了路网拓扑模型和流量模型的结合;此外,还...

Global site tag (gtag.js) - Google Analytics