AIOps是Gartner在2016年提出的概念,预计到2020年AIOps采用率将达到50%。目前国内的IT大厂都在尝试AIOps,今天百度监测平台技术负责人何正廷分享了百度对AIOps的实践:独立房故障者治愈。百度运维平台经历了基础运维平台、开放式运维和智能化运维。

平台的演变。近年来,我们看到了多起业界单机房故障事件,不仅造成了PV、流水损失,商业赔付,影响用户体验,而且还会给竞品以机会,造成研发成果浪费、用户信任度下降等严重后果。

百度基于AIOps故障自愈的解决思路为:书同文:运维知识库,一致运维“语言”;车同轨:运维开发框架,一致运维“方法”;行同伦:运维策略库,一致运维“模式”。目前,单机房故障自愈已覆盖百度80%的核心业务,止损效率较人工提升60%以上,业务L4故障,服务层能够在2min内完成单机房故障止损。

美团外卖自动化业务运维系统建设

对于现代人来说,外卖绝对是不可或缺的一部分,90后专栏作家李宫俊曾说过“生我者父母,养我者外卖。”虽然天天点外卖,但是你清楚外卖背后的技术支撑吗?本次专场美团外卖业务架构负责人刘宏伟就和我们分享了他们的自动化业务运维系统的建设。

刘宏伟表示:外卖业务后台服务交互复杂,从用户下单à商家接单à骑手接单à发配送à用户收到热乎乎的外卖,我们需要在20多分钟之内完成这一系列流程。而在这背后,整个产品线上还会涉及很多数据分析,统计,结算,合同等各个端的交互,一致性要求高,并发高。

如何将运维人员从繁重的工作中解放出来,应用自动化措施提升业务效率,刘宏伟认为可以从以下方面着手:

  • 前期当用户接收到诊断报警后,直接引导用户进入该报警可能会影响的业务大盘,查看业务图表,如果影响到业务直接进入该业务图表对应的核心链路定位最终的问题根本原因,从而判断是否要触发该核心链路上对应的服务保护开关或预案,以达到快速解决问题的目的。

  • 用户也可以直接通过诊断报警进入对应的核心链路,查看最终的引起异常的根本原因,引导用户判断是否需要触发相应的服务保护预案。

  • 发现问题-诊断问题-解决问题 这个过程每一步都需要不断的提升准确度,通过全链路压测不断的验证这一流程的准确度,当某些场景准确度非常高的时候,可以变为自动化方案。

  • 当整个方案可以自动化进行下去之后, 对于用户来说的使用场景就变成了:收到异常报警à收到业务服务恢复通知。

技术前沿发展:系统自动化调优

上面几位嘉宾和我们分享的都是智能化运维的现在,那么智能化运维的未来应该是什么呢?优调科技技术总监朱妤晴给出了答案——《技术前沿紧张:系统自动化调优》。

为了适应不同应用需求,系统在开发时就暴露了大量与部署、应用场景相关的参数,这些参数与系统性能紧密相关,在调优时需要对系统和应用有资深经验的技术人员来进行。而系统自动化调优就是指将这一过程自动化。

系统调优目前面临的难题是:为了适应更多的部署环境和应用场景,系统参数个数越来越多;为了满足不同的应用负载需求,涉及的系统越来越多;参数设置与系统、应用紧密相关,性能曲线复杂多变。

而系统自动化调优好处多多:仅调整系统参数值,即可使性能最大提升11倍;节省人力开销;减少硬件开销;更公平地测试和比较系统性能;确定系统瓶颈。目前,系统自动化调优的前沿研究成果有两个,一个是卡耐基梅隆大学数据库团队研发的OtterTune,另一个是由中科院计算所先进计算机系统研究中心研发的BestConfig。

相关推荐