2021SACC专场十七:智能运维实践(下)(ppt下载)
在互联网用户规模增速放缓、流量红利消失的大背景下,如何确保各企业服务可达,不断提升终端用户体验成为各企业关注重点,为此博睿数据致力于构建从代码到用户的全过程数据链DNA,通过多客户端实时监测、实时网络性能管理、可视化应用深度追踪、代码级应用性能监测等综合能力来实现数据链DNA,打通“云-管-边-端”,将不同环节的用户体验数据、网络数据、代码执行效率等数据集合到大数据平台,帮助企业提升整体用户体验,实现以应用为中心到用户为中心的服务可达过度。
同时重新建立一套以用户为中心的服务可达能力的监控和评估体系,提升运维自动化能力,来满足不同终端用户的用户体验,加快各企业数字化转型进度。
10年APM行业工作经验,对于用户体验、用户行为领域有深入研究。
工作经历:
基调网络—技术支持总监
● 服务客户数量为500+,主要客户有:四大门户、国内主要航空公司、京东、淘宝、土豆、爱奇艺、56网、美团、人人、畅游、新华网、人民网等 服务客户。
● 工作内容主要包含:售前交流、项目进度把控、临时紧急问题处理,售后服务质量把控、年度服务交流、高层拜访等。
● 建立APMP认证培训体系,赋能客户,增强用户粘性,成功举办30余次,受众1000余人。
● 带领大客户部门制定并落地销售计划,超额完成销售目标。
国双科技 – 商务拓展总监:
● 负责应用交付产品线的销售策略制定、售前人员能力提升、产品方向规划、服务体系保障、以及产品的市场营销工作。
随着保险行业向科技化、信息化转型,保险公司业务越来越多样化、复杂化,对应用系统运行的稳定性、可靠性和性能方面运维工作带来了巨大的挑战,为适应这些变化,我司建立起了保险公司业务全生命周期的主动运维与智能运维平台体系,通过事前预防,事中用户使用情况、应用业务流程执行过程、应用代码执行情况及应用运行依赖的运行环境进行监控,事后分析核对巡检等措施,到达降低问题、及时告警、快速定位排查与修复问题,充分保障应用系统的稳定性、可靠性。
此次分享主要涵盖:
(一)事前运维
1、预生产环境全覆盖自动化测试,借助Postman实现覆盖从测试计划到测试执行、测试报告分析。
2、传统架构应用系统的自动化滚动发布,使用Python、Selenium实现自动化灰度发布,生产环境自动化验证。
(二)事中运维
1、关键业务数据风控,在业务系统关键环节植入校验,降低关键业务数据风险。
2、稳定性、可靠性和性能自动化报警平台,通过ELK监控业务日志及Dynatrace,实现风险主动感知报警,支持问题溯源的能力。
3、自动化治愈,实现应用系统down机等重大事故,时间自动化治愈。
(三)事后运维
1、数据分析平台,通过采集业务数据、日志数据,实现业务数据准确性自动化核对,操作安全性分析等;
2、自动化运维,实现日常应用系统巡检、安全审计等。
专注保险行业开发、测试、应用运维、项目管理领域十六年,擅长IT项目与运维管理;非常熟悉保险公司业务;有丰富保险公司应用系统开发、测试、运维方面建设经验。曾在中科软科技股份有限公司、高伟达软件股份有限公司等公司工作,期间参与过新华人寿、建信人寿、国华人寿、东吴人寿、安邦保险、长城人寿等10余家保险公司应用系统建设。
随着大数据业务线在规模和数量上增长,运维平台需要应对来自多集群多实例、混合部署、资源管理、配置同步等多方面的挑战。一方面平台要从全局视角来概览整个大数据业务群并提供分析数据,它不仅让运维人员能通盘了解各个集群或业务线的健康情况,而且各集群中资源的动态配置对于企业落实降本增效的目标也很重要;另一方面,随着数据中台业务兴起,要求运维平台能更便捷地接入数量众多且快速迭代的中台服务,以满足业务方灵活使用数据的需求。
此外平台运维本身也依赖着我们自主开发的若干服务的基础数据,譬如冷热数据、存储用量趋势、队列资源管理、任务分析诊断等, 这些数据让我们能确定容量规划目标、何时压缩或迁移数据、资源调度是否合理以及如何来保障任务级别的SLA。近年以来,业务上云从口号转向逐步落地。业务上云后,已有的服务运维架构如何来确保同样的可用性目标和无缝对接相关运维需求。这些问题都会困扰着奋战在大数据运维保障战线上的各位同行。
本次分享主要介绍网易在解决上述大数据复杂运维环境下的技术方案和实践经验。
分享提纲:
a. 介绍网易的大数据应用现状和面临的主要问题
b. 说明网易大数据管控平台的目标和愿景,介绍使用的主要技术架构
c. 通用的大数据服务运维框架
d. 通用的大数据监控报警实现
e. 介绍自主开发的若干服务组件
f. 大数据运维实战经验分享
分享要点:
首先介绍网易的大数据应用现状,以及SRE团队在运维管理和服务保障过程中所面临的具体应用场景和相关难点;接下来针对大数据管控平台要实现的目标,我们分服务运维管理框架和监控报警两个主要方面进行展开,介绍以Ansible构建的通用服务自动化运维框架,和以Prometheus为基础来实现的通用度量采集和监控报警方案;然后说明下我们为保障平台可用性而自主开发的若干服务,譬如HDFS元数据服务、核心任务监控服务以及异常关联报警服务等后总结下大数据运维保障过程中的注意事项, 以及分享在存算分离架构和服务上云方面的一些实践经验
服务端开发工程师,大数据SRE团队负责人,长期从事于大数据运维保障一线,参与了网易大数据(运维平台)从无到有,由点及面的整个演进过程,具备丰富的服务保障和运维诊断经验。认可DevOps理念,积极推动团队DevOps实践,希望与参会同行互相交流借鉴。
相关文章