大师对话:领悟网易云架构之美

2021-11-11 00:00:00 产品 架构 监控 网络 网易

各位网友大家好,欢迎做客本期的名人堂访谈,我是主持人皮皮,本期访谈我们很荣幸邀请到了网易杭州研究院前台技术中心总监陈谔老师,为大家坐镇解答疑惑。谈到网易,大家会想起耳熟能详的网易邮箱;而说到网易云,大家又会很自然地联想到网易云音乐、云课堂,云笔记、云阅读等产品,但隐藏在这背后的网易云架构又有多少人知晓呢? 在7*24小时不间断的服务背后,网易是如何利用自主研发的监控平台来应对异常情况?




皮皮(Q1):陈谔老师,欢迎做客本期名人堂访谈活动,请简要介绍下自己,和我们社区的网友打个招呼。



陈谔(A1):我于2006年加入网易进入网易杭州研究院,先后参与和负责了网易博客服务端架构设计与开发、网易消息推送平台架构设计、网易私有云计算与网络虚拟化架构设计工作,目前负责网易云计算项目整体规划工作及网易能力开放平台的设计规划工作。技术上对分布式系统设计开发、各类编程语言与编程模型充满兴趣。生活中的我是名IT技术宅男、喜欢自驾旅游、也是一名伪球迷和伪影迷。





皮皮(Q2):2014中国系统架构师大会以“发现架构之美”为主题,其中也有关于“网易私有云以及网易云存储”的专场,能否为我们谈谈什么是网易云架构?


陈谔(A2):网易云从形式上来看与AWS、阿里云等类似,是IaaS+PaaS的云计算平台,但和公有云有所不同。网易云从诞生起,就立足于为网易的自己各类互联网产品而服务,因此在性能、稳定性方面有很高的要求。此外,考虑到我们需要对已有机房网络实现融合,因此在设计开发网易云期间,我们对基础的计算、网络、存储服务都做了大量的概念验证、性能测试工作,并对于各类异常状况的处理做了充分的运维应对措施。与此同时,我们还根据机房网络融合和网络访问安全保障的需求专门设计了融合方案,这一方案也将在本届中国系统架构师大会上进行分享。



网络架构上SDN的逐步实施也是网易云的一大特点,通过基于L3 Overlay的方案,网易云极大的降低了与数据中心网络拓扑的耦合,并为用户带来了租户间二层隔离的更为安全的私有网络。网易云的上层服务也颇具特色,例如除了传统的单节点关系数据库,我们还支持可水平扩展的分布式数据库,这也使得运行在网易云之上的产品在关系数据库访问性能上获得了极大的弹性。目前网易云已在公司内广泛使用,自今年以来,规模也在迅速扩大中,不久后网易的一些第三方合作方也将从高性能低成本的网易云解决方案中受益。



皮皮(Q3):作为本届中国系统架构师大会的专家顾问,您觉得有哪些机遇与挑战?能否分享下您的心得体会?



陈谔(A3):中国系统架构师大会是高手云集的盛会,覆盖的领域也非常广泛。作为大会的专家顾问,这是一个很好的机会,我能够直接接触业界许多先进的思想,也能够和各领域的专家分享与交流想法,并且也能借此机会促成长期的交流合作。这种交流的环境是难能可贵的,是非常高效有品质的。




在挑战方面,我觉得由于IT行业发展太快,总是不乏新旧技术思想的碰撞与颠覆。作为本届中国系统架构师大会的专家顾问,我觉得需要控制自己的思维惯性,有必要深入考虑一些隐藏在技术架构解决方案背后的成因和适用的场景,而不再是停留在简单去否定或追捧的层面上,这将会是一个挺大的挑战。





皮皮(Q4): 对很多互联网企业而言,提供7*24小时不间断的服务是一项非常艰巨的任务。一旦出现异常,运维工程师要面临各种异常补救措施,作为前台技术中心总监,您能否为我们分享下网易是如何利用自主研发的监控平台来应对异常情况?



陈谔(A4):网易的监控平台从很早开始就注重开放接口来满足业务数据的采集监控,这是因为不少线上事故并不能从服务器、VM的各项监控数据指标中得到良好的体现,所以我们的监控平台从一开始就设计成开放接口,允许将实时的业务数据推送到监控平台上,同时监控平台还支持监控数据的聚合和各种统计方式,这样运维人员便就能很方便的设定规则来触发报警。




此外,监控平台还具备完善的查询功能,能够通过类似SQL查询的方式查询符合一些阈值条件的服务器,为容量规划的决策提供支持,支持产品的长期发展。除了业务层面外,监控平台在数据中心层面还支持监控网络拓扑和交换机的工作情况,这样带来的好处很多,可以在很大程度上协助运维人员防患于未然,分离热点保障产品的服务质量。当然监控只是保障不间断服务的一个方面,更多的还是需要产品在架构层面做到高可用、剥离状态、运维友好、支持过载保护及必要的服务降级。网易的一些重要服务还包含额外的SLA评估服务,用以从用户视角观察服务质量,这样就能把运营商网络、CDN等服务端难以监控的因素也包含在内。




皮皮(Q5): 很多邮箱等Web应用都会面临着用户隐私等信息安全的问题,网易该如何应对这种挑战?您觉得有哪些技术方法可以强化Web应用的安全?



陈谔(A5):保护用户隐私是一个包含很多方面的系统性的工程,网易也有较为完整的体系来应对这一挑战。首先网易有完善的通行证账号体系,网易通行证提供了将军令、密保卡、手机绑定等多种保障,通过统一的账号体系同时也对异常登录等行为做了实时的分析反馈,通行证及网易的平台类产品均提供了标准的OAuth2.0,OpenId等支持来保障第三方接入时用户账号的安全;


其次网易的互联网产品也十分注重客户端漏洞的预防,网易的安全部门对各产品的XSS、SQL注入等漏洞情况有严格的监控,漏洞的解决都有严格的限时要求;在服务端我们要做的是防御入侵,近年来不少严重的用户隐私泄漏事故均起源于服务端被入侵,网易的安全部门及系统运维团队负责对操作系统、应用容器等漏洞进行跟踪。当有重大漏洞出现时各产品和服务均会时间进行更新,例如近的Heartbleed漏洞,网易相关的产品均在极短的时间内完成了更新,网易的开发人员在接入机房内网时都需要额外通过将军令验证,这也很好的保障了数据中心网络不因为个人安全疏忽而被入侵。

此外,我们还在积极引入入侵检测体系,提升运维感知能力;在数据中心的网络层面,网易也通过划分VLAN来控制不同产品间的网络连通性,在网易实施私有云以来还逐步提供了到租户粒度的三层网络隔离,目前网易私有云网络正通过实施SDN,实现租户网络的完全二层隔离,从而带来了更高的灵活性和安全性。


在强化Web应用安全方面,我觉得应在需要的场合引入HTTPS,注意cookie的属性设置如secure、http-only;注意预防XSS、SQL注入等漏洞,可基于Zap,Burp Suite等工具来检测漏洞;基于中央认证服务器的体系实现SSO(可参考google账号认证体系或Yale CAS);第三方认证授权使用OpenId及OAuth2.0;用户密码存储确保签名及加盐存储;服务端应用容器、依赖的框架、操作系统及常用软件需关注安全更新及时升级修复安全漏洞;管理服务器环境考虑使用堡垒机;架构上避免服务器不必要的向外网暴露;引入VLAN隔离产品、数据服务环境。

相关文章