[名人堂] 专访魅族首席DBA:深聊DBA们的职场进阶之路
嘉宾介绍
左兴宇,魅族科技首席DBA。原美国saas营销软件公司Demandforce北京研发中心DBA,2013年加入魅族数据库团队,对数据存储技术有浓厚兴趣。主导魅族核心机房迁移,用户数据业务DB架构优化,应用中心架构优化,多机房业务容灾数据方案落地,闪存技术落地等工作。
duke217(Q1):左老师,您好!很高兴您能接受我们的采访,在此特别感谢您的支持与配合,您能否简单介绍下自己?
左兴宇(A1):大学毕业后在深圳从事了4年的开发工作,那时候没有接触过专职dba,感觉是个很牛逼很神奇的职业,北上后机缘巧合投身数据库行业,在cpc ”单挑”过小规模db,也在demandforce”团战”过大容量数据集群,在DF的那段时间很惬意,中国和美国的时差导致两边的DBA都不需要晚上值班,这确实是挺爽的。2013年回到珠海后搭上了魅族这艘快船加入数据库团队,有幸经历了魅族近几年来飞跃式的发展,用户数从400W到3000W,IDC设备数从2位数到4位数,这是个很让人惊叹的飞跃式发展,任何处在这个潮流中的人都受益匪浅。
duke217(Q2):作为2016中国数据库技术大会的演讲嘉宾,您对大会主题“数据定义未来”有何理解?
左兴宇(A2):从人机大战4:1战胜李世石的阿尔法狗到阿里2016财年交易额突破3W亿RMB,这些伟大的成就无一不是建立在数据之上的,数据无处不在,人人都是数据的生产者,同时也是数据的消费者,谁能从浩瀚的数据汪洋中深度挖掘觅得真金,谁就能做笑到后的那个人。全世界每年产生的数据以50%+的速度持续增长,一年产生的信息量比信息化之前人类发展几千年产生的信息之和还多。我们的日常生活从起床听歌跑步,到外卖订单,到淘宝京东购物,到美团电影,到微博微信朋友圈,这些行为产生的数据,通过大数据分析得到的个人画像,甚至比你自己更了解你。这就是数据的魅力,它成就了你我,也成就了这个时代,它就像空气一样,你感觉不到它的存在,但你已经无法离开它。未来一定是数字化的,数据就是未来。
duke217(Q3):据我所知,您目前则担任魅族的首席DBA,而且曾经是美国saas营销软件公司Demandforce北京研发中心DBA,那能否和我们分享下您职业路上的故事?
左兴宇(A3):技术人员很大部分的自豪感和荣誉感来自解决了错综复杂的问题带来的欣喜,也来自通宵数据割接半夜处理故障带来的苦闷,DBA的寂寞谁懂呢?说DBA是“高危“职业,这一点大家不会质疑吧?咱干这个在刀尖上跳舞的营生从来不缺故事,说一个紧急数据修复的故事吧。
记得事故发生时,DBA正在和另外一个项目组团建,从电话里对方慌张的语气里感受到这次事件非同寻常,二话不说放下碗筷赶紧跑路,回来发现确实摊上大事了。件事是终止数据继续错乱,已经有开发和运营在做了,第二件事就是尽快修复数据。数据恢复2个要素1)恢复效率 2)数据准确性都要保证,同时还不得影响线上业务正常运行。了解清楚情况后立即着手做数据修复,40几个数据集群,每个集群数据量都在1TB以上,单个备份文件在100G左右,不能用平时恢复数据那样搞了,几个措施1)把DBA分组,每个人负责10个集群 2)把全部备用机器拿出来,提供大的IO写入能力 3)把备份文件切割,做库级别的并发还原4)用DBA时间换用户时间,DBA两班倒24小时在线。通过这几个手段数据一个晚上全部恢复到前一个版本,经过3天错乱数据全部修复。回想起兄弟们熬夜通红的双眼总会莫名的心酸。
当然DBA的生活不总是苦的累的,通过努力把业务可用性从4个9做到5个9,单用户成本降低420%,日常工作繁忙度从90%降低到50%等等,这些改变带来的欢乐也是刻骨铭心的。有甜有苦,有笑有泪,这才是真实的生活吧。
duke217(Q4):近几年来,魅族可谓发展迅速,面对倍增的超大数据量的日常运维,您又遇到过哪些棘手的问题呢?
左兴宇(A4):魅族的发展也是逐年递进,每个阶段有每个阶段面临的问题,从前往后看:
1、标准化程度太低造成的混沌状态,硬件层,OS层,实例层,库结构等方面没有规范可循。导致的直接问题就是DBA需要付出很大的人力去应付每个项目的差异,人累,且不可持续发展,初级阶段似乎都是这么走过来的。我的一个感受就是,即使是在这个阶段,也一定要分出部分人力来做标准化,因为这个事是“重要不紧急”的,这部分工作在未来能够得到很好的回报。标准化解决的是质量问题。
2、标准化落地这个过程持续了很长时间,直到现在还一直在进化。当标准化走到一定程度时,才可以着手自动化。没有标准化为前提来做自动化,路上会很艰辛。手工操作尽可能的变成自动化工具,工具整合变成平台,DBA变成审核部门和“点鼠标”工程师,把精力从重复单调的日常任务里解放出来,做更有价值的事情。自动化解决的是效率问题。
3、有人说DBA是坐在格子间的”拆迁队“,由于前期资源规划不合理,业务成长迅速远超预期,业务规则改变等等原因,数据到一定规模后的不可避免的会出现分分合合,大的拆小,小的合并,资源不合理的迁移,拆拆迁迁的事不可避免。到这个阶段,怎么样做容量规划,怎么样快速拆迁/减少拆迁,这个需求就变得很迫切。摊子大了就一定要有规划,有数据做支撑的规划设计会减少很多未来会出现的拆迁。我们也在做魅族的数据库中间件,今年中间件出来后我们的拆迁/扩容缩容就简单多了。
4、当业务质量和工作效率达标后,成本一定会被老板提出来。DBA是个业务支撑部门,不直接产生利润,但我们通过提高资源利用率,通过容量系统,通过技术更新等手段,可以减少支出,这也是创收。我们现在正在做容量系统的建设,初略计算一下,这件事做完后可以节约30%以上的支出。得到同样的性能可以有不同的硬件搭配,如何让一台64G的R720跑1T热点数据?如何搭配才是性价比比较高的?如何界定容量上限?这些都是很有意义的工作。
duke217(Q5):我了解到,您多年来一直对数据存储技术有着浓厚的兴趣,那么目前这个领域的技术难点您认为是什么?未来又有何突破方向?
左兴宇(A5):在保证数据正确性的前提下怎么样做到更快的存进去,更快的取出来,这是数据库领域永恒的话题,从历史上的网状数据库,文档数据库,发展到成熟的关系数据库,以及各种NOSQL产品的出现,都是围绕存取这个基本点来发展的。NOSQL产品的蓬勃发展和SQL形成互补关系,NOSQL的服务保有量也逐年提升。软件产品是跑在硬件之上的,性能受限于硬件特性,关系数据库诞生到现在,数据库管理软件的发展一直围绕这IO这个硬件瓶颈做各种优化,以求达到更好的平衡。而NOSQL产品的出现,回避了磁盘IO这个瓶颈,用更快的设备达到更高的性能,比如redis就是一款数据全部跑在内存里的NOSQL产品。近年来出现的闪存技术打破了被硬件IO速度设定的天花板,磁盘能提供的IO能力已经远远高于业务需求,但价格相对机械磁盘也要贵不少。现在有几个问题需要解决。
1) 开发基于闪存硬件的数据库软件,来吃掉高达60W的IOPS,提供更强劲的性能。从近发布的MySQL5.7来看,厂家针对闪存硬件做了一些调整,但我觉得还不够,或许未来能出现一个基于闪存技术的全新的数据库软件。
2) 从成本来看,如何把SSD和HDD高低搭配,在性能提高的同时做到更好的性价比,BAT大厂已经有成熟的解决方案在使用,联想也有团队在干这件事,但对小厂来说还有技术门槛。
3) 存储容量越来越大,三星已经做到SSD单盘16TB,100WIOPS,国内的闪存厂家宝存/memblaze也做到了单卡6.4T,这么大容量的数据存储,一块卡损坏导致数据影响面放大了很多倍。这在数据库架构方面提出了更高的要求,如何做到业务硬件无关性,如何快速恢复这么大的数据,是我们需要面对的问题。
相关文章